Upload
ren-hao-pan-pan
View
1.319
Download
5
Embed Size (px)
Citation preview
Big Data的緣起
Social media and networks(all of us are generating data)
Scientific instruments(collecting all sorts of data)
Mobile or wearable devices(tracking all objects all the time)
Sensor technology and networks(measuring all kinds of data)
The progress and innovation is no longer hindered by the ability to collect data
But, by the ability to manage, analyze, summarize, visualize, and discover
knowledge from the collected data in a timely manner and in a scalable fashion
10From: web.cs.wpi.edu/~cs525/s13-MYE/lectures/1/intro.pptx
1-Scale (Volume) Data Volume
44x increase from 2009-2020
From 0.8 zetta bytes to 35zb
Data volume is increasing exponentially
12
Exponential increase in collected/generated data
Characteristics of Big Data
From: web.cs.wpi.edu/~cs525/s13-MYE/lectures/1/intro.pptx
1012 1015 1018 1021
2-Complexity (Variety)
Various formats, types, structures (or unstructured ones).
Text, numerical, images, audio, video, sequences, time series, social media data, multi-dimensional arrays, etc…
Static data vs. streaming data
A single application can be generating/collecting many types of data
13
To extract knowledge all these types of data need to be linked together
From: web.cs.wpi.edu/~cs525/s13-MYE/lectures/1/intro.pptx
3-Speed (Velocity)
Data is being generated fast and need to be processed fast
Online Real-time Data Analytics
Late decisions missing opportunities
Examples e-Promotions: Based on your current location, your purchase history, what
you like send promotions right now for store next to you
Healthcare monitoring: sensors monitoring your activities and body
any abnormal measurements require immediate reaction
14From: web.cs.wpi.edu/~cs525/s13-MYE/lectures/1/intro.pptx
Harnessing Big Data
OLTP: Online Transaction Processing (DBMSs)
OLAP: Online Analytical Processing (Data Warehousing)
RTAP: Real-Time Analytics Processing (Big Data Architecture & technology)
20
What’s driving Big Data
- Ad-hoc querying and reporting- Data mining techniques- Structured data, typical sources- Small to mid-size datasets
- Optimizations and predictive analytics- Complex statistical analysis- All types of data, and many sources- Very large datasets- More of a real-time
21
25
Case : Google成功預測H1N1在全美的傳播範圍
• 2009年在美國的H1N1爆發幾周前,Google成功預測了H1N1在全美的傳播範圍,具體到了州還有特定地區,判斷非常及時。
• CDC疾控中心通常只能在流感爆發一兩周之後才可以做到。• 真正第一次利用搜尋引擎大數據,對疾病控制的預測嘗試。
From: http://blog.sciencenet.cn/blog-291824-644684.html
大數據應用
方法: Google發現搜尋流感相關主題的使用者數量與實際出現流感症狀的人數有著密切關聯。
Google將查詢次數與傳統流感監控系統數據進行比較,發現某些搜尋關鍵字在流感季節特別熱門。
因此,只要統計使用者搜尋這些關鍵字的次數,便能預測全球各個國家及地區的流感疫情發展。
Google的研究結果也獲得《自然》期刊登載。
http://www.google.org/flutrends/intl/en_us/
百度疾病預測
百度自身資料(搜索、微博、貼吧)與中國疾控中心(CDC)流感監測資料結合建立預測模型。
對比CDC提供的流感陽性率(2014.5.25值),絕對誤差在1%以內城市占比62%,在5%以內的城市占比89%。
其他疾病依靠百度搜自身資料,用無監督學習模型來預測疾病熱搜動態的時空變化
http://trends.baidu.com/disease/
“Big data hubris,” or just nitpick !?
Lazer, David, Ryan Kennedy, Gary King, and Alessandro Vespignani. 2014. “The Parable Of Google Flu: Traps In Big Data Analysis.” Science 343 (14 March)
社群網路於醫療領域 加州大學洛杉磯分校(UCLA)以 Twitter 的訊息量、地點,來追蹤性病擴散率與毒品濫用的行為。
加州大學蒐集了 5 億 5000 萬條「推特文」,使用演算法篩檢出含有「性」(Sex)、「快感」(get high)的字眼,並記錄發布內容的地區,最後用統計模型觀測這些區域是否有 HIV 新病例通報。
結果發現兩者之間有很顯著的關係,當某地區的推文呈現很高的「性指數」,HIV 的新感染病例也高。
搜尋引擎與社群網路結合 將 Google 搜尋引擎與 Twitter 結合,還能精準看出一些社會風氣的變化。
兩位美國經濟學家結合兩者資訊,發現當《16歲懷孕》和《小媽咪》兩部美國影集播放時,青少年懷孕生子數比例大幅降低。
31
Intel正在與專注Parkinson疾病研究的Michael J.Fox基金合作,開展一項從患者的可穿戴設備收集的數據中,找到疾病模式的研究。全球共有500萬人被診斷出患有Parkinson綜合症,是第二大神經退化性疾病。
通過可穿戴設備,研究人員可以遠端監測病人,居住在偏遠地區的人也可以參與。這種設備有助於大範圍臨床試驗,現在很多Parkinson患者因為附近沒有合適的醫療機構,無法參與臨床試驗。相對於患者的主觀描述,可穿戴設備記錄的數據也更加客觀,例如病人可能會告訴醫生他顫抖了幾分鐘,但實際上可能只能幾秒鐘。
Intel--用大數據解決Parkinson
http://www.36dsj.com/archives/11605
科技隨身用品興起 高齡化社會,醫療進步,帶動對健康、以及最精密複雜的人體的重視。
德國健康生活用品品牌 beurer 推出結合心律偵測的手錶,打破得知身體狀況需到特定地點以及配戴繁複儀器的觀念,並結合日常隨身用品,讓科技、健康與生活結合。
33
FlatironHealth這家醫療保健技術公司位於紐約,成立才剛兩年。剛拿到Google創投(Google Ventures)的資金投資。
全美癌症患者共有1300多萬人,研究人員和醫生卻只能針對其中一部分人開展研究。在美國,絕大多數癌症治療經驗都來自於臨床試驗,高達96%的病人不參加這類試驗。另外96%的病人資訊沉澱在電子病歷(EMR)系統和醫生筆記裡。目標就是收集這96%的病人的數據,重新整理,讓它們可以為醫生、病人和其他利益相關者所用。
美國醫療保健技術公司FlatironHealth--用大數據戰勝癌症
http://www.36dsj.com/archives/9319
Forrester Research資深分析師斯基普•斯諾說:“Google想要的是長生不老。他們深信自己介入醫療保健領域就是為了追求長壽——怎麼幫助人們活得更長久、更健康?”
34From:http://tieba.baidu.com/p/2900201015
Microsoft大數據成功預測奧斯卡--24中21
Microsoft紐約研究院經濟學家David
Rothschild通過大數據分析,成功預測了2014年奧斯卡24項獎項中的21項。
2013年David Rothschild預測奧斯卡的獲獎名單,24中19。
主要依據:票房收入、電影評選等這類非統計數據。使用Predict Market網站上的資訊。 User-Generated Data:網友在各個社群媒體上深入探討入圍電影的內容。
http://www.360doc.com/content/13/0227/22/184879_268325152.shtml
Fashion trends among consumers often change in the blink of an eye
Philosophy of Zara
The apparel industry stresses about the need to react rather
than predict.
Developed a business model where speed and decentralized
decision-making was essential.
Zara’s Fast Fashion
Understanding the items that its customers actually want.
Strategies of Zara Vertical Integration
Small Batch Production
Collecting Vital Information for Decision Making
Selling well objects : Type of fabric, cut, and colors
Quick response to Demand (Pull System/Message Sharing)
Analyze “Regional Pop”
Make the market segmentation closest to the customer needs.
High Product Turnover
Strong IT System
Real-time Knowledge(Dataflow) in the entire distribution-to-sale process
Product• Quick Change
Artist
Production• Supply Chain
Management
Logistic
• Inventory Workflow Innovation
Selling
• Real-time Customer Service
• Online Shop
Inventory Workflow Innovation
High-velocity shipping: Rapid Information flows
Stores: Electronically connected to headquarters
Logistics system: Speed and flexibility
Products: Selected
Sorted
Routed
Delivered
Local distribution center
Retail store stockrooms
Zara Online Shop Collect feedback to manufacturing
Find out the target market exactly
Held consumer opinion survey,
capture customer feedback to
improve the actual shipping
products
vs. Big Data
Information Integration, Focus on customer requirement, Decentralized decision-making
In-store Online Shop
Customer Behavior
PoS
Click Tracking
Online Fourm
Consumer survey
DATA
Daily Report
High-velocity shipping
Prototype Survey
Real-Time DataFashion Analysismarket segmentationQuick Change Artist
Agile Management
Analytical Culture in Zara
Online Retail Websites KPIs Company Marketing KPIs
Purchase conversion
Average Order Size
Items per Order
Purchase dropouts rate
Effect on offline sales
Returned items rate
Response rate by segment
Response rate by the marketing media
Response rate by marketing message
Cost per marketing campaign/cost per sale
Revenue per marketing campaign/revenue per sale
Company Strategic KPIs
Ratio of winning designs
Ratio of cross-brand conversions (in INDITEX retail group)
馬雲的判斷來自於數據分析
“2008年初,阿裡巴巴平臺上整個買家詢盤數急劇下
滑,歐美對中國採購在下滑。海關是賣了貨,出去以後再獲得數據;而我們提前半年時間從詢盤上推斷出世界貿易發生變化了。”
馬雲對未來的預測,是建立在對用戶行為分析的基礎上。
Case :馬雲成功預測2008年經濟危機
http://tech.sina.com.cn/i/2008-12-08/01422631744.shtml http://www.taoguba.com.cn/Article/797119/1
淘寶指數是一款中國消費者數據研究平臺。淘寶指數來瞭解淘寶搜索熱點,查詢成交走勢,定位消費人群,研究細分市場。
http://shu.taobao.com/52
53
2013年12月份申請名為“預測性物流”的專利根據大數據預判使用者的購買行為提前將這些商品運出倉庫,放到托運中心寄存等使用者真的下單了,立馬裝車往用戶家裡送目標只有一個:大幅縮減商品到達時間
From:http://www.tnc.com.cn/info/c-013005-d-3426672-p1.htmlhttp://www.ebrun.com/20140118/90140.shtml
如果預測錯了怎麼辦呢?Amazon會考慮給用戶較低的折扣,
類似促銷了;或者索性送人情,免費送給你當禮品。
這項專利尚未實際使用
AmazonCEO貝索斯
參考: 之前的訂單 商品搜索記錄 願望清單 購物車(Shopping Cart) 使用者的滑鼠在某件商品上懸停的時間。
Amazon大數據的威力--還沒下單貨已上路
54From:http://www.chinabidding.com/zxzx-detail-222667502.html
丹麥的維斯塔斯風力技術集團,通過在世界上最大的超級電腦上部署IBM大數據解決方案,提高風電發電效率。以前需要數周時間完成的分析工作現在只需不到1小時即可完成。
IBM在風電場的運維管理領域: 風電功率預測 風電場微觀選址 預防性維護 績效評估 風電場進行全生命週期的管理和優化。
IBM---大數據分析助力風電運維
數據: PB量級氣象報告 潮汐相位 地理空間 衛星圖像等
結構化及非結構化的海量數據,從而優化風力渦輪機佈局,提高風電發電效率。
55http://www.itongji.cn/article/02251H22013.html
Boston, LA 城市用大數據幫助警方打擊犯罪
University of Michigan發佈了一份報告,詳盡闡述了一種用“超級電腦以及大量數據”來幫助警方定位那些最易受到不法份子侵擾區的方法。 研究者們採用了極大數量的數據,目的是創建一張波士頓犯罪高發地區熱點圖。 隨著將越來越多的數據加入到研究中來,研究者們認為他們能在額外變數是如何影響犯罪率這一問題上得到更準確的結論。
數據來源: 人口統計數據 毒品犯罪數據 各區域出售酒的種類 相鄰片區的各種因素 ……
法律授權問題 警方依犯罪偵防需求調閱個人資料
「內政部警政署國民身分證相片影像資料使用管理要點」依法可調閱身分證照片,但護照照片則未有法律授權
警方操作人臉辨識系統前須拍攝民眾肖像 警方依警察職權行使法蒐證攝影,僅限集會遊行或其他公共活動參與足認對公共安全或秩序有危害之虞時,未有於民事或其他刑事範圍讓警方對特定個人拍攝肖像之法律授權
政府大放2300萬全民身分證、護照照片資料庫供警方依業務需求自由連線查詢 依大法官603號捺指紋領身分證釋憲文意旨,政府蒐集2300萬全民身分證、護照照片資料庫供警方連線作犯罪偵防應有專法授權,僅依個資法第5條, 15條資料利用之正當合理關聯條文,違反比例原則
60
GE計畫在“工業互联網”項目上投入大量資金。 GE的飛机引擎中的傳感器都是被動模式——直到出现故障才會在儀表盤上亮红灯。這類傳感器有很多,例如测量温度、压力和电压,这些傳感数据過去很少被保留和研究。在大多数飛行中,引擎只會保留三個平均值,分别是起飛、巡航和降落数据。 根据Varma的介绍,GE的下一代GEnX引擎中(装備波音787飛机)将會保留每次飛行的所有基處数據 (約1 tera),甚至會從飛機即時傳输回GE分析。 在GE的美西軟件研發中心,主要任務就是Industrial Internet的相關軟硬體。
Case : GE—傳感器+大数據,打造Industrial Internet
http://www.ctocio.com/ccnews/9954.html
61
Case : Big Data in Education
http://www-01.ibm.com/software/analytics/education/resources.html
MOOCs Huge potential from Big Data perspective. Learning portfolio for everyone?因材施教(Self-directed and adaptive learning.人力資源(HR development).
IBM Collects academic, disciplinary and attendance data from school districts. Analyzes over150 key metrics, and presents information in reports and dashboards. Develops early warning to alert teachers and counselors to at-risk students before they drop out. Upt0 25% reduction in dropout rate.
Problem: In U.S. high schools, dropout rate is over 30% .In Mobile County of Alabama, that stood at 48%, translating into roughly 2,500 youths.How to reduce the annual dropout rate?
63
以Baidu为例:搜索过去5年内全世界987支球
队的3.7万场比赛数据,共涉及到19972名球员和1.12亿条相关数据。
From:http://www.huxiu.com/article/37708/1.html
案例18:2014世界盃,德國足總+SAP合作開發Match Insights
針對2014世界盃的16場淘汰賽的預測, Google、Microsoft、Baidu成功預測世界盃16強。
德國足總+SAP合作開發Match Insights系統,利用場邊攝影機蒐集資料,還有秘密武器HANA進行大數據即時分析,讓教練掌握雙方球員狀況,擬定賽前訓練與臨場比賽的戰略。
http://it.people.com.cn/BIG5/n/2014/0709/c1009-25257386.html
65http://www.bigdatalandscape.com/
Big Data Challenges1. Meeting the need for speed
In today’s hypercompetitive business environment,
companies not only have to find and analyze the relevant
data they need, they must find it quickly. The sheer
volumes of data and accessing the level of detail needed,
all at a high speed.
2. Understanding the data
It takes a lot of understanding to get data in the right shape.
Big Data Challenges (cont.)
3. Addressing data quality
The value of data for decision-making purposes will be jeopardized if the data is not accurate or timely.
4. Displaying meaningful results
Represent analysis result becomes difficult when dealing with extremely large amounts of information or a variety of categories of information.
5. Dealing with outliers
Outliers may not be representative of the data, they may also reveal previously unseen and potentially valuable insights.
The Future of Big Data
Stop talking about how the quality of data matters less, We are only starting to get to a point where we are truly able to focus on the quality of big data.
Big data must be effectively stored, transferred, transformed and analyzed without threatening the original data.
Bigger, Better, Faster, Stronger