www涩-www黄网站-www黄色-www黄色com-国产免费拍拍视频在线观看网站-国产免费怕怕免费视频观看

深度:英特爾中國研究院吳甘沙談大數(shù)據(jù)

2014-10-08 13:24:38 大云網  點擊量: 評論 (0)
大家晚上好,我是吳甘沙,來自英特爾中國研究院。其實今年在大數(shù)據(jù)的技術研發(fā)上花的時間不多,華平硬要我來分享一下,所以認識上有過時或不確切之處,還請原諒。因為工作繁忙,就偷了個懶,我今天分享的內容主要
大家晚上好,我是吳甘沙,來自英特爾中國研究院。其實今年在大數(shù)據(jù)的技術研發(fā)上花的時間不多,華平硬要我來分享一下,所以認識上有過時或不確切之處,還請原諒。因為工作繁忙,就偷了個懶,我今天分享的內容主要是我昨天在大數(shù)據(jù)國際峰會上的講話(基本上是從速記中拷過來的),關于大數(shù)據(jù)的開放式創(chuàng)新,其它大家感興趣的內容可以在交互中討論。

深度:英特爾中國研究院吳甘沙談大數(shù)據(jù)
▲吳甘沙

  我做了4-5年的移動架構和Java虛擬機,4-5年的眾核架構和并行編程系統(tǒng),最近4-5年在追時髦,先是搞物聯(lián)網,最近幾年一直在做大數(shù)據(jù)。我們大數(shù)據(jù)的研究軌跡如下圖所示:前面2-3年主要是關注數(shù)據(jù)和機器的關系,水平擴展、容錯、一致性、軟硬件協(xié)同設計,還有就是厘清各種計算模式,從批處理(MapReduce)到流處理、Big SQL/ad hoc query、圖計算和機器學習。事實上我的團隊只是英特爾大數(shù)據(jù)研發(fā)力量的一部分,上海的團隊是英特爾Hadoop發(fā)行版的主力軍,因為英特爾成了Cloudera的最大股東,自己不做發(fā)行版了,但是平臺優(yōu)化、開源支持和垂直領域的解決方案仍然是英特爾大數(shù)據(jù)研發(fā)的重心。

  2013年開始看數(shù)據(jù)與人的關系,對于數(shù)據(jù)科學家怎么做好分布式機器學習、特征工程與非監(jiān)督學習,對于領域專家來說怎么做好交互式分析工具,對于終端用戶怎么做好交互式可視化工具。英特爾研究院在美國CMU支持的科研中心做了GraphLab、Stale Synchronous Parallelism,在MIT的科研中心做了交互式可視化(真正做這個工作的教授在UW)和SciDB上的大數(shù)據(jù)分析,我們中國周邊主要做了Spark SQL和MLlib(機器學習庫)?,F(xiàn)在也有涉及深度學習算法和基礎設施。

  2014年開始看數(shù)據(jù)和數(shù)據(jù)的關系。

深度:英特爾中國研究院吳甘沙談大數(shù)據(jù)

  為什么要琢磨數(shù)據(jù)和數(shù)據(jù)的關系呢?我們原來的工作重心是開源,后來發(fā)現(xiàn)開源只是開放式創(chuàng)新的一個部分,做大數(shù)據(jù)的開放式創(chuàng)新還要做數(shù)據(jù)的開放,大數(shù)據(jù)基礎設施的開放,以及價值提取能力的開放。

  這是一張非常有意思的圖,黃色部分是化石級的、還沒有聯(lián)網、或者沒有數(shù)字化的數(shù)據(jù),而絕大多數(shù)的數(shù)據(jù)是在這么一個海里面。只有海平面的這些數(shù)據(jù)(有的把它稱為Surface Web),才是真正大家能訪問到的數(shù)據(jù),爬蟲能爬到、搜索引擎能檢索的數(shù)據(jù),而絕大多數(shù)的數(shù)據(jù)是在暗黑之海里面(相應地叫做Dark Web,據(jù)說占數(shù)據(jù)總量的85%以上),在一些孤島里面,在一些企業(yè)、政府里面躺在地板上睡大覺。

深度:英特爾中國研究院吳甘沙談大數(shù)據(jù)

  數(shù)據(jù)之于數(shù)據(jù)社會,就如同水之于城市或者血液之于身體。城市因為河流而誕生,也受其滋養(yǎng),血液一旦流動停滯了,身體就有危險。所以,對于號稱數(shù)據(jù)化生存的社會來說,我們一定要讓數(shù)據(jù)流動起來,不然這個社會將會失去很多功能。

  所以,我們希望數(shù)據(jù)能夠像“金風玉露一相逢,便產生化學作用”。馬化騰先生提出了一個internet+,internet可以幫助各行各業(yè),我們也杜撰了一個大數(shù)據(jù)X,大數(shù)據(jù)乘以各行各業(yè)。如下圖所示,乘法效應之外,數(shù)據(jù)有個非常奇妙的效應叫做外部效應(externality),比如這個數(shù)據(jù)對我沒用但對TA很有用,所謂我之毒藥彼之蜜糖。張家的數(shù)據(jù)和趙家的數(shù)據(jù)各自都沒啥活性,一碰到一起就發(fā)生化學作用。

  在這張膠片上列出了一些數(shù)據(jù)跨行業(yè)融合的案例。比如說:

  金融數(shù)據(jù)跟電商數(shù)據(jù)碰撞在一起,就產生了像小微貸款那樣的互聯(lián)網金融;

  電信數(shù)據(jù)跟政府數(shù)據(jù)碰在一起,可以產生人口統(tǒng)計學方面的價值,幫助城市規(guī)劃人們居住、工作、娛樂的場所;

  金融數(shù)據(jù)跟醫(yī)學數(shù)據(jù)碰在一起,麥肯錫列舉了很多應用,比如說可以發(fā)現(xiàn)騙保;

  物流數(shù)據(jù)和電商數(shù)據(jù)湊一塊,可以了解各個經濟子領域的運行情況;

  物流數(shù)據(jù)跟金融數(shù)據(jù)放在一起,就產生了供應鏈金融;

  金融數(shù)據(jù)跟農業(yè)數(shù)據(jù)也能夠發(fā)生一些化學作用,Google analytics出來的幾個人,利用美國開放氣象數(shù)據(jù),能夠在每一塊農田上面建立微氣象模型,預測災害,幫助農民保險和理賠。

深度:英特爾中國研究院吳甘沙談大數(shù)據(jù)

  所以,要走數(shù)據(jù)開放之路,讓不同領域的數(shù)據(jù)真正流動起來、融合起來,才能釋放大數(shù)據(jù)的價值。

  先來看狹義的數(shù)據(jù)開放(下一張slide)。數(shù)據(jù)開放的主體首先是政府和科研機構,把非涉密的政府數(shù)據(jù),以及國家拿納稅人的錢做的一些科研數(shù)據(jù)開放出來?,F(xiàn)在也有一些企業(yè)愿意開放數(shù)據(jù),像Netflix、一些電信運營商,來幫助他們的數(shù)據(jù)價值化,建構生態(tài)系統(tǒng)。

  數(shù)據(jù)開放不等于信息公開。首先,數(shù)據(jù)不等于信息,信息是從數(shù)據(jù)里面提煉出來的東西。我們希望,首先要開放原始的數(shù)據(jù)(raw data)。其次,它是一種主動和免費的開放,我們現(xiàn)在經常聽說要申請信息公開,那是被動的開放。

  Tim Berners Lee提出了數(shù)據(jù)開放的五星標準,以保證數(shù)據(jù)質量:一星是開放授權的格式,比如說PDF;其次是結構化,把數(shù)據(jù)從文件變成了像excel這樣的表;三星是開放格式,如CSV;四星是能夠通過URI找到每一個數(shù)據(jù)項;五星,能夠跟其它數(shù)據(jù)鏈接,形成一個開放的數(shù)據(jù)圖譜。

深度:英特爾中國研究院吳甘沙談大數(shù)據(jù)

  下面這張slide講數(shù)據(jù)開放的形態(tài)?,F(xiàn)在主流的數(shù)據(jù)開放門戶,像data.dov或data.gov.uk,都基于開源軟件。Data.gov用WordPress做數(shù)據(jù)內容呈現(xiàn),用CKAN做數(shù)據(jù)目錄,甚至data.gov自身也在github開源了。

  英特爾在MIT的大數(shù)據(jù)科研中心也做了一種形態(tài),叫Datahub,你看它的吉祥物很有趣,一半是大象,代表數(shù)據(jù)庫技術,一般是章魚,取自github的吉祥物章魚貓。它提供更多的功能,如:

  1.   易管理性,可以容易地檢索、合并和清洗數(shù)據(jù);

  2.   像數(shù)據(jù)庫那樣的結構化數(shù)據(jù)服務;

  3.   安全方面,提供訪問控制,對數(shù)據(jù)共享進行管理;

  4.   最后,它可以在原地(in-situ)做可視化和分析,現(xiàn)在一般要把數(shù)據(jù)從開放門戶下載下來,然后在另外一個系統(tǒng)里做可視化和分析,這個能在原地做。

  5. 深度:英特爾中國研究院吳甘沙談大數(shù)據(jù)

  數(shù)據(jù)開放當中會碰到很多問題(下圖),首先是數(shù)據(jù)權屬的問題,這個數(shù)據(jù)屬于誰?屬于采集人,還是屬于生產人,還是屬于被觀察的客體?如果發(fā)生一些特別情況的話,它的擁有權是不是會出現(xiàn)一些分割或者轉移?比如說離婚了,比如說人死了,這樣數(shù)據(jù)資產怎么轉移?

  另外就是敏感數(shù)據(jù)的界定,數(shù)據(jù)里面有很多敏感的部分,比如說歐洲GPS位置信息的數(shù)據(jù)是屬于敏感數(shù)據(jù),在日本又不屬于敏感數(shù)據(jù)。所以,這需要一個法律的界定。

  針對這些敏感數(shù)據(jù)要做數(shù)據(jù)的脫敏,脫敏最初級的一種做法就是去標識化,但是去標識化一定要去的徹底。美國做過一個研究,如果把名字、地址什么都拿掉,但你只要剩下三個信息:郵政編碼、性別、生日,只要根據(jù)這三個信息,你還是有60-90%的可能性,把人還原出來。

  當然,你即使是去標識去的很徹底,你還是要防止重新標識化(re-identification),比如你可以通過多數(shù)據(jù)源來重新進行標識。美國在線曾經開放了匿名的搜索信息,但是有人把這個信息跟美國的選舉人登記信息一匹配,就把人找出來了。Netflix也是一樣,他開放了匿名的評論以及打分的信息,但是有人把它跟國際電影數(shù)據(jù)庫IMDB匹配,結果把一個有同性戀傾向的人識別了出來,被告了。另外一種重新標識的可能性是基于統(tǒng)計,比如根據(jù)兩個打分再加上一定的時間范圍,還是有接近70%的可能性能夠把這個人找出來。

  防止隱私攻擊的匿名化技術,比較典型的如k-anonymity和L-diversity等等,但還是有隱私攻擊的可能,特別在敏感屬性不夠多樣化,或攻擊者具有背景知識時。最好的一種技術叫差分隱私(differential privacy),把噪聲加入到數(shù)據(jù)集中、但仍保持它的一些統(tǒng)計屬性,英特爾支持普林斯頓大學做了這樣的研究,現(xiàn)在試圖在運營商開放數(shù)據(jù)中應用。

深度:英特爾中國研究院吳甘沙談大數(shù)據(jù)

  以上是狹義的數(shù)據(jù)開放,廣義的數(shù)據(jù)開放還有數(shù)據(jù)的共享及交易(下圖),比如點對點進行數(shù)據(jù)共享或在多邊平臺上做數(shù)據(jù)交易。

  馬克思說生產資料所有制是經濟的基礎,但是現(xiàn)在大家可以發(fā)現(xiàn),生產資料的租賃制變成了一種主流(參考《Lean Startup》),在數(shù)據(jù)的場景下,我不一定擁有數(shù)據(jù),甚至不用整個數(shù)據(jù)集,但可以租賃。租賃的過程中要保證數(shù)據(jù)的權利。

  首先,我可以做到數(shù)據(jù)給你用,但不可以給你看見。姚期智老先生82年提了個“millionaires’ dilemma”問題,兩個百萬富翁比富,但誰都不愿意說出自己有多少錢。這就是典型的“可用但不可見”場景。在實際生活中的例子很多,我一直用的一個例子是:美國國土安全部有恐怖分子名單(數(shù)據(jù)1),航空公司有乘客飛行記錄(數(shù)據(jù)2),國土安全部去問航空公司要乘客飛行記錄,航空公司不給,因為隱私,他反過來問國土安全部要恐怖分子名單,也不行,因為是國家機密。雙方都有發(fā)現(xiàn)恐怖分子的意愿,但都不一樣給出數(shù)據(jù),有沒有辦法讓數(shù)據(jù)1和數(shù)據(jù)2放一起掃一下,但又保障數(shù)據(jù)安全呢?

  其次,在數(shù)據(jù)使用過程中要有審計。萬一那個掃描程序偷偷把數(shù)據(jù)藏起來送回去怎么辦?

  再者,需要數(shù)據(jù)定價機制,雙方數(shù)據(jù)的價值一定不對等,產生的洞察對各方的用途也不一樣,因此要有個定價機制,比大鍋飯式的數(shù)據(jù)共享更有激勵性。

  從點對點的共享,最后要走到多邊的數(shù)據(jù)交易,從一對多的數(shù)據(jù)服務到多對多的數(shù)據(jù)市場,再到數(shù)據(jù)交易所,如果說現(xiàn)在的數(shù)據(jù)市場更多是對數(shù)據(jù)集進行買賣的話,而這個數(shù)據(jù)交易所是一個基于市場進行價值發(fā)現(xiàn)和定價的,像股票交易所那樣的、小批量、高頻率的數(shù)據(jù)交易。

深度:英特爾中國研究院吳甘沙談大數(shù)據(jù)

  我們支持了不少研究來實現(xiàn)剛才說的這些功能,比如說可用而不可見。案例一是通過加密數(shù)據(jù)庫CryptDB/Monomi(下圖),這也是我們支持麻省理工學院做的一個技術。在數(shù)據(jù)擁有方甲方這邊的數(shù)據(jù)庫是完全加密的,這事實上也防止了現(xiàn)在出現(xiàn)的很多數(shù)據(jù)泄露問題,大家已經聽到,比如說某互聯(lián)網服務提供商的員工偷偷把數(shù)據(jù)拿出來賣,你的數(shù)據(jù)一旦加密了他拿出來也沒用。其次,這個加密數(shù)據(jù)庫可以運行乙方的普通SQL程序。因為它采用了同態(tài)加密技術和洋蔥加密法,SQL的一些語義在密文上也可以執(zhí)行。

深度:英特爾中國研究院吳甘沙談大數(shù)據(jù)

  針對類似百萬富翁窘境,我們針對此做了另一種可用但不可見的技術,叫做數(shù)據(jù)咖啡館(下圖)。大家知道咖啡館是讓人和人進行思想碰撞的地方(順便推薦Steven Johnson的TED演講, where good ideas come from),我們這個數(shù)據(jù)咖啡館就是讓數(shù)據(jù)和數(shù)據(jù)能夠碰撞,產生新的價值。

  比如兩個電商一個是賣衣服的一個是賣化妝品的,他們對于客戶的洞察都是相對有限的,如果說兩邊的數(shù)據(jù)放在一起做一次分析,那么就能夠獲得全面的用戶畫像。再如,癌癥研究,癌癥是一類長尾病癥,有太多的基因突變,每一個研究機構的基因組樣本都相對有限,這在某種程度上解釋了為什么過去50年癌癥的治愈率僅僅提升了8%。那么,多個研究機構的數(shù)據(jù)在咖啡館碰一碰,也能夠加速癌癥的研究。

  在咖啡館的底層是一個多方安全計算的技術,基于英特爾跟伯克利的一個聯(lián)合研究。在上面是安全、可信的Spark,基于“data lineage”的使用審計,還有就是根據(jù)各方數(shù)據(jù)對結果的貢獻進行定價。有可能一家電商是新的,他還沒有太多的數(shù)據(jù),這就碰到一個機器學習冷啟動的問題,那么我可以運用另外一家電商數(shù)據(jù),做所謂的transfer learning,幫助他解決這個冷啟動的問題。很顯然,另外那家電商的數(shù)據(jù)價值就應該更高。

深度:英特爾中國研究院吳甘沙談大數(shù)據(jù)

  把數(shù)據(jù)定價拔高一點。我們數(shù)據(jù)社會的經濟基礎是什么?一定要有一些基本規(guī)律。大家知道,互聯(lián)網經濟有個基本規(guī)律叫Metcalf定律,應該是Gilder提出的,為致敬以太網發(fā)明人Metcalf而命名。它是說一個網絡的價值是跟你的節(jié)點數(shù)平方成正比它的另一種表述是網絡效應或網絡外部性:隨著網絡使用者的不斷增多,每一個使用者從中獲得的價值不斷增加,但使用費用則不斷下降。這奠定了互聯(lián)網的需求方規(guī)模經濟的商業(yè)模式,后面的所謂“邊際成本趨向于零”、“邊際效益遞增”、“正向反饋”、“馬太效應”和“贏家通吃”等皆由此衍生而出。而如今互聯(lián)網公司的通用估值方法,股票價值折現(xiàn)分析法或DEVA估值法,也是90年代一些分析師基于此提出的:一個網絡公司的價值是跟他的用戶數(shù)平方成正比的。這種巴菲特不能理解、但又符合規(guī)律的估值方法幫助年年虧損的互聯(lián)網公司融到了大筆資金,也解釋了Facebook上市前能夠估值千億美元,不是因為它的營業(yè)額(40多億)或利潤(不到10億),而是因為它的8億用戶量。Google有個首席經濟學家Hal Varian,這哥們在90年代末寫了一本書,名字大致是信息時代的規(guī)則,當時賣得比KK的《新經濟、新規(guī)則》好很多(現(xiàn)在KK的這本書賣得很好了,不同時代的口味是不一樣)。Varian的團隊專門研究互聯(lián)網和經濟的交叉學科。

  那么,大數(shù)據(jù)時代的Metcalf定律是什么呢?

  我們也不知道,一來從實踐中摸索,二來有意識地跟經濟界做思想碰撞。

深度:英特爾中國研究院吳甘沙談大數(shù)據(jù)

  比如(下圖),數(shù)據(jù)在公開市場交易的時候,該怎么定價?是根據(jù)市場價值發(fā)現(xiàn)機制來定價?還是根據(jù)數(shù)據(jù)的種類來定價?還是根據(jù)數(shù)據(jù)訪問API的調用次數(shù)來定價?

  在點對點的時候,各方的數(shù)據(jù)對于智慧產生的貢獻不一樣,也需要定價。

  現(xiàn)在企業(yè)的資產中有一部分無形資產是數(shù)據(jù)資產。那么,這怎么來提升我們企業(yè)的估值?這部分數(shù)據(jù)資產價值幾何?現(xiàn)在也有一些很好的研究,比如consumption based model。

  個人數(shù)據(jù)也需要定價,大家知道現(xiàn)在個人數(shù)據(jù)幾乎是免費的,我們?yōu)榱双@得互聯(lián)網服務提供商的免費服務,把數(shù)據(jù)免費給了服務提供商。但是,現(xiàn)在國外對于小數(shù)據(jù)、對于個人數(shù)據(jù)有價,已經開始覺醒了。有一個初創(chuàng)公司愿意給消費者一部分錢,你把你的Facebook數(shù)據(jù)、推特數(shù)據(jù)、銀行交易數(shù)據(jù)給這家公司,他來價值化(比如找廣告商)。現(xiàn)在的定價很簡單,女性一個月14美金(女性的消費能力強啊),男性一個月8美金,未來該怎么定價也是個很有意思的話題。

  在共享交易當中也注意偽造的數(shù)據(jù)或劣質的數(shù)據(jù),有人在共享的時候把一些假的數(shù)據(jù)、雜質數(shù)據(jù)放進去怎么辦?這也是很有意思的問題,而且很現(xiàn)實。Snowdon的文件解釋英國情報機構GCHQ就很善于在網絡數(shù)據(jù)中摻假,改變網絡民意或熱點,創(chuàng)造虛假流量。

深度:英特爾中國研究院吳甘沙談大數(shù)據(jù)

  前面說的是數(shù)據(jù)的開放,下面很快說一下另外兩種開放。

  一是大數(shù)據(jù)基礎設施的開放(下圖),現(xiàn)在有的是有大數(shù)據(jù)思維的人,但他們很捉急,玩不起、玩不會大數(shù)據(jù),他不懂怎么去存儲、怎么處理這些大數(shù)據(jù),這就需要云計算如果說數(shù)據(jù)開放是Data as a Service,基礎設施的開放還是傳統(tǒng)的Platform as a Service,比如Amazon AWS里有MapReduce,Google有Big Query。這些大數(shù)據(jù)的基礎處理和分析平臺可以來降低數(shù)據(jù)思維者的門檻,來釋放他們的創(chuàng)造力。

  比如decide.com,每天爬幾十萬的數(shù)據(jù),對價格信息(結構化的和非結構化的)進行分析,然后告訴你買什么牌子、什么時候買最好。只有四個PhD搞算法,其他的靠AWS。

  另一家公司Prismatic,也利用了AWS,這是一家做個性化閱讀推薦的,我專門研究過它的計算圖、存儲和高性能庫,用LISP的一個變種Clojure寫的,非常漂亮,真正做技術的只有三個學生。

  所以當這些基礎設施社會化以后,大數(shù)據(jù)思維者的春天很快就要到來。

深度:英特爾中國研究院吳甘沙談大數(shù)據(jù)

  最后一種開放是價值提取能力的開放(下圖)?,F(xiàn)在的模式一般是一大一小或一對多。比如Tesco和Dunnhumby,后者剛開始是很小的公司,傍上了Tesco,給它做客戶忠誠度計劃,一做就做了幾十年,這樣的長期的戰(zhàn)略合作優(yōu)于短期的數(shù)據(jù)分析服務,決策更注重長期性。當然,Dunnhumby現(xiàn)在已經不是小公司了,Tesco控股,也為其他大公司提供數(shù)據(jù)分析服務。沃爾瑪跟另外一家小公司合作做數(shù)據(jù)分析,最后他把這家小公司買下來了,成了它的Walmart Labs。

  一對多的模式,典型的是Palantir,Peter Thiel和斯坦福的幾個教授搞的公司,目前還是私有的,但估值近百億了,它很擅長給各類政府和金融機構提供數(shù)據(jù)價值提取服務。

  真正把這種能力開放的是Kaggle,它的雙邊,一邊是10萬多的分析師,另一邊是需求方企業(yè),企業(yè)在Kaggle上發(fā)標,分析師競標,獲得業(yè)務。這可能是真正解決長尾公司價值提取能力的辦法。這個如果跟我們的數(shù)據(jù)咖啡館結合,那就更好了。

深度:英特爾中國研究院吳甘沙談大數(shù)據(jù)

  好,今天就講到這,謝謝大家!

大云網官方微信售電那點事兒

責任編輯:葉雨田

免責聲明:本文僅代表作者個人觀點,與本站無關。其原創(chuàng)性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。
我要收藏
個贊
?
主站蜘蛛池模板: 性做久久久久免费观看 | 亚洲精品一区二区久久 | 美女视频永久黄网站在线观看 | 欧美一级毛片欧美一级无片 | 亚洲精品成人av在线 | 国产欧美17694免费观看视频 | 男操女视频 | 欧美成人性生活视频 | 蜜桃88av | 久久国产毛片 | 免费a级片网站 | 九九久久久久午夜精选 | 欧美高清强视频 | 久久精品国产一区二区 | 成人在线视频国产 | 久久精品香蕉 | 香港经典毛片a免费观看 | 狠狠综合久久久久综合小说网 | 国产黄色三级三级三级 | 一级做a爰片性色毛片视频图片 | 欧美亚洲日本一区二区三区浪人 | 国产精品美女视视频专区 | 亚洲综合第一欧美日韩中文 | 亚洲天堂在线视频观看 | 国产一二三区视频 | 亚洲视频在线观 | 手机在线成人精品视频网 | 成人的天堂 | 午夜性激福利免费观看 | 最新国产三级久久 | 男女毛片免费视频看 | 香蕉久久成人网 | 亚洲精品一区二区三区四区 | 亚洲精品一区二区三区四区 | 亚洲国产福利精品一区二区 | 欧美在线观看一区 | 亚洲国产综合精品 | 精品国产高清a毛片无毒不卡 | 91九九| 老头巨大粗长xxxxx | 日韩在线精品 |