近日美國大資料權威專家麥爾荀伯格(Viktor Mayer-Schonberger)來臺分享大資料趨勢。他認為,大資料三大特性,是巨量、雜亂和相關性,而不是一般常見的3V(Volume、Velocity、Variety)定義。如何從這些看似雜亂無章的巨量資料中,找出最適合的相關性,並以此來改變決策,幫助我們更了解世界,正是企業和政府所面臨的新挑戰。
麥爾荀伯格早年曾是名程式設計師,年僅20歲就創立一家防毒軟體公司,推出的防毒軟體一度獲選為澳洲年度暢銷軟體之一。他在哈佛大學攻讀法律,並取得倫敦經濟學院經濟碩士,而後對於大資料領域有著深入且廣泛的研究,曾發表過上百篇專論和書藉,現為牛津大學網際網路研究所教授,專攻網路治理與法規,並著有《Big Data》(臺譯:大數據)等著作。
麥爾荀伯格認為,經過蒐集而來的大資料,往往具備有三大特性,第一就是擁有非常多的訊息量。
這邊所指的「多」代表的是具有一定規模的完整資料,可透過蒐集分析發現具有相關性的問題或現象。他以過去相機對焦為例,一般只有在對焦範圍內拍出來的人物輪廓才會清晰,但範圍以外的人物輪廓往往會是模糊的,但是改用一臺可先拍照後對焦的光場相機,就能先將所有人物資料完整紀錄下來,之後在決定照片要以誰為主角,也不需要花費時間重拍,還可以獲得更多有關照片的細節。麥爾荀伯格認為,盡可能蒐集越多的完整資料,也是同樣的道理,蒐集妥了以後再進一步決定用途。
麥爾荀伯格提出的大資料第二個特性是雜亂。相較於過去受限於測量能力的限制,能取得的資料往往不多,因此會注重資料的精確性。但是,當面對的是雜亂且複雜的大資料時,就不能再以過去傳統少量資料的方式去分析,而是要有新的作法。他說,大資料要求的並不是一點錯都無法容忍接受的精確資料,更多時候反而容許有測量誤差的資料,只要透過分析可以得出有用的資料,就不用為了那一兩棵樹而放棄一整座森林。
比起問why,大資料更看重的是問What相關性 至於大資料第三個特性則是相關性,麥爾荀伯格解釋,比起問「Why」的因果關係,大資料更看重的是問「What」的』相關性。「重要的是先了解,資料要告訴我們『什麼』而不是『為什麼」。他以美國知名零售商沃爾瑪當例子,當他們在進行大資料分析時發現,每當颶風即將抵達前,當地居民除了上超市去買手電筒和電池之外,還會買了一堆被稱為是Pop-Tarts的草莓甜點,這樣的發現也替沃爾瑪帶來龐大商機,至於顧客為什麼會買這些甜點就不是那麼重要了。同樣的道理,當亞馬遜和Netflix 在推薦顧客產品時,同樣也不知道為什麼要推薦這些書或DVD影片,只要知道顧客會買單就好。
另一個麥爾荀伯格舉的例子是語言翻譯。1950年代的美國電腦科學家,曾試圖透過文法規則讓機器大量翻譯俄語資料,花了12年時間投入近數十億美元,最終還是宣告失敗。當時,IBM也在個人電腦加入更多語句和文法規則,並以此成功翻譯了60個俄文短句,但因無法進行大量翻譯也告失敗,就算是在1990年時,IBM試圖透過新開發的統計機器來翻譯10年份的加拿大國會文件資料(含英法雙語),儘管的確改善了機器翻譯的品質,但最後因投入大筆資金卻無法得到相應成果,只好退出放棄。
反觀當時還是名不見經傳的小公司Google,成立僅僅不到10年時間就完成了這項不可能任務,推出了翻譯服務,而其採用的方式只不過就蒐集了幾千億筆的網路資料來分析,其中有包括歐盟語言、網站語言、書籍和說明手冊等五花八門的資料,儘管這些資料品質參差不齊,但透過彙整分析卻能翻譯出更為精確的語句。
閱讀全文
沒有留言:
張貼留言