作者:城田真琴
定價:NT$ 360
本商品已絕版
作者簡介:
城田真琴(Makoto SHIROTA)
野村總合研究所(NRI,Nomura Research Institute)創新開發部高級研究員、IT分析師,日本政府「智慧雲端運算研究會」智庫成員。負責高端技術趨勢調查研究、供應商戰略分析、國內外企業IT應用調查,專業領域為雲端運算、商務分析、M2M、IoT等。著作包括:《雲端運算的衝擊》、《你不可不知的雲端運算常識與非常識》、《2012年版IT年鑒》等。
譯者簡介:
鐘慧真(翻譯本書前言、一至四章)
「上輩子」是軟體工程師,國立清華大學電機工程研究所畢業,曾任職於飛利浦半導體與宏達電。目前是從事日翻中筆譯的家庭主婦,定居於日本長野縣。譯作《不執著的生活工作術》(經濟新潮社出版)。部落格:【黛博拉看日本】http://deborahjong.wordpress.com/。
梁世英(翻譯本書五至八章、謝詞)
日本一橋大學商學研究所碩士,專長財務金融,目前為專職日文譯者。譯作包括《這樣圖解就對了!》《鍛鍊你的策略腦》《想像的力量》《Facilitation引導學》(以上均由經濟新潮社出版)等。
名人推薦:
創造「偶然的幸運」(serendipity),正是巨量資料技術不斷前進的動力
文/陳志仁(台灣野村總研諮詢顧問股份有限公司副總經理)
接到本書導讀的邀稿時,剛好是我跟一家國內大型服務公司探討他們公司海外發展議題之後的下午。
這讓我想到,從2004年加入野村總合研究所台北分公司以來,轉眼已經過了九年。常有企業主在面對全球新的議題與挑戰時,諮詢我們的看法;而我們的顧問專家群,難免也會私下討論不同國家的企業主對於新事物的接受態度。
過去,我們總是以為台灣企業主很少願意從邏輯思考的角度,看清所謂新事物的全貌,凡事好像只想要得到「引進這件新事物的時機是否已經成熟?」的答案, 卻沒有深入思考「如何親自將新事物引進企業,做為企業超越自我的契機?」。
讀完這本書之後,我必須稍加修正以上的觀點,或許該說,如果對於新事物的介紹,可以有辦法解說得完完整整、面面俱到,那麼,企業主怎麼可能放過這些知識呢?
這本書是我在東京總公司的同事城田真琴的著作,在日本,這本書出版於2012 年7月,2013年陸續出版韓文版、簡體中文版與繁體中文版,是巨量資料領域的重要著作。我認為,這本書內容能讓台灣的讀者有機會看見全球發展「巨量資料」的全貌。
本書的內容在第一及第二章介紹了「巨量資料」在資訊科技技術上出現的許多新名詞,例如Hadoop、NoSQL、LOD 等;並且進一步解說企業在資料運用層面,從過去的「資料可視化」進展到「資料預測未來」的境界;因此,強調深層的資料調查以及準確度的預測,讓企業因為採用巨量資料的「技術」而進展到更高的境界。
簡言之,對於電腦技術名詞沒有興趣的讀者,可以想像,過去資料只能「知道交易已經完成」的階段,當運用巨量資料以後,已經進化到可以「知道交易完成的原因」了。
對於想知道全球企業實際應用巨量資料個案的讀者們,可以在第三章了解到四家歐美企業的成功案例,其中包含網拍公司eBay如何整合過去的資料倉儲分析系統與巨量資料技術,讓大家羨慕eBay員工擁有三個不同的資料分析基礎來支持他們進行業務的拓展。此外,第三章也介紹遊戲公司Zynga如何以5 %的付費客戶繳出11億美元營收的驚人業績。英國瓦斯及電力公司Centrica的個案,讓讀者了解英國把150萬顆機械電表改成數位電表後,巨量資料改變每個人生活的情境。第三章最後介紹的是大型零售業者卡特琳娜行銷集團(Catalina Marketing),豪氣地蒐集一億人的消費資料,達成「能夠以100 %的準確度,預測出像是會購買某個商品的潛在消費者」的行銷新境界。
當讀者沉浸於以上個案的激盪時,別忘了第四章還有四個日本企業運用巨量資 料的成功案例——小松(KOMATSU)是日本主要建築機械的供應商,其實在台灣的建築工地也不難看見小松的推土機以及怪手;小松的商業模式是租賃這些機械設備給營建商或是工務機構,因此,透過全球機械所不斷蒐集的相關巨量資料,已經可以用來推估設備維修的需求即將發生,以及給使用者燃料使用節省的建議做法等。
瑞可利(RECRUIT)是家擁有各式各樣網路專門服務的公司,有求職、結婚、購屋網等,他們採用Hadoop技術,加上名為MIT(Marketing & IT United)的新組織,跨部門整合公司內部各單位,讓企業內部更有效地蒐集與分享利用巨量資料。
此外,第四章也剖析日本遊戲公司GREE急速成長的原動力,在於「與其相信一人的判斷,不如相信數千萬人的資料」,他們稱為「資料驅動型營運方式」。第四章最後的日本麥當勞(McDonald’s Japan)案例,我在2009年就曾涉獵過,很佩服該公司仍持續發展個人化行銷的相關巨量資料,要達成「在現實世界實現一對一行銷」的願景。
原本我以為這本書第三章與第四章完整介紹歐美日的八個企業案例之後,到此 應該夠了,但是,身為一位任職於全球知名智庫的管理顧問專家,如果只是把資料說個夠多,並沒有滿足提出「洞察力」(insight)這樣的專業標準,可能無法滿足讀者追根究柢的渴望。因此,我們可以看見第五章有13個巨量資料的運用案例,進一步介紹「將巨量資料引進企業,做為企業自我超越的契機」的具體樣貌。
本書最令人讚歎的地方,在於作者將他研究企業應用巨量資料的成功案例,歸納成一張張淺顯易懂的圖表,其中,第五章【圖表5-1】巨量資料的運用模式,是一張相當精采的圖表,由個別最佳化、全體最佳化、批次處理與及時處理構成四種巨量資料運用的商業模式,滿足想要對於巨量資料獲利模式一探究竟的挑剔讀者們。
接下來,第六章探討美國歐盟以及日本主要國家對於巨量資料侵犯隱私的相關 法律及對應的措施,針對許多服務業者關心台灣對於消費者隱私保護的議題而言, 有具體的參考價值。
我們都知道,談巨量資料一定避免不了政府的公開資料(Open Data)此一環節,作者選擇在商業模式探討完畢之後,再來說明美、英、日等國政府鼓勵發展公開資料的具體做法,其實也確實符合我們的觀察,單單政府資料公開無法成為獲利 模式的趨勢;但是,如果沒有政府的公開資料,肯定有些美好的巨量資料商業模式就無法成真。
事實上,本書結論讓我非常震撼——我是一位1990年代投身職場的上班族,當 年,資訊工程師(Information Engineer)這個新職業造就了一波產業的革命,也 帶動了台灣服務業的一波成長榮景。本書最後,作者告訴我們,身處巨量資料的年代,不僅僅企業在組織內需要一位資料長(Chief Data Officer)的新角色;而且未來十年,整個IT業界裡最重要的人才將是資料科學家(Data Scientist)這個新人才。美國的大學已經開始開設主修分析學的研究所課程,展開人才的培養教育,他需要培養三種特質,容我賣個關子,把這個答案留給讀者在本書裡挖掘吧!
最後,很高興出版單位給我有機會搶先讀完本書,我也很喜歡作者在本書中提出的許多細微的觀察,例如,在說明亞馬遜(Amazon)電子商務的「協同過濾」(Collaborative Filtering)技術時,引經據典地介紹「偶然的幸運」(Serendipity)這個詞,這是來自英國小說家霍雷斯.華爾波(Horace Walpole)在1754年的新創文字,描述消費者意外擁有幸運或是發現有價值事物的奇特心情,很傳神地說明了給消費者不可預期的幸運,正是巨量資料技術不斷前進的動力啊!
Big Data, Big Intelligence:從資料、資訊到情報
文/翟本喬(本文作者為和沛科技股份有限公司總經理,曾任台達電子雲端技術中心資深處長、Google Platforms Architect。)
我在2006年任職於Google時,有一次,前往一所大學演講Google的儲存系統GFS。一位教授問我:「那資料要刪除的時候怎麼辦?」我反問:「資料為什麼要刪除?」在場所有人都露出奇怪的表情。
Google的認知是:資料(data)裡面會有資訊(information),「現在用不到」並不表示「以後用不到」。除非法律規定必須刪除,不然一概保留。今天大家已經聽到了「資料是新石油」(Data is the new oil.)這句話,也開始知道了資料中會有「看不見的價值」。
《孫子兵法》共有十三篇,最後一篇談〈用間〉,也就是情報戰。情報的價值,遠高於其他戰術或武器。今天所謂的精靈武器,就是能妥善運用地理定位(Geolocation)和圖形識別(Pattern Recognition)等技術所取得的資訊和情報。由最近幾年公布的許多資料可以看出,第二次世界大戰的勝負,其實就是決定在情報。由美軍破解日本海軍密碼而在中途島(Midway Islands)洞燭機先,到英國破解德軍潛艇的Enigma密碼而殲滅狼群以保全橫渡大西洋的生命線,都是任何戰術和武器無法獨自達成的。
情報如此重要,許多人把失敗的責任歸責於錯誤的情報,或是缺乏情報。事實上,我們的四周充滿了大量的情報,只是一般人無法有效正確地辨識。例如珍珠港事件(Pearl Harbor Bombing)之前,已有一封緊急電報示警,但是這封電報遭人擱置,直到事件發生之後才譯出。有能力正確並及時辨識這些情報的人,小者被稱為福爾摩斯(Sherlock Holmes)或是柯南(名探偵コナン),大者就被稱為諸葛亮。在商場不見硝煙的戰爭中,情報更突顯出它的重要。今天我們開始擁有了處理這些大量資料的工具,更重要的是讀懂這些資料,把它們轉化成可用情報的智慧。正如我在 Facebook 上說過的(編按:全文詳見作者網誌〈IoT 和 Big Data 商機的迷思〉):
想要做Big Data(巨量資料)的人請先認清楚:什麼是Data(資料)?
◎ 存得起來的,就是storage(儲存)。
◎ 看得到的,才是data(資料)。
◎ 看得懂的,叫做information(資訊)。
◎ 用得出來的,才能稱為intelligence(情報、智慧)。
Big Data這個名字事實上是有點誤導。真正賺錢的,是從big data中萃取出來的 big intelligence。
為什麼CIA叫作Central Intelligence Agency(中央情報局),而不是Central Information Agency(中央資訊局)或Central Data Agency(中央資料局)?而萃取information和intelligence的技術並不是現在才有的。
隨便問一個有水準的資訊資工系教授,就會告訴你data mining(資料探勘)、neural network(神經網路)、pattern recognition(圖形識別)、statistical machine translation(統計型機器翻譯)、information retrieval(資訊萃取),...等等領域的歷史。這些才是困難而需要投資開發的領域,而不是一個簡單的大量儲存和平行運算系統。
我在2003年進入Google的時候,正是MapReduce初啟用之時。Google原本的Indexer是一套大程式,用了幾百台伺服器,要一個多星期才能完成工作。而中間只要有一台機器當機一次,就要全部重來。Google因此設計了MapReduce這套系統,主要目的在於容錯。將資料切成許多小塊,分到獨立的伺服器上處理。雖然機器數量增加到了兩千台,但中間不管怎麼當機都沒關係了。後來在論文發表後引出了Hadoop這個Open Source的軟體,給了想做大量資料分析的人一個很好的工具,也讓Hadoop在很多人心中變成了Big Data的同義字。
但事實上Hadoop只是一個平行分散式資料處理的工具,真正能為資料創造價值的是上層的智慧分析。這些工具是讓資料分析師(以後是叫做「資料科學家」?)能把時間用在真正重要的工作「資訊萃取」上,而不只是打造所需的工具。想要靠 Big Data 做一番事業的人,絕不是只要學會了這些工具就可以了。
1994年,商用的Internet開始成型,因為modem的速度和價格開始達到一般人可用的範圍。今天,儲存和處理資料的速度和價格也開始達到一般公司可以負擔得起初步的Big Data處理的程度。商用Internet起步的初期,業界很多人認為只要架個網站就會有生意上門。今天我們在Big Data這個領域也會有這麼一段混亂期,需要藉著更多好的介紹書籍和文章的引入,可以縮短這段過渡期。
很高興看到這本書並未落入坊間許多一窩蜂介紹工具的潮流,而能把主要的篇幅用在許多其他重要的面向。希望讀者在看完本書之後,能對如何萃取周遭的資訊並加以運用有更深一層的認識,並從Big Data進步到Big Intelligence的層級。
共勉之。
推薦序:當商業智慧隱藏在雲深不知處
文/楊千(本文作者為國立交通大學經營管理研究所教授)
巨量資料是個必然趨勢。
巨量資料(亦稱為海量資料、大數據)指的是在以往一般技術不容易管理但現在已能有效儲存、分析的大量資料。
自從有了網際網路,資料的產生已不是各個組織的內部活動所產生的,而是包括了跨組織的各項活動記錄,更包括了數以億計的人類在網路上各自產生及互動的資料;在工具使用上除了傳統電腦、平板、智慧型手機、以及各項道路監視器、環境監控數據設備。
從中國的歷史上來看,資料的產生、儲存、傳遞,講的是「字」。我們的祖先結繩記事也好,用龜甲牛骨刻下所謂的甲骨文也好,都是費時費力的。到了用竹簡記事,也記不了太多的字。以前的人說「學富五車」是形容書讀很多的意思;然而,如果以尚未發明印刷術的眼光來看,「五車」的竹簡,大概指的是《論語》已經讀了好幾篇,快要讀《大學》《中庸》。
有了電腦之後,早年的資訊科技,不論是資料的產生、儲存、傳遞,講的是K (Kilo、 仟、十的三次方或二的十次方)。到了1990年代,講的是M(Mega、Million、百萬、十的六次方或二的二十次方 )。進入二十一世紀,2000年左右,講的是G (Giga、Billion、十億、十的九次方或二的三十次方)。現在,我們講的是T(Tera、Trillion、萬億、兆、十的十二次方或二的四十次方)。由此可見,資料的產生、 儲存、 傳遞真的進步太多了。
所以,我的博士班學生畢業的時候, 只要一片光碟,就能把他們所有讀過、寫過的文章全部備份起來,非常輕便(卻也很沒成就感)。
鑑往知來,如果資訊科技進步繼續下去,我們會從T(tera)一路走到P(petra、 十的十五次方)和 E(exa、十的十八次方)的世界(TPE也剛好是台北在國際航空的代號桃園國際機場)。
英國Centrica電力公司可以每三十分鐘透過網路讀取用戶智慧電錶一次,每天抄電錶四十八次,它能對用戶的用電行為觀察更多更瞭解,甚至分析之後能對客戶行為有更精準的預測,可以調節不同用電需求的輸配電電路。 每天抄錶四十八次,一年就產生1T的資料。
1970年代,10M的磁碟機要40萬台幣,可以買當時的豪宅一棟;2000年左右,2G隨身碟(200個10M)約2萬台幣,可買當時的小噸數窗型冷氣機一台;現在(2013年),128G(64個2G、12800個10M)的隨身碟,新台幣2,388元即可入手,這個價格可以讓一對情侶到五星級飯店的自助餐廳用餐一次。
在資訊科技進步的軌跡上,我們不只已看到巨量資料的應用,我們更確信它的普及是個必然趨勢。
在數學符號上就是一個國中生寫下「1020」不會有甚麼感覺,它就是1的後面跟上20個零。但是,在實體世界裡 全地球所有海灘的沙粒總數大約就是這麼多粒,是很多很多的,對我們個人來說就是無限大,在佛經中則稱為「恆河沙數」。
小孩子不容易忘記,是因為他的記憶內容少,比較容易找到記得的事物;大人容易忘記,是因為記憶內容較多,卻沒有用心建立索引目錄分類、缺少工具與方法,或是傳輸線老化接觸不良,不容易找到曾經記憶過的事物。
如果資料少,當然容易找到過去的紀錄;如果資料多,當然增加極大的困難;更何況,要分析巨量資料中的數不盡的關係與內涵,絕對不是單純的正比關係。
如果在一家企業內部進行資料探勘應用,我們稱之為商業智慧(BI,Business Intelligence),這是許多公司知識管理的範疇,也已經有二、三十年的歷史;台灣資訊管理相關科系都有在資料庫相關課程裡探討。許多像SAP、Oracle、IBM等公司都提供類似的軟體工具。
但是,到了巨量資料一路往TPE走,許多智識都隱藏在雲深不知處,確實是能夠探勘出有價值的資訊,變成更有必要卻更困難,因此需要更有競爭力。
本書提出許多實際成功應用的案例,列出相關互動隱私及安全的議題,是一本有相當廣度的巨量資料相關讀物,很適合關心未來的知識分子閱讀。
推薦序:當巨量資料與社會脈絡交集
文/徐子涵(本文作者為英國開放知識基金會地區大使、Fertta Communications執行長、Code for Tomorrow共同發起;個人網站:http://blog.schee.info/)
近一年來,巨量資料的詞彙屢次出現在不同的媒體,似乎是一股海嘯襲來的態勢。在2013年的今日,除了網絡節點高速增長之外,你手中的行動運算裝置,也是資料廢氣(data exhaust,意指無法再次利用的資料)的大宗來源。
在PC產業的景氣低迷之際,不只資訊業界引頸期盼,連產業大老們深入了解Big Data之後,也興奮地呼喊著時髦用語「Eureka! 」(我找到了!),藉此表達他們心中如同發現新大陸般的欣喜。(註:阿基米德泡在浴缸時,突然領會「物體所受的浮力等於排開的水重量」時,欣喜地跳出浴缸裸身跑到街上大喊:「Eureka!」)
事實上,我們不可能再回到直立人(Homo erectus)的演化初期,力行資料節食(information diet)。因為在那個年頭,資料和社會脈絡的躉集,不只相當離散,更是無法捕捉聚合。
但是在今日,資料可說是唾手可得。不過,這些資料終究必須回到為人所用的範疇,而我們在消費資料的過程,則構成了多樣的社會、經濟行為的面貌。就跟當初內燃機的興起促成了工業革命一般的令人興奮,在兩、三百年的發展之後,人類的富裕程度普遍提高,也留下了更多有待共同智慧解決的問題。
然而,對於大多數人來說,別說是巨量資料,連微量資料 (small data) 都還不知如何捕捉,也可能毫無所知。
很幸運地,本書的付梓,提供了一個巨量資料生態圈比較完整的面貌,是非常好的出發點。
試想,人與城市之間的交流,是實實在在地日益頻繁。如果巨量資料的革新從城市開始,那麼總要先知道城市的現況是什麼?城市的脈動如何實時感測?微觀之細小變動,如何啟發巨觀的都會更新?龐大的數位原住民(digital natives),每天所勾勒出無法想像的數位都市面貌,算不算城市的一部分?
我們借用網路業者常用的服務績效指標來試試,例如:城市如何獲取用戶(user acquisition)?外來旅客在城市之間的跳離率(bounce rate)要如何定義?城市網絡鄰近度(network proximity),無論是道路本身、還是人與人之間,這密度要怎麼估算?如何在動態城市記錄有意義的數字(measure things that matter)?這跟巨量資料有什麼關係?這又跟製圖學(cartography)有什麼關係?
我們可以進一步運用巨量資料的概念、技術與應用的堆疊(stack),來針對城市、以及比城市更小社會組織元素,例如:大型公司、中小企業、社區、非營利組織,甚至是政府機構(尤其是開放資料[open data〕的部分)的未來發展對策。現行的組織、文化和結構,是否能因應龐大的資料海嘯?組織是否願意學習如何記錄、發掘、分析,然後透過資料,進行資源的重新分配?這是相當有潛力,也是最令人困惑的巨量資料發展領域之一。
此外,台商在海內外具有規模的產業聚落,其服務對象多以 B2B(business to business) 為主。企業規模大到即使在供應鏈的任何環節能夠做出優化,然後具體落實到資源調度,這樣的想像,當然會提供業者部分的誘因,投入資料儲存和分析的資源。便利商店和流通業者等,就是如此脈絡的例子——明確定位本身優勢,進而透過巨量資料,優化商業的流程,甚至重新定義市場的藍圖。
隱私(privacy),是巨量資料衝擊的另一個重要面向。美國和歐盟對於隱私的做法相當的不同,甚至已經是高到處理態度的本質不同。在資料大量釋放後所進行關連比對的同時,隱私的失落和認知版圖的推移,更需要我們正視。隱私設計(Privacy by design)在實務上的落實不足,以及資料的隱私、安全(security)和自主權(data ownership)缺乏好的討論場域。巨量資料在這部分所產生的巨大衝擊,在本書我們可以看到更為完整的討論,以及甚少被提到檯面上的實務做法。
最後,本書最值得推薦閱讀的部分,在於日本企業小松(KOMATSU)、瑞可利(Recruit)、GREE等,如何運用巨量資料強化地域經濟的思維。在面臨全球產業布局和硬體利潤微薄化的今日,如何槓桿地域劣勢,轉化為全球區域發展的特色核心,日本政府和民間的過來經驗,不失為台灣各界的參考基準。
推薦序:Data, Data, Data:我們活在廣袤的資料流中
文/鄭緯筌(本文作者為資深部落客、獨立媒體Tappier站長,網址:blog.vista.tw、tappier.com )
你曾經聽過「尿布和啤酒」的故事嗎?上個世紀末,曾有許多剛當上父親的美國人,被老婆大人指派去超市買嬰兒的尿布,通常也會順便購買啤酒犒賞自己。聰明的賣場人員觀察到這個現象之後,便把這兩樣商品放在相近的區域,不但提高了商品的銷售收入,也增加顧客上門的機率。
這是實際發生在美國沃爾瑪超市(Wal-Mart)的案例,也曾刊載於一九九八年出版的《哈佛商業評論》(Harvard Business Review)。尿布和啤酒看似風馬牛不相干,但兩者之間卻又隱隱有著微妙的關連。能夠從巨量資料中理出頭緒,自然有機會可以找到成功的關鍵,而不懂得與資料為伍的公司則可能錯失商機,甚至被時代所淘汰。
不只是商業發展,巨量資料也可以對社會公益有所貢獻。好比2003年發生SARS疫情時,有二位美國Google的工程師就從大眾所常搜尋的關鍵字中,預測出可能爆發疫情的地區,這也讓美國疾病控制預防中心大感意外。
原來只要有大量資料做佐證,經過一番抽絲剝繭也能找到蛛絲馬跡。難怪趨勢科技(Trend Micro)創辦人張明正看好巨量資訊的發展,更直言這是新經濟時代的金磚。
巨量資訊不但會改變人們的生活,更可能改變企業經營的模式。好比書上有提到美國社交遊戲巨擘Zynga的案例,這家遊戲公司不但擅長打造迷人的遊戲,更懂得透過大量資料來分析、臆測人性。有趣的是,他們自稱是一家「披著遊戲開發商外皮的資料分析企業」,也認為遊戲就是一種由資料驅動的生活服務。
因此,Zynga公司認真傾聽用戶的回饋,再據此進行微調和修正——不但精心設計每一款遊戲的關卡,連虛擬道具的顏色和尺寸都斤斤計較。而從巨量資料所獲得的回報,自然就是玩家與日俱增的向心力以及節節上升的營收了。
很高興有機會提早拜讀這本書,更從中獲得許多和巨量資料有關的啟示。不只是趨勢和數字,我更在這本書中覷見這個時代的發展前沿。日常生活中,一筆又一筆的資料驅動了我們的工作與生活,但未來該何去何從呢?從這本書裡面,可以找到許多線索。
我喜歡這本書的原因,不只是作者出身日本野村總合研究所,那個被喻為是日本最有影響力的民間智庫,更因為本書從Google、Facebook、Zynga、GREE、DeNA和麥當勞等傑出企業的營運歷程中,有條不紊的整理出巨量資料與成功之間的關連,再呈現出箇中的脈絡。
閱讀本書,最大的收穫不是了解巨量資料的重要性,而是知道巨量資料可以如何應用在商業上?巨量資料帶給我們的衝擊會愈來愈大,你最好從現在就開始習慣。
是的,我們活在廣袤的資料流中。而此刻,你無需驚慌,只需要有一本好書指引。帶著這本書,讓我們啟航吧!
推薦序:老大哥在看著你:Big Data? Big Brother?
文/劉奕成(本文作者為英商巴克萊銀行台北分行董事總經理、台灣金融分析專業人員協會[CFA台灣分會〕理事長、《小日子享生活誌》創辦人)
幾次水淹台北城的磨難後,我失去了童年生活的真實紀錄,只剩下漫漶的孩提記憶偶然靈光乍現。少數依然時刻鮮明的往事,就是跟著從事工程的父親,隨著工地東搬西遷。當父親參與建設北迴鐵路,我隨家人在太平洋海濱卜居一段時日;四、五歲的年紀無所事事,每天看著雲、望著海,臆測目光遠處僅如沙粒大小的人影,到底在做些甚麼?有時散坐海岸終日看著海浪拍岸,彷彿爭先恐後向上;抬頭望著天空風動雲湧,有如一瞬之間向下。直到現在,還會被夢中海浪衝擊礁岩的聲勢驚醒;從童騃時我便體會到:無垠的天空,給人遼闊的想像;深邃的海洋,擁有世界上最巨大的力量。
後來搬回市區上小學,家中長輩俱皆忙碌且放任,因此我成天在外閒蕩,也偶爾在圖書館晃悠,看似有學問的人從書架上挑書;我也依樣畫葫蘆,找了本《一九八四》(Nineteen Eighty-Four)。原因無他,書名只有數字,內容似乎簡單。花了一個下午瀏覽,還是看不懂,只記得書中說「老大哥在看著你」(Big brother is watching you.)。從此鎮日疑神疑鬼,總以為有人看著我。三十年後才發現,這不是開玩笑的,史諾登(Edward Snowden)揭發的稜鏡計畫(Prism),說明了像你我這樣的無名小卒,也在美國政府的通訊監控下。
年歲漸長,我發現自己喜歡想像別人的生活方式,或者應該說,承認自己也很好奇別人的生活方式。所以我貪看電影,滿足對想像的猜測與印證,偶而也喜歡幫朋友和慈善團體對發票,從發票上的明細想像著人們的日常生活。翻閱城田真琴所寫的這本書時,桌上正散落著書稿及發票,才赫然想起,這不就是「老大哥在看著你」?
隨著所謂「巨量資料」的一時風行,或許不一定是現在進行式,但是很可能是未來完成式。不論是當你我走在社區巷道時,無數個鏡頭以治安為由居高臨下監視錄影,或是網站上按讚、留言、分享,不得不承認「凡走過必留下痕跡」。甚至,即使我們足夠謹慎,沒有暴露身分,但是,分析專家已經從周圍的人或同類型者的行為模式為線索,猜想到你我的生活方式。不只是詳細記錄分析你我踩著蹣跚步履、從過去走到當下的每一步,還能預測到未來幾步路——沒錯!「老大哥在看著你」。
翻攪過去的資料並不容易,但是隨著「巨量資料」的運用漸趨成熟,未來的影響難以想像。本書介紹的巨量資料,也稱為「大數據」或「海量資料」,是一種繼「資料採礦」(data mining;資料探勘)以及「雲端運算」(clouds computing)之後,最令人驚豔的時代趨勢;這本書雖短小輕薄,卻具體而微地描述了這些流行趨勢。
在很多人還不曾聽過「巨量資料」之時,這個趨勢卻已經引起關注,世界知名的沃爾瑪(Wal-Mart)早就利用平均每小時可處理100萬筆資料,儲存了2.5PB之多的資料,從而進行「資料採礦」,擬定產品庫存與定價,對於陳列及倉儲的擺放,也有巨大的貢獻。更在2011年4月收購分析社群媒體的公司Kosmix,進一步從資料中找出隱含的資訊、問題、價值與商機;比方說,從社群媒體的資料分析某一城市有許多人喜歡騎車,並且依此調整門市的貨物。
真正運用雲端及海量資料最嫻熟的公認是Amazon,即使沒有登入帳號,僅在Amazon站內搜尋,Amazon馬上以「經常一起購買的商品」和「購買此商品的顧客也同時購買……」的方式,推薦你我其他可能也會有興趣的商品或書籍,而且往往能精準命中、搔到癢處;Amazon對消費者行為的了解,實在令人咋舌不已。
這種「準確猜中你我在想甚麼」的準確度,很容易讓人以為是偶然的幸運(serendipity);然而,幸運並非偶然——其實,精準預測是由資料科學(data science)與商業智慧(BI,business intelligence)縝密運作的結果。當你我身處於強調「與其相信一個人的判斷,不如相信千萬人的巨量資料」的時代,身為決策者,已經不能只靠直覺或數字,更必須融合資料科學,從各種消費紀錄、社群網站的輿情觀測、打卡定位等資料中萃取價值,做為決策參考之用;也難怪,資料科學家(data scientist)成為「未來在等待的人才」。
行筆至此,我想起高中時期,由於對人類行為的好奇與執著,捨棄世間既定「男生就該念自然組」的傳統,選擇社會組就讀;卻在二十年後發現,原來,現在要了解人類行為,光是憑著五感觀察還不夠,必須從千萬人的資料中找出價值,還得要了解「礦」(資料採礦)、「雲」(雲端運算)、「海」(海量資料),這些都是屬於自然組領域的知識啊!當我看到這本書中提到「好奇心」的重要,覺得很有意思——原來,我對人類行為的好奇心,竟然就是當今資料科學家必備條件之一!也讓我對於當年的決定終能釋然。
話說回來,說也奇怪,每次談到巨量資料,腦海中便突然出現卜居太平洋岸的童年。這些冠以自然之名的行為科學分析,真的就有如當年看海的日子;最重要的就是下方的「海」——巨量資料,和上方的「雲」——雲端,就像自然界一樣,無邊的海洋水氣蒸發,上到雲端,累積轉換足夠的水分,便天降甘霖傾瀉而下,滋潤眾生。
然而,當所有人一呼百諾,簇擁著「巨量資料」招搖過市時,耳聰目明的先知早就知道:其實巨量資料仍有其侷限性,很多事情其實還是分析不出來的,甚至於有更多的情況下,巨量資料其實有其傷害性的。這本書的作者,便是先知之一;書中除了張揚巨量資料的可能好處,也對巨量資料提出質疑,有時也提出解答。以本書第六章為例,不但具體針砭巨量資料可能觸及的隱私問題,同時也明確指出使用巨量資料的原則,例如「引進刪除過去個人資料的權利」以及「尚未明確取得用戶同意的情況下,禁止處理個人資料」等做法。不過,可取但可惜的是:本書也介紹許多法令的要求,但是因為是日本法令,我們只能望洋興嘆。
本書也藉由2009年「Raw Data Now!」的呼喊,披露了政府機關只會窖藏資訊,卻不懂得分析、也不願意公開的窘境,其實,台灣的機關企業也有類似的狀況,許多組織買了最貴的資料庫系統,號稱進行資料採礦,其實只是把資料窖藏在資料庫中,說穿了就是「坐在黃金堆上的乞丐」。未來,從資料採礦再跨大步到巨量資料,除了本身的資料,還可以加上公開資料(open data),並且資料也將更即時,更有影響力。除了自以為是亂找一些資料配對,還需要對行為本身有更多的了解,才能讓巨量資料發揮效果。
真正令人激賞的,是作者開放的胸懷。他說:「誠心建議握有原始資料的企業或資料整合公司,不應只在所屬業種之中劃地自限,而應以廣闊的視野、不受業種設限的態度,制定資料運用策略。」唯有如此,才能讓巨量資料走上坦途。未來這段時間,所有從事行銷或商務的人,都將會遭到「巨量資料」淹沒,在載浮載沉之間,我推薦這本書當作你我的浮木,讓我們面對資訊洪流(data deluge),卻依然能一窺堂奧。
如今想來,童年時在太平洋岸看到海天一色、自然寫意的風景,就像是當今「雲端」與「巨量資料」的隱喻。雖然到目前為止,巨量資料並不是所有問題的解答,但是,設法找出資料中的價值進而預測未來的商業智慧,才是未來商戰致勝的關鍵。
各界推薦
美商天睿資訊系統有限公司(Teradata)台灣分公司總經理 吳世鈺
英國開放知識基金會地區大使 徐子涵(Schee)
國立交通大學經營管理研究所教授 楊千
PC HOME網路家庭董事長 詹宏志
和沛科技股份有限公司總經理 翟本喬
英商巴克萊銀行台北分行董事總經理 劉奕成
資深部落客、獨立媒體人 鄭緯筌(Vista)
推薦語
「本書提出許多實際成功應用的案例,列出相關互動隱私及安全的議題,是一本有相當廣度的巨量資料相關讀物,很適合關心未來的知識分子閱讀。」——楊千(國立交通大學經營管理研究所教授)
「我很喜歡作者城田真琴在本書中提出的許多細微的觀察,例如,在說明亞馬遜(Amazon)電子商務的「協同過濾」(Collaborative Filtering)技術時,引經據典地介紹「偶然的幸運」(Serendipity)這個詞,這是來自英國小說家霍雷斯.華爾波(Horace Walpole)在1754年的新創文字,描述消費者意外擁有幸運或是發現有價值事物的奇特心情,很傳神地說明了給消費者不可預期的幸運,正是巨量資料技術不斷前進的動力啊!」——陳志仁(台灣野村總研諮詢顧問股份有限公司副總經理)
「本書的付梓,提供了一個巨量資料生態圈比較完整的面貌,是非常好的出發點。其中最值得推薦閱讀的部分,在於日本企業小松(KOMATSU)、瑞可利(Recruit)、GREE等,如何運用巨量資料強化地域經濟的思維。在面臨全球產業布局和硬體利潤微薄化的今日,如何槓桿地域劣勢,轉化為全球區域發展的特色核心,日本政府和民間的過來經驗,不失為台灣各界的參考基準。」——徐子涵 Schee(英國開放知識基金會地區大使、Fertta Communications執行長)
「想要做Big Data(巨量資料)的人請先認清楚:什麼是Data(資料)?存得起來的,就是storage(儲存)。看得到的,才是data(資料)。看得懂的,叫做information(資訊)。用得出來的,才能稱為intelligence(情報、智慧)。很高興看到這本書並未落入坊間許多一窩蜂介紹工具的潮流,而能把主要的篇幅用在許多其他重要的面向。希望讀者在看完本書之後,能對如何萃取周遭的資訊並加以運用有更深一層的認識,並從Big Data進步到Big Intelligence的層級。」——翟本喬(和沛科技股份有限公司總經理,曾任台達電子雲端技術中心資深處長、Google Platforms Architect。)
「身處於強調「與其相信一個人的判斷,不如相信千萬人的巨量資料」的時代,身為決策者,已經不能只靠直覺或數字,更必須融合資料科學,從各種消費紀錄、社群網站的輿情觀測、打卡定位等資料中萃取價值,做為決策參考之用。未來這段時間,所有從事行銷或商務的人,都將會遭到「巨量資料」淹沒,在載浮載沉之間,我推薦這本書當作你我的浮木,讓我們面對資訊洪流(data deluge),卻依然能一窺堂奧。」——劉奕成(英商巴克萊銀行台北分行董事總經理、台灣金融分析專業人員協會[CFA台灣分會〕理事長、《小日子享生活誌》創辦人)
「閱讀本書最大的收穫,並不是了解巨量資料的重要性,而是知道巨量資料可以如何應用在商業上?巨量資料帶給我們的衝擊會愈來愈大,你最好從現在就開始習慣。是的,我們活在廣袤的資料流中。而此刻,你無需驚慌,只需要有一本好書指引。帶著本書,讓我們啟航吧!」——鄭緯筌Vista(資深部落客、獨立媒體人)
退換貨說明:
會員均享有10天的商品猶豫期(含例假日)。若您欲辦理退換貨,請於取得該商品10日內寄回。
辦理退換貨時,請保持商品全新狀態與完整包裝(商品本身、贈品、贈票、附件、內外包裝、保證書、隨貨文件等)一併寄回。若退回商品無法回復原狀者,可能影響退換貨權利之行使或須負擔部分費用。
訂購本商品前請務必詳閱退換貨原則。最多人成交
平均成交價13折45元
最近成交價(折扣)
二手價 | 數量 |
2折 | 0 |
3折 | 3 |
4折 | 2 |
6折 | 5 |
7折 | 3 |
7折以上 | 1 |
徵求價 | 數量 |
2折 | 2 |
3折 | 1 |
4折 | 1 |
5折 | 29 |
7折 | 7 |
7折以上 | 1 |
影片僅供參考,實物可能因再版或再刷而有差異
作者:城田真琴
定價:NT$ 360
本商品已絕版
作者簡介:
城田真琴(Makoto SHIROTA)
野村總合研究所(NRI,Nomura Research Institute)創新開發部高級研究員、IT分析師,日本政府「智慧雲端運算研究會」智庫成員。負責高端技術趨勢調查研究、供應商戰略分析、國內外企業IT應用調查,專業領域為雲端運算、商務分析、M2M、IoT等。著作包括:《雲端運算的衝擊》、《你不可不知的雲端運算常識與非常識》、《2012年版IT年鑒》等。
譯者簡介:
鐘慧真(翻譯本書前言、一至四章)
「上輩子」是軟體工程師,國立清華大學電機工程研究所畢業,曾任職於飛利浦半導體與宏達電。目前是從事日翻中筆譯的家庭主婦,定居於日本長野縣。譯作《不執著的生活工作術》(經濟新潮社出版)。部落格:【黛博拉看日本】http://deborahjong.wordpress.com/。
梁世英(翻譯本書五至八章、謝詞)
日本一橋大學商學研究所碩士,專長財務金融,目前為專職日文譯者。譯作包括《這樣圖解就對了!》《鍛鍊你的策略腦》《想像的力量》《Facilitation引導學》(以上均由經濟新潮社出版)等。
名人推薦:
創造「偶然的幸運」(serendipity),正是巨量資料技術不斷前進的動力
文/陳志仁(台灣野村總研諮詢顧問股份有限公司副總經理)
接到本書導讀的邀稿時,剛好是我跟一家國內大型服務公司探討他們公司海外發展議題之後的下午。
這讓我想到,從2004年加入野村總合研究所台北分公司以來,轉眼已經過了九年。常有企業主在面對全球新的議題與挑戰時,諮詢我們的看法;而我們的顧問專家群,難免也會私下討論不同國家的企業主對於新事物的接受態度。
過去,我們總是以為台灣企業主很少願意從邏輯思考的角度,看清所謂新事物的全貌,凡事好像只想要得到「引進這件新事物的時機是否已經成熟?」的答案, 卻沒有深入思考「如何親自將新事物引進企業,做為企業超越自我的契機?」。
讀完這本書之後,我必須稍加修正以上的觀點,或許該說,如果對於新事物的介紹,可以有辦法解說得完完整整、面面俱到,那麼,企業主怎麼可能放過這些知識呢?
這本書是我在東京總公司的同事城田真琴的著作,在日本,這本書出版於2012 年7月,2013年陸續出版韓文版、簡體中文版與繁體中文版,是巨量資料領域的重要著作。我認為,這本書內容能讓台灣的讀者有機會看見全球發展「巨量資料」的全貌。
本書的內容在第一及第二章介紹了「巨量資料」在資訊科技技術上出現的許多新名詞,例如Hadoop、NoSQL、LOD 等;並且進一步解說企業在資料運用層面,從過去的「資料可視化」進展到「資料預測未來」的境界;因此,強調深層的資料調查以及準確度的預測,讓企業因為採用巨量資料的「技術」而進展到更高的境界。
簡言之,對於電腦技術名詞沒有興趣的讀者,可以想像,過去資料只能「知道交易已經完成」的階段,當運用巨量資料以後,已經進化到可以「知道交易完成的原因」了。
對於想知道全球企業實際應用巨量資料個案的讀者們,可以在第三章了解到四家歐美企業的成功案例,其中包含網拍公司eBay如何整合過去的資料倉儲分析系統與巨量資料技術,讓大家羨慕eBay員工擁有三個不同的資料分析基礎來支持他們進行業務的拓展。此外,第三章也介紹遊戲公司Zynga如何以5 %的付費客戶繳出11億美元營收的驚人業績。英國瓦斯及電力公司Centrica的個案,讓讀者了解英國把150萬顆機械電表改成數位電表後,巨量資料改變每個人生活的情境。第三章最後介紹的是大型零售業者卡特琳娜行銷集團(Catalina Marketing),豪氣地蒐集一億人的消費資料,達成「能夠以100 %的準確度,預測出像是會購買某個商品的潛在消費者」的行銷新境界。
當讀者沉浸於以上個案的激盪時,別忘了第四章還有四個日本企業運用巨量資 料的成功案例——小松(KOMATSU)是日本主要建築機械的供應商,其實在台灣的建築工地也不難看見小松的推土機以及怪手;小松的商業模式是租賃這些機械設備給營建商或是工務機構,因此,透過全球機械所不斷蒐集的相關巨量資料,已經可以用來推估設備維修的需求即將發生,以及給使用者燃料使用節省的建議做法等。
瑞可利(RECRUIT)是家擁有各式各樣網路專門服務的公司,有求職、結婚、購屋網等,他們採用Hadoop技術,加上名為MIT(Marketing & IT United)的新組織,跨部門整合公司內部各單位,讓企業內部更有效地蒐集與分享利用巨量資料。
此外,第四章也剖析日本遊戲公司GREE急速成長的原動力,在於「與其相信一人的判斷,不如相信數千萬人的資料」,他們稱為「資料驅動型營運方式」。第四章最後的日本麥當勞(McDonald’s Japan)案例,我在2009年就曾涉獵過,很佩服該公司仍持續發展個人化行銷的相關巨量資料,要達成「在現實世界實現一對一行銷」的願景。
原本我以為這本書第三章與第四章完整介紹歐美日的八個企業案例之後,到此 應該夠了,但是,身為一位任職於全球知名智庫的管理顧問專家,如果只是把資料說個夠多,並沒有滿足提出「洞察力」(insight)這樣的專業標準,可能無法滿足讀者追根究柢的渴望。因此,我們可以看見第五章有13個巨量資料的運用案例,進一步介紹「將巨量資料引進企業,做為企業自我超越的契機」的具體樣貌。
本書最令人讚歎的地方,在於作者將他研究企業應用巨量資料的成功案例,歸納成一張張淺顯易懂的圖表,其中,第五章【圖表5-1】巨量資料的運用模式,是一張相當精采的圖表,由個別最佳化、全體最佳化、批次處理與及時處理構成四種巨量資料運用的商業模式,滿足想要對於巨量資料獲利模式一探究竟的挑剔讀者們。
接下來,第六章探討美國歐盟以及日本主要國家對於巨量資料侵犯隱私的相關 法律及對應的措施,針對許多服務業者關心台灣對於消費者隱私保護的議題而言, 有具體的參考價值。
我們都知道,談巨量資料一定避免不了政府的公開資料(Open Data)此一環節,作者選擇在商業模式探討完畢之後,再來說明美、英、日等國政府鼓勵發展公開資料的具體做法,其實也確實符合我們的觀察,單單政府資料公開無法成為獲利 模式的趨勢;但是,如果沒有政府的公開資料,肯定有些美好的巨量資料商業模式就無法成真。
事實上,本書結論讓我非常震撼——我是一位1990年代投身職場的上班族,當 年,資訊工程師(Information Engineer)這個新職業造就了一波產業的革命,也 帶動了台灣服務業的一波成長榮景。本書最後,作者告訴我們,身處巨量資料的年代,不僅僅企業在組織內需要一位資料長(Chief Data Officer)的新角色;而且未來十年,整個IT業界裡最重要的人才將是資料科學家(Data Scientist)這個新人才。美國的大學已經開始開設主修分析學的研究所課程,展開人才的培養教育,他需要培養三種特質,容我賣個關子,把這個答案留給讀者在本書裡挖掘吧!
最後,很高興出版單位給我有機會搶先讀完本書,我也很喜歡作者在本書中提出的許多細微的觀察,例如,在說明亞馬遜(Amazon)電子商務的「協同過濾」(Collaborative Filtering)技術時,引經據典地介紹「偶然的幸運」(Serendipity)這個詞,這是來自英國小說家霍雷斯.華爾波(Horace Walpole)在1754年的新創文字,描述消費者意外擁有幸運或是發現有價值事物的奇特心情,很傳神地說明了給消費者不可預期的幸運,正是巨量資料技術不斷前進的動力啊!
Big Data, Big Intelligence:從資料、資訊到情報
文/翟本喬(本文作者為和沛科技股份有限公司總經理,曾任台達電子雲端技術中心資深處長、Google Platforms Architect。)
我在2006年任職於Google時,有一次,前往一所大學演講Google的儲存系統GFS。一位教授問我:「那資料要刪除的時候怎麼辦?」我反問:「資料為什麼要刪除?」在場所有人都露出奇怪的表情。
Google的認知是:資料(data)裡面會有資訊(information),「現在用不到」並不表示「以後用不到」。除非法律規定必須刪除,不然一概保留。今天大家已經聽到了「資料是新石油」(Data is the new oil.)這句話,也開始知道了資料中會有「看不見的價值」。
《孫子兵法》共有十三篇,最後一篇談〈用間〉,也就是情報戰。情報的價值,遠高於其他戰術或武器。今天所謂的精靈武器,就是能妥善運用地理定位(Geolocation)和圖形識別(Pattern Recognition)等技術所取得的資訊和情報。由最近幾年公布的許多資料可以看出,第二次世界大戰的勝負,其實就是決定在情報。由美軍破解日本海軍密碼而在中途島(Midway Islands)洞燭機先,到英國破解德軍潛艇的Enigma密碼而殲滅狼群以保全橫渡大西洋的生命線,都是任何戰術和武器無法獨自達成的。
情報如此重要,許多人把失敗的責任歸責於錯誤的情報,或是缺乏情報。事實上,我們的四周充滿了大量的情報,只是一般人無法有效正確地辨識。例如珍珠港事件(Pearl Harbor Bombing)之前,已有一封緊急電報示警,但是這封電報遭人擱置,直到事件發生之後才譯出。有能力正確並及時辨識這些情報的人,小者被稱為福爾摩斯(Sherlock Holmes)或是柯南(名探偵コナン),大者就被稱為諸葛亮。在商場不見硝煙的戰爭中,情報更突顯出它的重要。今天我們開始擁有了處理這些大量資料的工具,更重要的是讀懂這些資料,把它們轉化成可用情報的智慧。正如我在 Facebook 上說過的(編按:全文詳見作者網誌〈IoT 和 Big Data 商機的迷思〉):
想要做Big Data(巨量資料)的人請先認清楚:什麼是Data(資料)?
◎ 存得起來的,就是storage(儲存)。
◎ 看得到的,才是data(資料)。
◎ 看得懂的,叫做information(資訊)。
◎ 用得出來的,才能稱為intelligence(情報、智慧)。
Big Data這個名字事實上是有點誤導。真正賺錢的,是從big data中萃取出來的 big intelligence。
為什麼CIA叫作Central Intelligence Agency(中央情報局),而不是Central Information Agency(中央資訊局)或Central Data Agency(中央資料局)?而萃取information和intelligence的技術並不是現在才有的。
隨便問一個有水準的資訊資工系教授,就會告訴你data mining(資料探勘)、neural network(神經網路)、pattern recognition(圖形識別)、statistical machine translation(統計型機器翻譯)、information retrieval(資訊萃取),...等等領域的歷史。這些才是困難而需要投資開發的領域,而不是一個簡單的大量儲存和平行運算系統。
我在2003年進入Google的時候,正是MapReduce初啟用之時。Google原本的Indexer是一套大程式,用了幾百台伺服器,要一個多星期才能完成工作。而中間只要有一台機器當機一次,就要全部重來。Google因此設計了MapReduce這套系統,主要目的在於容錯。將資料切成許多小塊,分到獨立的伺服器上處理。雖然機器數量增加到了兩千台,但中間不管怎麼當機都沒關係了。後來在論文發表後引出了Hadoop這個Open Source的軟體,給了想做大量資料分析的人一個很好的工具,也讓Hadoop在很多人心中變成了Big Data的同義字。
但事實上Hadoop只是一個平行分散式資料處理的工具,真正能為資料創造價值的是上層的智慧分析。這些工具是讓資料分析師(以後是叫做「資料科學家」?)能把時間用在真正重要的工作「資訊萃取」上,而不只是打造所需的工具。想要靠 Big Data 做一番事業的人,絕不是只要學會了這些工具就可以了。
1994年,商用的Internet開始成型,因為modem的速度和價格開始達到一般人可用的範圍。今天,儲存和處理資料的速度和價格也開始達到一般公司可以負擔得起初步的Big Data處理的程度。商用Internet起步的初期,業界很多人認為只要架個網站就會有生意上門。今天我們在Big Data這個領域也會有這麼一段混亂期,需要藉著更多好的介紹書籍和文章的引入,可以縮短這段過渡期。
很高興看到這本書並未落入坊間許多一窩蜂介紹工具的潮流,而能把主要的篇幅用在許多其他重要的面向。希望讀者在看完本書之後,能對如何萃取周遭的資訊並加以運用有更深一層的認識,並從Big Data進步到Big Intelligence的層級。
共勉之。
推薦序:當商業智慧隱藏在雲深不知處
文/楊千(本文作者為國立交通大學經營管理研究所教授)
巨量資料是個必然趨勢。
巨量資料(亦稱為海量資料、大數據)指的是在以往一般技術不容易管理但現在已能有效儲存、分析的大量資料。
自從有了網際網路,資料的產生已不是各個組織的內部活動所產生的,而是包括了跨組織的各項活動記錄,更包括了數以億計的人類在網路上各自產生及互動的資料;在工具使用上除了傳統電腦、平板、智慧型手機、以及各項道路監視器、環境監控數據設備。
從中國的歷史上來看,資料的產生、儲存、傳遞,講的是「字」。我們的祖先結繩記事也好,用龜甲牛骨刻下所謂的甲骨文也好,都是費時費力的。到了用竹簡記事,也記不了太多的字。以前的人說「學富五車」是形容書讀很多的意思;然而,如果以尚未發明印刷術的眼光來看,「五車」的竹簡,大概指的是《論語》已經讀了好幾篇,快要讀《大學》《中庸》。
有了電腦之後,早年的資訊科技,不論是資料的產生、儲存、傳遞,講的是K (Kilo、 仟、十的三次方或二的十次方)。到了1990年代,講的是M(Mega、Million、百萬、十的六次方或二的二十次方 )。進入二十一世紀,2000年左右,講的是G (Giga、Billion、十億、十的九次方或二的三十次方)。現在,我們講的是T(Tera、Trillion、萬億、兆、十的十二次方或二的四十次方)。由此可見,資料的產生、 儲存、 傳遞真的進步太多了。
所以,我的博士班學生畢業的時候, 只要一片光碟,就能把他們所有讀過、寫過的文章全部備份起來,非常輕便(卻也很沒成就感)。
鑑往知來,如果資訊科技進步繼續下去,我們會從T(tera)一路走到P(petra、 十的十五次方)和 E(exa、十的十八次方)的世界(TPE也剛好是台北在國際航空的代號桃園國際機場)。
英國Centrica電力公司可以每三十分鐘透過網路讀取用戶智慧電錶一次,每天抄電錶四十八次,它能對用戶的用電行為觀察更多更瞭解,甚至分析之後能對客戶行為有更精準的預測,可以調節不同用電需求的輸配電電路。 每天抄錶四十八次,一年就產生1T的資料。
1970年代,10M的磁碟機要40萬台幣,可以買當時的豪宅一棟;2000年左右,2G隨身碟(200個10M)約2萬台幣,可買當時的小噸數窗型冷氣機一台;現在(2013年),128G(64個2G、12800個10M)的隨身碟,新台幣2,388元即可入手,這個價格可以讓一對情侶到五星級飯店的自助餐廳用餐一次。
在資訊科技進步的軌跡上,我們不只已看到巨量資料的應用,我們更確信它的普及是個必然趨勢。
在數學符號上就是一個國中生寫下「1020」不會有甚麼感覺,它就是1的後面跟上20個零。但是,在實體世界裡 全地球所有海灘的沙粒總數大約就是這麼多粒,是很多很多的,對我們個人來說就是無限大,在佛經中則稱為「恆河沙數」。
小孩子不容易忘記,是因為他的記憶內容少,比較容易找到記得的事物;大人容易忘記,是因為記憶內容較多,卻沒有用心建立索引目錄分類、缺少工具與方法,或是傳輸線老化接觸不良,不容易找到曾經記憶過的事物。
如果資料少,當然容易找到過去的紀錄;如果資料多,當然增加極大的困難;更何況,要分析巨量資料中的數不盡的關係與內涵,絕對不是單純的正比關係。
如果在一家企業內部進行資料探勘應用,我們稱之為商業智慧(BI,Business Intelligence),這是許多公司知識管理的範疇,也已經有二、三十年的歷史;台灣資訊管理相關科系都有在資料庫相關課程裡探討。許多像SAP、Oracle、IBM等公司都提供類似的軟體工具。
但是,到了巨量資料一路往TPE走,許多智識都隱藏在雲深不知處,確實是能夠探勘出有價值的資訊,變成更有必要卻更困難,因此需要更有競爭力。
本書提出許多實際成功應用的案例,列出相關互動隱私及安全的議題,是一本有相當廣度的巨量資料相關讀物,很適合關心未來的知識分子閱讀。
推薦序:當巨量資料與社會脈絡交集
文/徐子涵(本文作者為英國開放知識基金會地區大使、Fertta Communications執行長、Code for Tomorrow共同發起;個人網站:http://blog.schee.info/)
近一年來,巨量資料的詞彙屢次出現在不同的媒體,似乎是一股海嘯襲來的態勢。在2013年的今日,除了網絡節點高速增長之外,你手中的行動運算裝置,也是資料廢氣(data exhaust,意指無法再次利用的資料)的大宗來源。
在PC產業的景氣低迷之際,不只資訊業界引頸期盼,連產業大老們深入了解Big Data之後,也興奮地呼喊著時髦用語「Eureka! 」(我找到了!),藉此表達他們心中如同發現新大陸般的欣喜。(註:阿基米德泡在浴缸時,突然領會「物體所受的浮力等於排開的水重量」時,欣喜地跳出浴缸裸身跑到街上大喊:「Eureka!」)
事實上,我們不可能再回到直立人(Homo erectus)的演化初期,力行資料節食(information diet)。因為在那個年頭,資料和社會脈絡的躉集,不只相當離散,更是無法捕捉聚合。
但是在今日,資料可說是唾手可得。不過,這些資料終究必須回到為人所用的範疇,而我們在消費資料的過程,則構成了多樣的社會、經濟行為的面貌。就跟當初內燃機的興起促成了工業革命一般的令人興奮,在兩、三百年的發展之後,人類的富裕程度普遍提高,也留下了更多有待共同智慧解決的問題。
然而,對於大多數人來說,別說是巨量資料,連微量資料 (small data) 都還不知如何捕捉,也可能毫無所知。
很幸運地,本書的付梓,提供了一個巨量資料生態圈比較完整的面貌,是非常好的出發點。
試想,人與城市之間的交流,是實實在在地日益頻繁。如果巨量資料的革新從城市開始,那麼總要先知道城市的現況是什麼?城市的脈動如何實時感測?微觀之細小變動,如何啟發巨觀的都會更新?龐大的數位原住民(digital natives),每天所勾勒出無法想像的數位都市面貌,算不算城市的一部分?
我們借用網路業者常用的服務績效指標來試試,例如:城市如何獲取用戶(user acquisition)?外來旅客在城市之間的跳離率(bounce rate)要如何定義?城市網絡鄰近度(network proximity),無論是道路本身、還是人與人之間,這密度要怎麼估算?如何在動態城市記錄有意義的數字(measure things that matter)?這跟巨量資料有什麼關係?這又跟製圖學(cartography)有什麼關係?
我們可以進一步運用巨量資料的概念、技術與應用的堆疊(stack),來針對城市、以及比城市更小社會組織元素,例如:大型公司、中小企業、社區、非營利組織,甚至是政府機構(尤其是開放資料[open data〕的部分)的未來發展對策。現行的組織、文化和結構,是否能因應龐大的資料海嘯?組織是否願意學習如何記錄、發掘、分析,然後透過資料,進行資源的重新分配?這是相當有潛力,也是最令人困惑的巨量資料發展領域之一。
此外,台商在海內外具有規模的產業聚落,其服務對象多以 B2B(business to business) 為主。企業規模大到即使在供應鏈的任何環節能夠做出優化,然後具體落實到資源調度,這樣的想像,當然會提供業者部分的誘因,投入資料儲存和分析的資源。便利商店和流通業者等,就是如此脈絡的例子——明確定位本身優勢,進而透過巨量資料,優化商業的流程,甚至重新定義市場的藍圖。
隱私(privacy),是巨量資料衝擊的另一個重要面向。美國和歐盟對於隱私的做法相當的不同,甚至已經是高到處理態度的本質不同。在資料大量釋放後所進行關連比對的同時,隱私的失落和認知版圖的推移,更需要我們正視。隱私設計(Privacy by design)在實務上的落實不足,以及資料的隱私、安全(security)和自主權(data ownership)缺乏好的討論場域。巨量資料在這部分所產生的巨大衝擊,在本書我們可以看到更為完整的討論,以及甚少被提到檯面上的實務做法。
最後,本書最值得推薦閱讀的部分,在於日本企業小松(KOMATSU)、瑞可利(Recruit)、GREE等,如何運用巨量資料強化地域經濟的思維。在面臨全球產業布局和硬體利潤微薄化的今日,如何槓桿地域劣勢,轉化為全球區域發展的特色核心,日本政府和民間的過來經驗,不失為台灣各界的參考基準。
推薦序:Data, Data, Data:我們活在廣袤的資料流中
文/鄭緯筌(本文作者為資深部落客、獨立媒體Tappier站長,網址:blog.vista.tw、tappier.com )
你曾經聽過「尿布和啤酒」的故事嗎?上個世紀末,曾有許多剛當上父親的美國人,被老婆大人指派去超市買嬰兒的尿布,通常也會順便購買啤酒犒賞自己。聰明的賣場人員觀察到這個現象之後,便把這兩樣商品放在相近的區域,不但提高了商品的銷售收入,也增加顧客上門的機率。
這是實際發生在美國沃爾瑪超市(Wal-Mart)的案例,也曾刊載於一九九八年出版的《哈佛商業評論》(Harvard Business Review)。尿布和啤酒看似風馬牛不相干,但兩者之間卻又隱隱有著微妙的關連。能夠從巨量資料中理出頭緒,自然有機會可以找到成功的關鍵,而不懂得與資料為伍的公司則可能錯失商機,甚至被時代所淘汰。
不只是商業發展,巨量資料也可以對社會公益有所貢獻。好比2003年發生SARS疫情時,有二位美國Google的工程師就從大眾所常搜尋的關鍵字中,預測出可能爆發疫情的地區,這也讓美國疾病控制預防中心大感意外。
原來只要有大量資料做佐證,經過一番抽絲剝繭也能找到蛛絲馬跡。難怪趨勢科技(Trend Micro)創辦人張明正看好巨量資訊的發展,更直言這是新經濟時代的金磚。
巨量資訊不但會改變人們的生活,更可能改變企業經營的模式。好比書上有提到美國社交遊戲巨擘Zynga的案例,這家遊戲公司不但擅長打造迷人的遊戲,更懂得透過大量資料來分析、臆測人性。有趣的是,他們自稱是一家「披著遊戲開發商外皮的資料分析企業」,也認為遊戲就是一種由資料驅動的生活服務。
因此,Zynga公司認真傾聽用戶的回饋,再據此進行微調和修正——不但精心設計每一款遊戲的關卡,連虛擬道具的顏色和尺寸都斤斤計較。而從巨量資料所獲得的回報,自然就是玩家與日俱增的向心力以及節節上升的營收了。
很高興有機會提早拜讀這本書,更從中獲得許多和巨量資料有關的啟示。不只是趨勢和數字,我更在這本書中覷見這個時代的發展前沿。日常生活中,一筆又一筆的資料驅動了我們的工作與生活,但未來該何去何從呢?從這本書裡面,可以找到許多線索。
我喜歡這本書的原因,不只是作者出身日本野村總合研究所,那個被喻為是日本最有影響力的民間智庫,更因為本書從Google、Facebook、Zynga、GREE、DeNA和麥當勞等傑出企業的營運歷程中,有條不紊的整理出巨量資料與成功之間的關連,再呈現出箇中的脈絡。
閱讀本書,最大的收穫不是了解巨量資料的重要性,而是知道巨量資料可以如何應用在商業上?巨量資料帶給我們的衝擊會愈來愈大,你最好從現在就開始習慣。
是的,我們活在廣袤的資料流中。而此刻,你無需驚慌,只需要有一本好書指引。帶著這本書,讓我們啟航吧!
推薦序:老大哥在看著你:Big Data? Big Brother?
文/劉奕成(本文作者為英商巴克萊銀行台北分行董事總經理、台灣金融分析專業人員協會[CFA台灣分會〕理事長、《小日子享生活誌》創辦人)
幾次水淹台北城的磨難後,我失去了童年生活的真實紀錄,只剩下漫漶的孩提記憶偶然靈光乍現。少數依然時刻鮮明的往事,就是跟著從事工程的父親,隨著工地東搬西遷。當父親參與建設北迴鐵路,我隨家人在太平洋海濱卜居一段時日;四、五歲的年紀無所事事,每天看著雲、望著海,臆測目光遠處僅如沙粒大小的人影,到底在做些甚麼?有時散坐海岸終日看著海浪拍岸,彷彿爭先恐後向上;抬頭望著天空風動雲湧,有如一瞬之間向下。直到現在,還會被夢中海浪衝擊礁岩的聲勢驚醒;從童騃時我便體會到:無垠的天空,給人遼闊的想像;深邃的海洋,擁有世界上最巨大的力量。
後來搬回市區上小學,家中長輩俱皆忙碌且放任,因此我成天在外閒蕩,也偶爾在圖書館晃悠,看似有學問的人從書架上挑書;我也依樣畫葫蘆,找了本《一九八四》(Nineteen Eighty-Four)。原因無他,書名只有數字,內容似乎簡單。花了一個下午瀏覽,還是看不懂,只記得書中說「老大哥在看著你」(Big brother is watching you.)。從此鎮日疑神疑鬼,總以為有人看著我。三十年後才發現,這不是開玩笑的,史諾登(Edward Snowden)揭發的稜鏡計畫(Prism),說明了像你我這樣的無名小卒,也在美國政府的通訊監控下。
年歲漸長,我發現自己喜歡想像別人的生活方式,或者應該說,承認自己也很好奇別人的生活方式。所以我貪看電影,滿足對想像的猜測與印證,偶而也喜歡幫朋友和慈善團體對發票,從發票上的明細想像著人們的日常生活。翻閱城田真琴所寫的這本書時,桌上正散落著書稿及發票,才赫然想起,這不就是「老大哥在看著你」?
隨著所謂「巨量資料」的一時風行,或許不一定是現在進行式,但是很可能是未來完成式。不論是當你我走在社區巷道時,無數個鏡頭以治安為由居高臨下監視錄影,或是網站上按讚、留言、分享,不得不承認「凡走過必留下痕跡」。甚至,即使我們足夠謹慎,沒有暴露身分,但是,分析專家已經從周圍的人或同類型者的行為模式為線索,猜想到你我的生活方式。不只是詳細記錄分析你我踩著蹣跚步履、從過去走到當下的每一步,還能預測到未來幾步路——沒錯!「老大哥在看著你」。
翻攪過去的資料並不容易,但是隨著「巨量資料」的運用漸趨成熟,未來的影響難以想像。本書介紹的巨量資料,也稱為「大數據」或「海量資料」,是一種繼「資料採礦」(data mining;資料探勘)以及「雲端運算」(clouds computing)之後,最令人驚豔的時代趨勢;這本書雖短小輕薄,卻具體而微地描述了這些流行趨勢。
在很多人還不曾聽過「巨量資料」之時,這個趨勢卻已經引起關注,世界知名的沃爾瑪(Wal-Mart)早就利用平均每小時可處理100萬筆資料,儲存了2.5PB之多的資料,從而進行「資料採礦」,擬定產品庫存與定價,對於陳列及倉儲的擺放,也有巨大的貢獻。更在2011年4月收購分析社群媒體的公司Kosmix,進一步從資料中找出隱含的資訊、問題、價值與商機;比方說,從社群媒體的資料分析某一城市有許多人喜歡騎車,並且依此調整門市的貨物。
真正運用雲端及海量資料最嫻熟的公認是Amazon,即使沒有登入帳號,僅在Amazon站內搜尋,Amazon馬上以「經常一起購買的商品」和「購買此商品的顧客也同時購買……」的方式,推薦你我其他可能也會有興趣的商品或書籍,而且往往能精準命中、搔到癢處;Amazon對消費者行為的了解,實在令人咋舌不已。
這種「準確猜中你我在想甚麼」的準確度,很容易讓人以為是偶然的幸運(serendipity);然而,幸運並非偶然——其實,精準預測是由資料科學(data science)與商業智慧(BI,business intelligence)縝密運作的結果。當你我身處於強調「與其相信一個人的判斷,不如相信千萬人的巨量資料」的時代,身為決策者,已經不能只靠直覺或數字,更必須融合資料科學,從各種消費紀錄、社群網站的輿情觀測、打卡定位等資料中萃取價值,做為決策參考之用;也難怪,資料科學家(data scientist)成為「未來在等待的人才」。
行筆至此,我想起高中時期,由於對人類行為的好奇與執著,捨棄世間既定「男生就該念自然組」的傳統,選擇社會組就讀;卻在二十年後發現,原來,現在要了解人類行為,光是憑著五感觀察還不夠,必須從千萬人的資料中找出價值,還得要了解「礦」(資料採礦)、「雲」(雲端運算)、「海」(海量資料),這些都是屬於自然組領域的知識啊!當我看到這本書中提到「好奇心」的重要,覺得很有意思——原來,我對人類行為的好奇心,竟然就是當今資料科學家必備條件之一!也讓我對於當年的決定終能釋然。
話說回來,說也奇怪,每次談到巨量資料,腦海中便突然出現卜居太平洋岸的童年。這些冠以自然之名的行為科學分析,真的就有如當年看海的日子;最重要的就是下方的「海」——巨量資料,和上方的「雲」——雲端,就像自然界一樣,無邊的海洋水氣蒸發,上到雲端,累積轉換足夠的水分,便天降甘霖傾瀉而下,滋潤眾生。
然而,當所有人一呼百諾,簇擁著「巨量資料」招搖過市時,耳聰目明的先知早就知道:其實巨量資料仍有其侷限性,很多事情其實還是分析不出來的,甚至於有更多的情況下,巨量資料其實有其傷害性的。這本書的作者,便是先知之一;書中除了張揚巨量資料的可能好處,也對巨量資料提出質疑,有時也提出解答。以本書第六章為例,不但具體針砭巨量資料可能觸及的隱私問題,同時也明確指出使用巨量資料的原則,例如「引進刪除過去個人資料的權利」以及「尚未明確取得用戶同意的情況下,禁止處理個人資料」等做法。不過,可取但可惜的是:本書也介紹許多法令的要求,但是因為是日本法令,我們只能望洋興嘆。
本書也藉由2009年「Raw Data Now!」的呼喊,披露了政府機關只會窖藏資訊,卻不懂得分析、也不願意公開的窘境,其實,台灣的機關企業也有類似的狀況,許多組織買了最貴的資料庫系統,號稱進行資料採礦,其實只是把資料窖藏在資料庫中,說穿了就是「坐在黃金堆上的乞丐」。未來,從資料採礦再跨大步到巨量資料,除了本身的資料,還可以加上公開資料(open data),並且資料也將更即時,更有影響力。除了自以為是亂找一些資料配對,還需要對行為本身有更多的了解,才能讓巨量資料發揮效果。
真正令人激賞的,是作者開放的胸懷。他說:「誠心建議握有原始資料的企業或資料整合公司,不應只在所屬業種之中劃地自限,而應以廣闊的視野、不受業種設限的態度,制定資料運用策略。」唯有如此,才能讓巨量資料走上坦途。未來這段時間,所有從事行銷或商務的人,都將會遭到「巨量資料」淹沒,在載浮載沉之間,我推薦這本書當作你我的浮木,讓我們面對資訊洪流(data deluge),卻依然能一窺堂奧。
如今想來,童年時在太平洋岸看到海天一色、自然寫意的風景,就像是當今「雲端」與「巨量資料」的隱喻。雖然到目前為止,巨量資料並不是所有問題的解答,但是,設法找出資料中的價值進而預測未來的商業智慧,才是未來商戰致勝的關鍵。
各界推薦
美商天睿資訊系統有限公司(Teradata)台灣分公司總經理 吳世鈺
英國開放知識基金會地區大使 徐子涵(Schee)
國立交通大學經營管理研究所教授 楊千
PC HOME網路家庭董事長 詹宏志
和沛科技股份有限公司總經理 翟本喬
英商巴克萊銀行台北分行董事總經理 劉奕成
資深部落客、獨立媒體人 鄭緯筌(Vista)
推薦語
「本書提出許多實際成功應用的案例,列出相關互動隱私及安全的議題,是一本有相當廣度的巨量資料相關讀物,很適合關心未來的知識分子閱讀。」——楊千(國立交通大學經營管理研究所教授)
「我很喜歡作者城田真琴在本書中提出的許多細微的觀察,例如,在說明亞馬遜(Amazon)電子商務的「協同過濾」(Collaborative Filtering)技術時,引經據典地介紹「偶然的幸運」(Serendipity)這個詞,這是來自英國小說家霍雷斯.華爾波(Horace Walpole)在1754年的新創文字,描述消費者意外擁有幸運或是發現有價值事物的奇特心情,很傳神地說明了給消費者不可預期的幸運,正是巨量資料技術不斷前進的動力啊!」——陳志仁(台灣野村總研諮詢顧問股份有限公司副總經理)
「本書的付梓,提供了一個巨量資料生態圈比較完整的面貌,是非常好的出發點。其中最值得推薦閱讀的部分,在於日本企業小松(KOMATSU)、瑞可利(Recruit)、GREE等,如何運用巨量資料強化地域經濟的思維。在面臨全球產業布局和硬體利潤微薄化的今日,如何槓桿地域劣勢,轉化為全球區域發展的特色核心,日本政府和民間的過來經驗,不失為台灣各界的參考基準。」——徐子涵 Schee(英國開放知識基金會地區大使、Fertta Communications執行長)
「想要做Big Data(巨量資料)的人請先認清楚:什麼是Data(資料)?存得起來的,就是storage(儲存)。看得到的,才是data(資料)。看得懂的,叫做information(資訊)。用得出來的,才能稱為intelligence(情報、智慧)。很高興看到這本書並未落入坊間許多一窩蜂介紹工具的潮流,而能把主要的篇幅用在許多其他重要的面向。希望讀者在看完本書之後,能對如何萃取周遭的資訊並加以運用有更深一層的認識,並從Big Data進步到Big Intelligence的層級。」——翟本喬(和沛科技股份有限公司總經理,曾任台達電子雲端技術中心資深處長、Google Platforms Architect。)
「身處於強調「與其相信一個人的判斷,不如相信千萬人的巨量資料」的時代,身為決策者,已經不能只靠直覺或數字,更必須融合資料科學,從各種消費紀錄、社群網站的輿情觀測、打卡定位等資料中萃取價值,做為決策參考之用。未來這段時間,所有從事行銷或商務的人,都將會遭到「巨量資料」淹沒,在載浮載沉之間,我推薦這本書當作你我的浮木,讓我們面對資訊洪流(data deluge),卻依然能一窺堂奧。」——劉奕成(英商巴克萊銀行台北分行董事總經理、台灣金融分析專業人員協會[CFA台灣分會〕理事長、《小日子享生活誌》創辦人)
「閱讀本書最大的收穫,並不是了解巨量資料的重要性,而是知道巨量資料可以如何應用在商業上?巨量資料帶給我們的衝擊會愈來愈大,你最好從現在就開始習慣。是的,我們活在廣袤的資料流中。而此刻,你無需驚慌,只需要有一本好書指引。帶著本書,讓我們啟航吧!」——鄭緯筌Vista(資深部落客、獨立媒體人)
退換貨說明:
會員均享有10天的商品猶豫期(含例假日)。若您欲辦理退換貨,請於取得該商品10日內寄回。
辦理退換貨時,請保持商品全新狀態與完整包裝(商品本身、贈品、贈票、附件、內外包裝、保證書、隨貨文件等)一併寄回。若退回商品無法回復原狀者,可能影響退換貨權利之行使或須負擔部分費用。
訂購本商品前請務必詳閱退換貨原則。二手價 | 數量 |
2折 | 0 |
3折 | 3 |
4折 | 2 |
6折 | 5 |
7折 | 3 |
7折以上 | 1 |
徵求價 | 數量 |
2折 | 2 |
3折 | 1 |
4折 | 1 |
5折 | 29 |
7折 | 7 |
7折以上 | 1 |
最多人成交
平均成交價13折45元
最近成交價(折扣)
請在手機上開啟Line應用程式,點選搜尋欄位旁的掃描圖示
即可掃描此ORcode