2008年美國總統大選,他成功預測歐巴馬勝選。
50州個別選舉結果,49州預測正確。
35席參議員的勝選者,則全部猜對。
2012年,他再次成功預測歐巴馬勝選,
這次,50州全部命中。
他開發的棒球預測系統精準無比,
被知名棒球評論媒體收購。
他個人更曾運用統計預測的專才,
在德州撲克賭局賺進上千萬元。
他是奈特.席佛,
當代最受矚目的統計與預測鬼才,
首次公開精準預測的黃金法則,
告訴你為什麼有些預測會成功、有些會失敗?
★出版三個月穩居亞馬遜書店銷售總榜前20 名、商業理財類第1名、政治社會科學類第1名
★《紐約時報》暢銷書排行榜前10名
★榮登亞馬遜書店2012年度「非文學類」第1名
★獲選為亞馬遜書店編輯嚴選2012年度商「商業類」最佳書籍
★獲選《華爾街日報》2012「十大最佳非文學類好書」
★《紐約時報》書評盛讚:「10年來最重要的一本書」
★2009年《時代雜誌》將奈特˙席佛列入「世界最有影響力的百大名人」
★2012年《滾石雜誌》將奈特˙席佛譽為「改變遊戲規則的人」
數據不會說話,是你在為它說話。
˙美國政府長期蒐集許多情報,但為何還是無法預見911恐怖攻擊?
˙2007年房市泡沫爆發前,華爾街的金融專家們為何看不見崩盤的警訊?
身處「巨量資料」(big data)時代,照理說我們擁有空前充足的資料,去做各項預測。但各行各業掌握最多資料的專家與決策者,卻都還是不斷做出失敗的判斷,這是怎麼回事?作者奈特.席佛指出,人的解讀比數字更關鍵,而預測最難的部分在於:人要懂得分辨出哪些是無意義的雜訊,哪些才是關鍵的訊號。誤把雜訊當訊號,做出來的預測,自然不會準確,甚至會造成嚴重的謬誤與損失!
數據導向的預測會成功也會失誤,要求更多數據之際,人更應該自我要求。
最常出錯的就是過度自信、被稱為「刺蝟」型的預測者,他們很會歸納、喜歡大原則、很有膽識,雖不斷收到新訊息卻很少修改預測,他們做預測常成為一種「表演」,模糊了追求精準預測的動機。(代表人物:成為名嘴的專家、認定自己能翻盤的賭徒。)
另外一個大家常犯的錯,是忽略「樣本外」的重大新資訊。假設你從未酒後駕車,肇事紀錄也很低。今晚你喝了酒,請預測今天駕車肇事的機率?如果你拿過去的記錄分析預測,那麼你出事的機率肯定相當低;但是喝酒開車並不在你過去記錄的樣本內。這個預測問題出在模型錯了、忽略樣本外的重大訊息──而這也就是席佛認為,大家對房市泡沫以及雷曼兄弟垮台,無法精準預測的主因。
在本書中,席佛針對政治選情、球賽結果與球員價值的評估、金融風暴、氣象、地震、撲克賭局、西洋棋賽、股市投資等跨領域的預測難題,做了精闢的個案分析。雖然領域迥異,但預測要精準,背後的原則與邏輯卻都是一樣的。在一個個精彩的故事中,即使沒有統計背景的讀者,也能一點一滴拼湊、建立預測的基本功,並且可以練習把這些原則與技巧,運用在自己的專業領域上。(甚至可以用來預測伴侶外遇的機率:詳見第8章)
◎席佛在書中不斷提醒預測者:
˙預設立場或過度自信,對預測來說,是非常可怕的事。
˙預測不是在追求是與非,而是估算事情發展的「機率」。有精準的機率,才能做出有利的決策。
˙做預測時,最怕一看見「有相關」就解釋成「因果關係」。(冰淇淋 vs. 森林大火)
˙預測時不能忽略「誤差」,並要勇於承認有「不確定性」。 不然你會過度解釋,變成不精準的預測。
˙根據預測出來的機率,做了最有利的選擇,即使最後結果不好,仍然是好預測。
˙在很多情境中,不是一定要追求終極完美的預測,只要預測比競爭對手好,你就贏了。
˙當大家不免被雜訊迷惑時,問問自己,你有什麼法寶,能讓自己更接近真相?跟著法寶走,不要跟著群眾走。
˙有新的重大資訊進來時,能保持客觀,隨時更新的預測,才有可能是精準的預測。
◎書中也有許多發人深省的預測思考訓練:
【情境1】在股市裡,為什麼贏的人反而輸了?
現在舉辦一場拍賣會,拍賣一個裝有零錢的罐子,大家去猜測裡面有多少錢,並決定你願意用多少錢去標這一罐錢。出價最高的,可以把罐子帶走。
這是經濟學裡一個常見的實驗,實驗的結果,往往都是這位贏家所出的錢,大過罐子裡的錢。沒贏就算了,贏了反而賠錢,這就是所謂的「贏家的詛咒」。這件事的問題出在,贏的那個人,做出了很糟糕的預測。很多時候,是預測者過度自信了。
這個實驗,跟股市的特性是一樣的。往往當許多投資人都「感覺現在是投資的好時機」時,同時期股價都會飆高。雖然這明明跟股票應該買低賣高的邏輯背道而馳,但是人總是會在這些時候特別樂觀,大膽搶進。所以這些投資人,如果在股市裡失利了,都是因為他們誤將樂觀氣氛這個雜訊,當成可以搶進的訊息,做出了錯誤的預測的關係。
【情境2】為何九一一攻擊時,第二棟大樓被撞不用太驚訝?
根據貝氏定理,做預測時,事前某件事的發生機率有多高,會很大程度影響後來的發生機率。
九一一恐怖攻擊那天早上,大多數美國人都會認為恐怖分子用飛機撞進曼哈頓高樓的機率趨近於零。那是第一架飛機還沒撞進大樓前的數據。等到第一架飛機事故發生之後,第二棟樓被攻擊的可能性就無庸置疑了。
根據貝氏定理的公式計算,第一架飛機事故前,美國高樓被恐怖攻擊的可能性根據歷史紀錄可是兩萬分之一,或者說0.005%。第一架飛機事故發生後,美國被恐怖攻擊的機率當下被改寫,提高到了38%。這時,當我們再預估第二架飛機撞上高樓發生的機率時,運用貝氏定理的公式計算之後,整體機率陡增到99.99%。(貝氏定理用一行簡單的公式就能算出這個機率,詳見第8章)
然而,一般人「憑感覺」的預測卻是:在艷陽高照的紐約,發生一次意願已經夠不可能了,第二次幾乎是真的完全不可能!但使用貝氏定理,卻能輕鬆預測第二起事故的發生。這就是為什麼我們在做預測時,不能憑「感覺」,而要信賴客觀工具的原因。
【情境3】氣象預報不準確,能不能怪罪預報員?
依照基本原則來看,所有的預測,顯示的結果應該都是機率,而且一定會有不確定性。氣象的預測,也不例外。
美國國家氣象局經過長年來的努力,所取得的氣象資料以及他們的預測,準確率已經大有進展。然而,為何大家仍覺得氣象預報不準?
這是因為商業氣象頻道,為了顧客服務的經濟動機,有時會在資料的呈現上做些操弄。比如,當他們說降雨機率20%時,有時其實只有5%。因為民眾對於這種幫助提高警覺的「假警報」不介意。相對的,若他們預期不會下雨時卻下雨了,大家就會咒罵氣象頻道毀了他們的野餐。而且,氣象預報時,更無法呈現出「不確定性」,誠實展現出預測中的不確定或者誤差,也會有損預報的權威感。
在這樣的情況下,並不是預測技術無法精準,而是氣象頻道實在沒有砥礪自己追求預報精準的動機。然而,這是個惡性循環。結果就是當真的發生卡崔娜這樣的颶風時,很多已經把氣象預報當成「狼來了」的民眾,就可能會喪失性命。
作者認為,一個預測的人,職責就是應該要盡力做出精準的預測與預報。這一點,氣象的預報人員,沒有做到。雖然本來也許有時是出於好意。
作者簡介:
奈特.席佛 (Nate Silver)
他精通統計學,是美國當代知名的統計與預測鬼才。他從小就對數字與思考展現興趣與天分,六歲便開始預測棒球賽事。高中時代曾拿過密西根州辯論冠軍,後來進入芝加哥大學主修經濟學,並在大三前往倫敦政經學院研修一年。大學畢業後,進入安侯建業事務所(KPMG)擔任顧問。利用工作之餘,研發出一套創新的棒球賽事預測系統PECOTA,因為精準至極,甚至吸引棒球界聖經 Baseball Prospectus 於2003年向他收購。席佛也將他統計與預測的天賦應用於德州撲克,曾經短期內就讓他贏得上千萬元財富。
他在2008年美國總統大選之前成立了「五三八」網站,發表他的選情預測,獲得廣泛注意,隨後他在這個網站公布預測,成功預測歐巴馬勝選,而且是在50州的個別選舉結果中,49州預測正確,35名參議員選舉更完全命中。2012年的總統大選,他再度成功預測歐巴馬勝選,這次50州全部命中。2009年《時代雜誌》並將他列入「世界最有影響力的百大名人」。許多人對於他的統計模型與精準預測的技術都十分折服與好奇,本書是他首度公開自己的預測祕訣,以及他對各領域預測的研究與思考。
譯者簡介:
蘇子堯
台灣師大翻譯研究所碩士,台灣師大教育心理與輔導系學士,曾任國中教師、組長、主任。譯有《焦點解決教育--一個更快樂的學校》、《愛我,就不要控制我》與《南瓜計畫》等書。
各界推薦
名人推薦:
尹相志(亞洲資採、亞洲決策資訊技術長)
吳 迪(統計學補教名師)
林之晨(appWorks 之初創投合夥人)
許毓仁(TEDXTaipei策展人、TED亞洲大使)
蔡恩全(台灣微軟總經理)
戴季全(Richi里斯特、TechOrange流線傳媒創辦人)
巨量資料不是萬靈丹,預測的模型更關鍵
尹相志
數千年前,古埃及人發現,尼羅河洪水抵達開羅的前一天,天狼星會與太陽同時從地平線升起;然而在地球的另一邊,「神農氏作蠟祭,以赭鞭鞭草木,嘗百草,始有醫藥。」看似無關的兩個人類古文明的演進,其實是一體兩面,都是在透過各種方式蒐集資料、分析資料,並且找出規律以作為日後決策使用。可以說人類的文明就是透過「分析與預測」一點一滴累積的。
隨著人類的世界越來越複雜,分析預測必須透過更有效率的方式執行,也因此資料採礦與巨量資料變成現代顯學。本書有趣的地方在於,它並非一味地神話預測技術的無所不能,反倒是透過一連串的實例(金融海嘯、美國總統大選、恐怖攻擊……),來證明現代人類對於這世界預測模型的假設是多麼脆弱與簡化。但這並不是對預測技術的反動,反而是從過去案例中反省,告誡我們資料科學的發展除了要能協助人們從巨量資料中找出規則外,更重要的是要能夠讓人類辨別規則與雜訊間的差異,以及能夠評估模型失準時的風險。
若是說人類在預測的技術尚不夠純熟,這是不公平的,更多時候,是人類不願相信預測出來的結果,或者明知道預測的事件即將發生,但是卻恣意反其道而行(或是往對自己有利的方向進行)。然而「預測」已不僅是少數分析者個人的工作,而是一種集體的行為,決定了人類世界如何被推動、如何分配資源。至此,「預測力」儼然成為一種全新的資訊不對稱的知識暴力。
您也許不是一位資料科學家,看完本書也未必能讓您從這種「預測」的知識暴力種解放出來,但希望您能如作者所期許的:「平靜接受我們不能預測的事,勇敢預測我們能預測的事,睿智看出差異何在」。
(本文作者為亞洲資採、亞洲決策資訊 技術長)
{推薦序2}
人類始終在追求對未來的精準預測
吳迪
丹麥物理學家尼爾斯.波耳(Niels Bohr)曾說:「預測很難,尤其對於未來」。在我教授統計學的過程當中,常常跟同學討論到學習統計學的目的為何?統計學的精髓在於如何「以管窺天」,利用樣本的資料來做分析,萃取出有用的資訊,做出「精準的預測」,而《精準預測》這本書正是告訴我們如何利用簡單的數學運算達成目的。實際上,預測對我們的生活而言不可或缺。例如:樂透號碼的選擇、決定投資股票的標的,或職業生涯規畫等,都是我們對未來的一種預測。由此可見,人類真正目的其實在於得到「精準預測」的結果。
拜科技發達之賜,我們現在。龐大的數據固然提供我們強大的資料作為預測依據,然而數據不會說話,是資料分析師、統計學家,以及各種統計軟體在為它說話,也就是大家常提到的資料採礦(Data Mining, DM)。學者佛羅利(William Frawley)等人認為,資料採礦是從資料庫中挖掘出不明確、前所未知以及潛在有用的資訊過程。並從資料中提取出隱含過去未知且有價值的潛在訊息。因此透過資料採礦技術,從巨量資料庫中挖掘出「黃金」(即有用的資訊與知識)做出預測,支援企業決策分析,提升企業的競爭優勢。但以數據為導向的預測會成功也會失誤。本書作者認為預測最難的部分在於:從巨量資料中分辨雜訊和真正的信號。在書中作者提到,人們通常只選擇聽見對自己有利的數據,錯把雜訊當成信號,因而做出錯誤的判斷,這就是為什麼有些預測會失敗,而有些預測卻能與結果非常相近的主要原因。如果我們能學會分辨雜訊,準確判斷出數據中的訊號,我們仍有機會能成功預測,如同作者在二○○八年美國總統大選,成功預測五十州當中四十九州的總統勝選者,及三十五席參議員的勝選者。
在了解問題與造成錯誤的原因之後,知道如何解決該問題的方法,才是「精準預測」之關鍵所在。若只是分析問題成因卻未提出解決之道,也將使其淪為空談。本書最大的特色在於,作者將內容分成兩部分:前面七章在判斷預測的問題,後面六章在探討與運用貝氏定理的解決之道。讀者可以據此訓練自己分辨雜訊和真正訊號的能力,從巨量雜訊中看出重要的訊號,不論讀者涉略何種領域(自然科學、社會科學、學術研究、企業或是行政部門等),相信透過這本書都能使預測的能力更為「精準」,從巨量資料中取出「黃金」。
(本文作者為統計學補教名師)
{推薦序3}
揭開「預測」的神祕面紗
林之晨
在紐約大學史騰商學院攻讀MBA(企管碩士學位)時,我的統計學教授送了一句我永生難忘的話,他說:「無論統計的結果如何,如果你沒辦法找到它背後的道理,那就代表這次的分析出了問題。」
換句話說,統計是一種用來印證道理──也就是事物間因果關係──的工具。當事物之間有某種因果時,統計可以協助你發現並且驗證這樣的關係,進一步預測這個因果再次發生的機率。相反的,如果事物之間缺乏真實的因果,則無論統計之後得到任何結論,也只是數學上的巧合罷了。
讀奈特.席佛的這本《精準預測》,讓我不斷想起了教授的話。
雖然一般公認,席佛是數據分析與統計模型的專家,但在這本書裡他一路從統計原理講到金融海嘯、棒球、氣象、地震、失業率、傳染性疾病、運動賭盤、西洋棋、德州撲克、市場原理乃至於全球暖化,每一個領域除了關鍵的資料與圖表,他幾乎都能夠明白闡述「為什麼」這些資料有因果意義,甚至常常進一步去分析造成這些因果背後的人性。
用奈特自己的方式形容,他在這本跨越多個時空,厚重且實在的分析報告大彙整裡,充分展現了他的「狼性」,也就是跨學科、大膽找尋新方法、自我批判,並且以實徵為主的思考與工作方式 (請參照第二章)。
至於為什麼我們該花時間學習奈特的工作方式,其中一個很重要的因素是網路與各式連網裝置──包括你手中的智慧手機與平板電腦──的普及,正帶來前所未有的數據供給成長──僅僅在過去兩年內,我們所產生的資料量就佔據了人類史上所有資料量的 90%。
因此,就像奈特說的一樣,當你需要預測某個事件未來再次發生的機率,尤其當這件事會攸關國家安全、民眾健康、經濟發展,或是企業存亡等關鍵狀況時,從茫茫資料海中抽絲剝繭,找到那些關鍵指標的能力,將顯得越來越重要。
在這樣的一個時代,奈特.席佛這本《精準預測》更顯得重要,這裡面充滿著現代知識工作者必須了解的種種數據分析觀念與實務技巧,非常值得每個人用心體會、學習,並且實踐。
(本文作者為appWorks 之初創投合夥人)
{推薦序4}
從奈特.席佛看新公民媒體崛起
許毓仁
奈特.席佛是一個統計學家、數學家,也是一位知名部落客,畢業於芝加哥大學經濟系。畢業後在會計師事務所安侯建業(KPMG)服務,之後創辦了 PECOTA系統,用統計數字追蹤大聯盟棒球員表現。隨後他的興趣轉向政治,二○○七年他創辦了FiveThirthyEight.com, 準確地預測了二○○八年的美國大選,二○○九年他更被《時代》雜誌選為最有影響力百大人物之一。二○一二年奈特再度準確地預測了總統大選結果。他善長分析海量數據,並且準確預估出選舉的結果。他經營的FiveThirtyEight.com網站在選舉的時候擁有全美數一數二的流量,硬是超越大型新聞入口網站CNN、福斯新聞和民調機構蓋洛普(Gallup)與AC尼爾森(ACNielsen)。他根據自己準備的民調數字,無誤地預測了歐巴馬的勝率。這位奉數字為上,不與說客、競選助理、民嘴、公關公司打交道的數學天才,到底憑藉什麼能力讓所有大型民調機構跌破眼鏡,臣服於下?
奈特的勝利背後涵義實為廣大。
第一,它代表了新公民媒體的崛起。過去的政治媒體圈被說客、名嘴、大型民調公司控制,這三個角色形成了利害共同體,用種種不透明的方式控制結果。然而,社群媒體 (social media) 的興起讓每一個人都變成了媒體,都有發聲管道。當這些個人媒體 (individual media) 能夠準確預測結果時,舊有的勢力即將面臨挑戰,也在快速崩壞的過程中。這樣的新公民媒體 (new citizen media) 崛起也將不斷衝撞傳統的新聞傳播。
這也代表著,第二,開放數據有助於促進政策透明化。奈特的成功有絕大的因素在於開放數據的運用。過去這些數據取得困難,讓選舉操作上有機可乘,在社群媒體的年代,開放數據 (open data) 是一項施政透明度 (policy transparency) 的指標。歐巴馬也大力提倡開放政府 (open government) 運動,而開放數據的取得也讓更多個人民調分析師更能合理的彙整、分析、解讀數據。未來,希望這些開放數據分析能讓議題的討論更趨向公評、公正,政策的透明化也將受到更多的監督。
台灣長久以來受到媒體民嘴影響,許多議題、政策的討論過於激情、非理性。一般民眾取得資訊也過於片斷、不完整,整個資訊流缺乏一個完整的過濾過程,結果也都不能縱觀全局,常常在討論一個議題,追一個新聞時,不斷爭辯,失去焦點。舊媒體為了收視率,製作出的新聞也僅是最低標準 (lowest common denominator)。然而在這個社群媒體崛起、新公民媒體出現的年代,奈特的《精準預測》更提供了我們在觀察事件的另一種新思維模式。而這樣個人新聞品牌 (individual journalism brand) 正是建立在信任、互動之上,而這也象徵了新聞將走到下一個階段。
(本文作者為TEDxTaipei策展人&共同創辦人、TED 亞洲大使)
{推薦序5}
將海量資料轉化為商業競爭的力量
蔡恩全
全球建立及複製的資料量連年翻倍成長,二○一二年已突破二.八ZB(Zetta Byte,十 的二十一次方,約為二百億張藍光光碟的存量),預計二○二○年將達到四十ZB。倍速成長的動能不僅僅來自網路,還有包含用戶端設備如個人電腦及智慧型手機在內,形形色色的機器設備所產出的數據。
「資料淘金」儼然成為一門新顯學, 無論是成熟多元的商業智慧(Business Intelligence),或正蓄勢待發的海量資料(Big Data,或稱巨量資料),都展現了強勁的需求成長力道。Gartner調查公司估計,商業智慧軟體的全球巿值在二○一二年達到一百二十五億美元,七.二%的成長率傲視其他IT應用;IDC則預測,海量資料在亞太區(不含日本)的巿場規模將於二○一三年達到六.○三億美元,相對於二○一二年年成長四二.六%。
本書作者奈特.席佛善長分析海量數據,在二○○八年,他準確預測了美國總統歐巴馬的勝選,二○一二年又再度預測成功,讓民嘴、仰賴數據為生的市調公司嘖嘖稱奇,他是怎麼辦到的呢?在分秒必爭的商場競賽之中,什麼事情都需要直接切入核心,才能贏得市場先機。本書涵蓋金融財經、自然科學、社會科學,以及運動和比賽的實例,從淺顯的案例出發,讓您去思考預測難題之下一些最基本的問題,該如何將我們的判斷運用到資料上?該如何預見市場的變化?運用過去的經驗當指引,又明白未來將有所不同,兩者之間應該如何調解?
IDC也分析:海量資料在亞太區快速成長的原因之一,在於區域內的企業力求尋找競爭優勢,海量資料的應用正能投其所好;但要找到合適的應用方向、選擇最佳平台,以及突破部署障礙,則是最需注意的課題。
早在海量資料的概念成型且備受矚目之前,微軟就有深厚的海量資料應用經驗,以微軟的Bing搜尋服務為例,要分析超過一百PB(Peta Byte,十的十五次方)的資料,以提供高品質的搜尋結果。因此,更能解決企業對海量資料解決方案的期望。目前多家知名網路公司,利用微軟的海量資料解決方案來提升服務的品質。Yahoo!每天以每小時超過三十五萬億筆廣告曝光數處理重新整理的速度,藉此改善宣傳活動成效,提升廣告收益。顯然,企業能從大量的資料中,獲得即時商業洞察力,應用在複雜的事件處理和分析,改善業務與流程, 再加上名列全球CIO頭號要務的商業智慧分析,企業的資料淘金熱勢必將持續看漲, 協助企業發掘全新的成長契機與競爭優勢。
本書適合所有從事資訊、科學、數據分析的相關工作者,只要擁有這本武功祕笈,讓您在最短的時間內瞭解預測背後的真相,引領您邁向未來。
(本文作者為台灣微軟總經理)
{推薦序6}
用機率思考,才能避免憑運氣創造
戴季全
我在學統計的時候,毫無激情可言,貝式定理更是讓我冷感到極點。
當時貝式定理對正值青春的我來說,好比三歲的安心亞。我懷疑她以後會很正,但現在實在跟我無關。在思考工具上,貝式定理不大能派得上用場,不是因為這個定理本身沒用,是因為這個定理需要的資料不是那麼充足。但在資訊取得成本越來越低的時代,貝式定理越來越炙手可熱。
越多的資料,在一定的條件下,越能幫助我們預測,正如邱吉爾說過的:「你越回顧,就越前瞻。」在邱吉爾的決策邏輯裡,他盡可能地保留所有想像上的可能性。看起來像極了使用貝式定理建立預測模型,然後才依據歷史事實,從最不可能發生的劇本開始刪去(或是給予一個期望值)。邱吉爾並不是以一種「歷史總會重演」的角度來說明回顧與前瞻的因果邏輯。而是用統計資料鎖定「不會」發生的事,並讓可能發生的事留在既有「統計事實」之外。
這種「out of sample」(樣本外)的觀念,正是賈伯斯在創新的時候「沒有」說出的事實。他只說我們不可能依靠統計來發明新的產品,但更貼近事實的描述,是賈伯斯所創造的產品,是「Out of the Sample」的。在iPhone被創造出來後,才有iPhone的統計數據(市場)。
這裡是統計與創新的交界處。
一方面,我越來越懷疑統計與機率會成為我們這個時代的新九九乘法,會變成我們這個時代的基礎教育。但另一方面,這些跟數據、分析、預測相關的理論與工具,一次一次間接又無可避免地衝擊我們的自由意志。我們到底是出於自由意志做出的選擇,還是越來越落入自以為在選擇的毫無選擇。韓寒曾經有句名言:「世界上有兩種邏輯,一種是邏輯,一種是中國邏輯。」在這裡,選擇也變成了兩種。
如果《快思慢想》確實地讓我們成為一個心理準備好要理性的思考者,《精準預測》可能讓我們在實務上真的更接近一名理性的思考者。直覺上,我認為我們必須(必須,就是一種毫無選擇)快速提升統計與機率的理解,才能保有自由選擇的權利。
奈特‧席佛更直接點明:「只要我們對資訊的理解程度跟不上資訊的成長速度,我們就會面臨危險。」他直接用危險二字,描述我們正在迎接的世界,大概是因為知識就是力量。如果真的是因為這個力量的重新分配,造成這樣的危險。那麼我們面臨的危險,可能不只有一種。
(本文作者為Richi里斯特、TechOrange流線傳媒創辦人)
媒體推薦:
「奈特.席佛是美國選情借的某種禪學大師,……這本書就如耳熟能詳的《黑天鵝》的那個脈絡,認為人對自身的預測能力太過自信,很難建立一個容許不確定性的預測模型。」—《經濟學人》
「席佛探索了我們對於預測股市、暴風雨、運動賽事,以及其它難以確定的事的可能性。」—《連線雜誌》
「這是在巨量資料侵襲所有行業、所有運動賽事,以及所有決策者的時代,大家必讀的一本書。」—《富比士雜誌》
「十年來最具影響力的書。」 —《紐約時報》書評
「席佛娓娓道來的文風,讓艱難地統計資料,變得可親。而且這些論點與案例,都是經過深度研究得來的。」—《華爾街日報》
「奈特.席佛可謂統計界的搖滾巨星。這本書結合實用手冊與哲學思辨的宣言於一體。」—《波士頓環球新聞》
「席提供了一個難得容易閱讀的作品,可說是做預測的基礎入門。」—《華盛頓郵報》
「這本書是許多東西的綜合體,既是貝氏定理對機率理論的介紹,也是人們對運氣與人格的冥思,又揭發撲克遊戲的內幕,……而它最重要的新意在於,它很人性。」—《君子雜誌》
「這本書把會把人嚇退的主題,寫得很有娛樂性,讓大眾能夠親近。」—《頁岩雜誌》
名人推薦:尹相志(亞洲資採、亞洲決策資訊技術長)
吳 迪(統計學補教名師)
林之晨(appWorks 之初創投合夥人)
許毓仁(TEDXTaipei策展人、TED亞洲大使)
蔡恩全(台灣微軟總經理)
戴季全(Richi里斯特、TechOrange流線傳媒創辦人)
巨量資料不是萬靈丹,預測的模型更關鍵
尹相志
數千年前,古埃及人發現,尼羅河洪水抵達開羅的前一天,天狼星會與太陽同時從地平線升起;然而在地球的另一邊,「神農氏作蠟祭,以赭鞭鞭草木,嘗百草,始有醫藥。」看似無關的兩個人類古文明的演進,其實是一體兩面,都是在透過各...
章節試閱
前言
這本書談的是資訊、科技,以及科學的進步。這本書談的是競爭、自由市場,以及思想的演變。這本書談的,是讓我們比任何電腦都還要聰明的東西,也是本探討人為錯誤的書。這本書談的,是我們如何一步步學會掌握客觀世界的知識,而我們為何有時又會倒退。
這本書談的是預測(prediction),也就是上述這一切的交集。這本書研究的是為什麼有些預測可以成功,為什麼有些會失誤。我希望,對於如何規劃我們的未來,我們可以得到多一點的了解,比較不會去重蹈覆轍。
「巨量資料」的希望與困難
現在流行的詞是「巨量資料」(big data)。IBM估計,我們每天會生產兩百五十萬兆位元的資料,有超過之九十的資料是在過去兩年中製造出來的。
資訊指數性的增長,有時被視為萬靈丹,就如一九七〇年代的電腦一樣。《連線雜誌》(Wired magazine)的編輯克里斯‧安德森(Chris Anderson)在二〇〇八年寫道,光是資料的量就可以免去對理論的需求,甚至連科學方法都不必了。
這本書顯然是在擁護科學和科技,而我也認為這是本非常樂觀的書。但這本書的主張是:這些觀點錯得離譜。數字沒辦法為自己講話。是我們在為它們說話。我們賦予它們意義。就如凱撒一樣,我們可能會用對自己有利的方式來解釋資料,讓資料脫離客觀的現實。
以數據為導向的預測會成功——也會失誤。如果我們否定自己在這個過程中扮演的角色,失誤的機率就會提高。在我們對資料做更多的要求之前,我們必須先多要求自己。
如果你知道我的背景,我這樣的態度可能會讓人吃驚。我處理資料和統計數據,用這些來成功預測,因而博得名聲。二〇〇三年,我因為厭倦顧問的工作,所以設計了一個叫做PECOTA的系統,試圖預測大聯盟球員的統計數據。這個系統有一些創新之處——例如說,系統的預測是用概率的方法,為每位球員標出一個範圍內的可能結果——我們比較各家系統的結果,發現我們的系統比對手的系統表現更好。二〇〇八年,我成立了五三八網站(FiveThiryEight),試圖預測即將到來的大選。五十州之中,五三八網站正確預測了四十九州的總統大選獲勝者,以及全部三十五席美國參議院議員選舉的贏家。
大選後,有一些出版商跟我接觸,他們想找《魔球》(Moneyball)和《蘋果橘子經濟學》(Freakonocomics)這樣的書,從書的成功中獲利,這種書講的是書呆子征服世界的故事。他們認為這本書走的也是這樣的路線——研究以數據為導向的預測,領域從棒球到財經到國家安全。
但我為了從事我的研究,在四年內和十幾個領域、超過一百位的專家談過,閱讀數百篇期刊文章和書籍,到處旅行,從拉斯維加斯到哥本哈根,我逐漸明白,巨量資料時代的預測進展並不順遂。在幾個層次上,我一直很幸運:首先,雖然我犯了很多我後面要敘述的錯誤,但我還是獲得了成功;而其次,我選對了戰場。
例如說,棒球就是個特例。這種運動剛好是種豐富而有意義的例外,而本書就在探討為何會如此——為什麼在《魔球》出現十年後,統計怪才現在跟球探合作無間了。
本書提供了一些其他有希望的例子。氣象預報牽涉到人類判斷力與電腦能力的結合,也是其中之一。氣象學家名聲不好,但是他們已有顯著的進展,他們預測颶風登陸的位置比起四分之一個世紀之前準確三倍。同時,我也見了撲克玩家和運動賭徒,這些人真的能打敗拉斯維加斯。還有打造IBM深藍電腦(Deep Blue)的電腦程式設計師,這部電腦曾經打敗世界西洋棋冠軍。
但是這些預測有所進步的案例必須用一連串的失誤來權衡。
如果有什麼東西可以用來定義美國人——有什麼讓我們與眾不同,那就是我們相信卡修斯的想法,認為我們可以掌控我們自己的宿命。我們的國家是在工業革命之初由一群宗教的反抗者所建立,他們看出思想的自由流通不只有助於散播他們的宗教信念,也可以散播科學和商業的信念。我們這個國家大部分的優勢和劣勢——我們的智巧與勤勉,我們的傲慢與不耐——都來自於我們堅定不移的信念,相信我們可以選擇自己的走向。
但是這個全新的千禧年卻給了美國人一個可怕的開始。我們沒有預見到九一一攻擊的到來。問題不在於缺乏資訊。就像六十年前珍珠港攻擊的狀況一樣,所有的訊號都在。但是我們沒有把訊號整合起來。我們缺乏適當的理論來說明恐怖份子會怎麼行動,所以我們對資料無視,恐怖攻擊對我們就成了「未知而不自知」(unknown unknown)。
最近的全球金融危機也伴隨著普遍的預測失誤。我們輕易相信模型,沒有體認到我們所選擇的假設有多麼容易影響到這些模型,造成了損失慘重的結果。同時,就較為一般的基準來看,我發現我們沒辦法在幾個月之前就提前預測到經濟衰退,而且不是因為不夠努力。雖然在控制通貨膨脹方面已有相當的進展,但我們的經濟政策決策者卻是在盲目行事。
二〇〇〇年總統大選前政治學家所發表的預測模型預測高爾(Al Gore)會以十一個百分點壓倒性的勝利,結果是布希(George W. Bush)獲勝。這不是個異常的結果,像這樣的失誤在政治預測上相當普遍。賓夕法尼亞大學(University of Pennsylvania)的菲利普‧泰特洛克(Philip E. Tetlock)發現,政治學家宣稱某個政治結果絕對沒有機會發生的時候,卻還是有大約百分之十五的機會會發生。(不過這些政治學家大概還好過電視名嘴。)
最近就像一九七〇年代那樣,重新興起對預測地震的努力,大部分的預測都是使用高度數學化和以數據為導向的技巧。但是這些預測設想的地震都沒有發生,有發生的地震也沒有讓我們做好準備。福島核子反應爐設計來對抗強度八‧六級的地震,一部份是因為某些地震學家推斷更大的地震不可能發生。結果二〇一一年三月日本就出現了九‧一級的恐怖地震。
也有整個學科預測不斷失準,常常讓社會付出極大的大價。想想生物醫學研究之類的東西。二〇〇五年,一位在雅典長大、名叫約翰‧約安尼迪斯(John P. Ioannidis)的研究人員發表了一份備受爭議的論文,標題為〈為何已發表的研究結果大多是錯的〉(Why Most Published Research Findings Are False)。這篇論文研究的是在同儕審查的期刊上記錄的正面研究結果:描述他們成功預測到某些醫學假設在實驗室裡實現。論文的結論是,把這些研究發現應用到現實世界的時候,可能大多會失敗。拜爾實驗室(Bayer Laboratories)最近證實了約安尼迪斯的假設。他們試著自己去實驗醫學期刊中所宣稱的正面研究結果,結果約有三分之二的研究發現他們無法複製。
巨量資料一定會造成進步——最後還是會的。但速度有多快,以及我們會不會同時又退步,就要看我們了。
為何未來令我們震驚
生理上來說,我們跟我們的祖先沒有太大的不同。但是某些石器時代的優勢已經變成了資訊時代的劣勢。
人類擁有的自然防衛不多。我們速度沒有那麼快,也沒有那麼強壯。我們沒有爪子或尖牙或是身體的保護層。我們不會吐出毒液。我們沒辦法用偽裝遮掩自己。我們不會飛。但是,我們憑藉著我們的智能活了下來。我們的心智靈活。我們天生就會找出模式,不用太多遲疑就能對機會與威脅做出回應。
「這種找出模式的需求,人類比其他動物需求更高。」湯馬索‧波吉歐(Tomaso Poggio)這樣告訴我,他是麻省理工學院的神經科學家,研究我們的大腦如何處理資訊。「要在艱困的情境中辨認出物體,表示需要歸納。新生兒可以辨認出臉孔的基本形態。這是經由演化才學會的,不是靠個人。」
波吉歐說,問題是,這些演化的本能有時候會在其實沒有模式的時候影響左右我們,讓我們看見模式。「大家一直都會這樣,」波吉歐說,「在隨機的雜訊中找到模式。」
人類的大腦相當卓越;可以儲存大約三TB的資訊。然而據IBM所說,這只是現在全世界每天生產的資訊量的百萬分之一。所以對於我們要選擇記得的資訊,我們必須極為審慎。
艾爾文‧托夫勒(Alvin Toffler)一九七〇年在《未來的衝擊》(Future Shock)一書中寫過,對於他稱之為「資訊超載」(information overload)的結果做了一些預測。他認為,即使這個世界本身越來越多元、越來越複雜,但我們的防禦機制會把這個世界簡化,確認我們的偏見。
我們的生物本能在這個資訊豐富的現代世界不是都調適得很好。除非我們主動努力,去察覺我們引進的偏見,不然額外的資訊給我們的回報可能會很少——或是減少。
印刷術問世後的資訊超載造成了更嚴重的宗派主義。這些不同的宗教觀念現在可以用更多的資訊、更高的可信度、更多的「證據」來證明——對異議則包容更少。同樣的現象今日似乎也在發生。大概在托夫勒寫《未來的衝擊》的同時,政治的黨派偏見在美國開始非常快速的增加,而隨著網際網路的到來,速度還增加得更快。
更多的資訊可以引領我們更接近真理,但黨派偏見的信念可能會顛覆這樣的等式。最近,《自然》期刊上的一篇研究發現,有強烈黨派傾向的人如果對全球暖化了解得越多,彼此間的看法就越難一致。
同時,如果資訊量每天都增加兩百五十萬兆位元組,有用的資訊量卻幾乎沒有真的增加。大多數的資訊都只是雜訊,而雜訊增加得比訊號更快。有太多的假設要驗證,有太多的資料要挖掘——但客觀的事實卻只有相對固定的量。
印刷術改變了我們犯錯的方式。抄寫常見的錯誤變得比較少見。但只要有錯,就會被複製非常多次,就像《邪惡聖經》的狀況那樣。
像全球資訊網這樣的複雜系統就有這樣的性質。這些系統不會像比較簡單的系統一樣常出錯,可是一旦出錯就會錯得離譜。資本主義與網際網路在宣傳資訊方面都效率驚人,卻也都為壞思想創造出散播的機會,跟好思想一樣。壞思想可能會造成不成比例的效果。在金融危機之前這個系統就受到極大的影響,以致於信用評比機構的模型中一個不嚴謹的假設就發揮了極大的作用,拖垮了整個全球金融體系。
管制是解決這些問題的途徑之一。但我很懷疑,管制只會是種藉口,用來避免我們在自己身上找答案。我們必須要停下來承認:我們有預測上的問題。我們都愛預測東西——而我們都不是很擅長。
預測的解決之道
如果預測是這本書的中心問題,那麼這也就是解決之道。
預測對我們的生活而言不可或缺。每次我們選擇上班的路線、決定要不要去第二次約會、或是存錢未雨綢繆。我們都在預測未來會如何進行——還有我們的計畫會如何影響到我們喜歡的結果出現的可能性。
這些日常的問題不是全部都需要努力思考;我們可以安排給每個決定的時間只有這麼一點。然而,不管你有沒有發現,你每天都做了許多次的預測。
因為這個原因,所以本書將預測視為一種共同的事業,而不是某些特定的專家或從業者所從事的職責。專家預測失準的時候,取笑他們是件有趣的事。然而,我們應該要小心我們自己的幸災樂禍。說我們的預測不會比專家的預測差,其實只是對我們自己嚴重的明褒暗貶。
不過在科學中,預測確實扮演了特別重要的角色。有個前提我不斷在暗示,現在我要明講了,可能會讓你們之中的某些人不快:我們永遠都不可能做出完全客觀的預測。預測永遠都會受到我們主觀看法的影響。
但這本書顯然是在反對「沒有客觀的真理」這種虛無主義的觀點。更確切的說,本書是在主張:相信有客觀真理——以及致力追求客觀真理——是要做出更好的預測的首要條件。預測者下一個致力的目標,是要明白自己對客觀真理的認識並不完美。
預測之所以重要,是因為預測連結了主觀與客觀的現實。卡爾‧波普(Karl Popper)是位科學哲學家,就曾認同這個觀點。對波普來說,一個假設,除非可以被證明為偽,不然就是不科學的——也就是說,這個假設要能夠用預測的方法在現實世界裡接受測試。
會讓我們猶豫的是:我們測試過的一些想法表現並不好,而我們有很多想法不曾受到、或根本無法測試。在經濟學上,比起主張刺激消費的效果,對失業率的預測比較容易測試。在政治學上,我們用來預測選舉結果的模型可以測試,但是改變政治制度對政策結果會有何影響的理論,可能要花上數十年才能驗證。
我不會像波普那樣,主張這樣的理論就因此而不科學,或是一點價值都沒有。然而,少數我們可以測試的理論結果相當差勁,這種狀況就表示許多我們還沒有測試過的想法也一樣會大錯特錯。我們無疑是活在許多錯覺之中,卻不知不覺。
然而有一條路可以走下去。這不是倚靠著半生不熟的政治觀念所想出的解決之道——尤其因為我把我們的政治體系視為這個問題的很大的一個部分。應該是說,解決之道必須要有態度上的改變。
這樣的態度具體表現在一個叫做貝氏定理(Bayes’s theorem)的東西上,我會在第八章介紹。貝氏定理名義上是個數學公公式。但其實遠不止於此。這個定理意味著我們對我們的觀念——還有如何測試——必須有不一樣的想法。我們必須要更能接受或然率和不確定性。對於我們針對某個問題提出的假設和信念,我們必須更仔細考量。
這本書可以大略分成兩半。前面七章在判斷預測的問題,而後面六章在探討與運用貝氏定理的解決之道。
每一章都圍繞著一個特定的主題,就一定的深度來討論。不可否認的,這本書很詳細——一部份是因為魔鬼常常就在細節中,一部份則是因為我認為跟一份總結式的簡潔報告相比,對某個主題一定程度的涉入可以提供的洞見更是多得不成比例。
我所選擇的主題通常是有一些公開共享資訊的主題。預測者用私人資訊做預測的例子比較少(例如說,公司如何使用客戶記錄來預測新產品的需求)。我偏好的主題是你可以自己查看結果的那些,不必聽信我的話。
本書的簡短路線圖
本書交織著各種實例,有自然科學、社會科學,還有運動和比賽的例子。本書從較為淺顯的案例出發,在其中預測的成敗比較容易界定,然後本書就進入需要較多策略的其他例子。
第一章到第三章探討的是圍繞著最近金融危機的預測失誤,還有棒球跟政治領域的成功預測——在其中,有些方法已經效果很好,有些則還沒有效。這些應該能讓你去思考預測的難題之下一些最基本的問題。我們如何才能把我們的判斷運用到資料上——又不至於屈服於我們的偏見?市場競爭什麼時候可以讓預測的表現更好——又如何讓預測變得更糟?我們需要用過去的經驗當指引,又明白未來可能有所不同,這兩者之間我們該如何調解?
第四章到第七章著重在動態的系統上:地球大氣的運作狀態,會造成天氣變化;地殼板塊的運動,會引發地震;複雜的人類互動,這是美國經濟運作的主因;還有傳染病的蔓延。這些系統已經由我們一些頂尖科學家在研究了。但是動態系統讓預測變得更困難,而這些領域的預測向來進行得不太好。
第八章到第十章則轉向解決之道——先為你介紹一位運動賭徒,他的貝氏定理運用得比許多經濟學家或科學家還要熟練,接著則探討另外兩種比賽:西洋棋和撲克。由於運動和比賽都遵循清晰的規則,所以可以當成很好的實驗室,來測試我的們預測技巧。這樣可以幫助我們更了解隨機和不確定性,提供一些洞見,讓我們明白該如何將資訊打造成知識。
然而貝氏定理也可以運用到與存在更相關的問題。第十一章到第十三章探討其中三個案例:全球暖化、恐怖主義,還有金融市場的泡沫。這些對預測者和對社會來說都是難題。但如果我們可以勝任這樣的挑戰,我們就可以讓我們的國家、我們的經濟,還有我們的星球更安全一點。
從印刷術的時代至今,世界已經走了很長一段路。資訊不再奇貨可居;我們擁有的資訊多到我們不知道該怎麼處理。但是較為少量的資訊是很有用的。我們選擇性、主觀的去理解,卻很少自我關注,發現這樣做所引起的扭曲。我們以為自己想要資訊,但我們真正想要的是知識。
訊號就是真理。雜訊會使我們分心,遠離真理。這本書談的就是訊號與雜訊。
前言
這本書談的是資訊、科技,以及科學的進步。這本書談的是競爭、自由市場,以及思想的演變。這本書談的,是讓我們比任何電腦都還要聰明的東西,也是本探討人為錯誤的書。這本書談的,是我們如何一步步學會掌握客觀世界的知識,而我們為何有時又會倒退。
這本書談的是預測(prediction),也就是上述這一切的交集。這本書研究的是為什麼有些預測可以成功,為什麼有些會失誤。我希望,對於如何規劃我們的未來,我們可以得到多一點的了解,比較不會去重蹈覆轍。
「巨量資料」的希望與困難
現在流行的詞是「巨量資料」(big da...
目錄
前言
1. 慘烈的預測失誤
2. 你比電視名嘴還聰明嗎?
3. 我在乎的只有輸贏
4. 多年來你一直告訴我們雨是綠的
5. 拚命找訊號
6. 要怎麼淹死在一公尺深的水裡
7. 模型的角色
8. 錯誤越來、越來越少
9. 對機器大發脾氣
10. 撲克泡沫
11. 要是你贏不了他們
12. 有著健康懷疑態度的氣氛
13. 你不知道的東西可能會傷害你結論
前言
1. 慘烈的預測失誤
2. 你比電視名嘴還聰明嗎?
3. 我在乎的只有輸贏
4. 多年來你一直告訴我們雨是綠的
5. 拚命找訊號
6. 要怎麼淹死在一公尺深的水裡
7. 模型的角色
8. 錯誤越來、越來越少
9. 對機器大發脾氣
10. 撲克泡沫
11. 要是你贏不了他們
12. 有著健康懷疑態度的氣氛
13. 你不知道的東西可能會傷害你結論
購物須知
退換貨說明:
會員均享有10天的商品猶豫期(含例假日)。若您欲辦理退換貨,請於取得該商品10日內寄回。
辦理退換貨時,請保持商品全新狀態與完整包裝(商品本身、贈品、贈票、附件、內外包裝、保證書、隨貨文件等)一併寄回。若退回商品無法回復原狀者,可能影響退換貨權利之行使或須負擔部分費用。
訂購本商品前請務必詳閱退換貨原則。