名人推薦：

【對本書的讚譽】

「珍貴的小書……很精采，門外漢也能讀懂。」
──阿爾伯托．開羅（Alberto Cairo），邁阿密大學計算科學中心視覺化計畫主任
「如果你分析帶有規則性的數據，但不確定分析得對不對，請來讀這本書。」
──邱南森（Nathan Yau），數據流網站（FlowingData）
「有趣又豐富的指南……清晰明瞭的彙整。」
──約翰．沃斯（John A. Wass），《科學計算》期刊（Scientific Computing）
「我絕對會向對醫學統計有興趣的人，以及不喜歡統計的醫學系學生或醫生推薦這本書！」
──卡緹．邦斯博士（Dr. Catey Bunce），摩菲眼科醫院國民醫療服務基金信託（Moorfields Eye Hospital NHS Foundation Trust）首席統計學家
「我非常喜歡這本書，也打算跟許多學生分享……精采極了。」
──妮可．拉齊威爾博士（Dr. Nicole Radziwill），詹姆斯麥迪遜大學（James Madison University）整合科技系助理教授
「我希望每位醫生都能讀一讀這本書。」
──艾瑞克．拉莫特博士（Dr. Eric LaMotte），華盛頓大學內科住院醫師訓練計畫
「很大膽的一本書，也很引人入勝……十分有趣，而且會從此改變你對統計的觀感。」
──班．洛斯克（Ben Rothke），資訊安全專業人員
「寫得很好又有趣的實用指南，書裡談的都是今天統計專業工作中最常遇到的問題。」
──Civil Statistician部落格
「凡是希望有機會了解研究結果的人，都應該把這本書當成寶貴的指南，這本書可幫助你正確理解。」
──珊卓拉．亨利―史托克（Sandra Henry-Stocker），ITworld網站
「任何一位數據科學家都該添購的重要藏書。除此之外，簡練的文字風格會抓住你的興趣，也會為你日後的計畫激發創意。強力推薦。」
──insideBIGDATA網站

名人推薦：【對本書的讚譽】

「珍貴的小書……很精采，門外漢也能讀懂。」
──阿爾伯托．開羅（Alberto Cairo），邁阿密大學計算科學中心視覺化計畫主任
「如果你分析帶有規則性的數據，但不確定分析得對不對，請來讀這本書。」
──邱南森（Nathan Yau），數據流網站（FlowingData）
「有趣又豐富的指南……清晰明瞭的彙整。」
──約翰．沃斯（John A. Wass），《科學計算》期刊（Scientific Computing）
「我絕對會向對醫學統計有興趣的人，以及不喜歡統計的醫學系學生或醫生推薦這本書！」
──卡緹．邦斯博士（Dr. Catey ...

◆西瓜數據配適

挑選西瓜常用的方法是敲敲看，然後挑選聲音特別響亮的，這種聲音顯然產生自恰到好處的西瓜果肉特質。有了適當的量測工具，應該就有可能運用統計數字找到一個演算法，讓我們能夠從敲出的聲音預測任何一顆西瓜的成熟度。
我對這個問題格外感興趣，因為我曾經很想一探究竟，架了電路把一個很炫的加速器接在我的電腦上，好讓我能夠記錄西瓜的聲響。不過我只試了八顆西瓜——數據少得根本不足以做出準確的瓜熟預測系統。因此當我偶然看到一篇聲稱能準確預測西瓜成熟度的論文時，可以想見我多麼興奮：那篇論文中的聲音量測結果，能夠預測出99.9％的成熟度變化。
但我們來思考一下。在這項研究中，專家小組試吃了四十三顆西瓜，然後用成熟度1到5分為西瓜評分。他們用迴歸來預測各種不同聲音量測值的成熟度評分。迴歸方程式的準確度怎麼會這麼高？假如讓專家小組重新評分一次，可能也不會與「他們自己原先的評分」99.9％相符。主觀的評鑑不會那麼始終如一。無論多麼高明的程序，都不可能預測得這麼準確。
應該是有什麼地方弄錯了。我們仔細評斷一下他們所用的方法。
他們讓每顆西瓜以1到1,000赫的頻率振動，然後測量每個頻率下的相移（phase shift，基本上就是振動在西瓜裡傳遞所花的時間）。受測試的頻率有一千六百種，所以迴歸模型中有一千六百個變數，每一個變數與成熟度的關係都必須估計出來。
現在，有了比西瓜數還要多的變數，我就能配適一個「完美的」迴歸模型。正如任兩個數據點之間可以找到一條完美的配適直線，我們可以用一個有四十三個變數的方程式，完美配適四十三顆西瓜的量測值。這是嚴重的多此一舉。就算聲響與成熟度之間沒有任何關係，我也能配適一個100％準確預測四十三顆西瓜的迴歸方程式，它不單只會表明聲響和成熟度的實際關係（如果真的有關係存在），還將說明個別評分與量測值的隨機變化。我相信這個模型會完美配適——但若拿新的西瓜來測試，由於西瓜本身的量測誤差及主觀評價的因素，這個模型可能就不堪用了。
該研究的作者群設法用逐步迴歸（stepwise regression）避開這個問題，逐步迴歸是常用來選出迴歸中哪些變數最重要的程序，最簡單的形式是這樣的：一千六百個頻率量測值都先不用，做一千六百個假設檢定，判定哪個頻率與結果的關係最具有統計顯著性；加入這個頻率，接著再對其餘一千五百九十九個重複做這個步驟。繼續進行這個程序，做到沒有具統計顯著性的頻率為止。
逐步迴歸在許多科學領域上雖然很常用，但通常不是上策。你可能已經察覺到問題了：多重比較。可想而知，如果只加入具統計顯著性的變數，就避開了過度配適，不過要做這麼多顯著性檢定，勢必會製造很多偽陽性，所以你所選的一些變數將會是虛而不實的。逐步迴歸程序不保證總體偽陽性率，也不保證選出「最佳」變數組合，不論你怎麼定義「最佳」。（別的逐步程序則採用其他標準，而非統計顯著性，但還是會碰到很多同樣的問題。）
因此，儘管有統計顯著性的掩飾，逐步迴歸仍然容易受「過度配適」影響，產生出的方程式雖然跟數據配適得近乎完美，但在拿單獨的數據集來測試時卻有可能證實是無用的。為了測試，我隨便找了一些與成熟度根本零相關的西瓜量測值來模擬，然而逐步迴歸卻以99.9％的準確度跟數據配適。有那麼多變數可選，沒做出這麼高的準確度才令人意外。
逐步迴歸多半不會用在這般極端的情況，鮮少有一千六百個變數可供選擇，但即便是帶有幾十個變數的一百個觀測值，逐步迴歸依舊會產生誇大的準確度估計值與統計顯著性。
「真實性膨脹」是更隱微的問題。要記住，「統計上不顯著」的意思並不是「沒有任何效應」。你的研究如果檢定力不足、有太多變數可以選但數據太少，那麼你的數據可能就不足以讓你很可靠地辨別出每個變數的效應。只有當你運氣夠差、高估這些變數對結果的效應時，你才會把它們加進模型。（即使不用正規的逐步迴歸程序，也常常為了簡化模型，丟掉「不顯著」的變數，而引發同樣的問題。）
逐步迴歸有幾種形式。我在前面描述的版本稱為「向前選取」（forward selection）程序，因為它是從頭開始納入變數。另一種叫做「向後消去」（backward elimination）程序，一開始就放入所有一千六百個變數，然後每次剔除一個不具統計顯著性的變數。（在這個例子裡可能沒辦法做到：由於變數有一千六百個，但西瓜只有四十三個，因此沒有足夠多的數據來判定全部一千六百個變數的效應。在第一步你就會卡住了。）加入新變數所用的標準也可以變更；比較近代的程序不是用統計顯著性，而是改用像是赤池訊息準則（Akaike information criterion，日本統計學家赤池弘次創立發展，評估統計模型的複雜度和衡量統計模型「擬合」資料的優良性的一種標準）、貝氏訊息準則（Bayesian information criterion）等度量，這些準則不利於帶有較多變數的模型，由此減少過度配適。其他的形式則會根據不同的標準，在每一步增減變數，這些形式沒有一個會保證做出同樣的答案，所以針對相同數據的兩種分析結果有可能非常不一樣。
對於西瓜研究，這些因素綜合起來就會產生準確得難以置信的結果。迴歸模型該如何公正評定，避免這些問題？有一種做法是「交叉確認」（cross-validation）：只用一部分西瓜去配適模型，再測試這個模型預測其餘西瓜成熟度的成效。倘若這個模型過度配適，它在交叉確認過程中的表現會很差。有個常用的交叉確認方法是「留一交叉確認」（leave-one-out cross-validation），僅留一個數據點去配適模型，然後評判此模型預測該點的能力；對依次留下的其餘數據點，也重複做這個程序。西瓜研究聲稱他們做了留一交叉確認，但仍得到同樣難以置信的結果。我沒辦法看到數據，所以不確定這個方法是否真的有效。
儘管有這些缺點，逐步迴歸仍然很流行。它是直覺上很吸引人的演算法：選取那些有統計顯著效應的變數。不過，單獨選一個模型通常太過自信而顯得愚蠢。有那麼多變數可以選，通常也就有很多種變數的組合，會產生幾乎一樣好的預測結果。假如我要再挑四十三顆西瓜來測試，大概就會從一千六百種成熟度聲音預測變數中，選出與前次不同的子集。逐步迴歸會產生令人誤解的必然性——即斷言這二十或三十個變數正是成熟度的預測變數，但其他幾十個變數也能擔此重任。
當然，在某些情況下我們也許有理由相信只有少數幾個變數會影響結果。譬如你可能在找出導致某種罕見癌症的基因，而且有上千個候選基因，但你知道只有少數幾個是病因，這麼一來，你感興趣的就不是做出最佳預測，而是只想確定始作俑者。逐步迴歸還不是最好的工具；「最小絕對緊縮與選擇算子」（least absolute shrinkage and selection operator，縮寫為lasso，這個字有「套索」的意思）具有更好的數學性質，不會靠著宣稱統計顯著性來愚弄使用者。不過，「套索」並非刀槍不入，沒有完美無缺的自動化解決方案。

◆相關與因果

當你用了多變量迴歸去建立某個結果的模型——譬如給定某人的體重、膽固醇等等，然後去推測那個人心臟病發作的機率——就會禁不住想要單獨解釋每一個變數。比方說，你可能會調查幾千人，問他們有沒有出現過心臟病發作並進行徹底的健檢，然後建立模型。接著，你根據這個模型來提供健康指示：你會說，減個幾公斤，一定要把膽固醇降到這個範圍內，遵照這些指示，你心臟病發作的風險就會降低30％！
只不過，你的模型可沒這麼說。這個模型說的是，膽固醇和體重落在該範圍的人心臟病發作的風險比一般人少30％；它「並不是」說，如果讓過重的人減肥和按時運動，那個人心臟病發作的機率就會降低。你並沒有蒐集這方面的數據！你沒有干預及改變志願者的體重與膽固醇濃度，看看會產生什麼變化。
這當中可能會混雜一個交絡變數。也許肥胖與高膽固醇只是另外某個因素的症狀，那個因素也是造成心臟病發作的原因；運動和史他汀類藥物雖然有可能解除這些症狀，但沒解除心臟病的問題。迴歸模型說，膽固醇較低的人，心臟病發作的風險較小，但這是相關性，不是因果關係。
這個問題有個實例，發生在2010年所做的一項試驗中，該試驗是在檢驗omega-3脂肪酸能不能降低發生心臟病的風險；omega-3脂肪酸發現於魚油中，常以營養補給品的名義販賣。過去有幾項觀測研究和一些實驗數據，支持omega-3脂肪酸能降低發生心臟病風險的說法。脂肪酸具有抗發炎的特性，可降低血液中三酸甘油酯的濃度——我們已經知道這兩個特性與降低心臟病風險有關。因此該試驗的結論是，omega-3脂肪酸應該能降低發生心臟病的風險。
但證據是來自觀測的。該研究提到，三酸甘油酯濃度較低的患者，心臟方面的問題較少，因而錯誤推斷出魚油應該可以預防心臟方面的問題。然而，2013年發表了一項大型隨機化對照試驗，研究人員分別給兩組病人魚油和安慰劑（橄欖油），然後追蹤了五年。結果，並沒有證據顯示魚油有較好的功效。
當你控制多個交絡因子時，會冒出另一個問題。我們很常用這種說法來解釋研究結果：「若體重增加一公斤，其他變數都維持不變，則心臟病發生率會提高……」這或許是對的，但在實務上也許「不可能」讓其他變數都保持不變。我們永遠可以從迴歸方程式裡舉出數字，但在實際上，使體重增加一公斤的行為本身也會牽連到其他的改變。沒有人胖了一公斤之後其他變數還會維持不變，所以你的迴歸方程式與現實不符。

◆辛普森悖論

如果你要統計學家說說統計學上有趣的矛盾結果，他們通常會提到辛普森悖論（Simpson’s paradox）〔原注：辛普森悖論是皮爾森（Karl Pearson）和尤爾（Udny Yule）提出的，因此也正說明了史蒂格勒的命名定律（Stigler’s law of eponymy）：沒有一個科學發現是以原發現者的名字來命名。這個命名定律則是莫頓（Robert Merton）提出的〕。只要數據當中由交絡變數造成的明顯趨勢，可以藉由數據的自然分組來消除或是翻轉，就會產生「辛普森悖論」。有很多例子，我們就從最通俗的開始看起。
加州大學柏克萊分校在1973年收到了一萬兩千七百六十三件研究所申請，而在該學年的申請入學過程中，男生的錄取率為44％，女生的錄取率只有35％。校方擔心被指控性別歧視，要幾位教員仔細檢查數據。〔原注：這段故事的標準版本則稱該校當時被指控歧視，但沒有人說是誰提出控告或是後來結果如何。《華爾街日報》曾採訪一位參與過最初調查的統計學家，這篇訪問顯示訴訟未曾發生。光是擔心被提告，就足以展開調查了。不過，吃上官司的故事流傳已久，大家普遍認為確有其事。〕
研究所申請入學與大學部不同，是由各學院獨立作業，最初的調查產生一個自相矛盾的結論：在柏克萊的一百零一個獨立研究系所當中，只有四個系所顯現出具統計顯著性的歧視女性，但同時有六個系所則顯現是歧視「男性」，而且還足以抵消那四個系所產生的女生人數差額。
明明個別系所普遍沒有性別歧視，怎麼會整體看來變成有歧視女性？原來是男女生申請各學院的比例不同造成的。例如英語系的申請入學者有三分之二是女生，而機械工程系的申請者只有2％是女生。此外，有些研究所比其他系所篩選得更嚴格。
這兩個因素解釋了大家察覺到的性別歧視。女生申請的學院多半有很多符合資格的申請者，經費卻很少，而男生申請的學院申請人數較少，但研究經費過剩。這種偏差不在於柏克萊，因為各系所普遍是公平的，問題出在更源頭的教育過程：女性被送進研究所入學機會較少的學習領域。
辛普森悖論在1986年一項關於腎結石清除手術的研究中再次出現。該項研究分析了上百份醫療紀錄，似乎顯示經皮腎造瘻碎石取石術（PCNL，一種新型的微創式取石手術）比傳統開腹手術的成功率更高：從78％提高到83％。
更仔細檢查，卻發現趨勢反過來了。按照結石大小把數據分成兩組之後，經皮腎造瘻碎石取石術在兩組的成功率都比傳統手術「更低」。這怎麼可能？
問題出在這項研究沒有使用隨機指派。它只是在檢閱醫療紀錄，結果發現醫生對每位病人的處置方式有系統性的偏差。腎結石較大、不易清除的病人接受的是傳統開刀手術，而結石較小、容易清除的病人則接受經皮腎造瘻碎石取石術。想必醫生比較放心在小結石的病人身上採用不熟悉的新方法，對於棘手的病例就回歸傳統開刀手術。
新手術不見得比較好，但被拿到最容易的患者身上測試。倘若手術方法是以隨機指派的方式來選擇，而不是由外科醫生決定，就不會有這樣的偏差。一般而言，隨機指派能消除交絡變數，防止辛普森悖論引致相反的結果。純觀測研究特別容易受這個悖論影響。
這個問題在醫學上很常見，就像下一個例子顯現的。細菌性腦膜炎是腦和脊髓的周圍組織受到了感染，已知會迅速擴散，如果不立即處置就會造成永久傷害，尤其在兒童身上。在英國，只要全科（家醫科）醫師認為病童可能罹患腦膜炎，通常會先開盤尼西林（又稱青黴素）給他們，然後送到醫院做進一步檢查及治療，目標是及早開始治療，不能等孩童送到醫院再說。
為了看看早做處置是不是真的有用，有一項觀測研究審視了四百四十八個被診斷為腦膜炎並送往醫院的孩童的紀錄。經過簡單分析，顯示有家庭醫師開盤尼西林的孩童在治療期間死亡的機率較小。
再仔細檢視這些數據之後，卻會呈現相反的結論。有許多孩童是直接送到醫院，根本沒看家庭醫生，這表示他們最初並沒有注射盤尼西林；這些孩童也是病情最嚴重的——由父母直接急忙送到醫院。假如把他們從數據中剔除，你只問：「在先去看了家庭醫師的孩童當中，那些給過盤尼西林的孩子的治療結果比較好嗎？」那麼答案毫無疑問是：「沒有」比較好。給過盤尼西林的孩子死亡的機率高出許多。
然而這是觀測研究，所以我們無法確定是盤尼西林「造成」他們死亡。我們可以推測，細菌被消滅的過程中釋出的毒素有可能會導致休克，不過這還沒有得到實驗證實。又或者，家庭醫師也許只給情況最嚴重的孩童施打盤尼西林。沒有做隨機化試驗，就不能斷定。
遺憾的是，要進行隨機化對照實驗很難，有時候甚至做不到。舉例來說，刻意不給有腦膜炎的孩童注射盤尼西林，可能會被視為缺德的行為。至於非醫療方面的例子，如果你要比較聯合航空和美國大陸航空的班機延誤紀錄，你會發現平均起來聯航的延誤航班較多，但就進行比較的各機場來看，大陸航空誤點的機率較大。結果發現，聯航在天氣不佳城市的航班比較多，延誤最多的那些機場拖垮了平均值。
可是你不能把航班隨機指派到聯航或大陸航空。你不見得可以消除每一個交絡因子，只能度量這些因子，然後期望全部都度量到了，沒有遺漏。

【重點提示】
 切記，不具統計顯著性的變數不一定沒有效應；可能是你的檢定力不足以檢測出它的效應。
 盡可能避免逐步迴歸。這種程序有時候很有用，但最後建立出的模型是有偏差的，而且難以解釋。其他的選擇方法，例如最小絕對緊縮與選擇算子，可能更為適合。或是可能根本沒必要選擇變數。
 若要測試你的模型跟數據配適得如何，可用單獨的數據集或程序，譬如交叉確認。
 留意那些可能產生誤導或相反結果（像是辛普森悖論）的交絡變數，可能的話，用隨機指派去消除這些變數。

序
致謝

前言

【第1章漫談統計顯著性】
▏p值的威力
━有通靈能力的統計
━奈曼╱皮爾森檢定
▏對區間要信賴

【第2章統計檢定力與檢定力不足的統計】
▏檢定力曲線
▏檢定力不足的嚴重威脅
━為什麼檢定力不足？
━錯誤的紅燈右轉政策
▏信賴區間與增強能力
▏真實性膨脹
━很小的極端

【第3章偽重複：聰明選擇數據】
▏偽重複實例
▏解釋偽重複
▏批次式生物學
▏同步偽重複

【第4章 P值與基本率謬誤】
▏基本率謬誤
━小測驗
━醫學檢驗中的基本率謬誤
━如何用抽菸統計數字騙人？
━拿起武器對抗基本率謬誤
▏要是一開始沒成功，就一試再試
▏腦造影中的混淆視聽資訊
▏控制偽發現率

【第5章誤判顯著性】
▏顯著性中的不顯著差異
▏盯著顯著性看

【第6章雙重數據】
▏循環論證式分析
▏向平均數迴歸
▏終止規則

【第7章連續性的錯誤處理】
▏不必要的二分法
▏統計檢定力不足
▏討厭的混淆變量

【第8章濫用模型】
▏從數據擬合出西瓜
▏相關性與因果關係
▏辛普森悖論

【第9章研究自由：美好的悸動？】
▏一點點自由是件危險的事
▏避免偏誤

【第10章人人都會犯錯】
▏無法重現的遺傳學
▏輕鬆做到重現性
▏實驗、沖洗乾淨、重做一次

【第11章把數據藏起來】
▏被扣押的數據
━分享障礙
━數據衰減
▏就只是漏掉細節
━我們知道自己不知道的那些數據
━結果報告偏誤
▏檔案櫃裡的科學
━未發表的臨床試驗
━看出報告偏誤
━強制公開

【第12章我們能夠做的事】
▏統計教育
▏統計出版
▏你的職責

參考資料