本書特色
※融合數學的理性與文字的感性。說明力求平實流暢、簡明易懂。
※善用範例闡述統計原理與公式意義,理論與實務兼備。
※開闢電腦小精靈專區,詳述EXCEL操作方式,統計實作得心應手。
※附範例資料檔,請至五南網頁http://www.wunan.com.tw/,輸入書號1H90,即可下載。
統計是各種科學領域的共同語言,在當代學術舞台上從不缺席。真實世界的問題探討,統計是能夠提供知識與力量的關鍵要角。雲端時代來臨,益發凸顯統計的存在價值。掌握數據就擁有寶藏,但需要熟用統計才能點石成金,在學術界是如此,在實務界亦然。
統計學作為自然與社會科學絕大多數領域的共同必修課,是眾多學者對於學科基本價值的肯定與專業養成需求的共同默契;在教育應用、社心專業、經濟預測、產業發展、商業經營、管理實務乃至於國家治理,統計程序的應用與分析技術的導入已深入各行各業,都是基於問題解決與預測監控的實際需要。
作者簡介:
邱皓政
美國南加州大學心理計量學博士
國立臺灣師範大學管理學院特聘教授
林碧芳
臺灣統計方法學學會秘書長
國立臺灣師範大學、輔仁大學、世新大學等校兼任助理教授
章節試閱
1.3 統計學的內容是什麼:從五個例子來看
在社會與行為科學領域中,對於統計方法有幾種基本的應用方式,以下我們將介紹五種常見的應用範例,並同時介紹一些專有名詞,關於這五種範例與專有名詞的相關細節,將在後面的章節詳細討論。
1.3.1 簡單中卻有大道理:描述統計
作為學生的你願意花多少時間來學統計呢?現在的學生究竟願意花多少時間讀書?這些都是老師們十分關心的問題。如果在速食店隨機找 10 個學生來問一下,他們可能會回答一個星期花了大約7小時在課業上(平均每天 1 個小時),這樣的答案對於一般的大學生來說可能已經算是不錯的了,有人可能多一點,十幾個小時,也有人平常都不會讀書,除非要考試了。但是如果拿一樣的問題去問 10 位老師,他們可能會認為一個星期花 14 個小時讀書也不為過。
現在,有一位統計老師希望透過科學的方法來瞭解這個問題,他編製了一份簡單的問卷,列舉一些關於統計課程學習的問題,然後透過他的朋友協助發放給選修統計課程的學生來填寫,最後回收了將近 500 份問卷。他發現有 15% 的學生會進行課前預習,45% 的學生會做課後複習,他們練習統計習題的時間,每週平均只有 0.8 小時,但是花了 2.9 小時在使用統計軟體來做作業,尤其是當統計學是選修課而非必修課時,使用軟體做作業的時間越長,學生課後複習的比率越高。這位老師對於研究結果感到驚訝,因為他自己的統計課並沒有使用統計軟體,他認為統計知識的建立一定要從演算中學習。他開始思考是否改變教學方式,因為研究數據透露著,有使用電腦來輔助學習統計的學生,似乎對於課程的滿意度較高,也比較樂意在課前課後自我學習。
前面的例子說明了描述統計的奧妙,它甚至改變了某位老師的教學方式。簡單來說,描述統計 (descriptive statistics) 是指利用某些簡單的數據來描述一群對象的某些特徵,這個「簡單的數據」稱為統計量 (statistic),而數據通常來自於一群人、動物、物體或事件,統稱為研究對象。以統計學的術語來說,這一群研究對象就是樣本 (sample),而樣本是從母體裡所抽取得到一個子集合,母體 (population) 則是指帶有某共同特徵的一群研究對象的全部。例如,在大學當中修統計學的學生可以是一個母體,因為他們擁有一個共同的特徵,是在大學四年間都要修一門相同的課。同樣的,在大學當中教統計的老師也可被認為是一個母體,這些老師不論是系上的專任老師或兼課老師,只要是在大學開課教統計學的老師,都擁有共同的特徵,但是助教就不算是這個母體的一部分,因為他們不是老師,而是協助老師教課的人。
描述統計可以說是研究者能夠從手邊資料所得到的最基本的資訊,雖然這些統計量都很簡單(例如平均數或標準差),但是卻有大功用,它對我們所蒐集的資訊提供我們客觀的摘述,關於描述統計的相關細節,我們會在第三章至第五章進行討論。然而,描述統計也是有所限制,例如它們無法獲知數據之間的相互關係,也無法瞭解不同狀況下的數據差異的意義。例如當統計課是必修或選修課時,學生學習的狀況是否真的有所差別?使用統計軟體來協助教學是否真的會提高學生的學習興趣?如果僅看粗略的描述統計量,我們並無法得知自主學習與課程的教學方式是否有關,而學生們願意多花時間讀書的確實原因為何也不得而知。所以我們需要推論統計來協助我們。
1.3.2 由小看大、見微知著:統計推論
前面描述統計的例子中,我們曾經舉例:在速食店隨機找 10 個學生調查得知平均每週讀書時間是 7 小時,那麼這句話到底能不能反映大學生的現況呢?也就是說,這 10 個學生所蒐集得到的統計量是否能夠推論到具有相同特徵的所有大學生的這個母體呢?此外,那位認真的統計老師調查 500 位學生所得到的「每週平均花費 2.9 小時使用統計軟體來做作業」,是否就是現在學生學習統計的普遍狀況?
描述統計量只能反映我們從一個樣本裡所蒐集的測量數據是什麼,但是無法得知我們沒有掌握的資料會如何。顯然一個樣本所得到的資料並不能代表全體,但是為了得到更全面的結果,研究者必須進行統計推論,從手中所獲得的樣本資訊(掌握已知)來對其所出自的母體得出結論(推論未知),而統計推論 (statistical inference) 就是利用樣本來推知母體的過程。
為了確保樣本能夠代表母體,樣本的獲得必須遵循一定的規則,最常見的抽樣方式是隨機抽樣,也就是從母體中以某種隨機方法挑選成員,母體中的每一個成員都有相同的機率被選擇作為樣本,而且每個被挑選的成員彼此相互是獨立不互相影響,此時所建立的樣本可稱為隨機樣本 (random sample)。利用隨機樣本所獲得的資料所計算出描述統計量之後(例如 10 位學生平均每週讀書7小時),得以用來推論母體的狀況,此一被推論的母體特徵被稱為參數 (parameter),例如大學生每週平均讀書幾小時。有很多常見的以描述統計量來推論母體參數的例子:
初入社會的社會新鮮人平均起薪是 22K(從某資料來源推論社會新鮮人)。
一般上班族每天花 23 分鐘才能到達工作地點(從某批上班族的經驗推論一般上班族)。
臺灣地區平均每戶成年人數為 2.53 人(從政府訪查數據推論全臺地區)。
臺灣地區平均每人每月消費支出為 18,007 元(從某消費調查數據推論全體)。
以上每個數值都是從樣本或某特定資料來源所獲得的描述統計所估計而來的參數。我們不可能去一一詢問每一個人的起薪是多少,或是去調查每一個上班族每天花多少時間通勤,因此每個數值都是母體的估計值。利用描述統計量是否能夠準確估計母體參數,取決於抽樣過程與抽取的觀察值數目。關於抽樣方法,以及相關機率問題與估計過程,將在第六章至第八章進行討論。
1.3.3 是事實還是偶然:假設檢定
科學家除了想對母體特徵進行瞭解之外,更對事情的因果關係感興趣。為了掌握因果 (causality),最好的方式就是進行實驗(experiment)。一般來說,實驗的進行必須先去定義自變數 (independent variable; IV) 與依變數 (dependent variable; DV)。
自變數是指研究者能夠操弄的變數,藉由操弄某個變數的不同狀況(實驗水準),觀察一群實驗受試者 (subject) 或參與者(participant) 的行為表現,此時被研究者預期會被自變數所影響的行為結果稱為依變數。
例如,酒駕是危害民眾安全的行為,因為喝酒會影響駕駛人的反應能力,但是要喝下多少酒精才會影響駕駛呢?如果喝下帶有米酒調味的湯頭是否會影響駕駛呢?政府對於酒駕的定義必須有一個合理的標準才能作為取締的依據,此時就需要進行實驗。如果我們以喝下酒精的多寡為自變數,測量駕駛對於信號的反應速度作為依變數。研究者認為酒精會影響對反應速度的這個想法稱為研究假設 (research hypothesis)。一般來說,研究假設是研究者對於兩個或兩個以上變數關係的預期或預測,在實驗中,研究假設是指自變數與依變數的預測關係。
為了檢驗研究假設是否成立,科學家挑選一群實驗參與者,將他們隨機分配到幾個不同的組別,然後操弄不同的狀況來進行實驗處理 (treatment),例如讓參與者飲用不同比例的含酒精飲料,最後觀察他們的行為反應靈敏度。之所以要進行隨機分派 (random assignment) 的目的,是為了確保參與者有相同的機會被分配到各種實驗狀況下,而且參與者被分派到實驗組與其他參與者的分派是獨立的。因此每一組參與者的特徵都十分相似,使得每一組之下的參與者在依變數上的表現,可以被視為是自變數影響的結果。
對於實驗操弄是否影響依變數,需要進行一系列的統計分析與考驗。首先,研究者必須計算每個實驗狀況下,受試者在依變數得分的描述統計量,此一步驟跟一般描述統計量的計算過程完全相同。第二個步驟則是決定不同組別的依變數描述統計量的差異,是否效果大到能夠歸因於自變數的影響,而非偶然性的差異,此一步驟需要使用統計假設檢定 (statistical hypothesis testing)。
基本上,任何兩個群組的描述統計量都會存在一些無法預期的差異,稱之為隨機差異 (chance difference),即使自變數對於依變數完全沒有影響,隨機差異也會發生於實驗研究中的不同群組當中。假設檢定的原理,就是將實驗中的各群組實際所觀察到的差異,來與群組間預期的隨機差異進行比較。如果獲得隨機差異的機會很小,而實際所觀察到的差異夠大,那研究者就可以得到受試者們的差異並非是隨機差異的結論,亦即可將觀察值的差異歸因於自變數的效果。為了要決定不同實驗群組間在依變數上的平均數差異是否不是機會所造成,最常使用的統計方法為 t 檢定與變異數分析 (analysis of variance; ANOVA);前者適用於只有兩個組別的平均數相互比較時,後者則可應用在超過兩個組別的平均數差異的比較。
統計假設檢定在學術研究上被廣泛使用,要瞭解它所涉及的概念,需要有描述統計、機率與抽樣理論的統計知識,這些主題將在第三章到第八章進行討論。接著我們將在第九章與第十章正式介紹統計假設檢定,在第十一章與第十二章開始進行一連串關於實驗設計與變異數分析的說明。
1.3.4 無獨有偶、預測未來:相關與迴歸
許多社會科學研究無法以實驗方式來進行研究,例如許多變數無法進行操弄,例如性別、年齡、左撇子或右撇子、體重、身高、收入狀況、教育程度、藥物使用狀況等受試者變數 (subject variable)。但是科學家還是對於這些受試者變數與其他相關變數之間是否具有共變關係感到興趣。如果一個變數的改變與另一個變數的一致性改變有關,則兩個變數稱為具有共變關係。例如,如果一個人的學業成績與個人的努力有關係,那麼成績與努力就具有共變關係,這兩個變數的變化具有關聯性,此時可以計算介於 –1.00 到 1.00 之間的相關係數 (correlation coefficient),作為描述兩組分數的相關程度和方向的統計量。
相關係數雖然是一個統計量,但也需要使用統計假設檢定來決定這個係數是否是隨機現象。如果兩組分數的相關並非是隨機發生的,那麼我們就可以嘗試從一個變數去預測另一個變數。假設你知道一個人的努力程度,就可以預測他的學業表現,但是以努力程度去預測學業成績到底有多麼準確呢? 也就是如何有效的以某個變數的分數去預測另一個變數的分數,必須使用迴歸分析 (regression analysis)。相關與迴歸分析技術可以說是社會科學的領域中最被廣泛使用的一種統計技術,例如下列各種狀況的研究與應用:
孩童年齡增長與智力發展的關係(教育學者關心的學習議題)。
廣告投資金額越高,是否有效提高產品銷售情形(行銷經理關注的業績提升問題)。
以歷年來的出生與死亡人口來預測未來的人口結構(政府官員必須掌握的趨勢)。
要獲得多少產品需要投入多少生產成本與人力(企業高層在意的成本效益模式)。
關於相關與迴歸的原理,我們將在第十三章與第十四章介紹,然後在第十五章討論比較進階的多元迴歸分析,最後在第十六章介紹時間序列分析。
1.3.5 此消彼長:交叉分析
每當選舉季節,電視上最熱鬧的新聞之一就屬候選人的支持度調查。我們經常可以聽到某某民調公司以電話訪問臺灣地區 18 歲以上的 1,000 名選民,詢問他們如果明天是投票日,他們是否支持某一政黨的候選人,然後得到一個百分比數字,同時交代一下抽樣誤差的比例(例如正負三個百分點),以作為選舉情勢分析的證據。
事實上,民調的分析也是一種統計推論,民調公司所訪問的選民就是樣本,從而獲得支持意願的數據,進而推知全體選民的支持意向,此時為了確保樣本能夠代表母體,抽樣過程是其關鍵,樣本越大,抽樣誤差 (sampling error) 越小。若從統計的角度來看,民意調查與前述的統計推論有兩個主要的差異。
第一個差異,是民調所使用的變數通常不是反映強度變化的連續變數,而是數人頭的類別變數。連續變數的資料可以計算各種描述統計量,但是類別變數所能夠使用的描述統計量相當有限,通常只有人數的次數資料,或是把人數除以總人數得到百分比。例如 1,000 個選民當中,有 250 人支持甲政黨,有 400 人支持乙政黨,150 人支持丙政黨,其餘則是未表態者,除以總人數之後,就可得到百分比或機率:.25、.40、.15 與 .20。
進一步的,民調通常會把選民的投票意向,再就他所屬的政黨別,進行兩者的交叉分析,看看不同政黨背景的人是否支持特定的政黨,還是說會有跨政黨的投票意向。例如偏向甲政黨的選民,理應支持甲政黨的候選人,偏向乙政黨的選民,則應支持乙政黨的候選人,如果有相當比例的選民投向對立或不同的政黨,那麼就有玄機可以探討了。
在統計上,對於類別的次數分配是否具有特殊的比例(例如一個班級的性別比例是否為 1 比 1),或是兩個類別變數的分布比例是否具有連帶關係(例如選民自己的政黨傾向與候選人的支持情形),可以利用卡方檢定 (chi-square test; χ2-test) 來檢驗。由於所牽涉的變數主要是類別變數,因此不需要對於母體分配是否為特殊分配進行假設,因此這一類的統計分析又被稱為無母數檢定 (non–parametric test)。關於卡方檢定在類別資料與等級資料的分析應用,我們將在本書的最後一章:第十七章介紹。
1.3 統計學的內容是什麼:從五個例子來看
在社會與行為科學領域中,對於統計方法有幾種基本的應用方式,以下我們將介紹五種常見的應用範例,並同時介紹一些專有名詞,關於這五種範例與專有名詞的相關細節,將在後面的章節詳細討論。
1.3.1 簡單中卻有大道理:描述統計
作為學生的你願意花多少時間來學統計呢?現在的學生究竟願意花多少時間讀書?這些都是老師們十分關心的問題。如果在速食店隨機找 10 個學生來問一下,他們可能會回答一個星期花了大約7小時在課業上(平均每天 1 個小時),這樣的答案對於一般的大學生來說可...
作者序
作者序
距離本書第一版寫序,整整十年。也正是當時,《哈佛商業評論》的2012年10月號刊登了Thomas H. Davenport與D. J. Patil兩位資料科學專家所撰寫的專文Data Scientist: The Sexiest Job of the 21st Century,把資料科學家形容成最性感的工作,十年間,商業分析、人工智慧、區塊鏈、虛擬擴增實境等等名詞紛紛出籠,相關職缺炙手可熱,不論新手或專家,薪資節節升高,似乎真的很誘人、很性感。
事實上,性感一詞不是他們先說的,而且不是指資料科學家,Google首席經濟學家Hal Varian在2009年1月號的《麥肯錫季刊》抱怨說「我一直在講,下個十年的性感職業是『統計學家』,大家都說我在開玩笑⋯⋯」,因為真的很重要,與本書的操作型定義有關,因此我把全文引述在下面:
“I keep saying the sexy job in the next ten years will be statisticians. People think I'm joking…The ability to take data—to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it—that’s going to be a hugely important skill in the next decades, not only at the professional level but even at the educational level for elementary school kids, for high school kids, for college kids.” (Hal Varian, McKinsey Quarterly, 2009/1)
為何說是操作型定義呢?因為如果要讓一件事情發生,需要明確的操作程序,如果要得到這些學者專家口中最性感工作的誘人果實,就必須擁有數據處理、資料視覺化、分析溝通的能力,而且不僅是在專業領域,甚至於從幼兒園到高中、大學處處都要打基礎。其實這是既成事實、也一點都不難,從小你就有在接觸數學,國中會考有統計的題目,高中課本也有教,至於完整的統計學內容,只要翻開這本書,每一個部分都有講到,這本書甚至花了不少篇幅示範EXCEL軟體的操作方式與解釋技巧,好好讀完、練習完,真的就會性感起來,不是空談、不是嘴炮。
統計學家的誘人與性感,我算是見證者。我並不是說我自己得到多少好處,而是我看到了學生一個個都因為好好學習統計而有好前途,幾乎每一個職位都跟數據處理有關,這個學期我開了一門「大學入門」邀請系友回來分享,幾乎每一個系友都說統計學「真的」很重要。令人莞爾的是,在學校的時候他們都沒這麼說。過去,當有人問我在教什麼、我的專長心理計量學是什麼,我都說簡單來講就是測量與統計,人們聽到這個關鍵字,在稍早的年代會被嫌棄是冷門學科沒前途,沒話題也沒興趣多聊。其實統計學家或資料科學家的這個角色對我來說並沒有什麼誘惑,如果有,就是能夠欣賞學生逐漸累積的專業性感,分享他們的成就與喜悅。
會說統計學冷門的不只是我(我剛回國時就曾聆聽中央研究院某位資深大老公開呼籲基礎統計學習的重要性,暗指未來的世界像米坑,老鼠會餓死絕對不是米坑的錯),但我們都見證了統計學的價值與重要。在第一版序中,我曾寫下:「如果不同的科學領域之間有需要共同的語言來溝通,那麼統計就是其一;如果真理是越辨越明,那麼就更有賴統計發聲⋯⋯」,現在讀來還有著熱血沸騰的感受。接著還
有「⋯⋯統計學作為自然與社會科學絕大多數領域的共同必修課,並不是教授們共同商議的決定,而是眾多學者對於學科基本價值的肯定與專業養成需求的共同默契;在教育應用、社心專業、經濟預測、產業發展、商業經營、管理實務乃至於國家治理,統計程序的應用與分析技術的導入已深入各行各業,都是基於問題解決與預測監控的實際需要⋯⋯」,這些苦口婆心或是先見之明的文字捨不得讓它流失,
因此再提一次。
就如同我的其他著作,不論是基礎教科書或高等專書,對於令人畏懼的統計學,盡量利用白話文字來書寫,以實用範例來說明,更以軟體工具來實踐。本書雖然只是第四版,但過程中勘誤改版無數,出版目的始終未曾改變,希望能夠提供一本通俗能懂的教科書,陪伴學生們渡過一整年的統計學習生活。一路以來,本書另一位作者林碧芳教授在幕前幕後扮演著關鍵角色,「幕前」是因為林教授用到此書的頻率與深度比我還多,受到學生高度愛戴的她,深知「民間」疾苦,因此一直都能從學生的角度出發,給予本書更貼近民意的表現建議與素材設計,也才有本書章節中的各式範例、課後的諸多習題、以及務實的電腦操作演示,不但豐富了本書的內涵,消弭學習的恐懼與學科的生硬,讓本書撰述的目標初衷得以實現。「幕後」的她,為本書的出版與歷次改版付出無數心血,例如本次改版,雖然各章架構內容如前,但三十萬字幾乎字字斟酌,全部重寫。當然也要謝謝幕後的出版社編輯與張毓芬、侯家嵐等主編,大家為了創造未來的性感人物投入龐大心力,為知識傳承做出大量貢獻,展現教育的力量。
記得當年飛往洛杉磯求學時是第一次踏出國門,美國海關官員看到我握著單程機票微微發抖,問了我的去處,幽默的說一句「不要回頭喔!」後來還開了一條通道讓我快速通關,應該是怕行李太多耽誤安檢,這些小動作平安了我忐忑不安的心情,也讓「不要回頭」一句話深刻在年少的我邁向學術世界的第一個印象中。
在此也以這句話送給正在閱讀本書的讀者您,如果山窮水盡懷疑無路,其實柳暗花明又有一村,萬丈高樓平地起,打好地基,未來才有登高望遠的睥睨,驀然回首時,一切辛苦都已經消失在燈火闌珊處,相信我,這條路,一定值得。
邱皓政
西元2022年2月
於臺師大管理學院
作者序
距離本書第一版寫序,整整十年。也正是當時,《哈佛商業評論》的2012年10月號刊登了Thomas H. Davenport與D. J. Patil兩位資料科學專家所撰寫的專文Data Scientist: The Sexiest Job of the 21st Century,把資料科學家形容成最性感的工作,十年間,商業分析、人工智慧、區塊鏈、虛擬擴增實境等等名詞紛紛出籠,相關職缺炙手可熱,不論新手或專家,薪資節節升高,似乎真的很誘人、很性感。
事實上,性感一詞不是他們先說的,而且不是指資料科學家,Google首席經濟學家Hal Varian在2009年1月號的《麥肯錫季刊》抱怨說「我一直在講...
目錄
chapter1 統計學概說
chapter2 變數與測量
chapter3 次數分配與統計圖表
chapter4 描述統計量數
chapter5 相對量數與標準分數
chapter6 機率原理
chapter7 機率分配
chapter8 抽樣與估計
chapter9 假設檢定原理
chapter10 平均數假設檢定
chapter11 變異數分析
chapter12 多因子變異數分析
chapter13 相關分析
chapter14 迴歸分析
chapter15 多元迴歸分析
chapter16 時間序列分析
chapter17 無母數檢定
各章習題參考答案
參考文獻
附錄
中文索引
英文索引
chapter1 統計學概說
chapter2 變數與測量
chapter3 次數分配與統計圖表
chapter4 描述統計量數
chapter5 相對量數與標準分數
chapter6 機率原理
chapter7 機率分配
chapter8 抽樣與估計
chapter9 假設檢定原理
chapter10 平均數假設檢定
chapter11 變異數分析
chapter12 多因子變異數分析
chapter13 相關分析
chapter14 迴歸分析
chapter15 多元迴歸分析
chapter16 時間序列分析
chapter17 無母數檢定
各章習題參考答案
參考文獻
附錄
中文索引
英文索引
購物須知
退換貨說明:
會員均享有10天的商品猶豫期(含例假日)。若您欲辦理退換貨,請於取得該商品10日內寄回。
辦理退換貨時,請保持商品全新狀態與完整包裝(商品本身、贈品、贈票、附件、內外包裝、保證書、隨貨文件等)一併寄回。若退回商品無法回復原狀者,可能影響退換貨權利之行使或須負擔部分費用。
訂購本商品前請務必詳閱退換貨原則。