◎新技術或是新商品的效能,被人批評說只是偶然,你怎麼證明自己?
◎「本公司年終獎金平均六個月」,老闆沒撒謊,為什麼員工根本不可能領到?
◎形狀不規則的一小塊建地,我怎麼精確計算面積?
◎經濟成長GDP很難保一,但餐飲業整體營收卻大幅成長兩成,
所以餐飲業值得投入?其實,這是臺灣年輕人低薪的原因。為什麼?
統計可以告訴你。
在網路時代,只要會用電腦和讀取工具,就能蒐集到大量數據,
大家莫不被大數據的可能性給驚呆了,
但統計才是讓大數據說出真相、派上用場的關鍵。
作者涌井良幸畢業於筑波大學數學系畢業,涌井貞美畢業於東大理學系研究所。
他用只需要國中程度的數學能力加上圖解,就能擁有工作上一定用得到的統計能力。
◎爆量資訊時代,學統計才能以簡馭繁
蒐集數據不難,只要懂一點統計的基本原理,你就能檢定驗證各種假設:品牌忠誠度提高了嗎?支持率四成四的候選人為什麼輸給支持率四成三的?奶茶和茶奶真的喝得出來?裝瓶機器誤差很大嗎?………
按計算機很麻煩,本書教你一步步用Excel,立刻能把資料處理成真相。
◎懂這些基礎知識,就抓到統計的精髓,別讓「平均」二字唬弄了你
‧資料有兩種:數字與文字,而文字的資料可以用數值替換,作者教你如何整理成高度說服力的表格和圖表,看出變數彼此的關係與特質。
‧認識平均數、中數、眾數。大部分報告只提平均數,會造成偏頗──
平均薪資5萬的公司待遇很好?可能是一位主管月薪30萬,10位員工都領22K。
兩家公司平均待遇都是4萬,但有提到各自的變異數和標準差嗎?
這數字讓你看到平均數和事實誤差有多大。
◎統計、隨機抽樣,和母體的機率,講這個你就比別人專業
‧隨機抽樣不等於隨便抽樣。
為什麼民調抽樣有效樣本1000人還不足以代表全國?
但為什麼有些抽樣數目不到30,代表性卻很高?
‧除此之外,將數據「標準化」,可以讓不能比的兩組數據變得可以比較,像是比較全班國文和數學考試的成績表現、兩個國家國民的購買力等等。
◎資料分析應用,絕對會讓簡報看起來很漂亮
用圖表方便看出兩件事情的相關性:
‧散布圖,容易找出異常數字、連計算都不必,就幫助你不誤判
‧股市線圖其實不難懂,根本就是統計圖。
‧把混亂的資料分組、畫長條圖,可以很快抓出其中的規律和秩序。
◎估計與檢定,讓你不隨便相信媒體說的話
‧媒體告訴你的任何數字,該相信嗎?家庭主婦有多少零用錢、棒球選手的打擊率、學生的算術能力提升……報導是否正確,看用什麼統計方法就知道。
‧工作上的大小事,如問卷調查結果、用機器工作的誤差、大人和小孩對食物的偏好,估計和檢定也能給你一個答案。
◎迴歸分析、變異數分析和貝氏定理,絕對是你升職加薪的好夥伴
想要找出各種變數的相對關係,只要運用這三種方式就行了。
‧用迴歸分析做預測,像透天厝變多,汽車的銷售會增加多少、住宅數與年收入對賣車影響程度、用電越來越兇,將來每戶每月用電量可能多少……。
‧變異數分析證明現象非偶然,證明你策略用對、而非運氣好;證明新老師或新的教學方法,真的有效……。
‧貝氏定理可以提高推論準度:健康檢查準確度、如何判斷這是不是垃圾郵件……。
本書逐步圖解Excel的操作步驟,
當別人還在為大數據如何解釋而傷腦筋,你已逼近真相的最核心。
作者簡介:
涌井良幸(Wakui Yoshiyuki)
1950年出生,筑波大學數學系畢業,目前從事高中教職,以及電腦活用的教育法與統計學研究。
有多部統計學相關著作,如《用貝氏統計學做為道具》;另和弟弟貞美合著有《圖解迴歸分析》、《圖解多變量分析》(以上由日本實業出版社出版)、《史上最強圖解:這樣一定懂!統計學》、《用Excel學統計分析》(以上為Natsume社出版)等。
涌井貞美(Wakui Sadami)
涌井良幸的弟弟。1952年出生於日本東京都。於東京大學理學科研究科碩士畢業後,進入富士通株式會社工作。其後,曾擔任日本神奈川縣立高等學校教學人員,現為科學自由作家,活躍於各書籍以及雜誌的寫作工作。
已在臺灣出版《身邊常見的現代化生活科技:讀完變身「上知天文、下知地理」的小博士!》(與哥哥良幸合著)。
譯者簡介:
李貞慧
臺大工商管理學系畢業,日本國立九州大學經濟學碩士,取得中國生產力中心第十屆中日同步口譯人才培訓研習班結業證書,擅長中日對譯,目前專職從事醫學、核能、光電、機械設備、電機工程、金融商業、美容等口筆譯工作。
譯有《一人開公司也能搞定的財務管理實務》、《股票一年買賣兩次,最賺》。
各界推薦
名人推薦:
瘋狂賣客創辦人 江鑑修
黛安芬國際股份有限公司營業處副總經理 王靜逸
名人推薦:瘋狂賣客創辦人 江鑑修
黛安芬國際股份有限公司營業處副總經理 王靜逸
章節試閱
只要國中程度的數學就能看懂
時間如果倒轉回一百年前,一般人應該幾乎沒有機會接觸到統計資料!近年來,隨著社會資訊化的快速發展,現在的我們根本就是生活在資訊的洪流中。所以對現代人來說,處理資訊的統計學已經是不可或缺的常識了。特別是學習統計學所得到的以下兩種能力,更是必要的常識。
第一種就是取得各種資料時,能加以活用的能力。因為在資訊化時代不能正確活用手中資訊的人,不論是在工作上或人生中,都會處於無法做出適當判斷的狀況。
第二種則是分辨資料分析結果的能力。一看到四面八方來的統計資料,大多數人都會以為正確而全盤接受。事實上統計資料一定內含提供者的主觀意識,有時甚至是有意捏造的假資料,所以必須要有能力分辨提供者的居心。
一直以來,日本文科學生當中也有不少人因為高中、大學入學考試不考,選擇放棄學習數學,這麼一來數學的教育程度就停留在國中程度。還好現在這種現象慢慢有在改善了。
本書是統計學的超級入門書,國中程度的人都看得懂。非常希望讀者們都能利用本書,學會統計學的素養,讓大家在現代社會中活得更聰明。
為什麼統計現在成了顯學?
為什麼統計學現在這麼受到重視?
近年來隨著電腦的功能越來越強大,大家可以說都生活在資訊的洪流中,所以這個時代又被稱為資訊化時代。而且在推特或臉書等網路社群上,每天都會產生龐大的資料,正所謂是「大數據時代」。
在這種時代,統計分析能力之所以重要,有以下兩個理由:第一就是取得各種資料時,能加以活用的能力。在資訊社會中,如果不知道如何活用龐大的數據,資料就只不過是一座垃圾山。
不過只要有一點統計分析能力,就可以把這座山變成資訊的寶山。在資訊化時代,不能正確活用手中資訊的人,不論是在工作上或人生中,都會無法做出適當的判斷。
第二則是分析結果的能力。現在來自四面八方的統計資料,經過一些人的解釋後,便會公布在大眾傳媒上。問題是這些人的解釋並不一定正確。甚至有人會故意捏造不實的解釋。所以,英國政治家班傑明‧迪斯雷利斬釘截鐵的表示,統計是比該死的謊言更大的謊言。
不過只要有一點統計分析能力,就可以戳破扭曲的解釋。
理解隱藏在資料背後的本質
統計學所做的事就是「理解隱藏在資料背後的本質」。根據資料的處理手法又分成許多種類。
把資料整理好,用圖表方式來呈現的統計學,就是敘述統計學(Descriptive Statistics,就現有統計資料予以分類、整理、陳示與分析,並說明其特性,結果得以用圖表或數字呈現)。這種統計學可以找出在資料背後的本質,讓使用者直覺即可理解。
另外用平均數或變異數等簡單的數值,來呈現龐大資料的全貌,這也是敘述統計學的手法。這種統計手法的好處是以簡單明瞭的方式來說明資料的特徵,所以是研究、企畫簡報、商品說明時不可或缺的得力助手。
相對於敘述統計學的是數理統計學(Mathematical Statistics)。推論統計學(Inferential Statistics)就是其一。推論的基礎理論是機率,這是和敘述統計學最不同之處。
從前的推論統計學是奠基於頻率論(資料可以重複取出無數次),不過現在貝氏統計學(Bayesian Statistics,貝氏為 18 世紀重要的數學家。他在機率論的研究聞名於世,提出的貝氏定理對於現代機率論和數理統計的發展有重要的影響)也是統計學的主流之一。貝氏統計學認為取得的資料只能取出一次,將經驗等列入考慮,所以被認為是體貼的統計學。
此外,當有許多變量,彙整這些變量一起分析的多變量分析(Multivariate Statistical Analysis)也是數理統計學的一個重要領域。
人類的文明史,其實就是統計出來的歷史
統計學的歷史可追溯至文明的起源,因應社會的需要而發展演變至今。特別是電腦的發展,大幅改變了統計學的形貌。
統計學的起源和國家的起源一致。西元前,古埃及為了建造金字塔,就已經進行了許多統計調查行動。古代羅馬帝國時期也做過人口與土地(Census)調查。「Census」也正是今日「人口普查」的語源。
由上可知「統計」與「國家」自古以來就有密不可分的關係。「統計」的英語是「Statistics」,德語是「Statistik」,都是自拉丁語的「Status」(國家、狀態)衍生而來。這是因為執政者為了徵稅與徵兵等,必須正確掌握國家的狀態。所以自 17 世紀開始,統計學就已經是一門研究人口普查的正式學問。有一句話說:「有國家就有統計」,就是最好的象徵。
到了現代,統計學已經不只是為執政者服務的學問。不論是必須處理和社會與大自然有關的龐大資料的研究人員,或是追求利益的公司或個人,都必須能將統計學運用自如。此外,現代電腦科技的蓬勃發展,也成為統計學的強力後盾,讓統計學的應用領域更寬更廣。在資訊化的社會,統計學正可說是最強的武器。
資料有兩種:量化和質化
統計學的功用就是由各式各樣的資料中找出有用的資訊。但資料也有很多種。
像年齡、身高是以數字來表示,但姓名、性別、健康狀態卻是以文字來敘述。這兩種表現方式在統計處理上有完全不同的意義。因此統計學將這些根據實驗、觀察或調查等取得的資料稱為資料(Data),又分成以下兩大類。
像是年齡或身高,以數字來表示的資料就稱為量化資料。而表示性質或狀態的資料而性別或健康狀態等,就稱為質化資料。一般人會以為統計學的資料都是量化資料,不過其實質化資料也歸統計學管。怎麼做呢?就是將質化資料替換成適當的數值後處理。舉例來說,以「健康狀態」為例,假設:
「不良」的數值為 –1,「普通」的數值為 0,「良好」的數值為 1。
就可以把質化資料替換成數值,然後再利用這些數值進行統計,這是分析問卷調查結果時不可或缺的技巧。
別講大概,要說機率:一件事可能發生的程度
利用取得的資料來預測未來或是資料母體的全貌,這是統計學的重要工作。也就不會有「大概⋯⋯吧」的說法,會以明確的機率來表示。
如果只是蒐集很多資料來求平均數或變異數、調查次數分配,以了解過去或現狀,這樣的統計學和機率論扯不上關係。可是如果要利用過去或現在的資料預測未來,或是利用部分來掌握全貌,對推論統計學來說,機率就是不可或缺的概念。
事實上,要理解統計學並不需要很高深的機率論。如果能理解以下內容,就能抓到重點。
「當我們擲一枚硬幣,出現正面的機率是多少?」答案就是「如果正面和反面可能發生的程度相同,那就是 1/2」。機率其實就是把這個想法一般化後形成的理論,定義如下:
「假設全部有 n 種發生方式,而且每種發生方式可能發生的機率相同。其中 A 事情的發生方式假設有 r 種,那麼 A 事情發生的機率就是 r/n。」
這裡的 r/n 為 0 和 1 之間的數值,如果數值趨近 1,A 事情就很容易發生,如果數值趨近 0,A 事情就不太會發生。出現方式的總數就稱為樣本空間(Sample Space)。而事情在統計學中則稱為事件(Event),擲硬幣這件事則稱為試驗(Trial)。
只要國中程度的數學就能看懂
時間如果倒轉回一百年前,一般人應該幾乎沒有機會接觸到統計資料!近年來,隨著社會資訊化的快速發展,現在的我們根本就是生活在資訊的洪流中。所以對現代人來說,處理資訊的統計學已經是不可或缺的常識了。特別是學習統計學所得到的以下兩種能力,更是必要的常識。
第一種就是取得各種資料時,能加以活用的能力。因為在資訊化時代不能正確活用手中資訊的人,不論是在工作上或人生中,都會處於無法做出適當判斷的狀況。
第二種則是分辨資料分析結果的能力。一看到四面八方來的統計資料,大多數人都會以為正...
目錄
推薦序
前言 只要國中程度的數學就能看懂
本書結構圖
序章 爆量資訊,學統計以簡馭繁
1. 為什麼統計現在成了顯學?
2. 理解隱藏在資料背後的本質
3. 人類的文明史,其實就是統計出來的歷史
專欄:「開放資料」藏好料,可以挖寶
第1章 分析資料,懂這些基礎知識就夠用
4. 資料有兩種:量化和質化
5. 整理成表格,就可以看出資料有什麼特徵
6. 表格畫成圖,特徵更是一目了然
7. 平均數:資料中最重要的代表值
8. 中位數、眾數:幫你看出資料的五官輪廓
9. 變異數、標準差:看出資料的分散程度
10. 變異、變異數的大小,顯示資料所含資訊量
11. 散布圖:以視覺凸顯兩個變數的關係
12. 相關係數:用數字表示兩個變數相關程度
13. 交叉分析?就是把清單整理成列聯表啦
專欄 2:兩個以上變數對結果的影響,用多變量分析
第2章 統計、隨機抽樣、與正確描述母體的機率
14. 別講大概,要說機率:一件事可能發生的程度
15. 隨機變數,就是用數字表示你的試驗結果
16. 統計學的目的:想知道隨機變數的出現機率
17. 隨機變數的平均數與變異數計算
18. 數字排排站。機率分配的P值、百分位數
19. 標準化:看似不能比的兩組數據變得可以比較
20. 隨機抽樣不是隨便抽樣:才足以預測全體樣貌
21. 母數:用以表現母體特質的數字
22. 抽樣取得估計量,希望和母數一致
23. 自由度:讓抽樣「不偏」母數
24. 誤差總是或多或少,誤差值會呈現常態分配
25. 中央極限定理,讓好的抽樣逼近真理
26. 樣本平均數定理,重複多次抽樣就知道母體什麼樣
27. 95%的信心水準,認為這就是母體平均數
專欄3:迴歸分析:歸納既有事實,預測未來可能結果
第3章 估計,與檢定你的估計
28. 用點估計太篤定,用區間估計有信心
29. 區間估計,來自樣本的統計量
30. 我有九成五的把握……
31. 對估計有信心,因為世事多屬常態分配
32. 樣本相同,想提高信心水準、信賴區間就失準
33. 其實我們常常用統計來檢定想法的對錯
34. 想法正確卻遭到捨棄的機率:顯著水準
35. 想否決的假設,想證明為真的假設
36. 事實的檢定,永遠面臨型一與型二錯誤
專欄4:因素分析:原因看似很多,共同因素可能只有一個
第4章 預測:迴歸分析、
證明某現象並非偶然:變異數分析、
貝氏定理:提高推論準度,生活中最常用
37. 簡單迴歸分析:用單一變數來預測另一變數
38. 複迴歸分析:用兩個以上的變數來預測
39. 判定係數,判定迴歸模型精準度
40. 調整自由度,刪除無助於預測的變數
41. 證明某現象並非偶然,用變異數分析
42. 變異數分析的關鍵:組內離散與組間離散程度
43. 變異數分析三步驟
44. 計算瑣碎,excel一秒完成
45. 變異數分析的原理:去同存異
46. 兩個變數對結果的影響:無重複試驗
47. 重複試驗下,分析兩個變數對結果的影響
48. 變異數分析excel代勞,但要弄懂名詞定義
49. 情人的加分扣分,請遵照貝氏定理
50. 貝氏定理超實用,先看懂四名詞
51. 看似繞口令,其實是推理
52. 貝氏定理:隨著資料增加,推論越加準確
專欄5:主成分分析,把一堆變數歸納成幾個
第5章 資料分析應用實例
53. 如何調查兩件事情的相關性
54. 用散布圖剔除異常數字,以免誤判
55. 股市線圖,根本就是統計圖解
56. 統計圖解,看出差異和變動
57. 分組、畫長條圖,找出混亂資料的秩序
專欄6:區別分析:怎樣的性能條件,價格能定到極致?
第6章 活用機率、抽樣,與描述母體之前……
58. 賭博之前,先算期望值
59. 地皮形狀不規則,怎麼計算面積?
60. 人生有好運壞運,想得到公平結果,你得……
61. 為什麼醉漢總是能走回家?
62. 抽樣至少要超過30個的統計學根據
63. 全國性大調查,樣本多少才夠?
專欄7:集群分析:把眾多受訪者,按照特性分成幾群
第7章 活用估計與檢定
64. 什麼情況下會發生這種事?用最大概似估計法
65. 家庭主婦有多少零用錢?抽大樣本
66. 只能抽小樣本,如何檢定假設?
67. 母體變異數一向如此,推估目前平均數
68. 推估單身比率、市場占有率的方法
69. 選民支持率的調查,抽樣1000人誤差頗大
70. 上班族的零用錢差異程度
71. 調查吸菸率、支持率是否升高
72. 學生算術能力提升了嗎?這樣檢定
73. 新生兒體重變輕了?如何檢定
74. 最近十天你睡夠了嗎?這樣檢定
75. 調查兩地上班族的零用錢是否相等
76. 比較兩選手的打擊率
77. 裝瓶機器誤差很大嗎?這樣檢定
78. 老闆給我的「粉」,量總是不穩定嗎?
79. 骰子是否公正?檢查方法跟你想的不一樣
80. 某地男女比例是否失衡
81. 奶茶和茶奶,真的喝得出來?
82. 大人和小孩喜歡的料理不同嗎?
專欄8:質化問題,可以數量化分析
第8章 迴歸分析、變異數分析和貝氏定理怎麼用
83. 透天厝變多,汽車銷售會增加多少輛?
84. 住宅戶數與年收入對賣車影響程度
85. 用電越來越兇,將來每戶每月用電高達幾度?
86. 策略用對了,不是運氣好的證明方式
87. 新老師或是新方法,真的有效嗎?
88. 營養品或睡眠對膚質的影響 (無重複實驗)
89. 營養品或睡眠對膚質的影響 (重複實驗)
90. 下注,猜袋中白球有幾顆
91. 健康檢查準確度95%,其實很低喔
92. 有了線索,要不要改變猜測?
93. 線索可以提高猜中機率的證明
94. 電腦如何判斷垃圾郵件?用貝氏定理
95. 用貝氏定理來猜天氣,準度大增
附錄A:用Excel來計算百分位數與各種分配的p值
附錄B:用Excel做迴歸分析、變異數分析
推薦序
前言 只要國中程度的數學就能看懂
本書結構圖
序章 爆量資訊,學統計以簡馭繁
1. 為什麼統計現在成了顯學?
2. 理解隱藏在資料背後的本質
3. 人類的文明史,其實就是統計出來的歷史
專欄:「開放資料」藏好料,可以挖寶
第1章 分析資料,懂這些基礎知識就夠用
4. 資料有兩種:量化和質化
5. 整理成表格,就可以看出資料有什麼特徵
6. 表格畫成圖,特徵更是一目了然
7. 平均數:資料中最重要的代表值
8. 中位數、眾數:幫你看出資料的五官輪廓
9. 變異數、標準差:看出資料的分散程度
10. 變異、變異數的大小...