我分類故我在!大數據也要大思維!思維革新比數據技術更重要!
在商業分析和商業智慧的脈絡下,建構大數據,而不是從巨量資料當中大海撈針。
在未來,容易上手的程式只會越來越普及,唯有絕佳的資料素養,和更有價值的決策能力才能讓你不同凡響。
如果只是把資料變大,認知學習能力的維度卻沒有變大,接下來會如何?從少量數據都學習不到的價值,大數據只是讓它更遙不可及。
作者鑽研R語言多年、擁有資深學界經驗,貢獻良多。本書內容豐富,以十個面向切入,探討大數據所必備的工具,例如R-Commander、決策樹、隨機森林與R語言強大的視覺化功能。除了概念解析之外,作者更逐行解析專業程式語言,再加碼實際操作與應用功能說明,在每講的最後,還能領略作者獨到的觀念釐清,讓你不會迷失在大數據的眉角中。非常適合做為R語言的基礎自學書,對於初入大數據領域的讀者如同暮鼓晨鐘、醍醐灌頂,對已入行的數據分析師而言,更是當頭棒喝、突破盲點。
作者簡介:
何宗武
現任
國立臺灣師範大學全球經營與策略研究所 教授
專長財務經濟學、金融大數據、計量經濟資料科學及程式語言等,著作多本相關書籍如:《R語言:深入淺出財經計量》、《R資料採礦與數據分析:以GUI套件Rattle結合程式語言實作》、《資料分析輕鬆學:R Commander高手捷徑》、《Eviews高手:財經計量應用手冊》
各界推薦
名人推薦:
嘉實資訊總經理 李政霖 我好評 故我推薦
名人推薦:嘉實資訊總經理 李政霖 我好評 故我推薦
章節試閱
第2講
掌握資料的統計性質—分布
Walmart 的大數據快打部隊
大數據案例中最有名的就是 Walmart 的「尿布和啤酒」。Walmart曾是世界上收益最高的大公司,有散布世界 30 多國的 2 千家賣場,聘僱近 2 百萬員工。Walmart 或許是世界上最早從數據解析獲得商業價值的公司,尤其在 2004 年颶風 Sandy 侵襲美國之後,對於急難救助設備和藥品的高需求,凸顯了預測分析的重要。
Walmart 這種大賣場型的零售業,是典型的超級市場,每天把數以萬計的商品賣給成千上萬的消費者。因為消費者在此處買不到他要的,就很容易轉往別家賣場,所以,除了商品競爭,還需要在顧客服務上競爭,也就是便利性。因此,它的決策目標就很清楚:1. 透過顧客交易資料,了解商品特徵的衍生需求;2. 衍生需求屬性的分類及設計促銷方案。
2011 年 Walmart 開始大數據布局,先成立了 @WalmartLabs 和Fast Big Data Team,也就是大數據快打部隊。大數據快打部隊總部設在阿肯色州,在此,小組成員每天透過掌握 200 條數據串流,分析全世界的即時 (Real-time) 資料,包括上週累積的 40 PB 數據,這個數據戰略也稱為資料咖啡 (Data Café)。
Walmart 的銷售績效和即時分析息息相關,一位內部的資深統計學家說:「如果需要一星期或更久,才能從資料中找出問題和解決方案,那我們就輸定了。」Walmart 的工作模式是以數據為中心的解決方案,快打部隊不是單獨工作,他們對公司內部所有部門開放,任憑部門提出各種問題,他們從數據中獲得參考答案,然後共同思考解決方案。
Walmart 的中央資訊系統掌握了各地的上架貨物狀況,可以透過需求預測,來配置各地賣場的庫存。如果發現哪一間賣場存貨不足以滿足需求,就會即時發出警訊。這種問題最常出現在特別節日或大型活動舉辦時期。Walmart 還推出 Shopycat 服務,專門在社媒中挖掘顧客的朋友關係和消費模式的關聯,據此,他們開發出自己的搜尋引擎Polaris,Polaris 可以分析檢索 Walmart 網頁的模式,利用數據,優化商品搜尋結果。
Data Café 的資料量相當大,根據官方文件,最近 2 週的交易資料就有 2,000 億列 (rows)。除了交易資料,還有至少 200 個開放資料源,例如:氣象、經濟、電信、社群媒體、天然氣價格,以及各賣場附近將舉辦的活動資訊。零售超市是高度競爭的產業,因此,透過數據協助解析顧客,藉以提升競爭優勢,是一個堪比軍備競賽的行動。Walmart 也發現他們和阿里巴巴與 Amazon 的不同,他們發現除了習慣於送貨到府的消費者,更多顧客喜歡親自開車來逛賣場,而他們就是這一塊的霸主。
技術面來看,像 Walmart 這一類的公司,資料倉儲技術就很重要。2011 年開始採用 Hadoop 的分散技術,但很快就不敷使用。為了更靈活管理儲存前的資料以及分析數據,Spark 和 Cassandra 系統也引入使用,數據分析則採用 R 語言和 SAS 系統。
Walmart 企業官網:https://www.walmart.com/
第2講
掌握資料的統計性質—分布
Walmart 的大數據快打部隊
大數據案例中最有名的就是 Walmart 的「尿布和啤酒」。Walmart曾是世界上收益最高的大公司,有散布世界 30 多國的 2 千家賣場,聘僱近 2 百萬員工。Walmart 或許是世界上最早從數據解析獲得商業價值的公司,尤其在 2004 年颶風 Sandy 侵襲美國之後,對於急難救助設備和藥品的高需求,凸顯了預測分析的重要。
Walmart 這種大賣場型的零售業,是典型的超級市場,每天把數以萬計的商品賣給成千上萬的消費者。因為消費者在此處買不到他要的,就很容易轉往別家賣場,所以...
推薦序
比爾蓋茲曾說:「蒐集、管理和使用資料的方式,決定了輸贏!」科學家們則說:「繼蒸汽、電力、石油之後,下一次工業革命的生產要素是『資料』!」特別是人工智慧的發展,需要大量的數據,於是,資料科學就成為未來非常重要的一個領域。
如何把「資料」變成「資訊」,是資料科學的重大課題,過往台灣廠商在電腦硬體上表現得很好,生產的電腦及各種資訊終端,蒐集了大量的資料,也處理了大量的資料,但如果我們在如何運用資料上缺席了,在下一波的競逐中,就會愈來愈落後。
幸好台灣還有一些資料科學家,看到這樣的現象,不斷地寫文章、寫書,把畢生所學,毫無保留地介紹給大家,希望能夠結合更多的有識之士,讓台灣在硬體奇蹟之後,再創另一個高峰。
何宗武老師就是一位這樣的資料科學家。
何老師令人感佩之處在於,他長期在資料科學領域耕耘,明知道這是趨勢,但卻從來不趕流行,反而紮紮實實,一步一腳印地深耕於資料科學領域。他說,大數據不是口號,是思維,是內化為個人與企業決策的一部分,這些年來,他不斷地寫作出書,帶領著我們這些資料科學的門外漢,一步一步地走進這個新的殿堂。
在大數據、人工智慧等口號響徹雲霄之際,何老師大道至簡,從根柢說起,寫出了《大數據決策分析—盲點大突破 10 講》這本新書,在書裡,老師搭配 R 語言相關套件,從最基礎的平均數與變異數、時間序列、期望值與信賴區間和線性迴歸,由淺入深,一路介紹到集群分析、決策樹及隨機森林。就像是一本大數據乾坤大挪移的武功祕笈,陪著我們一層一層地修練,最終可以把數據化為決策。
這幾年來,我服務的公司嘉實資訊,從金融資訊供應商往交易決策平台的方向前進,我們試著透過程式語法,從龐雜的金融數據中,找到高機率不斷發生,且極可能瞬間即逝的交易機會。這當中,資料科學就像是習武之人必須不斷累積的內力,只有雄厚的內力,才能確保在尋找聖盃的道路上,不會走火入魔。
何老師的這本書,來得正是時候,可以讓有志於從事量化交易的朋友,帶著正確的觀念,處理金融相關的數據,很榮幸可以幫我這位優秀的學弟介紹這本書,一切,就從學會分類做起吧!
嘉實資訊總經理
李政霖 2018/07
比爾蓋茲曾說:「蒐集、管理和使用資料的方式,決定了輸贏!」科學家們則說:「繼蒸汽、電力、石油之後,下一次工業革命的生產要素是『資料』!」特別是人工智慧的發展,需要大量的數據,於是,資料科學就成為未來非常重要的一個領域。
如何把「資料」變成「資訊」,是資料科學的重大課題,過往台灣廠商在電腦硬體上表現得很好,生產的電腦及各種資訊終端,蒐集了大量的資料,也處理了大量的資料,但如果我們在如何運用資料上缺席了,在下一波的競逐中,就會愈來愈落後。
幸好台灣還有一些資料科學家,看到這樣的現象,不斷地寫文章...
作者序
數位科技席捲世界帶來了大數據浪潮,但是,這三個字其實有一些誤導,讓一般人以為「大就是美」。其實在商管領域,大數據就是以證據為基礎的決策分析。更精準地說,「大」不是指用 4V 來描述的資料庫特徵,而是因為數據科技 (Data Technology) 進步,對多樣資料的「大用」。
在物聯網技術突飛猛進之下,數據量不可否認地遠遠大於以前。目前平常分析的資料表動輒「萬列千行」,因此如何從這些資料結構中提取資訊,「統計學 (Statistics)」和「資料探勘 (Data Mining)」就是關鍵技術。然而,我們不是為了大數據而大數據,大數據乃至人工智慧,都是為了支援決策。簡單地說,數據解析產生「預測」,預測解讀產生「決策」。數據解析的原理也只有兩個原則:「排序和分類」,所以一言以蔽之:「以排序來分類,從預測到決策」,就是大數據解析的核心。據此,本書副書名為「我分類,故我在」。
妥善的分類就可以產生可靠的預測,但是,當資料結構複雜時,排序乃至分類就沒有那麼簡單,所以需要利用演算法來處理資料,本書就是依此而生。例如:由分類的角度學習統計,統計學的預測以樣本期望值或條件期望值為基準,據之將資料劃分信賴區間,分類成「內 vs. 外」兩群,重點將不再是參數估計的顯著程度,而是預測表現和誤差分析。
全書分成 10 講,為筆者以大數據為名行走江湖的結晶,書中某些部分為在臺師大 EMBA 講授「大數據決策分析」的教材。每一講開頭皆以一個特定企業應用大數據的決策故事為開場,希望讀者能夠覺得不枯燥,同時也了解大數據的決策端,相當實戰且關鍵,沒有預測,都是紙上談兵。每講結尾都附上一個數據決策思考的方塊,從問對問題開始,一路引導至最後一英里路。案例用 R 語言的 GUI 和程式碼實作,但是,程式語言不是重點,而是對所預測對象的行為,有深刻的認識,勿忘 Domain Knowledge。
國立臺灣師範大學全球經營與策略研究所
何宗武
數位科技席捲世界帶來了大數據浪潮,但是,這三個字其實有一些誤導,讓一般人以為「大就是美」。其實在商管領域,大數據就是以證據為基礎的決策分析。更精準地說,「大」不是指用 4V 來描述的資料庫特徵,而是因為數據科技 (Data Technology) 進步,對多樣資料的「大用」。
在物聯網技術突飛猛進之下,數據量不可否認地遠遠大於以前。目前平常分析的資料表動輒「萬列千行」,因此如何從這些資料結構中提取資訊,「統計學 (Statistics)」和「資料探勘 (Data Mining)」就是關鍵技術。然而,我們不是為了大數據而大數據,大數據乃至人工智...
目錄
推薦序
自序
第1講 淺談解析型企業
1.1 大數據是因為它有大用
1.2 資料解析的兩個大數據環境
1.3 演算法
1.4 數據解析之資訊概論
1.5 資料驅動?別鬧了!數字不會說話
1.6 本書安排
第2講 掌握資料的統計性質—分布
2.1 資料分布的前兩階動差—平均數和變異數
2.2 描述資料中央趨勢的兩組方法
2.3 資料分布的另外兩個動差
2.4 提審大數據
第3講 時間序列的分類分析
3.1 時間序列性質
3.2 時間序列分析—低頻
3.3 時間序列分析—日高頻資料
3.4 時間序列分類分析—日內高頻資料
3.5 提審大數據
第4講 線性模式的分類原理—期望值與信賴區間
4.1 簡易統計原理
4.2 R GUI 實作
4.3 R 程式碼實作
4.4 提審大數據
第5講 二元模式的分類原理—Logistic 迴歸
5.1 簡易廣義線性模型
5.2 R GUI 的實作
5.3 R 程式的實作
5.4 提審大數據
第6講 主成分的分類原理—把資料變少了
6.1 簡易原理
6.2 R GUI 的實作
6.3 R 程式的實作
6.4 提審大數據
第7講 集群分析的分類原理
7.1 集群分析的基本概念
7.2 R GUI 實作
7.3 R 程式的實作
7.4 提審大數據
第8講 決策樹和隨機森林的原理
8.1 分類決策樹原理
8.2 用 R GUI 實作
8.3 R Code
8.4 隨機森林
8.5 提審大數據
第9講 大數據行銷—購物籃分析
9.1 關聯的分類原理簡介
9.2 R GUI 實作
9.3 R code
9.4 提審大數據
第10講 文字探勘淺談
10.1 文字探勘簡介
10.2 隱藏馬可夫模型 (HMM, Hidden Markov Model)
10.3 RLab
附錄A 有關 R 的 GUI 裝置問題
A.1 R 漫談和 GUI 簡介
A.2 R-Commander 的裝置
A.3 安裝與載入 R-Commander
附錄B 裝置 rattle
附錄C 資料檔和 MySQL 資料庫的存取
C.1 資料檔讀取
C.2 資料庫讀取
C.3 處理資料表的函數
附錄D 強化法
D.1 支援向量機 SVM 簡介
D.2 推進 (Boosting) 方法簡介
推薦序
自序
第1講 淺談解析型企業
1.1 大數據是因為它有大用
1.2 資料解析的兩個大數據環境
1.3 演算法
1.4 數據解析之資訊概論
1.5 資料驅動?別鬧了!數字不會說話
1.6 本書安排
第2講 掌握資料的統計性質—分布
2.1 資料分布的前兩階動差—平均數和變異數
2.2 描述資料中央趨勢的兩組方法
2.3 資料分布的另外兩個動差
2.4 提審大數據
第3講 時間序列的分類分析
3.1 時間序列性質
3.2 時間序列分析—低頻
3.3 時間序列分析—日高頻資料
3.4 時間序列分類分析—日...
購物須知
退換貨說明:
會員均享有10天的商品猶豫期(含例假日)。若您欲辦理退換貨,請於取得該商品10日內寄回。
辦理退換貨時,請保持商品全新狀態與完整包裝(商品本身、贈品、贈票、附件、內外包裝、保證書、隨貨文件等)一併寄回。若退回商品無法回復原狀者,可能影響退換貨權利之行使或須負擔部分費用。
訂購本商品前請務必詳閱退換貨原則。