★只有這本書!教你比程式語言更重要的數據思維!
在未來,容易上手的程式語言與免費的教材只會越來越普及,
唯有絕佳的 資料素養 和 決策分析能力 才能真正讓你出類拔萃!
|◎內行引入門→本書作者實力雄厚,擁有多年教學經驗,更是R語言中文版的編譯者。
◎功力就大增→解析型企業、時間序列、決策樹、隨機森林等十個大數據核心講題幫你全方位大提升!
|◎思維超展開→程式語言專業講解與發人省思的分析探討同步幫你掌握關鍵。
|◎展望大未來→每講皆以國際化的大數據時事開頭,引發學習興趣,增進視野高度!
※書中附贈豐富資料檔案做學習使用,請至本公司網站http://www.wunan.com.tw,輸入書號 RM43,即可找到下載處。
我分類故我在!大數據也要大思維!思維革新比數據技術更重要!
在商業分析和商業智慧的脈絡下,建構大數據,而不是從巨量資料當中大海撈針。
如果只是把資料變大,認知學習能力的維度卻沒有變大,接下來會如何?從少量數據都學習不到的價值,大數據只是讓它更遙不可及。
大數據時代來臨,獲取數據和資訊的技術越發精進,每天產生的數據量也越來越龐大,該如何使龐大資訊發揮影響力?在未來,容易上手的程式語言與免費的教材只會越來越普及,唯有絕佳的資料素養和決策分析能力才能真正讓你出類拔萃!
作者鑽研R語言多年、擁有資深學界經驗,貢獻良多。本書內容豐富,以十個面向切入,探討大數據所必備的工具,例如R Commander、決策樹、隨機森林與R語言強大的視覺化功能。除了概念解析之外,作者更逐行解析專業程式語言,再加碼實際操作與應用功能說明,在每講的最後,還能領略作者獨到的觀念釐清,讓你不會迷失在大數據的眉角中。非常適合做為R語言的基礎自學書,對於初入大數據領域的讀者如同暮鼓晨鐘、醍醐灌頂。
作者簡介:
何宗武
現任
國立台灣師範大學全球經營與策略研究所 教授
經歷
世新大學特聘教授
世新大學財務金融學系 教授
世新大學數量方法研究暨發展中心主任
專長財務經濟學、金融大數據、計量經濟資料科學及程式語言等,著作多本相關書籍如:《R語言:深入淺出財經計量》、《R資料採礦與數據分析:以GUI套件Rattle結合程式語言實作》、《資料分析輕鬆學:R Commander高手捷徑》、《Eviews高手:財經計量應用手冊》
章節試閱
「大數據,大思維」這六個字是筆者在 2015 年受電視訪問時所強調的標題,當時會這麼講,是因為大數據過度強調資訊技術範疇,容易和企業進步所需要的成分格格不入。如果講大數據只是一個串流數據的科技設備,那麼大數據只是讓企業糾纏於資料庫規模與形式上的資料演算。一言以蔽之,所謂的大思維,就是數據時代下的解析型企業。解析型企業做的各類決策都跟數據解析有關,例如,行銷就變成 Analytical Marketing,風險管理就是 Analytical Risk Management。
數據解析就是以證據為基礎的決策行為,為什麼這件事重要?想像一下,如果你胸痛去看心臟科,醫生不實際檢查你的心臟,直接就裝三支支架;想像一下,你的醫生用直覺判斷某個藥物有用,不實際做生理檢驗,就直接開給你服用;想像一下,你會用大學成績單決定交往對象嗎?這樣的決策很恐怖的。我們應該蒐集資料,研究資訊進步,有更好的分析技術就應該學習,這就是改善決策的方法。
解析型企業最早由 Davenport2 提出類似的概念,後來 Lewis and Lee3(2015) 再以認知學習型企業 (Cognitive Enterprise) 擴充這個想法。數據解析能否對企業創造價值,原因就在於一個數據學習型的生態系沒有緊緊鏈接決策。我們可以和過去的「Metrics 量化」一詞比較來理解何謂「Analytics」:Metrics 是以指標 (例如,各種績效指標 Performance index)為基礎的量化系統,最具代表的就是把數字績效做成視覺化的雷達圖和儀表版;Analytics 則是以型態與關係 (Pattern and Correlation) 為基礎的類型辨識(Pattern Recognition)。以學生學習為例,教育上的 Metrics 量化的績效指標會用考試成績和出缺勤等數字,透過模型與演算法計算出好學生或壞學生的標準。Analytics則透過感測器 (sensor) 的數位記錄來瞭解學生學習模式,例如:教室參與和使用 e-learning 學習紀錄,利用投入狀況 (engagement inputs) 去測量一個學生努力學習過程 (process) 的曲線,而不是學習結果 (outcomes) 的曲線。若只是使用結果數據,可能會把一個正在努力向上的學 生退學了。實際案例可以看 Cathy O’Neil4 在其書上所抨擊的美國中學教師評鑑系統,將認真優秀教師解聘的案例。
所以,問題不是大數據,數據再大,但是方法論不改變,產出的結果並不會有什麼改善。資料科學協助企業的層面不只是用更多數據做量化,用大量數據從事 Metric 而不是 Anlaytics,就會造成 O’Neil 所謂的大災難。然而,我們也可以廣義的說:Analytics 是擴增維度的新量化 (Augmented NewMetrics)。
本書使用「解析型企業」一詞來說明與數據解析緊密結合的企業決策模式,是一個結合「機器智能」和「大腦智能」的解析型 (Analytical) 決策生態鏈,如圖 1。
沒預測,沒決策。數據解析產生預測 (Prediction),基於預測衍生出可行的策略 (Strategies) 集合,然後做出決策 (Decision),決策經過市場(Market) 檢驗而有績效,進而再回饋給資料分析。在這個物聯網導向的數據經濟時代,數據的紀錄蒐集和儲存都更容易,因此,每個人或多或少都要透過一定的數據來完成某些工作,例如:企業的行銷決策,要分析顧客行為和意見;個人購買特定商品時,要閱讀相關口碑數據;政黨提名候選人,也要做民調。過去是數字,現在是數位型態。
然而,雖然數據使用普及性增加,卻被幾種事物包裝出層層的進入障礙:第一就是被大數據包裝,將重點變成資料庫技術,數年下來,大數據三個字被炒作成比大小的工作,浮濫而且空洞;其次是被程式語言包裝,導致學習的重心變成寫程式的技術,甚至將問題炒作成哪個程式語言比較好,糾結於在 Python/R 或 Spark/Hadoop 上面學習演算法。數據科技帶來了演算法這些事務,如果只是把資料變大,認知學習能力的維度卻沒有變大,接下來會如何?也就是說,從少量數據都學習不到的價值,大數據只是讓它更遙不
可及。
事實上,整個數據事件與資料庫的大小無關,和決策事實有關。如果數據事件與企業決策制定無關,那就不是大數據解析;因為,如果和決策有關,數據會慢慢變大,意義也會愈來愈厚。所以,關鍵在於一個和決策深度連結的數據分與預測,資料庫不但會自己長大,更會面臨來自決策成功和失敗的結果,回頭修正預測,這就是所謂的認知學習 (Cognitive Learning)。現階段我們看到很多號稱機器學習 (Machine Learning) 架構,只有機器沒有學習。
「大數據,大思維」這六個字是筆者在 2015 年受電視訪問時所強調的標題,當時會這麼講,是因為大數據過度強調資訊技術範疇,容易和企業進步所需要的成分格格不入。如果講大數據只是一個串流數據的科技設備,那麼大數據只是讓企業糾纏於資料庫規模與形式上的資料演算。一言以蔽之,所謂的大思維,就是數據時代下的解析型企業。解析型企業做的各類決策都跟數據解析有關,例如,行銷就變成 Analytical Marketing,風險管理就是 Analytical Risk Management。
數據解析就是以證據為基礎的決策行為,為什麼這件事重要?想像一下,如果你胸痛去...
推薦序
比爾蓋茲曾說「蒐集、管理和使用資料的方式,決定了輸贏!」科學家們則說「繼蒸汽,電力,石油之後,下一次工業革命的生產要素是 『 資料 』!」特別是人工智慧的發展,需要大量的數據,於是,資料科學就成為未來非常重要的一個領域。
如何把「資料」變成「資訊」,是資料科學的重大課題,過往台灣廠商在電腦硬體上表現的很好,生產的電腦及各種資訊終端,蒐集了大量的資料,也處理了大量的資料,但如果我們在如何運用資料上缺席了,在下一波的競逐中,就會愈來愈落後。
幸好台灣還有一些資料科學家,看到這樣的現象,不斷的寫文章,寫書,把畢生所學,毫無保留的介紹給大家,希望能夠結合更多的有識之士,讓台灣在硬體奇蹟之後,再創另一個高峰。
何宗武老師就是其中一位這樣的資料科學家。
何老師令人感佩之處在於,他長期在資料科學領域耕耘,明知道這是趨勢,但卻從來不趕流行,反而扎扎實實,一步一腳印的深耕於資料科學領域。他說,大數據不是口號,是思維,是內化為個人與企業決策的一部分,這些年來,他不斷的寫作出書,帶領著我們這些資料科學的門外漢,一步一步的走進這個新的殿堂。
在大數據,人工智慧等口號響徹雲霄之際,何老師大道至簡,從根柢說起,寫出了《我分類故我在》這本新書,在書裡,老師搭配R語言相關套件,從最基礎的平均數與變異數、時間序列、期望值與信賴區間和線性迴歸,由淺入深,一路介紹到集群分析、決策樹及隨機森林。就像是一本大數據乾坤大挪移的武功祕笈,陪著我們一層一層的修練,最終可以把數據化為決策。
這幾年來,我服務的公司嘉實資訊,從金融資訊供應商往交易決策平台的方向前進,我們試著透過程式語法,從龐雜的金融數據中,找到高機率不斷發生,且極可能瞬間即逝的交易機會。這當中,資料科學就像是習武之人必須不斷積累的內力,只有雄厚的內力,才能確保在尋找聖盃的道路上,不會走火入魔。
何老師的這本書,來的正是時候,可以讓有志於從事量化交易的朋友,帶著正確的觀念,處理金融相關的數據,很榮幸可以幫我這位優秀的學弟介紹這本書,一切,就從學會分類做起吧!
嘉實資訊總經理 李政霖 2018/07
比爾蓋茲曾說「蒐集、管理和使用資料的方式,決定了輸贏!」科學家們則說「繼蒸汽,電力,石油之後,下一次工業革命的生產要素是 『 資料 』!」特別是人工智慧的發展,需要大量的數據,於是,資料科學就成為未來非常重要的一個領域。
如何把「資料」變成「資訊」,是資料科學的重大課題,過往台灣廠商在電腦硬體上表現的很好,生產的電腦及各種資訊終端,蒐集了大量的資料,也處理了大量的資料,但如果我們在如何運用資料上缺席了,在下一波的競逐中,就會愈來愈落後。
幸好台灣還有一些資料科學家,看到這樣的現象,不斷的寫文章,寫書...
作者序
數位科技席捲世界帶來了大數據浪潮,但是,這三個字其實有一些誤導,讓一般人以為「大就是美」。其實在商管領域,就是以證據為基礎的決策分析。更精準地說,「大」不是指用4V來描述的資料庫特徵,而是因為數據科技(Data Technology)進步,對多樣資料的「大用」。
在物聯網技術突飛猛進之下,數據量不可否認的遠遠大於以前。目前平常分析的資料表動輒「萬列千行」,因此如何從這些資料結構中提取資訊,「統計學(Statistics)」和「資料探勘(Data Mining)」就是關鍵技術。然而,我們不是為了大數據而大數據,大數據乃至人工智慧,都是為了支援決策。簡單的說,數據解析產生「預測」,預測解讀產生「決策」。數據解析的原理也只有兩個原則「排序和分類」,所以一言以蔽之:「以排序來分類,從預測到決策」就是大數據解析的核心。據此,本書取名「我分類,故我在」。
妥善的分類就可以產生可靠的預測,但是,當資料結構複雜時,排序乃至分類就沒有那麼簡單,所以需要利用演算法來處理資料,本書就是依此而生。例如,由分類的角度學習統計:統計學的預測以樣本期望值或條件期望值為基準,據之將資料劃分信賴區間,分類成「內 vs. 外」兩群。重點將不再是參數估計的顯著程度,而是預測表現和誤差分析。
全書分成10講,為筆者以大數據為名行走江湖的結晶,書內某些部份為在台師大EMBA講授「大數據決策分析」的教材。每一講開頭皆以一個特定企業應用大數據的決策故事為開場,希望讀者能夠覺得不枯燥,同時也瞭解大數據的決策端,相當實戰且關鍵,沒有預測,都是紙上談兵。結尾都附上一個數據決策思考的方塊,從問對問題開始,到最後一哩路。
案例用R語言的GUI和程式碼實做,但是,程式語言不是重點,而是對所預測對象的行為,有深刻的認識,勿忘domain knowledge。
數位科技席捲世界帶來了大數據浪潮,但是,這三個字其實有一些誤導,讓一般人以為「大就是美」。其實在商管領域,就是以證據為基礎的決策分析。更精準地說,「大」不是指用4V來描述的資料庫特徵,而是因為數據科技(Data Technology)進步,對多樣資料的「大用」。
在物聯網技術突飛猛進之下,數據量不可否認的遠遠大於以前。目前平常分析的資料表動輒「萬列千行」,因此如何從這些資料結構中提取資訊,「統計學(Statistics)」和「資料探勘(Data Mining)」就是關鍵技術。然而,我們不是為了大數據而大數據,大數據乃至人工智慧,都是為了支...
目錄
第1講 淺談解析型企業
第1節 大數據是因為他會長大
第2節 資料解析的兩個大數據環境
第3節 演算法
第4節 數據解析之資訊概論
第5節 測量的哲學──自我學習之路
第6節 本書安排
第2講 掌握資料的統計性質--分布
第1節 資料分布的前兩階動差--平均數和變異數
第2節 描述資料中央趨勢的兩組方法
第3節 資料分布的另外兩個動差
第4節 提審大數據
第3講 時間序列的分類分析
第1節 時間序列性質
第2節 時間序列分析-- 低頻
第3節 時間序列分析— 日高頻資料
第4節 時間序列分類分析— 日內高頻資料
第5節 提審大數據
第4講 線性模式的分類原理— 期望值與信賴區間
第1節 簡易統計原理
第2節 R Commander實作
第3節 R程式碼實作
第4節 提審大數據
第5講 二元模式的分類原理-Logistic迴歸
第1節 簡易廣義線性模型
第2節 R Commander的實作
第3節 R程式的實作
第4節 提審大數據
第6講 主成分的分類原理— 把資料變少了
第1節 簡易原理
第2節 R Commander的實作
第3節 R程式的實作
第4節 提審大數據
第7講 集群分析的分類原理
第1節 集群分析的基本概念
第2節 R Commander實作
第3節 R程式的實作
第4節 提審大數據
第8講 決策樹的分類原理
第1節 分類決策樹原理
第2節 用R GUI 實作
第3節 R Code
第4節 提審大數據
第9講 隨機森林
第1節 原理
第2節 R GUI實作
第3節 R Code實作
第4節 提審大數據
第10講 大數據行銷──購物籃分析
第1節 關聯的分類原理簡介
第2節 R GUI 實作
第3節 R code
第4節 提審大數據
附錄A
第1節 R 漫談和GUI簡介
第2節 R Commander的裝置
第3節 安裝與載入R commander
附錄B
附錄C
第1節 資料檔讀取
第2節 資料庫讀取
第3節 資料表處理的函數
第1講 淺談解析型企業
第1節 大數據是因為他會長大
第2節 資料解析的兩個大數據環境
第3節 演算法
第4節 數據解析之資訊概論
第5節 測量的哲學──自我學習之路
第6節 本書安排
第2講 掌握資料的統計性質--分布
第1節 資料分布的前兩階動差--平均數和變異數
第2節 描述資料中央趨勢的兩組方法
第3節 資料分布的另外兩個動差
第4節 提審大數據
第3講 時間序列的分類分析
第1節 時間序列性質
第2節 時間序列分析-- 低頻
第3節 時間序列分析— 日高頻資料
第4節 時間序列分類分析— 日內高頻...
購物須知
退換貨說明:
會員均享有10天的商品猶豫期(含例假日)。若您欲辦理退換貨,請於取得該商品10日內寄回。
辦理退換貨時,請保持商品全新狀態與完整包裝(商品本身、贈品、贈票、附件、內外包裝、保證書、隨貨文件等)一併寄回。若退回商品無法回復原狀者,可能影響退換貨權利之行使或須負擔部分費用。
訂購本商品前請務必詳閱退換貨原則。