這本內容完整深入,但又不至於太技術性的指南介紹了數據科學的基礎原則,並引導你了解從資料中抽出有用知識與商業價值所需的「數據分析思維」。透過數據科學原則的學習,你會了解今日常用的許多資料採礦技術。更重要的是,這些原則鞏固了經由資料採礦技術解決商業問題所需之程序與策略的基礎。
「這本書超越了數據分析入門手冊的層次,它是我們這些以無所不在的數據商機及新的數據導向決策任務為事業基礎者(所有人?)的必備指南。」
-Tom Phillips,Media6Degrees首席執行長,前Google搜尋與分析主管
「兩位作者都是在數據科學有名氣之前就已聲譽卓著的專家,他們將複雜的主題處理得淺顯易懂,讓所有人都能輕鬆閱讀。這是第一本談論數據科學觀念之商業問題實際應用的著作。本書藉由羅各種引人入勝的真實案例,點出商業上大家所熟悉、常見的問題,像顧客流失、目標市場行銷,甚至是威士忌分析!
此書獨特的地方在於,它不是直接提供你各種演算法,而是幫助讀者了解數據科學背後的基礎概念,以及最重要的,如何處理並成功地解決問題。無論你想要的是綜合性的數據科學概論,或者你是個需要打好基礎的新手數據科學家,這都是一本必讀好書。」
-Chris Volinsky,AT&T實驗室統計研究總監,為Netflix所舉辦的百萬美元挑戰賽的優勝團隊成員之一
「資料數據是產能增長、創新與更豐富之顧客洞察等新浪潮的基礎,直到最近才被廣泛視為競爭優勢來源,妥善處理數據正迅速成為不被淘汰的籌碼。作者們深度的應用經驗讓此書成為必讀經典,讓你能窺見競爭對手的策略。」
-Alan Murray,連續創業家,Coriolis Ventures合夥人
作者簡介:
Foster Provost
紐約大學史登商學院的教授兼NEC教職研究員,他在該校講授商業分析、資料科學,以及許多MBA課程。其得獎研究廣獲閱讀及引用。而在加入紐約大學之前,他以研究資料科學家的身分,為今日Verizon的前身工作了五年。在過去十年間,Provost教授已與其他人共同創辦了數個成功的資料科學導向公司。
Tom Fawcett
擁有機器學習領域的博士學位,已在業界擔任研發工作超過二十年(GTE實驗室、NYNEX/Verizon的實驗室,以及HP的實驗室等)。其發表作品,不論是方法論方面的(例如評估資料採礦結果)還是應用方面的(例如詐欺檢測與垃圾郵件過濾),皆已成為資料科學界的標準讀物。
作者序
這不是一本介紹演算法的書,也不打算取代介紹演算法的書。我們刻意避開了以演算法為中心的做法。我們相信,在從資料中抽取有用知識的技術背後,存在有相對更精簡的一組基本概念或原則。這些概念是許多知名資料採礦演算法的基礎,也是以數據為中心之商業問題分析、資料科學解決方案之創立與評估,還有一般資料科學策略及提案之評估等的基礎。因此,我們的說明都圍繞著這些一般性的原則,而非特定的演算法。在需要解說程序細節時,本書採取以文字搭配圖表的方式呈現,因為我們認為這樣會比詳盡的演算步驟條列更容易理解。
閱讀本書不需要有高深的數學背景,但此書本身還是有一定程度的技術性質-目標是要讓讀者確實理解資料科學,而不是只提供整體概述。基本上我們已盡量努力縮減數學部分,並使說明內容盡可能「概念化」。
同行們都說,這本書非常寶貴,可協助經營、技術/開發及資料科學等團隊達成一致的理解。不過此觀察結果是基於相當小的樣本,所以我們很好奇地想知道這實際上有多普遍(請見第5章)。理想上,我們希望這是一本會讓每個資料科學家想遞給來自開發或經營團隊的合作夥伴的書,以藉此有效表達:若你真的想針對商業上的問題,設計/實行頂尖的資料科學解決方案,我們就需要對此題材有共通的理解。同行們還說,此書有個意料之外的用途,那就是:可用於為面試資料科學工作應徵者做準備。企業對雇用資料科學家的需求相當強烈,且與日俱增。因應此現況,也有越來越多的求職者以資料科學家自居。而每個資料科學工作的應徵者都該了解本書所介紹的基礎知識(我們的業界同仁透露,他們很驚訝地發現其實很多人都不懂這些基礎。因此,我們還曾半開玩笑地討論要再出一本「資料科學工作面試手冊」呢)。
這不是一本介紹演算法的書,也不打算取代介紹演算法的書。我們刻意避開了以演算法為中心的做法。我們相信,在從資料中抽取有用知識的技術背後,存在有相對更精簡的一組基本概念或原則。這些概念是許多知名資料採礦演算法的基礎,也是以數據為中心之商業問題分析、資料科學解決方案之創立與評估,還有一般資料科學策略及提案之評估等的基礎。因此,我們的說明都圍繞著這些一般性的原則,而非特定的演算法。在需要解說程序細節時,本書採取以文字搭配圖表的方式呈現,因為我們認為這樣會比詳盡的演算步驟條列更容易理解。
閱讀本書不需要有...
目錄
第一章 序論:數據分析思維
第二章 商業問題與資料科學解決方案
第三章 預測性建模入門:從關聯性到監督式區隔
第四章 將模型配適於數據資料
第五章 過適與避免過適
第六章 相似性、鄰近及聚類
第七章 決策分析思維I:怎樣的模型才是好模型?
第八章 將模型效果視覺化
第九章 證據與機率
第十章 文本的表述與文字採礦
第十一章 決策分析思維II:關於分析設計
第十二章 其他的資料科學任務與技術
第十三章 資料科學與商業策略
第十四章 總結
附錄A 提案審查指南
附錄B 另一個提案範例
第一章 序論:數據分析思維
第二章 商業問題與資料科學解決方案
第三章 預測性建模入門:從關聯性到監督式區隔
第四章 將模型配適於數據資料
第五章 過適與避免過適
第六章 相似性、鄰近及聚類
第七章 決策分析思維I:怎樣的模型才是好模型?
第八章 將模型效果視覺化
第九章 證據與機率
第十章 文本的表述與文字採礦
第十一章 決策分析思維II:關於分析設計
第十二章 其他的資料科學任務與技術
第十三章 資料科學與商業策略
第十四章 總結
附錄A 提案審查指南
附錄B 另一個提案範例
購物須知
關於二手書說明:
商品建檔資料為新書及二手書共用,因是二手商品,實際狀況可能已與建檔資料有差異,購買二手書時,請務必檢視商品書況、備註說明及書況影片,收到商品將以書況影片內呈現為準。若有差異時僅可提供退貨處理,無法換貨或再補寄。
商品版權法律說明:
TAAZE 單純提供網路二手書託售平台予消費者,並不涉入書本作者與原出版商間之任何糾紛;敬請各界鑒察。
退換貨說明:
二手書籍商品享有10天的商品猶豫期(含例假日)。若您欲辦理退貨,請於取得該商品10日內寄回。
二手影音商品(例如CD、DVD等),恕不提供10天猶豫期退貨。
二手商品無法提供換貨服務,僅能辦理退貨。如須退貨,請保持該商品及其附件的完整性(包含書籍封底之TAAZE物流條碼)。若退回商品無法回復原狀者,可能影響退換貨權利之行使或須負擔部分費用。
訂購本商品前請務必詳閱
退換貨原則、
二手CD、DVD退換貨說明。