什麼是壞資料?有些人認為它是一個技術性的現象,如遺失值或是格式不對的記錄,但壞資料其實不只如此。資料專家Q. Ethan McCallum邀請了資料領域中,具有不同身分,包含公司執行長、政府官員、科學家、大學教授、程式設計師的19位專家,分享他們處理壞資料問題的方法與心得。
從有問題的儲存、貧乏的表述到錯誤的政策,造成壞資料有許多的可能。總結來說,壞資料就是會阻礙你的資料。本書提供一些有效的解決方法。
本書涵蓋許多主題,包括:
.測試你的資料,來看它是否準備好被用作分析
.將電子試算表轉換為可被使用的表格
.處理在文字資料中隱藏的編碼問題
.開發一個成功的網頁抓取機制
.使用NLP工具來揭露線上評論的真實情緒
.提出可能會影響你的分析的雲端運算議題
.防止會阻礙資料分析的政策
.使用系統性的方法來分析資料品質
作者簡介:
Q. Ethan McCallum是一位顧問、作家以及科技狂熱者。他的文章出現在The O’Reilly Network以及Java.net的網站上,著有《C/C++ Users Journal》、《Doctor Dobb’s Journal》等書。他主要的工作,是幫助公司作出對資料以及技術的明智決策。
目錄
chapter 01 調整步伐:什麼是壞資料?
chapter 02 是只有我這樣,還是這個資料本身令人感到有趣?
chapter 03 資料是要給人類使用,而非給機器使用
chapter 04 隱藏在純文字中的壞資料
chapter 05 (重新)組織網站的資料
chapter 06 在矛盾的線上評論中偵測謊言以及混亂的狀況
chapter 07 可否請壞資料站出來?
chapter 08 血、汗與尿
chapter 09 當資料與現實並不相符時
chapter 10 偏頗與錯誤的微妙來源
chapter 11 別讓「完美」成為「好」的敵人:壞資料真的壞嗎?
chapter 12 當資料庫攻擊時:何時要堅持使用檔案的導引
chapter 13 臥庫表,藏網路
chapter 14 雲端運算的迷思
chapter 15 資料科學的黑暗面
chapter 16 要如何餵養以及照護你的機器學習專家
chapter 17 資料可追蹤性
chapter 18 社群媒體:可抹除式墨水?
chapter 19 揭開資料品質分析的神秘面紗:瞭解何時你的資料已經夠好了
索引
chapter 01 調整步伐:什麼是壞資料?
chapter 02 是只有我這樣,還是這個資料本身令人感到有趣?
chapter 03 資料是要給人類使用,而非給機器使用
chapter 04 隱藏在純文字中的壞資料
chapter 05 (重新)組織網站的資料
chapter 06 在矛盾的線上評論中偵測謊言以及混亂的狀況
chapter 07 可否請壞資料站出來?
chapter 08 血、汗與尿
chapter 09 當資料與現實並不相符時
chapter 10 偏頗與錯誤的微妙來源
chapter 11 別讓「完美」成為「好」的敵人:壞資料真的壞嗎?
chapter 12 當資料庫攻擊時:何時要堅持使用...
購物須知
關於二手書說明:
商品建檔資料為新書及二手書共用,因是二手商品,實際狀況可能已與建檔資料有差異,購買二手書時,請務必檢視商品書況、備註說明及書況影片,收到商品將以書況影片內呈現為準。若有差異時僅可提供退貨處理,無法換貨或再補寄。
商品版權法律說明:
TAAZE 單純提供網路二手書託售平台予消費者,並不涉入書本作者與原出版商間之任何糾紛;敬請各界鑒察。
退換貨說明:
二手書籍商品享有10天的商品猶豫期(含例假日)。若您欲辦理退貨,請於取得該商品10日內寄回。
二手影音商品(例如CD、DVD等),恕不提供10天猶豫期退貨。
二手商品無法提供換貨服務,僅能辦理退貨。如須退貨,請保持該商品及其附件的完整性(包含書籍封底之TAAZE物流條碼)。若退回商品無法回復原狀者,可能影響退換貨權利之行使或須負擔部分費用。
訂購本商品前請務必詳閱
退換貨原則、
二手CD、DVD退換貨說明。