有系統地講解資料採擷和機器學習工具Weka。
Weka是目前資料採擷和機器學習最著名的開放原始碼軟體,本書內容涵蓋Weka介紹、Explorer介面、Knowledge Flow介面、
Experimenter介面、命令列介面、Weka進階應用、Weka API和學習方案原始程式碼分析。
透過大量的實作操作,讓讀者了解並掌握資料採擷和機器學習的相關技能,拉近理論與實作的距離。
適用:從事資料採擷和機器學習相關人員、相關科系學生、研究生。
作者序
前言
當代全球掀起了一股學習資料採擷和機器學習的熱潮,從史丹佛大學公開課「機器學習課程」,到龍星計畫的「機器學習Machine Learning」課程,再到加州理工學院公開課「機器學習與資料採擷」課程,參加這些網路課程學習的人群越來越多,資料採擷和機器學習炙手可熱。
資料採擷是資料庫知識發現中的步驟,它從大量資料中自動分析出隱含的、過去未知的、有價值的潛在資訊。機器學習主要設計和分析一些讓電腦可以自動「學習」的演算法,其演算法是一種從資料中自動分析獲得規律,並利用規律對未知資料進行預測。機器學習和資料採擷這兩個領域聯繫密切,資料採擷利用機器學習提供的技術來分析巨量資料,以發掘資料中隱含的有用資訊。
資料採擷和機器學習這兩個密切相關的領域存在一個特點:理論很強而實作很弱。眾所皆知,理論和實作是研究者的左腿和右腿,缺了一條腿的研究者一定難以前行,有的技術人員花了許多年時間進行研究,雖然了解甚至熟悉了很多公式和演算法,但仍然難以真正去面對一個實際採擷問題並極佳地解決手上的技術難題,其根本原因就是—— 缺乏實作。
本書就是為了試圖解決資料採擷和機器學習的實作問題而撰寫的,依靠紐西蘭懷卡托大學採用Java 語言開發的著名開放原始碼軟體Weka,該系統自1993 年開始由紐西蘭政府資助,至今已經歷了20 年的發展,它的功能已經十分強大和成熟。Weka 集合了大量的機器學習和相關技術,受領域發展和使用者需求所推動,代表了當今資料採擷和機器學習領域的最高水準。因此,研究Weka 能幫助研究者從實作去驗證所學的理論,顯然有很好的理論意義或實際意義。
本書共分8 章。第1 章介紹Weka 的歷史和功能、資料採擷和機器學習的基本概念、Weka 系統安裝,以及範例資料集;第2 章介紹Explorer 介面的使用,主要內容包含:圖形化使用者介面、前置處理、分類、集群、連結、選擇屬性,以及視覺化;第3 章介紹Knowledge Flow 介面,主要內容有知識流介紹、知識流元件、使用知識流元件,以及實作教學;第4 章介紹Experimenter 介面,主要內容有Experimenter介面介紹、標準實驗、遠端實驗,以及分析實驗結果;第5 章介紹命令列介面,主要內容有命令列介面介紹、Weka 結構、命令列選項、篩檢程式和分類器選項,以及Weka 套件管理員;第6 章介紹一些Weka 的進階應用,主要介紹Weka 的貝氏網
路、神經網路、文字分類和時間序列分析及預測;第7 章介紹Weka API,介紹如何使用Java 原始程式碼來實現常見資料採擷工作的基礎知識,並列出一個展示如何進行資料採擷的綜合範例;最後一章透過對一個學習方案的原始程式碼進行分析,深入研究Weka 學習方案的工作原理,為開發人員提供一個撰寫學習演算法的技術基礎。
在閱讀大量相關文獻的過程中,作者深深為國外前輩們的理論功力和實作技能所折服,那些巨人們站在高處,使人難以望其項背。雖然得益於諸如網易公開課和龍星計畫等專案,我們有機會和全世界站在同一個數量級的知識起跑線上,但是,這並不表示能在將來的競爭中佔據優勢,正如孫中山先生所說「革命尚未成功,同志仍須努力」,讓我們一起共勉。
在本書的撰寫過程中,作者力求精益求精,但限於作者的知識和能力,且很多材料都難以取得,考證和去偽存真是一件時間負擔非常大和異常困難的工作,因此一定會有所遺漏及不妥之處,敬請讀者們批評指正。
前言
當代全球掀起了一股學習資料採擷和機器學習的熱潮,從史丹佛大學公開課「機器學習課程」,到龍星計畫的「機器學習Machine Learning」課程,再到加州理工學院公開課「機器學習與資料採擷」課程,參加這些網路課程學習的人群越來越多,資料採擷和機器學習炙手可熱。
資料採擷是資料庫知識發現中的步驟,它從大量資料中自動分析出隱含的、過去未知的、有價值的潛在資訊。機器學習主要設計和分析一些讓電腦可以自動「學習」的演算法,其演算法是一種從資料中自動分析獲得規律,並利用規律對未知資料進行預測。機器學習和資料採擷這兩個...
目錄
前言
Chapter 01 Weka 介紹
1.1 Weka 簡介
1.1.1 Weka 歷史
1.1.2 Weka 功能簡介
1.2 基本概念
1.2.1 資料採擷和機器學習
1.2.2 資料和資料集
1.2.3 ARFF 格式
1.2.4 預先處理
1.2.5 分類與回歸
1.2.6 聚類分析
1.2.7 關聯分析
1.3 Weka 系統安裝
1.3.1 系統要求
1.3.2 安裝過程
1.3.3 Weka 使用初步
1.3.4 系統運行注意事項
1.4 存取資料庫
1.4.1 設定檔
1.4.2 存取資料庫
1.4.3 常見問題及解決辦法
1.5 範例資料集
1.5.1 天氣問題
1.5.2 鳶尾花
1.5.3 CPU
1.5.4 玻璃資料集
1.5.5 美國國會投票記錄
1.5.6 乳腺癌資料集
Chapter 02 Explorer 介面
2.1 圖形化使用者介面
2.1.1 標籤頁簡介
2.1.2 狀態列
2.1.3 影像輸出
2.1.4 一步步教你用
2.2 前置處理
2.2.1 載入資料
2.2.2 屬性處理
2.2.3 篩檢程式
2.2.4 篩檢程式演算法介紹
2.2.5 一步步教你用
2.3 分類
2.3.1 分類器選擇
2.3.2 分類器訓練
2.3.3 分類器輸出
2.3.4 分類演算法介紹
2.3.5 分類模型評估
2.3.6 一步步教你用
2.4 分群
2.4.1 分群面板操作
2.4.2 分群演算法介紹
2.4.3 一步步教你用
2.5 關聯
2.5.1 關聯面板操作
2.5.2 關聯演算法介紹
2.5.3 一步步教你用
2.6 選擇屬性
2.6.1 選擇屬性面板操作
2.6.2 選擇屬性演算法介紹
2.6.3 一步步教你用
2.7 可視化
2.7.1 選擇單獨的2D 散點圖
2.7.2 選擇實例
2.7.3 一步步教你用
Chapter 03 nowledge Flow 介面
3.1 知識流介紹
3.1.1 知識流特性
3.1.2 知識流介面版面配置
3.2 知識流元件
3.2.1 資料來源
3.2.2 資料接收器
3.2.3 評估器
3.2.4 視覺化器
3.2.5 其他工具
3.3 使用知識流元件
3.4 一步步教你用
Chapter 04 Experimenter 介面
4.1 簡介
4.2 標準實驗
4.2.1 簡單實驗
4.2.2 進階實驗
4.2.3 一步步教你用
4.3 遠端實驗
4.3.1 遠端實驗設定
4.3.2 一步步教你用
4.4 分析結果
4.4.1 取得實驗結果
4.4.2 設定測試
4.4.3 儲存結果
4.4.4 一步步教你用
Chapter 05 命令列介面
5.1 命令列介面介紹
5.1.1 指令呼叫
5.1.2 指令自動完成
5.2 Weka 結構5.3 資料整合
5.2.1 類別實例和套件
5.2.2 weka.core 套件
5.2.3 weka.classifiers 套件
5.2.4 其他套件
5.3 命令列選項
5.3.1 正常選項
5.3.2 特定選項
5.4 篩檢程式和分類器選項
5.4.1 篩檢程式選項
5.4.2 分類器選項
5.4.3 一步步教你用
5.5 套件管理器
5.5.1 命令列套件管理員
5.5.2 執行安裝的演算法
Chapter 06 Weka 進階應用
6.1 貝氏網路
6.1.1 簡介
6.1.2 貝氏網路編輯器
6.1.3 在檢視器中使用貝氏網路
6.1.4 學習演算法
6.1.5 檢視貝氏網路
6.1.6 一步步教你用
6.2 神經網絡
6.2.1 GUI 使用
6.2.2 一步步教你用
6.3 文字分類
6.3.1 文字分類範例
6.3.2 分類真實文字
6.3.3 一步步教你用
6.4 時間序列分析及預測
6.4.1 使用時間序列環境
6.4.2 一步步教你用
Chapter 07 Weka API
7.1 加載資料
7.1.1 從檔案載入資料
7.1.2 從資料庫載入資料
7.1.3 一步步教你用
7.2 保存資料
7.2.1 儲存資料至檔案
7.2.2 儲存資料至資料庫
7.2.3 一步步教你用
7.3 處理選項
7.3.1 處理選項方法
7.3.2 一步步教你用
7.4 記憶體資料集處理
7.4.1 在記憶體中建立資料集
7.4.2 打亂資料順序
7.4.3 一步步教你用
7.5 過濾
7.5.1 批次過濾
7.5.2 即時過濾用
7.5.3 一步步教你用
7.6 分類
7.6.1 分類器建構
7.6.2 分類器評估
7.6.3 實例分類
7.6.4 一步步教你用
7.7 分群
7.7.1 分群器建構
7.7.2 分群器評估
7.7.3 實例分群
7.7.4 一步步教你用
7.8 屬性選擇
7.8.1 使用基礎分類器
7.8.2 使用篩檢程式
7.8.3 使用底層API
7.8.4 一步步教你用
7.9 視覺化
7.9.1 ROC 曲線
7.9.2 圖
7.9.3 一步步教你用
7.10 序列化
7.10.1 序列化基本方法
7.10.2 一步步教你用
7.11 文字分類綜合範例
7.11.1 程式執行準備
7.11.2 來源程式分析
7.11.3 執行說明
Chapter 08 學習方案原始程式碼分析
8.1 NaiveBayes 原始程式碼分析
8.2 實現分類器的約定
8.2.1 Capabilities
Appendix A 中英文術語對照
Appendix B Weka 演算法介紹
B-1 篩檢程式演算法介紹
B-2 分類演算法介紹
B-3 分群演算法介紹
B-4 連結演算法介紹
B-5 選擇屬性演算法介紹
Appendix C 參考文獻
前言
Chapter 01 Weka 介紹
1.1 Weka 簡介
1.1.1 Weka 歷史
1.1.2 Weka 功能簡介
1.2 基本概念
1.2.1 資料採擷和機器學習
1.2.2 資料和資料集
1.2.3 ARFF 格式
1.2.4 預先處理
1.2.5 分類與回歸
1.2.6 聚類分析
1.2.7 關聯分析
1.3 Weka 系統安裝
1.3.1 系統要求
1.3.2 安裝過程
1.3.3 Weka 使用初步
1.3.4 系統運行注意事項
1.4 存取資料庫
1.4.1 設定檔
1.4.2 存取資料庫
1.4.3 常見問題及解決辦法
1.5 範例資料集
1.5.1 天氣問題
1.5.2 鳶尾花
1.5.3 CPU
1.5.4 玻璃資...
購物須知
關於二手書說明:
商品建檔資料為新書及二手書共用,因是二手商品,實際狀況可能已與建檔資料有差異,購買二手書時,請務必檢視商品書況、備註說明及書況影片,收到商品將以書況影片內呈現為準。若有差異時僅可提供退貨處理,無法換貨或再補寄。
商品版權法律說明:
TAAZE 單純提供網路二手書託售平台予消費者,並不涉入書本作者與原出版商間之任何糾紛;敬請各界鑒察。
退換貨說明:
二手書籍商品享有10天的商品猶豫期(含例假日)。若您欲辦理退貨,請於取得該商品10日內寄回。
二手影音商品(例如CD、DVD等),恕不提供10天猶豫期退貨。
二手商品無法提供換貨服務,僅能辦理退貨。如須退貨,請保持該商品及其附件的完整性(包含書籍封底之TAAZE物流條碼)。若退回商品無法回復原狀者,可能影響退換貨權利之行使或須負擔部分費用。
訂購本商品前請務必詳閱
退換貨原則、
二手CD、DVD退換貨說明。