本書特色:
●從使用者觀點出發,實務的角度論述,有系統地介紹R軟體在資料探勘預測分類的實務應用。
●內容詳細介紹不同套件函數在決策樹的使用方法、模型效度檢定法,決策樹與複迴歸分析、邏輯斯分析與區別分析的綜合應用。
●搭配範例解說,讓學習更能事半功倍。
●書籍內容適合大專院校學生、研究生,更適合對R軟體統計分析有興趣的研究者。
----------
《R軟體在決策樹的實務應用》為R軟體統計分析系列叢書之三,其內容接續《R軟體統計應用分析實務》、《R軟體統計進階分析實務》二本專書。書籍內容以使用者為導向的論述表達,詳細介紹R軟體在迴歸樹與預測分類的實務應用,內容兼顧理論與實務、函數與語法說明、統計方法使用與結果解析。內容所述可讓讀者快速熟悉R軟體在資料探勘之決策樹的使用,熟悉R軟體套件函數在預測分類的實務應用與知悉R軟體相關函數的功能。本書可作為統計相關課程的參考用書或資料處理的工具書。
作者簡介:
吳明隆
現職
高雄師範大學師資培育中心教授
學歷
高雄師範大學教育學博士
電子郵件:t2673@nknucc.nknu.edu.tw
張毓仁
現職
屏東縣國小主任
學歷
中央大學課程與教學所博士
章節試閱
分類 (classification) 為資料探勘 (data miniing) 領域的一個範疇,與區別分析、邏輯斯 (logistic) 迴歸分析的功能類似。預測分類的統計程序常見的方法有集群分析、迴歸分析、區別分析、邏輯斯迴歸、決策樹 (decision tree) 等。決策樹的功能在於分類與預測,演算程序從總樣本觀察值中,找到一個最佳的分割變數,將觀察值進行分組,次則從分組後的子資料集中,再找出最佳的分割變數將子資料集分成小資料集,此種程序的演算程序類似樹的成長,分割的次數愈多,樹的成長愈繁雜,樹的起始處稱為根節點 (root node)、樹的結束處稱為葉節點 (leaf node) 或終點節點 (terminal node)。
分類中的決策樹 (decision tree) 依效標變數 (依變數/反應變數) 變數尺度不同,分成迴歸樹 (regression tree) 與分類樹 (classification tree),效標變數 (反應變數) 如為等距變數或比率變數 (計量變數),決策樹稱為迴歸樹,預測分類的結果為觀察值在效標變數的平均數;效標變數如為名義變數或次序變數 (間斷變數),決策樹稱為分類樹,預測分類的結果為觀察值在效標變數的水準群組或類別。書籍中的決策樹的依變數多以「反應變數」(response variable) 表示,預測變數以「解釋變數」(explanatory variables) 表示,依變數如為計量變數,則稱為「連續反應變數」(continuous-response variable),反應變數為二個水準群組的因子變數,稱為「二元反應變數」(binary response variable)。與複迴歸程序相同,決策樹程序中的解釋變數如為間斷變數要轉換化為虛擬變數 (dummy variable)。
不同反應變數之變數屬性對應的預測分類統計程序如下表:
(表格)
常見的決策樹演算法有二種,卡方自動交互偵測法 (Chi-square Automatic Interaction Detection; [CHAID])、分類迴歸樹法(Classification and Regression Tree; [CART]/[CRT]),其他決策樹演算法還有 AID 法、FACT 法、QUEST 法、C4.5 法、Ctree 法等。SPSS 統計軟體之決策樹成長方法主要為 CHAID 法、CRT(CART) 法、QUEST 法等幾種。R 軟體決策樹演算法多數採用 CART 法,CART是一種二元分類法,父節點分支為二個子節點,分割準則為左節點與右節點二個子節點 (child node) 的差異值最大,而子節點內樣本觀察值差異性最小 (相似性最大),分割前與分割後的不純度 (impurity) 量測值為最大,起始節點稱為根節點(root node)、結束節點稱為葉節點,根節點與葉節點間的節點稱為子節點 (childnode) 或分支節點,子節點負責連結根節點 (樹根) 與葉節點 (樹葉),又稱為分割點 (branching point),根節點與分支節點在決策樹模型中皆稱為內部節點。
CART 決策樹 (classification and regression tree) 其實是一種二元樹狀結構(binary tree structured classifiers),分支條件的變數為解釋變數中的最重要變數(或最具預測力的變數),從分支條件的變數可以看出那一個解釋變數對反應變數有顯著的預測分類力。CART 分類演算法主要包括分類準則與不純度量測值(impurity measure),分類準則與集群分析相同,分割的左子節點與右子節點間的異質性最大 (左子節點與右子節點間的同質性最小),各子節點內觀察值的異質性最小 (同質性最高);反應變數若為類別變數,不純度量測值常見的方法為 Gini 指標法,反應變數為計量變數,不純度量測值為最小平方誤差法 (least squares deviation),一般判別指標值為離均差平方和 (sum of square of deviation from the mean; [SS])。至於解釋變數的重要性,可以從主要分割變數之改進值(improvement measure)(或稱改善值) 進行評定。
分類 (classification) 為資料探勘 (data miniing) 領域的一個範疇,與區別分析、邏輯斯 (logistic) 迴歸分析的功能類似。預測分類的統計程序常見的方法有集群分析、迴歸分析、區別分析、邏輯斯迴歸、決策樹 (decision tree) 等。決策樹的功能在於分類與預測,演算程序從總樣本觀察值中,找到一個最佳的分割變數,將觀察值進行分組,次則從分組後的子資料集中,再找出最佳的分割變數將子資料集分成小資料集,此種程序的演算程序類似樹的成長,分割的次數愈多,樹的成長愈繁雜,樹的起始處稱為根節點 (root node)、樹的結束處稱為葉節點 (l...
作者序
《R軟體在決策樹的實務應用》為R軟體統計分析系列叢書之三,其內容接續《R軟體統計應用分析實務》、《R軟體統計進階分析實務》二本專書內容。由於「R軟體」(R語言)可以下載開放原始碼與免費,已成為量化統計分析的主流軟體之一,R軟體安裝簡易,軟體安裝字型可以選取適合研究者專屬的語言類型,外掛套件之函數功能幾乎包括所有統計學介紹的內涵。R軟體強大的統計分析功能、可以進行各種函數運算、有多元的繪圖功能,同時具備計算與繪圖環境的語言,有立即互動模式視窗、也有可以編寫一系列語法指令的「R編輯器」視窗。R軟體結合繪圖、數理統計、計算等特性,研究者除可直接使用內定函數進行統計分析與繪製圖形外,也可以自行撰寫語法指令列進行快速的分析程序。
本書從使用者觀點出發,從實務的角度論述,聚焦於預測分類程序方法的統計應用。資料探勘(data mining)數據分析中,一個重要的統計法為「決策樹」(decision tree),根據反應變數屬性的不同,決策樹模型又分為「迴歸樹」(regression tree)與「分類樹」(classification),決策樹主要功能在於預測分類,各章節的實務論述中,也介紹R軟體相關函數的應用與語法功能。
本書內容詳細介紹R軟體各種套件函數在決策樹的應用分析,完整說明對應函數預測分類的使用語法指令,決策樹圖形繪製函數的解析與應用,如何分割資料檔以訓練樣本建構決策樹模型,如何以建構決策樹模型對測試樣本進行預測分類之效度檢定,各種決策樹模型的效度檢驗法等。此外,為讓讀者對數據資料的預測分類有進一步的瞭解,最後以範例解說複迴歸分析與迴歸樹的綜合應用、邏輯斯迴歸與分類樹的綜合應用、區別分析與分類樹的綜合應用等。
本書得以順利出版,要感謝五南圖書公司的鼎力支持與協助,尤其是侯家嵐主編與劉祐融責編的行政支援與幫忙。作者於本書的撰寫期間雖然十分投入用心,但恐有能力不及或論述未周詳之處,這些疏漏或錯誤的內容,盼請讀者、各方先進或專家學者不吝斧正。
吳明隆、張毓仁 謹識
2017 年 2 月
《R軟體在決策樹的實務應用》為R軟體統計分析系列叢書之三,其內容接續《R軟體統計應用分析實務》、《R軟體統計進階分析實務》二本專書內容。由於「R軟體」(R語言)可以下載開放原始碼與免費,已成為量化統計分析的主流軟體之一,R軟體安裝簡易,軟體安裝字型可以選取適合研究者專屬的語言類型,外掛套件之函數功能幾乎包括所有統計學介紹的內涵。R軟體強大的統計分析功能、可以進行各種函數運算、有多元的繪圖功能,同時具備計算與繪圖環境的語言,有立即互動模式視窗、也有可以編寫一系列語法指令的「R編輯器」視窗。R軟體結合繪圖、數理...
目錄
序言
Chapter 01 決策樹概論
Chapter 02 套件{rpart}函數rpart ( )
壹、rpart ( )函數
貳、函數rpart.control ( )
參、輸出函數
肆、資料框架物件
Chapter 03 迴歸樹
壹、迴歸樹模型建構
一、函數rpart ( )—建構迴歸樹模型
二、葉節點參數估計值
三、函數printcp ( )—輸出複雜度參數
四、函數post ( )—繪製迴歸樹圖形
五、函數rpart ( )引數參數的範例
六、函數labels ( )與函數path.rpart ( )的應用
七、函數rsq.rpart ( )—繪製差異分支漸進R平方圖
貳、適配迴歸樹模型殘差
參、套件{ggplot2}函數ggplot ( )的繪圖應用
肆、迴歸樹的修剪
伍、解釋變數為因子變數
Chapter 04 分類樹
壹、反應變數為三分類別變數
一、建構分類樹模型
二、繪製分類樹圖形
三、分類樹的殘差值
四、分類樹的分類路徑
五、分類樹的剪裁
六、分類樹的預測
貳、反應變數為二分類別變數
一、分類樹模型建構
二、分類樹分割路徑
三、分類樹圖形
四、分類樹殘差值
五、不同引數界定的分類樹
Chapter 05 決策樹的圖形繪製
壹、函數rpart.plot ( )
貳、函數prp ( )
一、繪製圖形基本引數
二、節點標記調整的引數
三、控制分支標記的引數
四、調整樹分支線的引數
參、繪圖函數應用
肆、解釋變數為因子變數的決策樹圖形繪製
伍、圖形決策樹的修剪
陸、套件{plotmo}函數plotmo ( )的應用
Chapter 06 複核效度驗證
壹、預測分類函數
貳、資料檔的分割預測
一、系統抽樣切割資料檔
二、隨機抽樣切割資料檔
三、分層隨機抽樣切割資料檔
參、反應變數為三分類別變數
一、單一效度檢定
二、平均效度檢定
肆、分層隨機抽樣函數
Chapter 07 k疊交互驗證法
壹、六疊效度驗證法
一、採用系統抽樣法
二、採用隨機抽樣法
貳、連續變數之分類樹的應用
一、分類樹模型建構
二、分類樹模型效度檢定
參、十疊交互驗證法
Chapter 08 套件{evtree}的函數應用
壹、函數evtree ( )語法
貳、函數應用
一、迴歸樹
二、分類樹
三、反應變數為多分類別變數
參、套件{evtree}函數predict ( )
一、分層隨機抽樣
二、系統抽樣 (有排序)
三、系統抽樣 (未排序)
四、大樣本決策樹的應用
Chapter 09 套件{partykit}的函數應用
壹、ctree ( )函數
貳、函數應用—迴歸樹
一、決策樹模型建構
二、分類準則設定
三、葉節點的差異比較
參、繪製決策樹圖函數plot ( )
肆、函數lmtree ( )與glmtree ( )
一、函數lmtree ( )的應用
二、函數glmtree ( )的應用
伍、分類樹的應用
一、適配分類樹模型I建構
二、繪製適配分類樹圖
三、適配分類樹模型II建構與繪製
陸、大樣本的應用
一、適配迴歸樹模型
二、適配分類樹模型
柒、預測函數predict ( )
Chapter 10 套件{RWeka}與套件{tree}的函數應用
壹、套件{RWeka}函數J48 ( )函數
一、函數J48 ( )語法
二、函數應用
三、效度檢定
貳、套件{tree}函數tree ( )
參、顯著性與決策樹關係
一、相關與迴歸樹
二、差異與分類樹
Chapter 11 複迴歸與迴歸樹
壹、基本套件lm ( )的函數應用
貳、套件{Blossom}函數ols ( )與lad ( )的應用
一、函數ols ( )
二、函數lad ( )
參、套件{psych}函數setCor ( )的應用
肆、套件{rms}函數ols ( )的應用
伍、迴歸樹
一、套件{GGally}相關矩陣圖函數
二、迴歸樹模型
三、解釋變數重要性檢核
四、迴歸樹預測效度
Chapter 12 邏輯斯迴歸分析與分類樹
壹、邏輯斯迴歸分析
一、資料框架物件解析
二、套件{radiant}函數logistic ( )的應用
三、套件{rms}函數lrm ( )的應用
貳、分類樹
一、套件{rpart}函數rpart ( )
二、套件{partykit}函數ctree ( )
三、套件{evtree}函數evtree ( )
參、套件{C50}函數C5.0 ( )的應用
肆、拔靴法分類樹
伍、套件{rpartScore}函數rpartScore ( )的應用
Chapter 13 區別分析與分類樹
壹、區別分析
一、套件{DiscriMiner}函數應用
二、套件{mda}函數fda ( )
三、套件{MASS}函數lda ( )
四、區別分析效度檢定
貳、分類樹
一、套件{rpart}函數rpart ( )
二、套件{partykit}函數ctree ( )
三、套件{evtree}函數evtree ( )
四、套件{Rweka}函數J48 ( )
五、套件{C50}函數C5.0 ( )
Chapter 14 函數與流程控制
壹、自訂函數
貳、迴圈(loop)
參、邏輯條件判別
肆、統計分析的應用
一、相關矩陣
二、t檢定的應用
三、單因子變異數分析的應用
伍、決策樹的應用
陸、決策樹向度變數
Chapter 15 RStudio整合發展環境
壹、RStudio整合開發環境界面與專案
貳、智慧型自動完成指令
參、編輯器語法指令的執行
肆、各種選項的設定
伍、套件安裝與載入
陸、外部資料檔匯入
序言
Chapter 01 決策樹概論
Chapter 02 套件{rpart}函數rpart ( )
壹、rpart ( )函數
貳、函數rpart.control ( )
參、輸出函數
肆、資料框架物件
Chapter 03 迴歸樹
壹、迴歸樹模型建構
一、函數rpart ( )—建構迴歸樹模型
二、葉節點參數估計值
三、函數printcp ( )—輸出複雜度參數
四、函數post ( )—繪製迴歸樹圖形
五、函數rpart ( )引數參數的範例
六、函數labels ( )與函數path.rpart ( )的應用
七、函數rsq.rpart ( )—繪製差異分支漸進R平方圖
貳、適配迴歸樹模型殘差
參、套件{ggplot2}函數...
購物須知
退換貨說明:
會員均享有10天的商品猶豫期(含例假日)。若您欲辦理退換貨,請於取得該商品10日內寄回。
辦理退換貨時,請保持商品全新狀態與完整包裝(商品本身、贈品、贈票、附件、內外包裝、保證書、隨貨文件等)一併寄回。若退回商品無法回復原狀者,可能影響退換貨權利之行使或須負擔部分費用。
訂購本商品前請務必詳閱退換貨原則。