所謂「資料探勘」(Data Mining)是利用模型認知技術與統計的手法處理大數據,發現有意義的新模型及傾向的過程。IBM SPSS Modeler 是一款資料探勘與預測分析軟體,可以使用Microsoft 安裝程式(MSI) 在Windows 系統上完成安裝,最近也可以在雲端使用它。它擁有 30 多種基本的機器學習算法和自動建模方法,具有 R 語言可擴展性,可使用 Python 腳本。使用IBM SPSS Modeler軟體可以找出人們最頻繁討論的話題,或是企業可以了解消費者實際關心的問題。
資料探勘因為是透過各種資料分析技術,挖掘出顧客的消費行為模式與各項營運作業之管理決策等,可說是知識管理之一大利器。例如,7-11超商就是充分運用資料探勘技術,不斷推出各種抓住顧客心房的行銷活動,以贏得更多顧客的心,並將店舖之經營作更完善的規劃管理,使其獲利並使績效能夠長期位居國內零售業之領先地位。
根據美國一項調查超過7萬名購物者的行銷研究,發現消費者在他們店中購物的行為有其一定的慣性,如果門市經營者或是行銷人員能夠善用「消費者行為」模式,將可有效改善經營品質。
書中也一併列舉IBM SPSS Modeler常用的分析方法供讀者參考。資料探勘的方法包括監督式學習、非監督式學習等。監督式學習包括:分類、估計、預測等;非監督式學習包括:集群、關聯規則分析等。上述相關的分析方法,在第1篇中均有步驟式的介紹 ; 第2篇中舉出百貨業的資料案例,分析顧客的消費行為,利用IBM SPSS Modeler從RFM的角度探討消費者的特徵,以及如何向未購買者推銷商品,盼能藉由此例題能激起讀者對資料探勘的興趣。
作者簡介:
陳耀茂
日本(國立)電氣通信大學經營工學博士
東海大學企管系教授
章節試閱
1.1 資料探勘的意義與過程
資料探勘的緣由
1992年起,英國ISL軟體公司(Integral Solutions Limited)與英國薩塞克斯大學(University of Sussex)的人工智慧研究者合作,進行資料探勘工具的開發。開發者將該軟體命名為Clementine,並於1994年6月9日發布了Clementine的第一個正式版本。該軟體的最初版本執行在Unix平台上,大部分代碼是以Poplog環境中的POP-11語言寫成,一些對速度要求較高的組件(例如神經網路引擎)則由C語言寫成。為了贏得更廣闊的市場空間,ISL隨後通過NutCracker(MKS Toolkit)軟體套裝將Poplog環境移植到了微軟Windows平台,使得該軟體能在Windows上執行。
Clementine是世界上首款採用「圖形化使用者介面」(GUI)的資料探勘工具。在此之前,用戶必須透過編輯程式的方式來進行資料探勘。因此,該軟體一經推出便得到了尚處在發展早期的資料探勘領域的關注。同時,該軟體支援「表達式操作控制語言」(CLEM),專業用戶可以繼續選擇編輯程式的方式來對資料進行建模和分析。
1998年底,SPSS公司看到了該軟體作為商業資料探勘工具的擴充潛力,收購了ISL公司並繼續對其進行開發,收購後的軟體被稱為SPSS Clementine。在2000年初,軟體被重新組織為客戶端-伺服器(C/S)架構,隨後客戶端的前端介面用Java完全重寫,以期能與SPSS旗下的其他資料分析工具,更緊密的結合運用。
2008年,SPSS將該套裝軟體重新命名為SPSS PASW Modeler。翌年,IBM收購了SPSS公司,將該產品命名為IBM SPSS Modeler,這一名稱延續至今。
IBM SPSS Modeler提供擷取自機器學習、人工智慧以及統計資料的各種建模方法。「建模」選用區上提供的方法,可讓你根據資料衍生新資訊,以及開發預測模型。每種方法都具有特定的強度且最適合因應特定類型的問題。
建模方法分為以下幾種:
" 監督式
" 關聯
" 分區段
「監督式模型」可協助組織預測已知結果,例如顧客是購買還是離開,或某交易是否符合某種已知詐欺型樣。其建模技術包含機器學習、規則歸納、子群組識別、統計技術和多模型產生。
「關聯模型」在預測多個結果時非常有用,例如購買了產品X的顧客也購買了產品Y和Z。關聯規則演算法相對於更標準的決策樹狀結構演算法(C5.0和C&RT)的優勢,在於關聯可以存在於任何屬性之間。決策樹狀結構演算法建置只有一個結果的規則,而關聯演算法會嘗試尋找許多規則,每個規則可能具有不同的結果。
「分區段模型」將資料劃分為具有類似輸入欄位型樣的記錄區段或集群。分區段模型只對輸入欄位感興趣,沒有輸出或目標欄位的概念。分區段模型的範例為Kohonen網路、K-Means集群、二階集群和異常偵測等。
SPSS Modeler是圖形式的資料科學與預測分析平台,讓使用者可以加強探勘能力。在SPSS軟體系列產品內,SPSS Statistics能支援在資料上進行由上而下的假設檢測方法,而SPSS Modeler則會透過由下而上的假設產生方法,揭露隱藏在資料中的模型。
SPSS Modeler是領先的視覺化資料科學和機器學習解決方案。它可以加快資料科學家的操作作業,有助於企業加速實現價值並達成所需結果。全球領先的企業,都仰賴IBM進行資料準備、探索、預測分析、模型管理和部署以及機器學習,以便從資料資產創造收入。SPSS Modeler讓組織能夠透過現成可用的完整演算法和模型,使能充分利用資料資產和現代應用程式。
SPSS Modeler可協助你:
" 充分利用開放程式碼型的創新,包括R或Python。
" 讓所有技能—程式化和視覺化—的資料科學家加強能力。
" 探索混合式方法—內部部署、公有雲或私有雲。
" 小規模起步然後擴充到全企業接受控管方法。
超出過去手法範圍的資料探勘
所謂資料探勘是利用模型認知技術與統計的手法處理大數據,發現有意義的新模型及傾向的過程。大數據的特徵有:
" Volume(大量):以過去的技術無法管理的資料量,資料量的單位可從TB(terabyte,一兆位元組)到PB(petabyte,千兆位元組)。
" Variety(多樣性):企業的銷售、庫存資料、網站的使用者動態、客服中心的通話紀錄、社交媒體上的文字影像等,企業資料庫難以儲存的「非結構化資料」。
" Velocity(速度):資料每分每秒都在更新,技術也能做到即時儲存、處理。
本書使用的此定義是重視「發現」此點,不限定於只是假說的檢定。以資料的條件來說,即為資料倉儲或是資料市場等所儲存的大容量資料。又在方法上,除統計的方法外,另加上類神經網路等的模型認知。基於此定義所記錄的大容量資料與技巧,資料探勘超出過去統計分析的範圍。
更大規模的資料量,甚至記錄、欄位數也很多,對能適應困難的條件的分析手法寄予關心。並且,在統計的顯著性檢定方面,雖然對資料分配設定強烈的假設,但資料探勘並不受限於此種假定。對資料探勘的關心在於實用上的結果與改善法。
資料探勘的意義
資料探勘的目的是為了獲得經營策略以達成經營上的目標,或者為了獲得對問題點的解決對策。因此,對顧客資料或商業資料而言,只加深抽象式、理論式的理解可以說是不夠的。請一面觀察圖1.1的收益圖形一面說明。
圖1.1是針對所製造的物體是否為不良品的預測模式評估它的收益圖形。圖形的橫軸是顯示利用資料探勘所得到的不良品,按機率的高低順序重排後觀察值的比例(%),縱軸是將所有不良品的數目當作分母,以實際不良品的個數當作分子所表示的比例(%),參照用的對角線是表示基礎的比例,圖形中的垂線是表示利用資料探勘,將不良品的機率按高低順序排列時,上位35%內包含所有不良品的80%。
在資料探勘中,像這樣製作出從比較小的樣本群,可以檢出高比例的不良品的模式時,透過調查它的模式,可以獲得利用什麼即可判別良、不良的資訊。強烈影響模式之要因如可確認時,控制這些要因,進而降低不良品發生率等,因此可以達成經營的目的。
處理的問題與運用技術
對企業而言,資料探勘的目標,是使一個公司更了解顧客以增進它在行銷、銷售、顧客服務營運上的表現,察覺無法直接從資料上看出來的潛在規則或行為模式。從資料庫中發現知識,將隱含的、先前並不知道的、潛在有用的資訊從資料庫中粹取出來的過程。可以在大量資料中,發掘潛藏有用的資訊,以提供決策人員參考。資料探勘的整個過程包括資料選取、前置處理、轉換、資料分析及解釋與評估。
學者Han &Kamber註又將資料探勘所處理的問題分為以下幾大類:
1. 判別分析(Characterization and Discrimination)
2. 關聯規則(Association Rule)
3. 資料分類(Classification and Prediction)
4. 集群分析(Cluster Analysis)
5. 離群值分析(Outlier Analysis)
6. 系統演化分析(Evolution Analysis)
【註】:Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques, SimonFraser University, Morgan Kaufmann Publishers, 2001)
在資料探勘發展的早期,要如何有效率且正確的從龐大資料庫中汲取有用的資訊是一個很大的挑戰,但發展至今,備受質疑同時也更需要投入研究的是,如何提高獲取資訊的有用性。妥善的運用資料探勘技術,才能產生企業的競爭優勢。
資料探勘定義與內涵
Frawley等人認為資料探勘是從資料庫中挖掘出不明確、前所未知以及潛在有用資訊的過程。因此,資料探勘是找出隱藏在資料中的趨勢、特徵及相關性的過程。透過資料探勘技術,從巨量的資料庫中,找出不同且有用的資訊與知識,支援企業決策分析,將能提升企業的競爭優勢。
資料探勘是為了要發現出有意義的樣型或規則,必須從大量資料之中以自動或是半自動的方式來探索和分析資料(Berry & Linoff, 1997)。故從兩位學者的描述中可以看出,資料探勘是處在知識創造過程中最核心的位置。
如前所述,有些人則將資料探勘視為知識發掘過程中一個必要的步驟,但也有許多人將資料探勘與資料庫知識探索(KDD, Knowledge Discovery in Databases)交換使用。資料庫知識探索是指在大量資料中,發現知識的整個程序與步驟。資料探勘則是資料庫知識探索中,一個能有效率的將資料模式、法則,自資料中找出來的一個程序。
對企業而言,資料探勘的目標是使一個公司更了解顧客,以增進它在行銷、銷售、顧客服務營運上的表現,察覺無法直接從資料上看得出來的潛在規則或行為模式。從資料庫中發現知識,將隱含的、先前並不知道的、潛在有用的資訊從資料庫中粹取出來。可以在大量資料中,發掘潛藏有用的資訊,以提供決策人員參考。資料探勘的整個過程包括資料選取、前置處理、轉換、資料分析及解釋與評估。
資料探勘(Data Mining),又譯為資料採礦、資料挖掘。資料探勘一般是指從大量的資料中,通過演算法搜尋隱藏於其中資訊的過程。資料探勘通常與電腦科學有關,並透過統計、線上分析處理、資訊檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
資料探勘利用了來自如下一些領域的思想:(1)來自統計學的抽樣、估計和假設檢定,(2)人工智慧、模式識別和機器學習的搜尋演算法、建模技術和學習理論。資料探勘也迅速地接納了來自其他領域的思想,這些領域包括最優化、進化計算、資訊理論、訊號處理、視覺化和資訊檢索。其他一些領域也發揮了重要的支撐作用。
1.1 資料探勘的意義與過程
資料探勘的緣由
1992年起,英國ISL軟體公司(Integral Solutions Limited)與英國薩塞克斯大學(University of Sussex)的人工智慧研究者合作,進行資料探勘工具的開發。開發者將該軟體命名為Clementine,並於1994年6月9日發布了Clementine的第一個正式版本。該軟體的最初版本執行在Unix平台上,大部分代碼是以Poplog環境中的POP-11語言寫成,一些對速度要求較高的組件(例如神經網路引擎)則由C語言寫成。為了贏得更廣闊的市場空間,ISL隨後通過NutCracker(MKS Toolkit)軟體套裝將Poplog環境移植到了微軟Wi...
作者序
序
所謂「資料探勘」(Data Mining)是利用模型認知技術與統計的手法處理大數據,發現有意義的新模型及傾向的過程。「大數據」(Big Data)的特徵有:
.Volume(大量):以過去的技術無法管理的資料量,資料量的單位可從TB(terabyte,一兆位元組)到PB(petabyte,千兆位元組)。
.Variety(多樣性):企業的銷售、庫存資料、網站的使用者動態、客服中心的通話紀錄、社交媒體上的文字影像等,企業資料庫難以儲存的「非結構化資料」。
.Velocity(速度):資料每分每秒都在更新,技術也能做到即時儲存、處理。
IBM SPSS Modeler軟體能處理大量的數據,而且這些數據可能包含多種語言或非結構化等等的特性。
使用IBM SPSS Modeler軟體可以找出人們最頻繁討論的話題,或是企業可以了解消費者實際關心的問題。
根據美國一項調查超過7萬名購物者的行銷研究,發現消費者在他們店中購物的行為有其一定的慣性,如果門市經營者或是行銷人員能夠善用「消費者行為」模式,將可有效改善經營品質。
消費者行為主要探討的就是消費者對於產品的反應,其中包括了當產品上市時,消費者從什麼管道得知該產品?產品的廣告或產品的功能,對於消費者的影響為何?消費者的消費考量以及消費模式為何?針對不同的消費者、不同的產業或產品,加以探討消費者的行為。例如:「超市推出情人節商品相關優惠活動,對消費者的行為有什麼樣的影響?」由以上可以得知,了解消費者行為,就是了解客戶的想法,能針對客戶的想法作改善,就能增加客戶的青睞。
資料探勘正是透過各種資料分析技術,挖掘出顧客的消費行為模式與各項營運作業之管理決策等,是知識管理之一大利器。例如,Seven-11超商就是充分運用資料探勘技術,不斷推出各種抓住顧客心房的行銷活動,以贏得更多顧客的心,並將店鋪之經營做更完善的規劃管理,使其獲利並使績效能夠長期位居國內零售業之領先地位。
書中舉出百貨業的資料案例,分析顧客的消費行為,利用Modeler從RFM的角度探討消費者的特徵,以及如何向未購買者推銷商品,此外,也一併列舉Modeler常用的分析方法供讀者參考,期盼能激起讀者對資料探勘的興趣。
序
所謂「資料探勘」(Data Mining)是利用模型認知技術與統計的手法處理大數據,發現有意義的新模型及傾向的過程。「大數據」(Big Data)的特徵有:
.Volume(大量):以過去的技術無法管理的資料量,資料量的單位可從TB(terabyte,一兆位元組)到PB(petabyte,千兆位元組)。
.Variety(多樣性):企業的銷售、庫存資料、網站的使用者動態、客服中心的通話紀錄、社交媒體上的文字影像等,企業資料庫難以儲存的「非結構化資料」。
.Velocity(速度):資料每分每秒都在更新,技術也能做到即時儲存、處理。
IBM SPSS Modeler...
目錄
目 錄
第1篇 基礎篇
1. 何謂資料探勘
1.1 資料探勘的意義與過程
1.2 Modeler的介面
1.3 Modeler的利用例與主要應用領域
1.4 IBM SPSS Modeler試用版的下載
1.5 Modeler的基本操作
1.6 IBM SPSS Modeler的節點形狀與功能
2. Modeler範例1─關聯規則、決策樹(C5.0)、主成分分析、集群分析
2.1 問題的發生狀況法則的探索
2.2 有關品質管理諸工具的構成
2.3 關聯規則
2.4 決策樹分析的一種C5.0
2.5 Kohonen網路
2.6 利用主成分分析密集大量的變數
3. Modeler範例2─類神經網路、決策樹(CART)
3.1 類神經網路的基礎理論
3.2 類神經網路與Modeler
3.3 利用CART從學習結果抽出規則
4. Modeler範例3─判別分析、時間序列、二項羅吉斯迴歸、多項羅吉斯迴歸
4.1 利用判別分析
4.2 時間序列
4.3 二項羅吉斯迴歸
4.4 多項羅吉斯迴歸
5. 購物籃分析(關聯歸納/C5.0)、支援向量機器(SVM)、廣義線性模型、Cox迴歸
5.1 購物籃分析
5.2 支援向量機器(SVM)
5.3 廣義線性模型
5.4 Cox迴歸
第2篇 應用篇
6. 在開始顧客分析之前
6.1 顧客分析的5個業務課題
6.2 掌握顧客的4個數據
6.3 資料探勘手法是顧客分析的核心
6.4 準備顧客分析工具
7. 理解顧客行為將顧客價值定量化
7.1 使用購買明細數據之後的顧客行為紀要
7.2 購買金額等級與優良顧客定義
7.3 利用RFM分數理解顧客
7.4 掌握顧客行為的特徵
7.5 十分位數分析
8. 發現顧客的行為模式
8.1 關聯規則
8.2 協同過濾
8.3 時系列關聯
8.4 關聯規則的留意點
9. 將顧客的行為分類
9.1 利用集群分析將顧客行為類型化
9.2 理解集群的特徵
9.3 依照集群推薦
10. 預測顧客行為
10.1 行銷活動的反應預測
10.2 休眠的判別預測
10.3 顧客與商品的匹配
11. 確立顧客分析的基礎
11.1 處理大數據
11.2 將分析流程效率化
目 錄
第1篇 基礎篇
1. 何謂資料探勘
1.1 資料探勘的意義與過程
1.2 Modeler的介面
1.3 Modeler的利用例與主要應用領域
1.4 IBM SPSS Modeler試用版的下載
1.5 Modeler的基本操作
1.6 IBM SPSS Modeler的節點形狀與功能
2. Modeler範例1─關聯規則、決策樹(C5.0)、主成分分析、集群分析
2.1 問題的發生狀況法則的探索
2.2 有關品質管理諸工具的構成
2.3 關聯規則
2.4 決策樹分析的一種C5.0
2.5 Kohonen網路
2.6 利用主成分分析密集大量的變數
3. Modeler範例2─類神經網路、決策樹(CART)
3.1 類神經...
購物須知
關於二手書說明:
商品建檔資料為新書及二手書共用,因是二手商品,實際狀況可能已與建檔資料有差異,購買二手書時,請務必檢視商品書況、備註說明及書況影片,收到商品將以書況影片內呈現為準。若有差異時僅可提供退貨處理,無法換貨或再補寄。
商品版權法律說明:
TAAZE 單純提供網路二手書託售平台予消費者,並不涉入書本作者與原出版商間之任何糾紛;敬請各界鑒察。
退換貨說明:
二手書籍商品享有10天的商品猶豫期(含例假日)。若您欲辦理退貨,請於取得該商品10日內寄回。
二手影音商品(例如CD、DVD等),恕不提供10天猶豫期退貨。
二手商品無法提供換貨服務,僅能辦理退貨。如須退貨,請保持該商品及其附件的完整性(包含書籍封底之TAAZE物流條碼)。若退回商品無法回復原狀者,可能影響退換貨權利之行使或須負擔部分費用。
訂購本商品前請務必詳閱
退換貨原則、
二手CD、DVD退換貨說明。