本書為進階的教材,需要經濟計量方法和矩陣代數的基礎。時間序列預測是統計學裡非常實用的工具,不論是分析投資組合的數據、全球總經和金融市場,以及預測景氣循環變動等等,可以用過去的數據資料,預測未來趨勢,是可以符合實際決策需要的實用能力。
書中並介紹機器學習方法,機器學習不是指特定估計方法,學習指的是如何在資料結構中運算,以追蹤最小預測誤差的方法獲得最佳預測(tuning)。我們應用機器學習演算法訓練歷史資料,執行特徵萃取(features extraction),再測試預測表現。依此建立一個可預測未來的模型,作為決策之用。
使用R語言進行時間序列預測是本書的一大特點,R語言是統計學中普及且容易上手的分析工具,書中針對一個個資料分析步驟進行深度解說,教給讀者進行預測與評估的最實用方法。
作者簡介:
何宗武
現任
臺灣師範大學全球經營與策略研究所 教授
經歷
世新大學特聘教授
專長為財務經濟學、金融大數據、計量經濟資料科學及程式語言等。著作多本相關書籍,如:《數位創新:商業模式經濟學》、《大數據決策分析盲點大突破10講:我分類故我在》、《管理數學、Python與R:邊玩程式邊學數學,不小心變成數據分析高手》、《R語言:深入淺出財經計量》、《R資料採礦與數據分析:以GUI套件Rattle結合程式語言實作》、《資料分析輕鬆學:R Commander高手捷徑》、《Eviews高手:財經計量應用手冊》。
章節試閱
1 統計與時間序列基礎
難易指數:非常簡單
學習金鑰
1. 統計原理和基本概念
2. 預測的問題
3. 時間序列預測有何不同?
本章對本書需要的理論觀念做一個整理,主要以經驗式的修辭文字理解理論式的數學語言。對於時間序列的依賴特徵和資料結構,也將做一個複習型的整理,建議參考書籍為Tsay (2010) 的前兩章。
第1 節 隨機變數和預測
隨機變數(random variable) 是一個測量的觀念,機率理論必須定義這個觀念。在數學定義之前,我們先用經驗文字來說明我們的生活經驗。
隨機變數四個字有兩個概念:隨機和變數。我們先由變數開始,我們可以想像Excel 的A 欄是一個變數,所以,變數這個概念的內容,是很多具體的數字記錄。就好比人是一個概念,具體的人可以是很多用身分證字號標注的人。其次,隨機代表了無人為因素介入,也就是公平。在很多機率入門的範例,都會強調一個公平骰子,所指就是類似的意義。
當我們要預測(predict) 一個現象時,必須先隨機記錄這個現象的數據。假設這樣一種狀況:如果你要預測巷口的全家便利超商,排隊結帳的人數。
排隊結帳人數就是隨機變數,令它為X。
超商結帳人數有一定的範圍,稱為樣本空間(sample space),用S 表示。假設S={0, 1, 2, 3, 4, 5, 6, 7}。
因此,每次記錄的X 就是S 的任何一個數字。我們將之讀成:X 為一個具有空間S 的隨機變數。因為這個性質,除了空間,S 也稱為X 的支撐(support)。
接下來,你必須記錄具體數字,我們稱為X 的結果空間(outcome space)。舉例,你記錄每次路過巷口時,全家便利超商的結帳人數,舉例如下:
X={0, 1, 4, 3, 3, 5, 5, 4, 4, 2, 3, 3, 1, 7}
X 這個隨機變數的內容就形成了,回到我們的基本問題「預測」。X 的數字從0 到7 都有,到底要用哪一個值作為預測下一次路過時的結帳人數?最簡單的方法就是用平均數,也就是我們所熟悉的樣本期望值EX,大約3.21 。如果要善用更多資訊,就可以假設一個背後的機率,再計算加權平均數。
要更精確預測該怎麼做?我們記錄時,可以增加數字的其他資訊(維度),例如:時間。也就是上述X 集合內的數字,都對應一個當時的時間,這樣或許因為資訊增加,提高了預測正確性。例如:排隊人數是7 人,多半出現在上下班時段,用時間分類,可以增加精確性。這也是為什麼大數據是高維度資料,因為資料科技的進步,讓我們可以記錄更多資料,這樣或許就可以提供預測能力。
我們解釋了隨機變數的意義,有了隨機變數,就可以計算具體數值的相對頻次(relative frequency),就成為機率理論的基礎。
接下來,我們用數學定義隨機變數這個函數:
定義:隨機變數
已知一個隨機實驗具有樣本空間S,對於S 中的元素s,恰好指派一個實數X(s) 之一個函數X 稱為隨機變數。X 的空間為實數集合{x|X(s)=x, s∈S}。s∈S 意指s 為集合S 內的元素。
X(s) 是一個函數,也就是說它定義樣本空間出象(outcomes) 的運算;例如:擲三顆骰子,每丟一次的結果空間s 會有3 個數字,X(s) 可以是這3 個數字的相加總(sum),而不是3 個數字。
我們知道隨機變數有兩種:離散型和連續型。這兩型隨機變數的活動,衍生出各種機率分布,例如:負二項、布阿松和常態等等。對於機率的理論與應用,推薦Sheldon Ross 的經典教材A First Course in Probability,本書為世界各大學經典教材,版本持續新增,2021 年本書撰寫時應為第10 版。另外,Wackerly et al. (2008) 的Mathematical Statistics with Applications,此書寫作風格相當優美,平易近人又不失專業,可參閱本書第3 章關於隨機變數的說明。
由以上說明,根據我們記錄所蒐集的數據,要預測下一次的出象,最簡單的辦法就是用平均數。統計描述一堆數字集合的核心就是期望值,平均數是期望值最簡易的測量。第3 節我們解釋中央趨勢,接下來我們解釋樣本母體和變異數的觀念。
1 統計與時間序列基礎
難易指數:非常簡單
學習金鑰
1. 統計原理和基本概念
2. 預測的問題
3. 時間序列預測有何不同?
本章對本書需要的理論觀念做一個整理,主要以經驗式的修辭文字理解理論式的數學語言。對於時間序列的依賴特徵和資料結構,也將做一個複習型的整理,建議參考書籍為Tsay (2010) 的前兩章。
第1 節 隨機變數和預測
隨機變數(random variable) 是一個測量的觀念,機率理論必須定義這個觀念。在數學定義之前,我們先用經驗文字來說明我們的生活經驗。
隨機變數四個字有兩個概念:隨機和變數。我們先由...
作者序
這幾年的數位革命風潮,造成機器/深度學習的資料演算法普及,也對既有的統計預測有了相當的影響,因應這個趨勢,中研院蔡瑞胸院士2021年也出版了一本書(Pena and Tsay, 2021, Statistical Learning for Big Dependent Data),蔡士的重點就在於時間序列預測在機器學習的資料驅動架構下,可以如何使用以及預測表現如何。這幾年,我也接了兩個政府機構的機器學習委託案,分別處理經濟成長和景氣循環的預測。趁著執行委託案的機會,我也將應用機器學習於時間序列預測的相關技術問題,做了整理與克服,例如:多步(動態)預測的產生在一般程式中沒有,既定程式(Python or R) 多是橫斷面資料預測的延伸使用,所以,到了時間序列,就只是單步(靜態)預測。因應這些問題,結案後,就順勢產生了R 套件iForecast,迄今已經多次改版。除了可以學習程式細節,同時也可以簡單透過套件使用這些方法。套件會與時俱進,因此,讀者追蹤iForecast 套件,或許是最好的方法。
面對機器學習,統計顯得更重要;面對財經時間序列,計量經濟學也更重要。因此,將整體學習所需要的一些內容做了整理與觀念釐清後,就出版了這本書。這本書有些主題會比較進階,例如:第3 章第3 節討論到Rabinowicz and Rosset (2022) 刊登在JASA 的論文,也用模擬說明了這篇研究對時間序列的意義;在深度學習很紅的循環神經網路(RNN, Recurrent Neural Network) 之LSTM 方法,是屬於比較典型的資訊演算,我們也納入介紹。因此,內容若干主題,可依照背景自行斟酌學習。
時間序列預測對產業有很多意義,例如:股市波動、失業與通膨等等,時間序列不似橫斷面資料,所需預測的未來往往不長,但是動態的挑戰相當嚴峻。基於模型選擇的困境,就務實的角度,將多個模型的預測加權平均組合起來,如Models Average 應該是最有效的,這也是本書建議預測實務時的作法。
最後,這本書的出版,我還是不免於俗地要感謝臺師大良好的研究環境,讓我教學之餘,可以完成這本研究型的專題著作。
何宗武
國立臺灣師範大學管理學院
全球經營與策略研究所
2022/7/4
這幾年的數位革命風潮,造成機器/深度學習的資料演算法普及,也對既有的統計預測有了相當的影響,因應這個趨勢,中研院蔡瑞胸院士2021年也出版了一本書(Pena and Tsay, 2021, Statistical Learning for Big Dependent Data),蔡士的重點就在於時間序列預測在機器學習的資料驅動架構下,可以如何使用以及預測表現如何。這幾年,我也接了兩個政府機構的機器學習委託案,分別處理經濟成長和景氣循環的預測。趁著執行委託案的機會,我也將應用機器學習於時間序列預測的相關技術問題,做了整理與克服,例如:多步(動態)預測的產生在一般程式...
目錄
自序
Part I
時間序列預測基礎
1 統計與時間序列基礎
第1 節 隨機變數和預測
第2 節 樣本和母體
第3 節 兩組中央趨勢
第4 節 時間序列特徵
第5 節 時間序列預測的不同之處
2 財經時間序列開放資料之取得
第1 節 Fed 美國聯準會
第2 節 證交所5 秒鐘的高頻資料
第3 節 國際清算銀行的有效匯率指數BIS
第4 節 R 內建套件quantmod 國際股市資料
第5 節 Fama-French Factor Data
第6 節 套件JFE 內建函數
3 時間序列的訓練架構—Recursive Validation
第1 節 K- 段交叉驗證方法(K-fold CV)
第2 節 N 步遞回驗證(N-step Recursive Validation)
第3 節 K-fold 的關聯問題和Rabinowicz-Rosset 修正CV
4 關於時間序列預測值的計算
第1 節 資料配適的統計預測
第2 節 預測未來之一:單步預測
第3 節 預測未來之二:多步預測
第4 節 評估模型的預測績效
Part II
經濟計量方法Econometric Methods
5 計量時間序列方法
第1 節 ARIMA
第2 節 非線性移轉模型:SETAR 和LSTAR
第3 節 BATS (Box-Cox transform, ARMA, Trend & Seasonality)
第4 節 BAGGED (Bootstrap AGGregation)
第5 節 GAMs
第6 節 時間序列的組合預測簡介:AveW and Model Average
6 經濟計量預測實做—臺灣工業生產指數成長率預測
第1 節 資料與訓練架構
第2 節 R 程式的單步靜態預測
第3 節 R 程式的動態預測的訓練
Part III
機器學習 Machine Learning
7 機器學習的演算法
第1 節 迴歸樹、隨機森林和KNN
第2 節 簡易人工神經網路(Simple Artificial Neural Network)
第3 節 Support Vector Machine
第4 節 Gradien Boosting Machine
第5 節 正則方法:LASSO, Ridge and Elastic Net
第6 節 自動化機器學習模式:autoML 委員會
第7 節 機器學習的動態預測—R 套件iForecast 說明
附錄
8 機器學習預測實做—指數報酬率預測(Index Returns Forecasting)
第1 節 資料與模型
第2 節 R 程式說明與結果呈現
Part IV
深度學習方法
9 深度學習方法的訓練與學習RNN-LSTM
第1 節 原理簡說
第2 節 軟體環境設置
10 LSTM 預測實做—美國失業率和通貨膨脹
第1 節 LSTM 程式說明
第2 節 iForecast 內的ttsLSTM()
Part V
類別資料
11 分類模式
第1 節 二元廣義線性模式
第2 節 GLM 的R 程式
第3 節 混淆矩陣
第4 節 決策樹分類案例研究
12 類別時間序列資料的預測—景氣循環
第1 節 資料與問題說明
第2 節 機器學習R 程式
附錄1 R 套件iForecast 介紹
附錄2 矩陣進一步性質與應用
第1 節 方陣的特殊性質
第2 節 應用
參考文獻
自序
Part I
時間序列預測基礎
1 統計與時間序列基礎
第1 節 隨機變數和預測
第2 節 樣本和母體
第3 節 兩組中央趨勢
第4 節 時間序列特徵
第5 節 時間序列預測的不同之處
2 財經時間序列開放資料之取得
第1 節 Fed 美國聯準會
第2 節 證交所5 秒鐘的高頻資料
第3 節 國際清算銀行的有效匯率指數BIS
第4 節 R 內建套件quantmod 國際股市資料
第5 節 Fama-French Factor Data
第6 節 套件JFE 內建函數
3 時間序列的訓練架構—Recursive Validation
第1 節 K- 段交叉驗證方法(K-fold CV)
第2 節 N 步遞...
購物須知
退換貨說明:
會員均享有10天的商品猶豫期(含例假日)。若您欲辦理退換貨,請於取得該商品10日內寄回。
辦理退換貨時,請保持商品全新狀態與完整包裝(商品本身、贈品、贈票、附件、內外包裝、保證書、隨貨文件等)一併寄回。若退回商品無法回復原狀者,可能影響退換貨權利之行使或須負擔部分費用。
訂購本商品前請務必詳閱退換貨原則。