國內Python最暢銷作者團隊重磅力作!
迅速掌握資料處理要領,深入各式專案主題
立即體驗Python的大數據超強實戰力!
面對大數據資料
如何爬取?如何整理?
如何呈現?最後要如何保留?
就用生活化的專題實戰全面解密
每天的股票交易量、政府的公開資料、社群網站上傳的圖片與影音量,以及店家或網路商店的銷售數據…等,都讓資料量快速爆增。大數據時代來臨,不僅科技業重視,就連傳統的零售業、金融業、製造業、旅遊業,以及政府都爭相投入,無不希望能運用數據分析與預測來協助決策方向,也讓新興的數據分析師、資料分析師、資料科學家成為熱門職業。
Python堪稱是大數據與AI時代的第一程式語言,在資料處理上有著非常重要的地位。本書以生活化的專題進行實戰,只要能掌握資料爬取分析、視覺化呈現,以及儲存交換應用的關鍵技術,就能掌控大數據的應用。
■快速建置便利的Python開發環境,一次學會資料科學的實用模組。
■完整學習Python資料處理的三大觀念與技術:擷取分析、視覺化呈現與儲存應用。
■全面深入不同應用面向,如:網路爬蟲、資料正規化、資料視覺化、資料儲存與讀取(CSV、Excel、Google試算表…)、批次檔案下載、公開資料應用、API建立、驗證碼辨識….
■以國內熱門實例進行大數據專案實作,如:運動相簿下載、股票市場個股分析統計圖、用LINE傳送即時股價、新書排行榜、取得米其林餐廳資訊、鄉鎮市區天氣預報及建立API,以及自動化訂票…
■針對專案實戰提供影音輔助教學,加速學習效率。
書附超值光碟:範例程式檔/近300分鐘專案實戰影音教學
目錄
CH01 建置Python開發環境
Python可在多種平台開發執行,本書以Windows系統做為開發平台。
CH02 大數據資料爬取與分析
大數據的時代來臨,存在於網路中的巨量資料就成為收集時的重要來源。Python程式能透過低成本、自動化的方式由網路中爬取大量而有效的資料,對於資料科學家來說是相當重要的技巧。
CH03 數據資料視覺化
視覺化的圖表可以將複雜的數據簡化成為易於吸收的內容,也加快了人們對於數據理解、消化與決策
的時間。
CH04 數據資料儲存與讀取
跨入大數據領域時除了要加強擷取資料的技巧,面對大量資料的儲存與讀取,更是應用時重要的關鍵。在本章中將介紹Python在資料儲存與讀取時不能錯過的選擇:檔案、CSV、Excel、SQLite、MySQL,以及Google試算表。
CH05 實戰:批次下載YouTube影片
許多人會將相同主題或是有關聯的影片整理在一個播放清單中,因為影片的數量眾多,如果一個一個下載,將耗費相當多時間。本專題的重點即是在分析網頁清單中的影片網址後,完成批次下載所有清單中影片的工作。
CH06 實戰:運動相簿下載
我們希望在運動賽事的網站上下載某項活動相簿裡的大量照片儲存在本機中。在過程中除了要精準分析網頁中的所需要的資料,也要突破網站為了主機的效能,以分批載入圖片的方式,對自動化下載資料所造成的阻礙。
CH07 實戰:台灣股票市場個股分析統計圖
股票市場強調公開、透明,幾乎所有股票資訊皆可在台灣證券交易所取得。但是,有許多資料提供的方式或格式,並不一定符合每個人的需求。如何在擷取資料後進行收集分析,最後再執行資料視覺化的動作,是許多人關心的話題。本專題將擷取台灣證券交易所日成交資料,先以單月的資料繪製統計圖,最後再集合全年12個月的資料後,繪製全年統計圖。
CH08 實戰:用LINE傳送即時股價
本專題設計的重點是利用程式在規定的間隔時間重複讀取指定股票的價格,當股價到達設定價錢時會自動以LINE的訊息通知使用者。如此一來,投資人只要設定好交易的價格,程式即會自動幫忙檢查,即使不看盤也不會錯過交易的最佳時機。
CH09 實戰:網路書店新書排行榜
本專題的對象是網路書店的每日新書排行榜,因為書籍有不同的目錄分類,所以排行榜在呈現上是分散在不同的頁面上,本專題的重點是利用程式在多分類、多頁面的架構下,逐一讀取每一個分頁中的相關書籍資訊進行整理,並將結果儲存到Excel檔案中。
CH10 實戰:米其林餐廳指南下載
本專題的重點就是希望能應用Python程式先由主頁面進行基本資料的爬取,再逐一進入每間餐廳的詳細頁面中取得詳細資料,最後再將取得的資料儲存到雲端的Google試算表中。
CH11 實戰:鄉鎮市區天氣預報及建立API
本專題的第一個重點是如何擷取氣象局鄉鎮地區的氣象資訊,並在整理後儲存於自行架設的MySQL資料庫中,如此一來使用者就能利用到自己的系統上。另外,為了使儲存資料能再讓其他平台使用,第二個重點即是利用免費伺服器資源將資料以API的方式以JSON的格式發佈在網路上,讓其他人可以串接進行利用。
CH12 實戰:高鐵訂票快手
網路訂票已漸漸成為生活的一部份,無論是演唱會門票或是交通的車票,許多人都喜歡利用網路即時
又方便的特性,來完成購買動作。不過一旦遇到特別的時刻或購買的人數眾多,常會造成網路塞車,就無法順利購票。本專題中的重點,就是要利用Python程式自動操作電腦,完成網路訂票的動作。因為網路訂票的流程中會有相當多人工操作的部份,如表單資料的填寫,按鈕的點選,以及驗證圖片的識別,對於Python自動化的操作,是難度相當高的挑戰。
CH01 建置Python開發環境
Python可在多種平台開發執行,本書以Windows系統做為開發平台。
CH02 大數據資料爬取與分析
大數據的時代來臨,存在於網路中的巨量資料就成為收集時的重要來源。Python程式能透過低成本、自動化的方式由網路中爬取大量而有效的資料,對於資料科學家來說是相當重要的技巧。
CH03 數據資料視覺化
視覺化的圖表可以將複雜的數據簡化成為易於吸收的內容,也加快了人們對於數據理解、消化與決策
的時間。
CH04 數據資料儲存與讀取
跨入大數據領域時除了要加強擷取資料的技巧,面對大量資料的儲存與讀取,...