想自動化生活瑣事?想透過程式擷取網路上的公開資訊?學了Python卻不知道有什麼實際應用?正在尋找入門難度低且成就感高的Python專案?想知道網路爬蟲如何與資料分析結合?本書一次教給你!
本書特色:
● 基於熱門線上課程與實體教學的學員迴響重新編寫及增補而成的實戰書籍
● 以台灣讀者熟悉的網站為範例(PTT、Dcard、台灣證交所、蘋果日報網站、Yahoo奇摩電影、Google Maps API、IMDB電影資料庫等)的Python網路爬蟲程式教學
● 由淺入深,以實務需求為導向,涵蓋爬蟲常用函式庫、資料儲存、文件編碼、表單及登入頁處理、爬蟲程式被封鎖的常見原因等經驗談
● 全新的資料分析章節,包含三個爬蟲程式的經典應用:量化投資、影評情緒分析與商品特價通知
本書適合閱讀的對象:
● 對網路爬蟲程式或資料分析有興趣者
● 想自動化生活瑣事(例如自動追蹤網站特價通知、節省資料收集的時間等),化被動資訊接收為主動
● Python新手或入門級讀者(知道何謂變數、if 判斷式與迴圈,寫過一些小程式),想練習低門檻及高成就感的Python專案
範例請至博碩官網下載 http://www.drmaster.com.tw/Bookinfo.asp?BookID=MP21814
作者簡介:
◤林俊瑋
熱門開源專案「PTT網路版爬蟲」作者。加州大學爾灣分校(UC Irvine)博士候選人,研究領域為軟體測試自動化,曾執行包含網頁及手機 App 爬蟲實作的多個研究專案,也曾在國外知名研究機構及國內軟體公司實習,並有多年政府資訊部門工作與介接政府開放資料經驗。
◤林修博
台灣大學電子工程研究所畢業,目前任職於軟體公司擔任全端工程師。有多年爬蟲撰寫經驗,並且將其商用化。
目錄
Chapter 01 環境設定與網頁爬蟲初探
1-1 環境設定及套件安裝:Anaconda
1-2 使用IDE:PyCharm
1-3 使用Jupyter Notebook
1-4 網頁文件解構與網頁爬蟲初探
Chapter 02 Beautiful Soup 講解與網頁解構
2-1 不要重複造輪子:寫爬蟲之前
2-2 Beautiful Soup 重要功能 (find(), find_all(), .text, .stripped_strings)
2-3 網頁結構巡覽(parent, children, siblings)
2-4 正規表示式 (Regular Expression)
Chapter 03 網頁爬蟲範例實戰
3-1 PTT 八卦板今日熱門文章
3-2 Yahoo 奇摩電影本週新片
3-3 兩大報當日焦點新聞
3-4 Google 搜尋股價資訊
3-5 Dcard 今日熱門文章
Chapter 04 使用 API
4-1 API 簡介
4-2 PTT 八卦板眾來源分佈 (ipstack.com)
4-3 IMDB API
4-4 Google Maps APIs (Google Geocoding/Places API)
4-5 Dcard API
Chapter0 5 資料儲存
5-1 儲存圖片與多媒體檔案
5-2 儲存資料到 CSV 檔
5-3 儲存資料到資料庫 SQLite
Chapter 06 不同編碼與類型的文件
6-1 非 UTF-8 編碼的文件
6-2 XML 文件
Chapter 07 進階爬蟲議題
7-1 處理表單及登入頁 :台灣高鐵時刻查詢
7-2 處理表單及登入頁 :Yelp 登入
7-3 使用WebDriver:台銀法拍屋資訊查詢
7-4 爬蟲程式經驗談:被封鎖的常見原因、常用 Header 欄位、網站隱藏欄位、使用代理伺服器
Chapter 08 資料分析實戰
8-1 台股每日盤後資訊爬蟲及策略回測(量化投資)
8-2 電影評論情緒分析(中文自然語言處理與機器學習)
8-3 商品特價 Gmail 通知:Costco 商品網頁
附表 本書範例目標網站列表
附錄A 在 Mac 安裝Anaconda 開發環境
附錄B Python 爬蟲框架Scrapy 入門教學
B-1 Scrapy 環境安裝
B-2 簡易部落格爬蟲
B-3 Scrapy 系統架構
B-4 博客來網路書店爬蟲
Chapter 01 環境設定與網頁爬蟲初探
1-1 環境設定及套件安裝:Anaconda
1-2 使用IDE:PyCharm
1-3 使用Jupyter Notebook
1-4 網頁文件解構與網頁爬蟲初探
Chapter 02 Beautiful Soup 講解與網頁解構
2-1 不要重複造輪子:寫爬蟲之前
2-2 Beautiful Soup 重要功能 (find(), find_all(), .text, .stripped_strings)
2-3 網頁結構巡覽(parent, children, siblings)
2-4 正規表示式 (Regular Expression)
Chapter 03 網頁爬蟲範例實戰
3-1 PTT 八卦板今日熱門文章
3-2 Yahoo 奇摩電影本週新片
3-3 兩大報當日焦點新聞
3-4...
購物須知
電子書閱讀方式
您所購買的電子書,系統將自動儲存於「我的電子書櫃」,您可透過PC(Windows / Mac)、行動裝置(手機、平板),輕鬆閱讀。
- Windows / Mac 電腦
- 請先安裝瀏覽器,並以Chrome開啟我的電子書櫃後,點選『線上閱讀』,即可閱讀您已購買的電子書。建議使用 Chrome、Microsoft Edge有較佳的線上瀏覽效果。
- 手機/平板
- 請先安裝 電子書APP後,依照提示登入「會員中心」→「電子書管理」→「電子書APP通行碼/載具管理」,取得APP通行碼再登入APP,下載您所購買的電子書。完成下載後,點選任一書籍即可開始離線閱讀。 APP 適用版本:iOS 14.2 或以上版本,Android 6.0 以上版本。
注意事項:
使用讀冊生活電子書服務即為同意讀冊生活電子書服務條款。
下單後電子書可開啟閱讀的時間請參考:不同的付款方式,何時可開啟及閱讀電子書?
因版權保護,您在TAAZE所購買的電子書/雜誌僅能以TAAZE專屬的閱讀軟體開啟閱讀,無法以其他閱讀器或直接下載檔案。
退換貨說明:電子書、電子雜誌商品,恕不提供10天猶豫期退貨,若您對電子書閱讀有疑慮,建議您可於購買前先行試讀。並於訂購本商品前請務必詳閱電子書商品退換貨原則。