spark sql是spark生態環境中核心和基礎的元件,是掌握spark的關鍵所在。本書完全從企業級開發的角度出發,結合多個企業級應用案例,深入剖析spark sql。全書共分為8章,包括:認識spark sql、dataframe原理與常用操作、spark sql操作多種資料來源、parquet列式存儲、spark sql內置函數與視窗函數、spark sql udf與udaf、thrift server、spark sql綜合應用案例。本書可以使讀者對spark sql有深入的理解,本書適合於spark學習愛好者,是學習spark sql的入門和提高教材,也是spark開發工程師開發過程中查閱spark sql的案頭手冊。目錄錄前言第1章認識spark sql1.1spark sql概述1.1.1spark sql與dataframe1.1.2dataframe與rdd的差異1.1.3spark sql的發展歷程1.2從零起步掌握hive1.2.1hive的本質是什麼1.2.2hive安裝和配置1.2.3使用hive分析搜索資料1.3spark sql on hive安裝與配置1.3.1安裝spark sql1.3.2安裝mysql1.3.3啟動hive metastore1.4spark sql初試1.4.1通過spark-shell來使用spark sql1.4.2spark sql的命令終端1.4.3spark的web ui1.5本章小結第2章dataframe原理與常用操作2.1dataframe程式設計模型2.2dataframe基本操作實戰2.2.1資料準備2.2.2啟動互動式介面2.2.3資料處理與分析2.3通過rdd來構建dataframe2.4緩存表(列式存儲)2.5dataframe api應用示例2.6本章小結第3章spark sql 操作多種資料來源3.1通用的載入/保存功能3.1.1spark sql載入資料3.1.2spark sql保存資料3.1.3綜合案例——電商熱銷商品排名3.2spark sql操作hive示例3.3spark sql操作json資料集示例3.4spark sql操作hbase示例3.5spark sql操作mysql示例3.5.1安裝並啟動mysql3.5.2準備資料表3.5.3操作mysql表3.6spark sql操作mongodb示例3.6.1安裝配置mongodb3.6.2啟動mongodb3.6.3準備資料3.6.4spark sql操作mongodb3.7本章小結第4章parquet列式存儲4.1parquet概述4.1.1parquet的基本概念4.1.2parquet資料列式存儲格式應用舉例4.2parquet的block配置及資料分片4.2.1parquet的block的配置4.2.2parquet 內部的資料分片4.3parquet序列化4.3.1spark實施序列化的目的4.3.2parquet兩種序列化方式4.4本章小結第5章spark sql內置函數與視窗函數5.1spark sql內置函數5.1.1spark sql內置函數概述5.1.2spark sql內置函數應用實例5.2spark sql視窗函數5.2.1spark sql視窗函數概述5.2.2spark sql視窗函數分數查詢統計案例5.2.3spark sql視窗函數nba常規賽資料統計案例5.3本章小結第6章spark sql udf與udaf6.1udf概述6.2udf示例6.2.1hobby_count函數6.2.2combine函數6.2.3str2int函數6.2.4wsternstate函數6.2.5manycustomers函數6.2.6stateregion函數6.2.7discountratio函數6.2.8makestruct函數6.2.9mydatefilter函數6.2.10makedt函數6.3udaf概述6.4udaf示例6.4.1scalaaggregatefunction函數6.4.2geometricmean函數6.4.3custommean函數6.4.4belowthreshold函數6.4.5yearcompare函數6.4.6wordcount函數6.5本章小結第7章thrift server7.1thrift概述7.1.1thrift的基本概念7.1.2thrift的工作機制7.1.3thrift的運行機制7.1.4一個簡單的thrift 實例7.2thrift server的啟動過程7.2.1thrift sever啟動詳解7.2.2hivethriftserver2類的解析7.3beeline操作7.3.1beeline連接方式7.3.2在beeline中進行sql查詢操作7.3.3通過web控制台查看用戶進行的操作7.4thrift server應用示例7.4.1示例原始程式碼7.4.2關鍵代碼行解析7.4.3測試運行7.4.4運行結果解析7.4.5spark web控制台查看運行日誌7.5本章小結第8章spark sql綜合應用案例8.1綜合案例實戰——電商網站日誌多維度數據分析8.1.1資料準備8.1.2資料說明8.1.3資料創建8.1.4資料導入8.1.5資料測試和處理8.2綜合案例實戰——電商網站搜索排名統計8.2.1案例概述8.2.2資料準備8.2.3實現使用者每天搜索前3名的商品排名統計8.3本章小結作者介紹暫時沒有內容文摘暫時沒有內容序言暫時沒有內容
退換貨說明:
會員均享有10天的商品猶豫期(含例假日)。若您欲辦理退換貨,請於取得該商品10日內寄回。
辦理退換貨時,請保持商品全新狀態與完整包裝(商品本身、贈品、贈票、附件、內外包裝、保證書、隨貨文件等)一併寄回。若退回商品無法回復原狀者,可能影響退換貨權利之行使或須負擔部分費用。
訂購本商品前請務必詳閱退換貨原則。spark sql是spark生態環境中核心和基礎的元件,是掌握spark的關鍵所在。本書完全從企業級開發的角度出發,結合多個企業級應用案例,深入剖析spark sql。全書共分為8章,包括:認識spark sql、dataframe原理與常用操作、spark sql操作多種資料來源、parquet列式存儲、spark sql內置函數與視窗函數、spark sql udf與udaf、thrift server、spark sql綜合應用案例。本書可以使讀者對spark sql有深入的理解,本書適合於spark學習愛好者,是學習spark sql的入門和提高教材,也是spark開發工程師開發過程中查閱spark sql的案頭手冊。目錄錄前言第1章認識spark sql1.1spark sql概述1.1.1spark sql與dataframe1.1.2dataframe與rdd的差異1.1.3spark sql的發展歷程1.2從零起步掌握hive1.2.1hive的本質是什麼1.2.2hive安裝和配置1.2.3使用hive分析搜索資料1.3spark sql on hive安裝與配置1.3.1安裝spark sql1.3.2安裝mysql1.3.3啟動hive metastore1.4spark sql初試1.4.1通過spark-shell來使用spark sql1.4.2spark sql的命令終端1.4.3spark的web ui1.5本章小結第2章dataframe原理與常用操作2.1dataframe程式設計模型2.2dataframe基本操作實戰2.2.1資料準備2.2.2啟動互動式介面2.2.3資料處理與分析2.3通過rdd來構建dataframe2.4緩存表(列式存儲)2.5dataframe api應用示例2.6本章小結第3章spark sql 操作多種資料來源3.1通用的載入/保存功能3.1.1spark sql載入資料3.1.2spark sql保存資料3.1.3綜合案例——電商熱銷商品排名3.2spark sql操作hive示例3.3spark sql操作json資料集示例3.4spark sql操作hbase示例3.5spark sql操作mysql示例3.5.1安裝並啟動mysql3.5.2準備資料表3.5.3操作mysql表3.6spark sql操作mongodb示例3.6.1安裝配置mongodb3.6.2啟動mongodb3.6.3準備資料3.6.4spark sql操作mongodb3.7本章小結第4章parquet列式存儲4.1parquet概述4.1.1parquet的基本概念4.1.2parquet資料列式存儲格式應用舉例4.2parquet的block配置及資料分片4.2.1parquet的block的配置4.2.2parquet 內部的資料分片4.3parquet序列化4.3.1spark實施序列化的目的4.3.2parquet兩種序列化方式4.4本章小結第5章spark sql內置函數與視窗函數5.1spark sql內置函數5.1.1spark sql內置函數概述5.1.2spark sql內置函數應用實例5.2spark sql視窗函數5.2.1spark sql視窗函數概述5.2.2spark sql視窗函數分數查詢統計案例5.2.3spark sql視窗函數nba常規賽資料統計案例5.3本章小結第6章spark sql udf與udaf6.1udf概述6.2udf示例6.2.1hobby_count函數6.2.2combine函數6.2.3str2int函數6.2.4wsternstate函數6.2.5manycustomers函數6.2.6stateregion函數6.2.7discountratio函數6.2.8makestruct函數6.2.9mydatefilter函數6.2.10makedt函數6.3udaf概述6.4udaf示例6.4.1scalaaggregatefunction函數6.4.2geometricmean函數6.4.3custommean函數6.4.4belowthreshold函數6.4.5yearcompare函數6.4.6wordcount函數6.5本章小結第7章thrift server7.1thrift概述7.1.1thrift的基本概念7.1.2thrift的工作機制7.1.3thrift的運行機制7.1.4一個簡單的thrift 實例7.2thrift server的啟動過程7.2.1thrift sever啟動詳解7.2.2hivethriftserver2類的解析7.3beeline操作7.3.1beeline連接方式7.3.2在beeline中進行sql查詢操作7.3.3通過web控制台查看用戶進行的操作7.4thrift server應用示例7.4.1示例原始程式碼7.4.2關鍵代碼行解析7.4.3測試運行7.4.4運行結果解析7.4.5spark web控制台查看運行日誌7.5本章小結第8章spark sql綜合應用案例8.1綜合案例實戰——電商網站日誌多維度數據分析8.1.1資料準備8.1.2資料說明8.1.3資料創建8.1.4資料導入8.1.5資料測試和處理8.2綜合案例實戰——電商網站搜索排名統計8.2.1案例概述8.2.2資料準備8.2.3實現使用者每天搜索前3名的商品排名統計8.3本章小結作者介紹暫時沒有內容文摘暫時沒有內容序言暫時沒有內容
退換貨說明:
會員均享有10天的商品猶豫期(含例假日)。若您欲辦理退換貨,請於取得該商品10日內寄回。
辦理退換貨時,請保持商品全新狀態與完整包裝(商品本身、贈品、贈票、附件、內外包裝、保證書、隨貨文件等)一併寄回。若退回商品無法回復原狀者,可能影響退換貨權利之行使或須負擔部分費用。
訂購本商品前請務必詳閱退換貨原則。※ 二手徵求後,有綁定line通知的讀者,
該二手書結帳減5元。(減5元可累加)
請在手機上開啟Line應用程式,點選搜尋欄位旁的掃描圖示
即可掃描此ORcode
|
||||||||||||||||||
|
||||||||||||||||||
|