Name: 大數據統計理論
Price: 486.0 TWD
Availability: OutOfStock
Rating: 4.11 (7 reviews)
ISBN: 9789863794509

學堂冊格子二手書送你

登入會員中心

Team Taiwan2024百大2025全球趨勢鹿野忠雄手機成癮張忠謀像這樣的小事村上春樹梅克爾制度基因OPENBOOK好書獎讀冊12月選讀讀書共和國75折起最透明的故事民防必修課大人學

首頁 >
中文書 >
電腦 >
電腦總論 >
大數據統計理論

大數據統計理論

作者：楊旭

評價

2收藏

定價：NT$ 540

優惠價： 9 折， NT$ 486

本商品已下架

其他版本：

二手書
交易資訊

限量贈品

買了這本書的人也買了

商品資料

作者：楊旭

出版社：佳魁資訊股份有限公司出版日期：2016-12-27ISBN/ISSN：9789863794509

語言：繁體中文裝訂方式：平裝頁數：448頁開數：17x23x2.7CM

類別：中文書>電腦>電腦總論類別有誤？

標籤：

目前無標籤

您的標籤：

新增您自己的標籤

文字字級

阿里巴巴集團內部使用，效果顯著
大數據的統計計算是進行資料探索和分析採擷的基礎。在實際應用中會遇到兩個問題：一個是需要使用多少資源；另一個是計算時間，它關係到資料探索分析的效率和效果。人們都希望花更少的錢，並且希望計算時間更短，但對於某個確定的計算過程，它們是成反比的。

本書作者從統計計算的演算法入手，重構其計算過程，從而同時降低資源使用量和計算時間。作者提出一套完整的關於大數據統計的計算理論，包括常用的各種統計量和統計方法，開發的資料分析工具已經在阿里巴巴集團內部的多個部門使用，並取得顯著效果。

適用：對大數據分析有興趣者、大數據分析的工程師或分析師，讀者可根據自己需要，選擇相應的內容進行參考。

各界推薦

名人推薦：本書提出了一套適合於分散式運算的統計計算方法，透過對一些基礎統計量的計算，可獲得有關資料集更全面的統計資訊，進而可以進行進階的統計分析，例如，區間估計、線性回歸、主成分分析等。可以說，本書從統計計算的角度，整理出一套對大數據分析有實用價值的統計理論，並形成參考程式。
潘愛民阿里雲首席架構師

相信大多數從事數值計算的技術人員都讀過一系列叫作Numerical Recipe in C/Fortran/Java 的書。眼前這本書或許可以叫作Numerical Statistics Recipes in Java，和那個系列一樣，對重新快速學習和使用數值統計演...

顯示全部內容

作者序

前言
大數據的統計計算是進行資料探索和分析採擷的基礎。在實際應用中，隨著資料規模的快速增長，資料會分散式儲存在多台電腦上，即使最簡單的求和操作都需要多台電腦協作完成，並且需要數分鐘的計算時間，因而產生了兩個問題：
需要使用多少資源？即所要付出的成本。
計算需要多少時間？它關係到資料探索分析的效率和效果。

人們都希望花更少的錢，並且希望計算時間更短，但對於某個確定的計算過程，它們是成反比的。這就是我在大數據統計實作中經常遇到的情況，當研究了一個又一個計算效能問題之後，我驚奇地發現，這些不同的演算法間是有共通性的，這就吸引我去深入研究，最後形成了一套完整的理論，包含常用的各種統計量和統計方法。以本書內容開發為基礎的資料分析工
具已經在阿里巴巴集團內部的多個部門使用，並取得了顯著效果。
首先舉一個實例，使大家有一個直觀的印象：對於10TB 的資料，大約有1.25MB 個資料，以求和計算為例，使用很多人熟悉的分散式SQL 進行計算：
SELECT SUM(COL1) AS COL1_SUM, COUNT(COL2) AS COL2_CNT, …FROM DATA_TABLE;
共執行了4 分44.062 秒，在該SQL 敘述中，每列只算了一個統計量。
然後使用本書的計算方法，計算更多的統計量，包含：總個數、總和、平均值、方差、標準差、標準誤、變異係數、立方和、四次方和、二階原點矩、三階原點矩、四階原點矩、二階中心矩、三階中心矩、四階中心矩、偏度、峰度；最大值、最小值、極差、最大的100 個值、最小的100 個值；資料分佈長條圖、經驗分佈函數、近似百分位元值。如果不同數值的個數小於10000 個，會將其頻數資訊計算出來，並有精確百分位值、中值、眾數；協方差矩陣、相關係數矩陣。獲得所有的這些統計量使用的計算節點數目與用SQL 敘述獲得的大致相同，花費的計算時間為：4 分53.673 秒。
計算這麼多內容才多花約10 秒，說明本書介紹的演算法夠高效吧！但這還只是一個開頭。
接下來，做一個更有挑戰的實驗，除了上面這些統計量，我們再加入一些進階的統計計算，區間估計、參數檢驗、非參數檢驗、線性回歸、共線性分析、方差分析、主成分分析，完成這些需要多久呢？答案是4 分53.766秒。多麼神奇的事情！對這些大數據進行進階統計計算只多用了不到0.1秒。這種計算效率的加強夠顯著了，我們無須再為資源和時間發愁了。
本書透過文字描述、數學運算式和程式碼，將整個統計計算過程清晰地展現在讀者眼前。全書揭示了各種統計概念和方法，以及它們內在的連結，並根據其特點，對各自的計算公式進行恒等轉換，找到更適合大數據的計算方式。書中提供的範例程式碼可以幫助讀者進一步了解演算法細節，便於將書中的方法運用於實際計算。
本書適合對大數據分析有興趣的讀者閱讀，前面的章節比較容易了解，包含了常用統計量的計算；後面的各章節需要讀者具備一些基礎知識，建議讀者根據自己的興趣和工作需要，選擇對應的內容進行參考。
在本書撰寫過程中，感謝初敏、陳一甯、張東暉的支援和幫助，感謝蔡甯、高志涵在演算法方面的討論和交流，感謝鄧鐘強、蔡甯、高志涵、蔣耘、羅毅、譚望達、代斌、周俊、王少萌、姜曉燕、王樂珩、曹傳宇等同事，一同將此理論應用於實際。
因作者水準有限，書中難免有不妥或疏漏之處，敬請廣大專家和讀者批評、指正! 我的電子郵件地址為：yangxu@alibaba-inc.com。
阿里巴巴楊旭

顯示全部內容

前言
第1 章基本概念
1.1 資料類型
1.2 整體和樣本
1.3 參數和統計量
1.4 分散式運算
第2 章單變數基本統計量
2.1 數量統計量
2.2 頻率統計量
2.3 次序統計量
第3 章單變數資料的分佈
3.1 長條圖
3.2 經驗分佈
3.3 近似分位數和近似百分位數
3.4 PP、QQ 機率圖
3.5 單變數的基本統計資訊
第4 章多變數的資料特徵
4.1 協方差
4.2 相關係數
4.3 協方差和相關係數的計算實現
4.4 資料表的基本統計結果
第5 章資料探索
5.1 擴充長條圖
5.2 交叉表
第6 章極限定理
6.1 大數定理
6.2 中心極限定理...

顯示全部內容

購物須知

退換貨說明：

會員均享有10天的商品猶豫期（含例假日）。若您欲辦理退換貨，請於取得該商品10日內寄回。

辦理退換貨時，請保持商品全新狀態與完整包裝（商品本身、贈品、贈票、附件、內外包裝、保證書、隨貨文件等）一併寄回。若退回商品無法回復原狀者，可能影響退換貨權利之行使或須負擔部分費用。

訂購本商品前請務必詳閱退換貨原則。

發表評論

歡迎你給予星評或評論