騰訊前資深後台工程師力作,大數據時代必讀佳作!
本書特色
1.對NoSQL 系統的理論進行深入淺出的分析,深入說明三種NoSQL 系統:列式的、Key/Value 的和文件類型,並說明MySQL 的效能最佳化。
2.對Hadoop/HBase、MongoDB和Redis這三種NoSQL 系統都列出具體實作。
3.詳細講述了NoSQL的分類及各類NoSQL系統的適用場景,為讀者在實際開發中的技術選型提供良好的指導。
適合:沒有基礎的NoSQL 初學者、 網際網路公司高平行處理系統的後台開發人員、巨量資料、NoSQL 開發同好、中級程式設計師、大專院校師生、相關教育培訓班的學員。
作者簡介:
皮雄軍
平台開發者和研究者、開源精神的忠實擁護者。曾擔任騰訊、三星等知名公司資深後台工程師。在NoSQL原理、技術選型和開發方面具豐富的實戰經驗和成功案例。
作者序
前言
「資料是21 世紀最有價值的資產,它比黃金和石油更有價值」。隨著大數據時代的來臨,傳統的關聯式資料庫在可擴充性、資料模型和可用性方面遇到了難以克服的障礙。此時各種NoSQL 系統出現了。它們的特點各不相同,分別應用於不同的場景並迅速獲得了極大的成功。作為一名從事後台開發多年的工作者,我對每一種新技術的出現與應用都充滿了渴望與期待,其中NoSQL 解決了我實際工作中遇到的許多問題。NoSQL 具有下面幾方面的優點:
1. 靈活的可擴充性
多年以來,資料庫管理員們都是透過「垂直擴充」的方式(當資料庫的負載增加的時候,購買更大型的伺服器來承載增加的負載)來進行擴充的,而非透過「水平擴充」的方式(當資料庫負載增加的時候,在多台主機上分配增加的負載)來進行擴充。但是,隨著請求量和可用性需求的增加,資料庫也正在移轉到雲端或虛擬化環境中,「水平擴充」的經濟優勢變得更加明顯了,對各大企業來說,這種「誘惑」是無法抗拒的。
要對RDBMS(關聯式資料庫,例如Oracle)做「水平擴充」,並不是很容易。但是各種新類型的NoSQL 資料庫主要是為了進行透明的擴充,來利用新節點而設計的,而且,它們通常都是為了低成本的commodity hardware 而設計的。
2. 輕鬆應對大數據
在過去的十年裡,正如請求量發生了天翻地覆的增長一樣,需要儲存的資料量也發生了急劇的膨脹。為了滿足資料量增長的需要,RDBMS 的容量也在日益增加,但是,對一些企業來說,隨著請求量的增加,單一資料庫能夠管理的資料量也變得越來越讓人無法忍受了。現在,大量的「大數據」可以透過NoSQL 系統(如MongoDB)來處理,它們能夠處理的資料量遠遠超出了最大型的RDBMS 所能處理的極限。
3. 維護簡單
在過去的幾年裡,雖然一些RDBMS 供應商們聲稱在可管理性方面做出了很多的改進,但是高階的RDBMS 系統維護起來十分昂貴,而且還需要訓練有素的DBA 們的協助。DBA 們需要親自參與高階的RDBMS 系統的設計、安裝和最佳化。
NoSQL 資料庫從一開始就是為了降低管理方面的要求而設計的:從理論上來說,自動修復,資料分配和簡單的資料模型的確可以讓管理和最佳化方面的要求降低很多。
4. 經濟
NoSQL 資料庫通常使用廉價的Commodity Servers 叢集來管理膨脹的資料和請求量,而RDBMS 通常需要依靠昂貴的專有伺服器和儲存系統來做到這一點。使用NoSQL,每GB 的成本或每秒處理的請求的成本都比使用RDBMS 的成本少很多,這可以讓企業花費更低的成本儲存和處理更多的資料。
5. 靈活的資料模型
對大型的生產性RDBMS 來說,變更管理是一件很令人頭痛的事情。即使只對一個RDBMS 的資料模型做出很小的改動,也必須要十分小心的管理,也許還需要停機或降低服務水準。NoSQL 資料庫在資料模型約束方面是更加寬鬆的,甚至可以說並不存在資料模型的約束。NoSQL 的Key/Value 資料庫和文件類型資料庫可以讓應用程式在一個資料元素裡儲存任何結構的資料。即使是規定更加嚴格的以「大表」為基礎的NoSQL 資料庫(如HBase)通常也允許建立新列,這並不會造成什麼麻煩。
應用程式變更和資料庫綱要的變更並不需要作為一個複雜的變更單元來管理。從理論上來說,這可以讓應用程式反覆運算的更快,但是,很明顯,如果應用程式無法維護資料的完整性,那麼這也會帶來一些不良的副作用。
本書特色
1. 內容全面、新穎
本書內容全面而新穎,既對NoSQL 系統的理論進行深入淺出的分析,又深入說明了列式的、Key/Value 的和文件類型這三種NoSQL 系統,最後還說明了MySQL 的效能最佳化。
2. 說明由淺入深,循序漸進
如果你從來沒有用過NoSQL 系統,本書正適合你。並且由淺入深將各種NoSQL系統聯繫起來,並分析各自的相同點和不同點,讀完之後你一定會對NoSQL 系統有更多的認識。
3. 理論與實作並重
對NoSQL 系統的產生原因和理論基礎做了廣泛而深入的分析,讓讀者知其然,更知其所以然。書中儘量消除初學者學習NoSQL 系統時容易遇到的障礙,變抽象為實際,變複雜為簡單。而且重點對Hadoop/HBase、MongoDB 和Redis 這三種NoSQL 系統都列出了實際實作。
4. 圖文並茂,容易了解
針對NoSQL 系統中的一些架構和較難了解的概念,提供了大量的插圖,並結合實際文字來說明,非常直觀,更有利於讀者的學習與了解。
5. 語言通俗容易
不使用讓人難以了解的語言分析問題,而是採用通俗易懂的敘述說明NoSQL 系統的相關知識,讓讀者能夠真正了解NoSQL 技術,繼而在開發中使用這些技術。
本書原始程式碼取得方式
本書有關的原始程式碼,請讀者自行到www.topteam.cc 上資源下載區下載。
本書作者
雖然筆者花費了大量精力寫作,並力圖將疏漏減少到最少,但仍恐百密一疏。如果您在閱讀本書的過程中發現有任何疏漏,或對本書的說明有任何疑問,請發送電子郵件到bookservice2008@163.com。
前言
「資料是21 世紀最有價值的資產,它比黃金和石油更有價值」。隨著大數據時代的來臨,傳統的關聯式資料庫在可擴充性、資料模型和可用性方面遇到了難以克服的障礙。此時各種NoSQL 系統出現了。它們的特點各不相同,分別應用於不同的場景並迅速獲得了極大的成功。作為一名從事後台開發多年的工作者,我對每一種新技術的出現與應用都充滿了渴望與期待,其中NoSQL 解決了我實際工作中遇到的許多問題。NoSQL 具有下面幾方面的優點:
1. 靈活的可擴充性
多年以來,資料庫管理員們都是透過「垂直擴充」的方式(當資料庫的負載增加的時候,...
目錄
前言
Chapter 01 NoSQL 與大數據簡介
1.1 引子 —— NoSQL 在中國大陸使用的案例
1.2 大數據
1.3 大數據相關技術
1.4 NoSQL 簡介
1.5 NoSQL 資料庫的類型
1.6 如何使用和學習NoSQL 資料庫
1.7 雲端資料管理
Chapter 02 NoSQL 的資料一致性
2.1 傳統關聯式資料庫中的ACID
2.2 CAP 理論
2.3 AP 的實例 —— DNS 系統
2.4 資料一致性模型與BASE
2.5 資料一致性實現方法
Chapter 03 NoSQL 的水平擴充與其他基礎知識
3.1 所有資料儲存在一個伺服器上
3.2 分片(Sharding)
3.3 主從複製
3.4 對等(Peer To Peer)複製
3.5 複製和分片的同時使用
3.6 資料水平擴充的方法歸納
3.7 分片對資料的劃分方式
3.8 一致性hash 演算法(Consistent Hashing)
3.9 磁碟的讀寫特點及五分鐘法則
3.10 不要刪除資料
Chapter 04 BigTable 與Google 雲端運算原理
4.1 雲端運算
4.2 Google 檔案系統GFS
4.3 平行資料處理MapReduce
4.4 分散式鎖服務Chubby
4.5 分散式結構化資料表BigTable
Chapter 05 Google 雲端運算的開放原始碼版本——Hadoop
5.1 Hadoop 簡介
5.2 Hadoop 產生的原因
5.3 Hadoop 和其他系統的比較
5.4 HDFS 的架構設計
5.5 安裝Hadoop
5.6 HDFS 操作
5.7 Hadoop 中的MapReduce 模型
5.8 Zookeeper
5.9 HBase
5.10 HBase 的安裝和設定
5.11 HBase 使用實例
Chapter 06 Dynamo:Amazon 的高可用鍵值對儲存
6.1 簡介
6.2 背景
6.3 系統架構
6.4 實現
6.5 Amazon 使用的經驗與教訓
6.6 結論
Chapter 07 LevelDb——出自Google 的Key-Value 資料庫
7.1 LevelDb 簡介
7.2 LevelDb 的靜態部分
7.3 LevelDb 的動態部分
Chapter 08 Redis 實戰
8.1 Redis 安裝與準備
8.2 Redis 所支援的資料結構
8.3 Key 操作指令
8.4 事物
8.5 Redis 的主從複製
8.6 Redis 的持久化
8.7 Redis 的虛擬記憶體
8.8 pipeline/ 管線
8.9 實例 .
Chapter 09 針對文件的資料庫CouchDB
9.1 CouchDB 介紹
9.2 CouchDB 安裝與設定
9.3 REST API
9.4 為應用建模
9.5 實戰開發
9.6 進階內容
Chapter 10 MongoDB 實戰
10.1 為什麼要使用MongoDB
10.2 MongoDB 的優勢和不足
10.3 基本概念
10.4 Linux 下MongoDB 的安裝和設定、啟動和停止
10.5 建立、更新及刪除文件
10.6 查詢記錄
10.7 高級查詢
10.8 MapReduce
10.9 索引
10.10 性能優化
10.11 性能監控
10.12 Replica Sets 複製集
10.13 Sharding 分片
10.14 Replica Sets 和Sharding 的結合
Chapter 11 MySQL 基礎
11.1 CentOS 6.5 下MySQL 的安裝
11.2 MySQL 基本指令
11.3 MySQL 資料類型
11.4 建立資料庫和表
11.5 檢索表中的資料
11.6 多個表的操作
Chapter12 MySQL 進階特性與效能最佳化
12.1 MySQL Server 系統架構
12.2 儲存引擎
12.3 MySQL 中的鎖定機制
12.4 索引與最佳化
12.5 MySQL 的MyISAM 和Innodb 的Cache 最佳化
12.6 MySQL 的複製
12.7 可擴充性設計之資料切分
12.8 小結
前言
Chapter 01 NoSQL 與大數據簡介
1.1 引子 —— NoSQL 在中國大陸使用的案例
1.2 大數據
1.3 大數據相關技術
1.4 NoSQL 簡介
1.5 NoSQL 資料庫的類型
1.6 如何使用和學習NoSQL 資料庫
1.7 雲端資料管理
Chapter 02 NoSQL 的資料一致性
2.1 傳統關聯式資料庫中的ACID
2.2 CAP 理論
2.3 AP 的實例 —— DNS 系統
2.4 資料一致性模型與BASE
2.5 資料一致性實現方法
Chapter 03 NoSQL 的水平擴充與其他基礎知識
3.1 所有資料儲存在一個伺服器上
3.2 分片(Sharding)
3.3 主從複製
3.4 對等(Peer To Peer)...