发布日期:2019-07-31 11:16:45

翻看了这本大数据书籍,做个摘要。

本书分为三部分分。

  • 理论篇:重点介绍大数据时代下数据处理的基本理论及相关处理技术,并引入NoSQL数据库;
  • 系统篇:介绍了各种类型NoSQL数据库基本知识;
  • 应用篇:对中外知名企业在利用NoSQL数据库在处理海量数据方面的应用做了阐述。

本书对大数据时代面临的挑战,以及NoSQL数据库的基本知识做了清晰的阐述,有助于帮助读者整理思路,了解需求,并更有针对、有选择地深入学习相关知识。

第1章 概论 
1.1 引子
1.2 大数据挑战
1.3 大数据的存储和管理

  • 1.3.1 并行数据库
  • 1.3.2 NoSQL数据管理系统 
  • 1.3.3 NewSQL数据管理系统 
  • 1.3.4 云数据管理
  • 1.4 大数据的处理和分析


理论篇
 2章 数据一致性理论 
2.1 CAP理论
2.2 数据一致性模型
2.3 ACID与BASE
2.4 数据一致性实现技术

  • 2.4.1 Quorum系统NRW策略
  • 2.4.2 两阶段提交协议
  • 2.4.3 时间戳策略
  • 2.4.4 Paxos
  • 2.4.5 向量时钟

3章 数据存储模型 
3.2 键值存储

  • 3.2.1 Redis
  • 3.2.2 Dynamo

3.3 列式存储
3.3.1 Bigtable
3.3.2 Cassandra与HBase
3.4 文档存储
3.4.1 MongoDB
3.4.2 CouchDB
3.5 图形存储
3.5.1 Neo4j
3.5.2 GraphDB

 4章 数据分区与放置策略
4.1 分区的意义
4.1.1 为什么要分区
4.1.2 分区的优点
4.2 范围分区
4.3 列表分区
4.4 哈希分区
4.5 三种分区的比较
4.6 放置策略
4.6.1 一致性哈希算法
4.6.2 容错性与可扩展性分析
4.6.3 虚拟节点

 5章 海量数据处理方法
5.1 MaReduce简介
5.2 MaReduce数据流
5.3 MaReduce数据处理
5.3.1 提交作业 
5.3.2 初始化作业
5.3.3 分配任务
5.3.4 执行任务
5.3.5 更新任务执行进度和状态
5.3.6 完成作业 
5.4 Dryad简介
5.4.1 DFS Cosmos介绍
5.4.2 Dryad执行引擎
5.4.3 DryadLINQ 解释引擎
5.4.4 DryadLINQ编程
5.5 Dryad数据处理步骤
5.6 MaReduce vs Dryad

 6章 数据复制与容错技术
6.1 海量数据复制的作用和代价
6.2 海量数据复制的策略
6.2.1 Dynamo 数据库复制策略
6.2.2 CouchDB 复制策略
6.2.3 PNUTS 复制策略
6.3 海量数据的故障发现与处理
6.3.1 Dynamo 数据库故障发现与处理
6.3.2 CouchDB 故障发现与处理
6.3.3 PNUTS 故障发现与处理

 7章 数据压缩技术
7.1 数据压缩原理
7.1.1 数据压缩的定义
7.1.2 数据为什么可以压缩
7.1.3 数据压缩分类
7.2 传 压缩技术
7.2.1 霍夫曼编码
7.2.2 LZ77算法
7.3 海量数据带来的3V挑 
7.4 Oracle混合列压缩
7.4.1 仓库压缩
7.4.2 存档压缩
7.5 Google数据压缩技术
7.5.1 寻找长的重复串
7.5.2 压缩算法
7.6 Hadoo压缩技术
7.6.1 LZO简介
7.6.2 LZO原理

 8章 缓存技术
8.1 分布式缓存简介
8.1.1 分布式缓存的产生
8.1.2 分布式缓存的应用
8.1.3 分布式缓存的性能
8.1.4 衡量可用性的标准
8.2 分布式缓存的内部机制
8.2.1 生命期机制 
8.2.2 一致性机制
8.2.3 直读与直写机制 
8.2.4 查询机制
8.2.5 事件触发机制 
8.3 分布式缓存的拓扑结构
8.3.1 复制式拓扑
8.3.2 分割式拓扑
8.3.3 客户端缓存拓扑

系统篇
 9章 key-value数据库
9.1 key-value模型综述
9.2 Redis
9.2.1 Redis概述
9.2.2 Redis下载与安装
9.2.3 Redis入门 作
9.2.4 Redis在业内的应用
9.3 Voldemort
9.3.1 Voldemort概述
9.3.2 Voldemort下载与安装
9.3.3 Voldemort的配置
9.3.4 Voldemort开发介绍

 10章 Column-Oriented数据库
10.1 Column-Oriented数据库简介
10.2 Bigtable数据库
10.2.1 Bigtable数据库简介
10.2.2 Bigtable数据模型
10.2.3 Bigtable基础架构
10.3 Hypertable数据库
10.3.1 Hypertable简介
10.3.2 Hypertable安装
10.3.3 Hypertable架构
10.3.4 Hypertable中的基本概念和原理
10.3.5 Hypertable的查询
10.4 Cassandra数据库
10.4.1 Cassandra简介
10.4.2 Cassandra 配置
10.4.3 Cassandra数据库的连接
10.4.4 Cassandra 集群机制
10.4.5 Cassandra 读/写机制 

 11章 文档数据库
11.1 文档数据库简介
11.2 CouchDB数据库
11.2.1 CouchDB简介
11.2.2 CouchDB安装
11.2.3 CouchDB入门
11.2.4 CouchDB查询
11.2.5 CouchDB 存储结构
11.2.6 SQL CouchDB
11.2.7 分布式环境 CouchDB
11.3 MongoDB数据库
11.3.1 MongoDB简介
11.3.2 MongoDB 安装
11.3.3 MongoDB入门
11.3.4 MongoDB 引
11.3.5 SQL与MongoDB
11.3.6 MaReduce与MongoDB
11.3.7 MongoDB与CouchDB对 

 12章 图存数据库
12.1 图存数据库的由来及基本概念
12.1.1 图存数据库的由来
12.1.2 图存数据库的基本概念
12.2 Neo4j图存数据库
12.2.1 Neo4j简介
12.2.2 Neo44j使用 程
12.2.3 分布式Neo4j——Neo4j HA
12.2.4 Neo4j工作 及优缺点浅析
12.3 GrahDB
12.3.1 GrahDB简介
12.3.2 GrahDB的整体架构
12.3.3 GrahDB 的数据模型
12.3.4 GrahDB的安装
12.3.5 GrahDB的使用
12.4 OrientDB
12.4.1 背景
12.4.2 OrientDB是什么
12.4.3 OrientDB 原理及相关技术
12.4.4 Windows下OrientDB 安装与使用
12.4.5 相关Web应用
12.5 三种图存数据库的比较
12.5.1 特征矩阵
12.5.2 分布式模式及应用比较

 13章 基于Hadoop的数据管理系统 
13.1 Hadoop简介
13.2 HBase
13.2.1 HBase体系结构
13.2.2 HBase数据模型
13.2.3 HBase的安装和使用
13.2.4 HBase与RDBMS
13.3 Pig
13.3.1 Pigr 安装 使用
13.3.2 Pig Latin语言
13.3.3 Pig实例

13.4 Hive: Hive的数据存储,元数据存储,

14 NewSQL数据库

MewSQL数据库简介,MySQL Cluster, VoltDB

15. 分布式缓存技术

Memcached缓存技术, Microsoft Velocity分布式缓存系统

 

应用篇

Instagram

Facebook对Hadoop以及HBase的应用

淘宝大数据解决之道 (淘宝OceanBase数据库)

发表评论