本书围绕Spark生态圈相关系统介绍了实时流处理架构Spark。全书共9章,其中第1章主要带大家认识了Spark框架的底层实现语言——Scala。第2章主要讲解了Spark集群环境的搭建。第3-8章主要介绍了弹性分布式数据集RDD、结构化数据文件处理Spark SQL、分布式数据库HBase、分布式订阅消息系统Kafka、实时计算框架Spark Streaming以及机器学习算法库MLib。第9章是一个综合项目,主要通过实时交易数据数据,其目的是教会大家如何利用Spark构建大数据架构并进行开发,同时加深Spark技术的理解。