ISBN号: 9787302628866
出版日期: 2023-07-01
印次:1-1
定价: ¥189
本书系统阐述了Spark架构原理和环境部署搭建,以及使用Spark执行大数据批处理、流处理、图计算、数据湖等方面的技术。 全书共分为14章:第1章和第2章是基础,第3章至第10章为Spark各模块的讲解和应用,第11章为Spark调优技术,第12章至第14章讲解下一代大数据技术-数据湖。 书中主要内容包括:Spark的体系架构、Spark集群安装与部署模式、Spark+Maven开发环境搭建、Spark+SBT开发环境搭建、Zeppelin交互式开发环境搭建、Spark RDD、Spark SQL批处理技术、Spark结构化流处理技术、Spark图处理库(GraphX和GraphFrame)、下一代大数据技术-数据湖(Delta Lake、Iceberg和Hudi)。 书中内容全面系统,包含大量应用示例,面向零基础小白,知识点深浅适当,代码完整易懂。不仅可以学会理论知识还可以灵活应用。书中示例基于Spark 3.1.2和Scala语言开发,。书中通过多个综合项目案例详细阐述了如何使用Spark开发批、流计算项目,内容完整、步骤清晰,提供了工程化的解决方案。 本书可作为大数据和Spark初学者的入门书籍,也可作为从事跨平台开发的技术人员及培训机构的参考书籍。