本书以Spark 3.x和Scala 2.x为主线,全面介绍了Spark及其生态体系中常用大数据项目的安装和使用。全书共10章,分别讲解了Scala语言基础、Spark基础、Spark RDD、Spark SQL、HBase、Kafka、Spark Streaming、Structured Streaming和Spark MLlib,并在最后完整开发了一个在线教育学生学习情况分析系统,帮助读者巩固前面所学的内容。 本书附有配套视频、教学PPT、教学设计、测试题等资源,同时,为了帮助初学者更好地学习本书中的内容,还提供了在线答疑,欢迎读者关注。 本书可以作为高等院校数据科学与大数据技术及相关专业的教材,并适合大数据开发初学者、大数据分析与挖掘的从业者阅读。