本书用了10章来介绍怎么使用Scala在Spark平台上实现机器学习算法,其中Scala的版本为2.11.7,Spark采用基于Hadoop 2.6的版本,这些都是比较新的版本。本书从数据分析师怎么开始数据分析入手,介绍了数据驱动过程和Spark的体系结构;通过操作Spark MLlib库,介绍了机器学习的基本原理及MLlib所支持的几个算法;接着介绍了Scala如何表示和使用非结构化数据,以及与图相关的话题;再接着介绍了Scala与R和Python的集成;最后介绍了一些特别适合Scala编程的NLP常用算法及现有的Scala监控解决方案。总之