作者:
出版社: 东南大学出版社
CIP号:2015165527
书号:978-7-5641-5910-8
出版地:南京
出版时间:2015.9
定价:¥56.0
在这本实用书籍中,四位Cloudera公司的数据科学家讲解了一系列自包含模式,用于在Spark中进行大规模数据分析。本书作者们把Spark、统计原理和现实世界中的数据集合放到一起,通过实例教你如何解决数据分析问题。你将从Spark及其生态系统的介绍开始,然后深入运用标准技巧——归类、聚合过滤及异常检测等的模式,这些技巧被用于生物基因、安全和金融等行业。如果你对机器学习和统计学有初步了解,使用Java、Python或者Scala编程,就会发现这些模式对于你的数据分析应用程序会非常有用。