作者:
出版社: 人民邮电出版社
CIP号:2016062910
书号:978-7-115-42047-3
出版地:北京
出版时间:2016.5
定价:¥49
本书主要内容包括:在数据科学领域数据清理工作的重要作用,文件格式、数据类型、解码的基本概念,表单的关键特性,组织和处理数据的文本编辑器,各种格式的数据转换方法,解析和清理网页上的HTML文件的三种不同策略,深入了解PDF文件并掌握从中拖出数据的方法,检测和清除RDBMS中的坏数据的解决方案,使用书中介绍的方法清理来自Twitter和Stack Overflow的数据。