作者:朱颢东著
出版社: 北京理工大学出版社
CIP号:2016312222
书号:978-7-5682-0506-1
出版地:北京
出版时间:2016.12
定价:¥20
本书以文本数据为研究对象,对文本挖掘中的若干核心技术进行研究,主要包括文本特征选择、文本分类、文本聚类、文本关联分析,其研究内容和创新点如下:(1)文本特征选择:首先系统地分析了常用的文本特征选择方法,总结了它们的不足;然后提出了优化的文档频、文本特征辨别能力、类内集中度等概念;紧接着,在此基础上给出了三种新的文本特征选择方法:①基于综合启发式的文本特征选择方法;②基于差别对象对集的文本特征选择方法;③基于二进制可辨矩阵的文本特征选择方法。实验结果表明:在微平均F1和宏平均F1方面,这三种方法比三种经典的文本特征选择方法“互信息”和“统计量”以及“信息增益”都要好,并且前一个方法优于后两个方法。(2)文本分类:首先对文本分类所涉及的各项技术进行了阐述;然后把粗糙集用于文本分类;紧接着提出了基于辨识集的属性约简算法和基于规则综合质量的属性值约简算法,并将其应用到文本分类规则的提取中。实验结果表明,其生成的规则属性较少,分类准确率和召回率都较高。针对传统ID3算法倾向于选择取值较多的属性的缺点,首先引进属性重要性来改进ID3算法,然后又进一步根据ID3算法中信息增益的计算特点,利用凸函数的性质来简化ID3算法,从而减少了信息增益的计算量,进而提高ID3 算法中信息增益的计算效率。实验证明,优化的ID3 算法与原ID3 算法相比,在构造决策树时具有较高的准确率和更快的计算速度,并且构造的决策树还具有较少的平均叶子数。(3)文本聚类:通过对K-Means算法仔细分析,发现该算法会因初始聚类中心的随机性而产生波动较大的聚类结果。为解决这个问题,本书改进了模拟退火算法并用它来优选初始聚类中心,从而得到一种适合于文本数据的聚类算法。该算法把改进的模拟退火算法和K-Means算法结合在一起,从而达到既能发挥模拟退火算法的全局寻优能力,又可以兼顾K-Means的局部寻优能力,较好地克服了K-Means算法对初始聚类中心敏感、容易陷入局部最优的缺点。实验表明该算法不但生成的聚类结果质量较高,而且其波动性还较小。由于缺乏类信息,使得无监督文本特征选择问题一直很难较好地被加以解决。为此,本书对该问题进行了研究并提出了两种新的无监督文本特征选择方法:①结合文档频和K-Means的无监督文本特征选择方法。该方法主要是把有监督文本特征选择的思想引入到无监督文本特征选择之中,克服了聚类时缺乏类的先验知识的不足,能够较好地解决无监督文本特征选择的问题;②结合