论文部分内容阅读
随着互联网的普及,网页上的文本信息呈现出爆炸式增长的趋势。如何索引,检索,管理,挖掘网页上的海量文本信息已经成为计算科学领域所面临的一个巨大挑战。文本聚类技术的出现为海量文本信息的分类管理及可视化提供了一条有效的途径。文本聚类技术作为一种无监督的机器学习方法,近年来在信息检索、多文本自动摘要等互联网领域获得了广泛的应用。本文的讨论对象是中文网页的文本聚类,在查阅了国内外的已有的学术成果以及最新的研究发现的基础上,较深入地研究其在两种典型场景中的应用:(1)新闻门户网站中的海量文本数目的中文文本聚类;(2)中文搜索引擎返回结果等场景中的实时聚类。在第一个场景中,本文在MapReduce这个分布式并行计算框架上设计了文本聚类相关的一系列分布式改进算法。在文本预处理阶段,为了评价某一词语对文本集中某一文本的重要程度,本文在MapReduce上设计实现了一个计算词语tfidf权重的新的迭代算法。在文本聚类阶段,先采用一个粗略的距离度量把文本集合中的各个文本划分到了可重叠的子集里。然后又在上一步聚类的基础上进一步设计了分布式的K-平均文本聚类算法,这一步采用的文本间距离度量比较精确,但算法复杂度也相当较高。最后,利用上面在MapReduce平台上给出的一系列新的改进算法,实现了一个分布式中文文本聚类的系统,该系统能高效而稳定的运行海量文本聚类任务。在实际中文语料上的实验显示,本文提出的方法能有效应对大文本集的聚类问题,在一定范围内文本数大小和聚类时间成线性关系,并取得了比较满意的聚类质量。在第二个场景中,本文结合向量空间模型的权重计算,提出了一个基于后缀树的针对中文文本片段进行聚类的方法。首先在文本预处理阶段,利用中文分词工具对中文文本片段集中的每一句挑选出有意义的词语(一般是动词或名词)。在用线性算法构建中文后缀树之后,过滤掉具有太高文档频率的节点(短语),并且利用本文所提出的一个公式计算节点(短语)的得分,选择得分高的短语作为最终的文本特征。然后利用文本特征重新定义了中文文本片段之间的相似度计算方法。结合从后缀树中提取的文本特征以及新的文本间相似度计算,本文实现了准实时的凝聚层次聚类算法。实验结果显示,新的方法能提高聚类质量,并且聚类速度能满足实时应用的需求。本文工作为特定领域中文本聚类问题的研究提供了一个很好的范例,并且实验中积累的经验和获得的结果也有一定的参考价值和实用价值。