Web中文文本聚类研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:z196651j
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及,网页上的文本信息呈现出爆炸式增长的趋势。如何索引,检索,管理,挖掘网页上的海量文本信息已经成为计算科学领域所面临的一个巨大挑战。文本聚类技术的出现为海量文本信息的分类管理及可视化提供了一条有效的途径。文本聚类技术作为一种无监督的机器学习方法,近年来在信息检索、多文本自动摘要等互联网领域获得了广泛的应用。本文的讨论对象是中文网页的文本聚类,在查阅了国内外的已有的学术成果以及最新的研究发现的基础上,较深入地研究其在两种典型场景中的应用:(1)新闻门户网站中的海量文本数目的中文文本聚类;(2)中文搜索引擎返回结果等场景中的实时聚类。在第一个场景中,本文在MapReduce这个分布式并行计算框架上设计了文本聚类相关的一系列分布式改进算法。在文本预处理阶段,为了评价某一词语对文本集中某一文本的重要程度,本文在MapReduce上设计实现了一个计算词语tfidf权重的新的迭代算法。在文本聚类阶段,先采用一个粗略的距离度量把文本集合中的各个文本划分到了可重叠的子集里。然后又在上一步聚类的基础上进一步设计了分布式的K-平均文本聚类算法,这一步采用的文本间距离度量比较精确,但算法复杂度也相当较高。最后,利用上面在MapReduce平台上给出的一系列新的改进算法,实现了一个分布式中文文本聚类的系统,该系统能高效而稳定的运行海量文本聚类任务。在实际中文语料上的实验显示,本文提出的方法能有效应对大文本集的聚类问题,在一定范围内文本数大小和聚类时间成线性关系,并取得了比较满意的聚类质量。在第二个场景中,本文结合向量空间模型的权重计算,提出了一个基于后缀树的针对中文文本片段进行聚类的方法。首先在文本预处理阶段,利用中文分词工具对中文文本片段集中的每一句挑选出有意义的词语(一般是动词或名词)。在用线性算法构建中文后缀树之后,过滤掉具有太高文档频率的节点(短语),并且利用本文所提出的一个公式计算节点(短语)的得分,选择得分高的短语作为最终的文本特征。然后利用文本特征重新定义了中文文本片段之间的相似度计算方法。结合从后缀树中提取的文本特征以及新的文本间相似度计算,本文实现了准实时的凝聚层次聚类算法。实验结果显示,新的方法能提高聚类质量,并且聚类速度能满足实时应用的需求。本文工作为特定领域中文本聚类问题的研究提供了一个很好的范例,并且实验中积累的经验和获得的结果也有一定的参考价值和实用价值。
其他文献
图像作为信息存储的一种表现形式,在日常生活应用中发挥着重要作用。随着计算机以及电子设备的日益普及,图像在我们工作生活中随处可见,通过图像人们可以更加直观的理解、表
摘要在视频监控系统中,用于采集图像的视频采集卡是该系统的核心模块,它在采集图像的过程中会受到外部因素(噪声)的影响,使采集到的图像质量下降,并掩盖了重要的图像细节信息
进化树的拓扑结构能够直观地揭示出问题域中各研究对象之间的相互关系,以及它们的演化过程,因此它在研究对象相似性的领域中发挥着十分重要的作用。目前,重构进化树拓扑结构
人机交互是20世纪以后计算机科学技术中发展出的一门新的学科分支,是心理学和计算机科学结合的产物。本文针对以投入使用多年的两款基于C/S架构的电力管理系统的人机交互进行
随着网络技术的发展,多媒体技术的普及,其中图像成为多媒体技术信息的一个重要因素,于是对于图像的存储和传输成为必不可少的一步。一幅图像有着较大的数据量,为了更加有效的
无线传感器网络WSN(Wireless Sensor Network)是一种新型的网络和计算机技术。近年来,随着传感器技术、微电子技术、嵌入式技术和无线通信等技术的进步,WSN得以迅猛发展,成为
随着网络技术的不断进步,互联网越来越普及,互联网已经成为一项重要的基础设施。与此同时,网络恶意行为也越来越多样化,这些恶意行为破坏了正常的网络秩序,威胁到了网络用户
为应对软件复杂性危机对计算机系统发展的阻碍,2001年IBM提出了“自主计算”的概念,其目标是使计算机系统具有自我管理的能力。首先,本文在总结国内外大量的相关领域研究成果
现代复杂嵌入式软件系统的高可靠性需要有效的基于模型的设计与分析技术。由于嵌入软件具有极高的可靠性、严格的实时性以及资源、能耗使用的受限性,使得保证系统设计满足给
随着市场竞争越来越激烈,企业需要不断改善业务流程,提高业务流程的灵活性,适应市场的变化。企业迫切需要利用信息手段实现先进的流程管理。通过对业务信息进行分析,制定出合