基于文本相似度的中文文本聚类的研究

被引量 : 0次 | 上传用户:fengdl0040
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类是文本挖掘和信息检索领域的重要研究课题,而中文自动分词、特征选择和相似度计算等是中文文本聚类研究的关键技术。本文详细综述了文本聚类技术的相关研究;研究了中文未登录词识别和歧义消解;研究和分析比较了常用的特征选择方法和特征抽取方法;研究并改进了TF-IDF算法,并通过实验证明改进后的算法能够取得更好的效果;研究并分析了文本聚类的常用方法以及效果评价方法,并利用文本相似度矩阵进行文本聚类,实验证明改进的算法能够有效地改进文本聚类的准确性,尤其是文本集合比较小的时候;最后,深入分析了多文档文摘的关键技术,以及在文本聚类中的应用。本文的研究对中文文本聚类技术的具体应用诸如文本挖掘、信息检索等都具有借鉴意义。
其他文献
21世纪初,和平与发展仍然是世界的主题,美国、俄罗斯和中国同为联合国安理会常任理事国,三国在当代的互动关系不可避免地发生深化,表现为新型的三角关系。文章从分析三边战略
SOA(Service-oriented architecture,面向服务架构)是IT业务的一种服务提供方式,在企业信息化方面的优势日益显现,与此同时带来的数据整合和数据一致性方面的困境也亟待解决
通过对黄瓜苗的嫁接操作和培育,总结介绍了嫁接技术在蔬菜作物上的应用及嫁接苗成活率的影响因素,对帮助菜农掌握瓜类蔬菜常用嫁接方法有很好帮助。
中学阶段的英语学习在一个人的一生学习中具有重要的影响和深远的意义。作为教学工作者,必须在研究教学的同时,要研究学习活动的主体——学生,要根据他们在这一阶段的英语学
《哈克贝利·费恩历险记》(The Adventures of Huckleberry Finn,1885)是公认的马克·吐温的代表作,它集中表现出作者各个方面的艺术才华,塑造的人物令人难忘,在现实主义的真
上个世纪60年代以来,随着计算机产业的迅速发展,电子商务应运而生,发达国家把它作为国际贸易领域的新手段不断扩大其应用范围。随着电子商务在全球范围内蓬勃发展,它已经对传
近年来,大大小小的金融风波,好多都与不当使用衍生金融工具有关,这不得不促使人们对衍生金融工具所隐含的巨大风险进行深刻的反省。如何在财务报告中进行有效的披露,以及建立
经济高速发展的今天,企业想立足就要提高企业的竞争力,决定和影响企业竞争力的因素很多,企业所处的环境可以影响企业竞争力的发挥,企业所拥有的资源和能力可以决定企业竞争力
房地产投资风险评价就是对将会出现的各种不确定性及其可能造成的各种影响和影响程度进行恰如其分的分析和评价。本文首先论述了房地产投资风险的基本特征,并对影响房地产投
教学年级小学五年级教学课时一课时