多文档关键词抽取技术的研究

被引量 : 12次 | 上传用户:liangxinnet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词自动抽取是依靠计算机从文档中选择出反映主题内容的词,也称作关键词自动标引,可以为用户提供一个简洁的内容摘要,使信息定位更加简单。本文研究从同主题的文档集中抽取关键词来发现主题的算法,主要研究成果如下:1.提出了计算多文档词语权重的ATF*PDF方法。在文档集中包含某个词语的文档数越多,该词语越可能是表达文档集主题的重要成分,ATF*PDF方法中词语权重和词语出现的文档频率成指数级,比成线性关系时有更好的关键词抽取效果。另外,该方法还考虑了文档集中单个文档大小对词语权重的影响。2.提出了基于联合权重的关键词抽取方法,并改进TextRank方法用于抽取多文档关键词。生成关键词时,考虑到候选关键词中可能存在冗余现象,本文使用“联合权重方法”联合那些相互之间语义相似度较大的词语的权重,从而调整候选关键词的排序来选择关键词;另外,考虑到表达同一主题的词语之间存在较强的语义关系,本文改进TextRank方法来使相互之间语义关系较强的词语互相加强重要性,重新计算候选关键词在TextRank模型中的权重。实验证明,和基于聚类的关键词标记方法相比,本文提出的两种方法在关键词抽取效果上均有一定的提高。本文将聚类技术与多文档关键词抽取技术相结合来构建新型的聚类搜索引擎,并和商业聚类搜索引擎Vivisimo进行了对比,阐述了各自的优缺点。最后对本文工作进行了总结并给出了多文档关键词抽取技术的下一步研究目标。
其他文献
在列管换热器中,当冷流体的出口温度超过热流体出口温度时,称温度交叉。此时,用单壳程换热器串联的方法比使用多壳程换热器更为合适。换热器串联的设计,应首先求解串联的各台
近十几年来,在数字电视及消费电子应用的推动下,数字图像与视频处理技术获得了飞速的发展。数字图像质量评价是图像视频处理的基本技术之一,在算法分析比较、系统性能优化及
<正> 小学历史教学是普及历史教育的起点,小学历史课由于是副科,所以很多教师不研究教法,不注意教学效果,小学历史教学要根据小学生的心理特征和教材的特点进行教学研究。如
众多古代小说的序跋评点,具备伦理道德批评的属性。它们的总体特点是,首先,以有关世教作为文本社会功能与文体优长之所在。其次,道德价值构成了作品维护生存权利的"挡箭牌",
乡镇是农村基层行政区划,乡镇政府是农村基层政权。它担当着维护农村政治稳定,发展农村经济,提高社区居民福利待遇的职责;它肩负着执行中央和上级制定的路线、方针、政策的使
在300 kt/a加氢精制装置上,采用FHUDS-6催化剂高空速下生产超低硫清洁柴油。装置运行结果表明,以直馏柴油62.5%(w)-催化裂化柴油37.5%(w)的混合油为原料,在装置运行负荷112%
“社会有正气,民族才会生生不息,国家才会兴旺发达。”习近平总书记5月19日在会见全国公安系统英雄模范立功集体表彰大会代表时的重要讲话引起全党全社会的强烈共鸣。风清则气
报纸
目前国内有许多的压缩机企业,市场竞争激烈;由于清洗工序属于压缩机的关键工序,为提高产品质量,许多厂家不惜成本,导致清洗工艺复杂,能源浪费;有些企业工艺人员也在试图简化