基于文本的关键词提取方法研究与实现

被引量 : 0次 | 上传用户:QQ343282482
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于数据信息的膨胀,文本检索经常涉及海量文档。除学术论文包含关键词外,大量的文档没有关键词。面对海量文档的检索,如果没有关键词,几乎无法处理这类检索问题。因此,要进行海量文档的信息检索,必须首先解决对文档进行准确高效的关键词自动提取。关键词自动提取是文本挖掘领域的一个分支,是文档检索、文档比较、摘要生成、文档分类和聚类等文本处理研究的基础性工作。本文研究的主要内容就是如何从一篇没有任何标引的文本中提取出能说明文章大意的主题词,即关键词。传统的人工的方法准确度很高,但效率低下,用计算机自动提取关键词,效率很高,但要解决准确度不高的问题。本文的主要工作是研究一种效率高、准确度也高的文本关键词提取方法。基于此,本文从关键词提取的一般算法入手,借助《知网》,结合统计学方法,提出新的关键词提取方法,使得提取的关键词更加准确、效率更高。主要工作如下:(1)深入研究《知网》内部结构,并对其程序化处理。(2)提出新的词语相似度计算方法。在概念层次上,引入义原类相似度的概念及计算规则,结合词语概念中主要义原类限制次要义原类和变系数法对各义原类加权计算,求得概念相似度;在词语层次上,引入词性相似度的概念,取不同词性的最大值作为词语相似度。实验结果表明,与已有方法相比,该方法有效提高了词语相似度的精确度和计算效率。(3)采用中科院分词软件对文本分词,对不同段落赋予不同段落因子,结合相应规则,用词语相似度模块处理测试文本分词结果。(4)分析现有关键词提取方法,根据其优缺点,总结新的词语权重计算方法TFIWF算法,将词频比作为文本候选关键词去噪音的权值,有效地抑制了与测试文本同类语料库对所提取关键词权重的影响,修正了TFIDF算法的偏差。实验表明,相对于传统算法不仅效率不减,而且准确度也明显提高。
其他文献
采用均匀沉淀法 ,以硝酸钴和尿素为原料制备了纳米四氧化三钴微粉 ,对制备条件用正交实验进行优化 ,优化条件为 :反应体系pH =5 ,反应时间 3h ,尿素与硝酸钴摩尔比为 4 ,干燥
美国白蛾原产北美,在北美是一种普通害虫,但传入欧亚大陆后作为入侵种成为严重危害树木的检疫性害虫。该虫现已蔓延到我国中东部九个省市,根据国家林业局森防总站提供的2002-201
针对目前微生物法生产1,3-丙二醇的分离方法中存在的问题,本论文从以下方面做了探索性的研究,对以后的1,3-丙二醇分离的产业化和类似发酵产物的分离研究有很好的借鉴作用。 首
<正>早在十六、十七世纪的大航海时代,郑芝龙就顺应潮流,开创中外贸易航路。不仅开创了闽南海上贸易疆域,而且建立了海军,掌控了东海、南海的制海权,巩固了中国海防。在古代
一般的舵机伺服系统可分为液压舵机、气动舵机及电动舵机。传统的液压舵机和气动舵机由于自身的缺陷已经不能满足火箭、导弹等高速飞行器的控制要求,随着永磁材料的发展、控制
本文分析了专业技术干部晋升职称培训中存在的一些问题,针对专业技术干部任职培训的特点,提出了相应的对策与建议。
随着社会的进步,我国的教育事业也稳定、快速、高效的发展,人们对于教育事业的关注度也越来越高。在我国的教育体系中,除了传统的比较常见的公立学校之外,还有私立学校。学校的发
教学反思是教学过程的延伸和拓展,对教师自身知识结构完善,专业化水平的提高,起着重要的促进作用。教学反思为教师创新积累经验,为教师优化教学途径拓展空间,为教师教育科研
建立现代企业管理制度是促使企业实现健康稳健发展的基础和保证。现代企业管理制度要求企业建立“产权清晰、权责明确、政企分开、管理科学”的管理制度,绩效考核是企业人力
《中华人民共和国企业破产法》规定了人民法院对重整计划的强制批准制度,对企业重整的顺利进行起到了重要的保障作用,但由于此项新制度的实施尚缺乏充足的实践经验,仍有一些