【摘 要】
:
关键词抽取工作作为自然语言处理中的一个基础课题,为信息检索、文本聚类、自动摘要生成等技术提供基本支持。可以使用户快速方便的理解文章主要内容从而判断如何进行下一步
论文部分内容阅读
关键词抽取工作作为自然语言处理中的一个基础课题,为信息检索、文本聚类、自动摘要生成等技术提供基本支持。可以使用户快速方便的理解文章主要内容从而判断如何进行下一步工作。本文的关键词抽取工作主要分为候选词识别和关键词抽取两部分。通过实验发现,对于中文关键词抽取任务来说,分词结果的好坏和候选词选取的质量将严重影响后期的抽取工作。针对此现象,本文将关键词抽取和关键短语抽取当作同一工作任务,统一成关键词抽取的研究,并将重点放在候选词识别部分。针对中文分词所包含的问题,在候选词的抽取方面,本文提出了一种结合连续单字未登录词识别和多词表达式识别的方法来进行候选词的识别:对于连续单字未登录词,利用简单的规则切分连续单字片段,该方法可以较好的识别出频率为1的该类未登录词;对于多词表达式,则在规则抽取的基础上加入LocalMaxs方法。两种方法的结合在不依赖语料库规模和领域的情况下,可以较好的识别出低频未登录词。通过对前人研究的进行分析发现,TF-IDF作为关键词抽取的主流特征之一,有着较好的可应用性和可拓展性,因此,本文仍选取TF-IDF作为主要特征,并在其基础上加入其它特征进行融合。考虑到兼类词的不同词性问题,根据词的词性不同,本文改进了词的TF计算公式,并考虑到方法的通用性问题,仅加入标题词权重信息和词长信息来改进TF-IDF公式进行关键词的抽取工作。本文设计了多组实验,分别对本文提出的未登录词识别方法和关键词抽取方法进行验证。在关键词抽取方法的验证中,同时证明了候选词识别对后期关键词抽取方法的影响。通过比较实验,在利用本文候选词识别方法的基础上,改进的TF-IDF方法较传统的TF-IDF方法P、R、F值均提高了5%左右。
其他文献
<正> 地板蜡一般很少能买到成品,多由现场用川蜡、煤油、松香水和鱼油配制。配方的重量比为:川蜡:煤油:松香水:鱼油=1:4:0.6:0.1。松香水如没有,也可用普通65号汽油代替。鱼
[摘要]目的探讨不稳定心绞痛患者中动脉粥样硬化性肾动脉狭窄(ARAS)的患病率及其危险因素。方法123例不稳定心绞痛患者冠脉造影同时行选择性双肾动脉造影检查,对临床资料和ARAS之间的关系进行单因素和多因素Logistic回归分析。结果123例不稳定心绞痛患者ARAS的发生率为22.8%;单因素分析表明,年龄、高血压、高血脂、糖尿病、吸烟、肾功能不全、颈动脉粥样斑块是ARAS的预测因素。多元Log
目的研究高胆固醇血清对血管内皮细胞VEGF表达的影响以及辛伐他汀的抑制作用。方法分别培养的血管内皮细胞予不同浓度的高胆固醇血清或合用100nmol/L的辛伐他汀共同培养,分别测
目的比较分析CT、MRI对出血性脑梗死(hemorrhagic cerebral infarction,HI)的诊断价值。方法选取我院2011年12月-2013年12月收治住院并接受了CT、MRI检查的70例HI患者,结合CT
在西学东渐的浪潮中,王国维、罗振玉等一代学人以"中学为体,西学为用"的学术思想,著书立说,探索治学方法及学术创新,为中国近现代国学的构建奠定了基础。辛亥革命爆发后,罗振
顽固性室性心律失常是各种心脏病的主要死亡原因,及时有效地处理各种心律失常是心肺复苏成功的关键步骤之一,胺碘酮是一种安全的抗心律失常药。本文对我院急诊和住院应用胺碘酮抢救心肺复苏过程中顽固性室性心律失常的疗效和安全性进行探讨。
目的研究ICU护士心理健康与社会支持及应对方式的相关性。方法选取2015年7月~2016年7月医院ICU护士62名,根据SCL-90量表评分结果分组,其中抑郁焦虑组34例,心理健康组28例。采
幼儿园生命教育绘本课程实践研究中,运用分层教研的模式确保课程扎实推进;通过多方举措将课程研究落到实处。从而帮助教师重建以幼儿为本尊重生命的教育理念,为幼儿营造安全
目的观察重组人表皮生长因子凝胶外涂治疗新生儿红臀的临床效果。方法将80例各种原因所致的新生儿红臀按照收住床号的偶奇数分成观察组和对照组,各40例,观察组使用重组人表皮
文章阐述了数字化资源的类型特点,分析了数字化资源的发展对图书馆馆藏建设的影响,指出了当前高校数字化资源建设存在的问题,从确定建设原则、加强高校联盟、进行资源整合、