TF-IDF与规则相结合的中文关键词自动抽取研究

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:gjc444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词的抽取广泛应用于自然语言处理过程中.对于中文关键词抽取,分词结果及候选词的选取严重影响后期的抽取结果.针对候选词的选取,提出一种连续单字未登录词识别和多词短语识别的方法来进行候选词选择,可以较好的识别出频率大于1的未登录词,且不依赖于语料库规模和领域.并且,在传统的TF-IDF基础上,结合位置特征和长度特征的情况下,考虑兼类词的不同词性问题,提出改进的TF-IDF计算公式,进行关键词抽取.通过比较实验,证明了候选词对关键词抽取的影响,与TF-IDF进行比较实验,改进的TF-IDF的准确率提高了5%左右.
其他文献
对他人忌动手动脚出于对他人的尊重,原则上不宜无故接触对方的身体。对别人,尤其是对异性动手动脚是严重的失礼行为。即使熟人之间开玩笑,此举亦不被允许。禁忌的手势下列几
我国分别于2014年度和2017年度对《企业会计准则第37号——金融工具列报》进行了修订,在目前已发布的42个具体准则中,只有该准则进行过两度修订,如何理解和把握这一特殊现象,
目的分析不同固位型设计对单端粘结桥抗力值和失败模式的影响。方法将54颗离体上颌第一前磨牙按不同固位型设计随机分为C组(传统固位型)、D组(传统固位型+猞面连接杆)、L组(传统固
目的探讨肠内营养(EN)支持对危重病人营养状态及内毒素水平影响。方法选择64例不能经口进食的危重病人,分为完全肠外营养(TPN)组及TPN+EN组,TPN组采用完全静脉营养支持,TPN+EN组在病人