改进TF-IDF结合余弦定理计算中文语句相似度

来源 :现代计算机(专业版) | 被引量 : 0次 | 上传用户:nicenic
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种改进TF-IDF结合余弦定理计算中文语句相似度方法。首先采用IKAnalyzer分词器对中文语句分词处理,提取核心关键词,然后通过计算句子关键词词频和权重形成的TF-IDF向量组,结合余弦定理实现中文句子相似度计算。改进后的TF-IDF计算方法采用《同义词词林》词典实现对关键词及其同义词词频统计,并通过Lucene技术实现关键词权重快速计算。改进后的中文句子相似度算法不仅考虑句子中关键词的物理特征,还对关键词的语义特征进行相似度计算,提高中文句子相似度计算的准确性。
其他文献
电能计量装置是电力客户与供电企业之间进行电能买卖的测量工具,因此电能计量装置是否正确将直接关系到电力客户与供电企业双方的经济利益,它的专业要求既是生产技能重点又是
证人出庭作证是法庭审判的重要环节,它是指在法院开庭审理案件过程中,证人出席法庭,以口头言词的形式就其所了解的案件事实向法庭做如实的陈述,接受各方当事人询问质证,接受
目的探讨急性白血病(AL)病人X染色体连锁凋亡抑制蛋白(XIAP)的表达及临床意义。方法采用逆转录聚合酶链反应技术检测了46例不同类型、不同阶段AL病人白血病细胞中XIAP的表达情况,
高强高导材料在机械、航空航天等行业有着极为广泛的用途,如电力机车受电弓、电磁发射装置轨道材料、电刷等,它们要求材料不仅具有高导电性,而且要具有较高的耐磨性。由于纯
目的探讨不同玻璃体视网膜手术方式对角膜内皮细胞密度的影响。方法对68例(68眼)伴有晶状体浑浊的玻璃体视网膜疾病病人经睫状体扁平部行玻璃体切除联合晶状体切除术,术中完整
历史是人类文明发展的一面镜子,通过历史的学习,可以增强学生的历史责任感,陶冶学生情操,增加学生智慧。在当前的历史教学中,学生的主体作用还未得到充分发挥,尚需历史教师加
[背景]几乎所有针对甲基汞(MeHg)的鱼类消费建议仅仅考虑了风险。我们认为有必要讨论一下收益,尤其是多不饱和脂肪酸(PUFAs)在神经发育功能和心血管健康方面的效应。然而,由
2018年11月28日,中国金融会计学会举办第五期"金融会计大讲堂"活动,大讲堂由中国金融会计学会会长马德伦主持。安永华明会计师事务所合伙人范勋就"全球金融危机后金融工具会
随着我国建筑业信息化的推进,信息资源编码成为每个企业首先面临的问题.文中总结了建筑施工企业信息资源特征,回顾了信息分类编码的原则和方法,提出16位字节的企业资源信息编