基于上下文多元信息的文档相似度计算研究

来源 :哈尔滨工程大学学报 | 被引量 : 0次 | 上传用户:long520liang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种基于上下文多元信息实现文档相似度计算的方法,该方法首先抽取文档的特征词,对具有相同(或相近)意义特征词的文档,分别获得特征词在上下文中同现词的词性、语义信息、位置关系、平均同现概率等多元信息,以量化形式描述成一个相似函数;然后分别从两两文档的相似函数中得到文档的相似度评价值,作为衡量文档相似程度的重要依据.利用该评价方法,使用NTCIR-3中的跨语言信息检索数据集中的中文文档,对初始检索文档的顺序重新排列,实验结果表明,该方法分别将前10个最佳召回文档和前100个最佳召回文档的平均精确度提高了15
其他文献
以逐步回归、均生函数和多层递阶作为月平均降水量的3种子预报方法,进一步采用二次规划计算方法,通过计算各子方法的最优非负权系数进行最优组合预测建模研究.实例计算结果表
提出了基于混沌序列的数字图像多幅迭代混合算法,利用图像的迭代混合可以将一幅图像通过一组图像隐藏起来.实验结果证明,该方法简单易行,具有较好的安全性.
摘要:體育旅游是旅游业的组成部分,它是以体育资源和一定的体育设施为条件,以旅游商品的形式,能为旅游者在旅行游览过程中提供融健身、娱乐、休闲、交际等各种服务于一体的经营性项目群[1]。体育旅游既可以使参与者强身健体,又可以使参与者走出家门,缓解身心压力,领略不同风光,满足参与者追求新、奇、特的消费心理,所以体育旅游正逐渐成为未来社会的发展趋势。再者,科技进步不仅带来了经济的巨大进步,而且给人们的思想
思想政治教育亲和力是衡量思想政治教育效果的一种感受性评价视角。在思想政治教育活动中,教育主体、教育内容、教育环境、教育方法构成提升其亲和力的四重维度。以受教育者
针对一种广义Pascal函数矩阵给出了它的一些相关性质。
目前上海地方国资控股的70家上市公司平均市值350亿元左右,而光明食品集团旗下4家上市公司市值没有一家超过200亿元,最小的仅几十亿市值,大大低于上海国资上市公司平均水平。如