基于上下文多元信息的文档相似度计算研究

来源 :哈尔滨工程大学学报 | 被引量 : 0次 | 上传用户：long520liang

【摘要】

：

提出一种基于上下文多元信息实现文档相似度计算的方法，该方法首先抽取文档的特征词，对具有相同（或相近）意义特征词的文档，分别获得特征词在上下文中同现词的词性、语义信息、位置

【作者】

：

于凤郑德权赵铁军李生

【机构】

：

哈尔滨商业大学计算机与信息工程学院,哈尔滨工业大学教育部-微软语言语音重点实验室

【出处】

：

哈尔滨工程大学学报

【发表日期】

：

2006年B07期

【关键词】

：

相似度计算上下文多元信息相似函数知识获取 similarity computing context multi-grams similarity fun

【基金项目】

：

国家自然科学基金资助项目（60302021）：黑龙江省自然科学基金资助项目（F2004-04）.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

提出一种基于上下文多元信息实现文档相似度计算的方法，该方法首先抽取文档的特征词，对具有相同（或相近）意义特征词的文档，分别获得特征词在上下文中同现词的词性、语义信息、位置关系、平均同现概率等多元信息，以量化形式描述成一个相似函数；然后分别从两两文档的相似函数中得到文档的相似度评价值，作为衡量文档相似程度的重要依据．利用该评价方法，使用NTCIR-3中的跨语言信息检索数据集中的中文文档，对初始检索文档的顺序重新排列，实验结果表明，该方法分别将前10个最佳召回文档和前100个最佳召回文档的平均精确度提高了15

其他文献

月平均降水量的二次规划最优组合预测方法研究

以逐步回归、均生函数和多层递阶作为月平均降水量的3种子预报方法,进一步采用二次规划计算方法,通过计算各子方法的最优非负权系数进行最优组合预测建模研究.实例计算结果表

期刊

月平均降水量非负权重二次规划组合预测monthly mean rainfallnon-negative weightsquadratic program

基于混沌序列的迭代混合数字图像隐藏技术

提出了基于混沌序列的数字图像多幅迭代混合算法,利用图像的迭代混合可以将一幅图像通过一组图像隐藏起来.实验结果证明,该方法简单易行,具有较好的安全性.

期刊

混沌序列图像隐藏迭代混合chaos sequencesimage hiding iterative blend

黄山市特色体育旅游资源开发研究

摘要：體育旅游是旅游业的组成部分，它是以体育资源和一定的体育设施为条件，以旅游商品的形式，能为旅游者在旅行游览过程中提供融健身、娱乐、休闲、交际等各种服务于一体的经营性项目群[1]。体育旅游既可以使参与者强身健体，又可以使参与者走出家门，缓解身心压力，领略不同风光，满足参与者追求新、奇、特的消费心理，所以体育旅游正逐渐成为未来社会的发展趋势。再者，科技进步不仅带来了经济的巨大进步，而且给人们的思想

期刊

黄山市体育旅游体育旅游资源SWOT分析开发研究

论思想政治教育亲和力提升的四重维度

思想政治教育亲和力是衡量思想政治教育效果的一种感受性评价视角。在思想政治教育活动中,教育主体、教育内容、教育环境、教育方法构成提升其亲和力的四重维度。以受教育者

期刊

思想政治教育亲和力提升路径

广义Pascal函数矩阵

针对一种广义Pascal函数矩阵给出了它的一些相关性质。

期刊

PASCAL矩阵Pascal函数矩阵广义Pascal函数矩阵Pascal matrices Pascal function matrices genera

关于加强集团市值管理的研究思考

目前上海地方国资控股的70家上市公司平均市值350亿元左右，而光明食品集团旗下4家上市公司市值没有一家超过200亿元，最小的仅几十亿市值，大大低于上海国资上市公司平均水平。如

期刊

市值管理食品集团上市公司公司市值载体作用资本运作国资控股

基于上下文多元信息的文档相似度计算研究

其他学术论文