基于查询扩展的微博检索研究

来源 :大连海事大学 | 被引量 : 2次 | 上传用户:linnber
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博作为一种互联网社交软件越来越受到重视,它同时具有社交网站的属性和大众媒体的属性,是一种新型的传播媒体和网络平台。人们可以在微博上实时的发布长度不超过140个字符的短文本,随着每天产生每天产生数以亿计的内容,微博数据量变得非常庞大。如何从这大量纷杂的信息中更加准确地找到用户感兴趣的内容成为了重要任务。微博的搜索和传统网页的搜索有很大的区别。微博上输入的查询简洁,文本短小且具有很强的时间特性,针对微博检索的特点,本文对英文的Twitter在对于如何提高微博检索的效果上进行了研究。  首先,介绍了针对短文本查询扩展的相关技术,基于全局的查询扩展和基于局部的查询扩展。然后针对微博输入的查询较短的特性,提出了一种结合了基于语义相似和基于时间分布相似的查询扩展。在根据语义相似度选择扩展词的部分采用将词激活力运用到伪相关反馈的方式,并在计算权重时加入了文本的得分,使扩展词与原查询更相关;在基于词语时间分布相似度选择扩展词部分通过伪相关反馈进行选择扩展词,以减少噪声的干扰,最后将两部分进行结合,对扩展词依据总体相关波动幅度进行了重新排序,这种结合方式能够在广度上对查询进行扩展同时又能减弱各自的噪声干扰情况。  然后,在完成对查询词的扩展后要进行第二次检索,将检索出来的结果通过排序返回给用户。本文针对微博文本过短难以和查询进行匹配的问题提出了一种在第二次检索计算文档排序得分时加入查询词信息和文档信息的方法,以此对重排序算法进行了改进,使文档与用户的检索要求更加相关。  最后设计了对比试验,通过实验结果表明,本文的查询扩展方式通过结合时间相似和语义相似的查询扩展,在经过查询扩展后的检索中,检索的准确度得到了提升。通过将文档信息与查询词信息加入重排序打分中,提高了检索结果的相关度,对提高检索效果满意度有一定帮助。
其他文献
随着零售商在规模、信息获取和贴近消费市场的优势地位不断凸显,加之信息技术的高速发展及市场环境的日益变化推动了供应链相关经济力量的巨大变革,导致市场的抗衡势力优势从制造商转向了零售商。市场势力向下游转移主要体现在出现了制造商主导、权力对等及零售商主导的三种不同权力结构供应链。而零售业频繁打折促销活动把顾客训练的日趋理性及战略性,增大了直接面对消费者的零售商的抗衡势力,加剧了零售商与制造商的利益冲突与
新疆作为旅游资源大省,有着丰富的自然资源和人文旅游资源,是一个神奇广袤的旅游胜地,具有得天独厚的旅游发展前景。但是新疆所取得的旅游业绩却不理想。当不少省市借助旅游业迅
供应商选择其中一个最重要的功能是帮助企业节省材料成本,提高竞争优势。网路分析法(Analytic Network Process)是一种相对较新的多准则决策方法,它可以处理各种交互系统。但在AN