论文部分内容阅读
微博作为一种互联网社交软件越来越受到重视,它同时具有社交网站的属性和大众媒体的属性,是一种新型的传播媒体和网络平台。人们可以在微博上实时的发布长度不超过140个字符的短文本,随着每天产生每天产生数以亿计的内容,微博数据量变得非常庞大。如何从这大量纷杂的信息中更加准确地找到用户感兴趣的内容成为了重要任务。微博的搜索和传统网页的搜索有很大的区别。微博上输入的查询简洁,文本短小且具有很强的时间特性,针对微博检索的特点,本文对英文的Twitter在对于如何提高微博检索的效果上进行了研究。 首先,介绍了针对短文本查询扩展的相关技术,基于全局的查询扩展和基于局部的查询扩展。然后针对微博输入的查询较短的特性,提出了一种结合了基于语义相似和基于时间分布相似的查询扩展。在根据语义相似度选择扩展词的部分采用将词激活力运用到伪相关反馈的方式,并在计算权重时加入了文本的得分,使扩展词与原查询更相关;在基于词语时间分布相似度选择扩展词部分通过伪相关反馈进行选择扩展词,以减少噪声的干扰,最后将两部分进行结合,对扩展词依据总体相关波动幅度进行了重新排序,这种结合方式能够在广度上对查询进行扩展同时又能减弱各自的噪声干扰情况。 然后,在完成对查询词的扩展后要进行第二次检索,将检索出来的结果通过排序返回给用户。本文针对微博文本过短难以和查询进行匹配的问题提出了一种在第二次检索计算文档排序得分时加入查询词信息和文档信息的方法,以此对重排序算法进行了改进,使文档与用户的检索要求更加相关。 最后设计了对比试验,通过实验结果表明,本文的查询扩展方式通过结合时间相似和语义相似的查询扩展,在经过查询扩展后的检索中,检索的准确度得到了提升。通过将文档信息与查询词信息加入重排序打分中,提高了检索结果的相关度,对提高检索效果满意度有一定帮助。