藏文搜索引擎倒排索引模块的设计与实现

来源 :青海民族大学 | 被引量 : 0次 | 上传用户:sure565372
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在这网络与信息的时代里,搜索引擎成为人们获取信息的主要工具。有着悠久历史、文化的藏民族在这网络与信息的时代里对信息检索的需求日趋强烈。本文针对藏文网页文本的检索,采用倒排索引技术设计了一款支持Unicode藏文编码的搜索引擎。基于倒排索引的检索技术是大规模信息检索的主要手段,所以在本课题的实现中采用倒排索引技术来检索网页文本,从而大大缩短检索时间。在倒排索引的相关技术中主要讲述以下三方面内容:藏文倒排索引模块的设计、藏文倒排索引模块的建立与更新、藏文倒排索引模块的查询。其中对藏文倒排索引模块查询时所涉及的两种问题,即更新时刻与非更新时刻的查询进行了详细的探讨。针对搜索引擎快速响应用户查询的要求,对查询过程进行了优化,尽可能快的返回用户的查询请求。同时介绍了倒排索引模块同用户查询模块之间的通信问题。  本研究根据目前藏文网页的实际情况,选择了Hash链表做为藏文倒排索引模块的数据结构;针对倒排索引模块快速响应用户查询的特点,对藏文倒排索引的查询算法进行了优化;为了尽量减少索引更新期间对用户查询的影响,对藏文倒排索引的更新算法进行了相应的优化。
其他文献