SMART信息检索系统剖析、改进和中文移植研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jojoy9912004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
检索系统是在海量信息中查找有用信息重要工具。信息检索的重要问题是文档与问句相似度的计算方法。围绕这个问题,提出了多种检索模型,其中向量空间模型是比较成功并且应用广泛的一个模型。本文详细的讨论了SMART系统的软件系统结构、检索过程实现、索引建立过程以及SMART的索引存储实现等内容。在此基础上,使用哈尔滨工业大学计算机学院智能技术与自然语言处理实验室的中文分词系统的Linux移植版本,对SMART系统进行功能扩充,增加中文处理功能,实现使用SMART进行中文信息检索。同时,针对SMART系统的索引文件在索引建立过程中以及文档更新的过程中出现的空间浪费问题,提出和实现增加垃圾回收机制,使空间浪费问题得到比较有效的解决。
其他文献
随着遥感技术快速发展,遥感图像数据已成为空间信息的重要数据源之一,卫星遥感图像高速实时传输已经成为当前研究的热点问题,并伴随着巨大的市场需求。本文针对卫星上遥感图像数据实时高速压缩、传输的需求,在Visual C++环境下,建立了对卫星遥感图像进行压缩、传输、解压、接收、显示等过程进行仿真研究的仿真系统。该系统主要使用JPEG2000 算法进行了仿真分析,在仿真系统的设计实现中采用图像分块压缩等关
随着机动车数量的不断增加,“停车难”的问题也日益突出,尤其是在那些大城市中,这个问题更是令大多数司机非常苦恼。在城市中,“停车难”不仅表现为车位难找,更表现为车位狭
本文在结合了电子商务系统的特性和纯P2P信任机制研究的三条限制条件的基础上,使用数里统计中最大似然估计、概率论中的数学期望等方法,构建了一个以数理统计、随机过程为理
本文首先研究了P2P网络信任管理中的信任获取问题。从模拟人的行为的角度出发,在Dempster-Shafer理论框架内,提出了一种基于证据理论获取信任评价的方法,并设计了仿真实验进
随着Internet革命性的发展,电信网络组网方式发生了巨大变化,网络规模日益扩张,网元因业务的多样化而愈加复杂化。构建一个综合网络管理平台,使其包容不同的网络和设备,从而
正则表达式是一种能够提供复杂查询能力的技术,其通过特定的语法结构来描述出一类文本的共同特征。其强大的表达能力和简洁的语法,使得其在各个领域都被广泛的应用。例如,文
 本文对已有的成果进行了较全面地分析,综合利用了计算机图形学、模式识别和数字图像处理等学科的理论知识,对扫描工程图离线式识别系统各主要组成部分的算法与实现进行了较全
我国电子商务市场是世界电子商务市场重要组成部分以及推动力量,在持续增长的市场利润诱惑下,由于相关法律法规制度不完善,市场监管不明确,部分交易主体(尤其是卖方)的诚信缺
  本文分析了网络安全的现状,简单介绍传统安全防御措施的各自的优缺点,提出采用蜜罐技术同时结合防火墙和入侵检测技术来构筑新的网络安全防护系统;介绍蜜罐概念及发展历史,并
将智能化技术应用到嵌入式系统中是当前研究的热点。本文首先介绍了嵌入式系统及其应用,然后从系统的需求特别是智能化需求分析入手,提出了系统的总体结构。分析了系统的三个