基于蒙古文语义的查询扩展研究与实现

来源 :内蒙古大学 | 被引量 : 10次 | 上传用户:hanlv512
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网民规模、网站规模的持续增长,互联网上的信息量快速递增,信息检索技术越来越被人们所重视。蒙古文作为内蒙古自治区的主体民族文字和官方文字,在各个领域中都被广泛使用。随着信息化时代的到来,蒙古文信息检索成了迫切需要解决的问题之一信息检索的目的是从各种文档中找到符合用户查询需求的文档。传统的查询扩展忽略了语义的关联,不能从根本上表达用户查询意图。本文力图从蒙古文语义入手,对查询扩展进行研究。本文的基本思想是,利用关联词词典对原始查询进行扩展,对扩展的关联词分配不同的权重做检索。也就是说,我们可以利用信息技术对领域语料库进行分析,找到与查询词密切相关的扩展词,并根据相关的程度进行排名。本文中所用到的核心算法是关联词重排(ER)算法和扩展词权重分配算法。关联词重排(ER)算法是在传统四种相关度计算方法(戴维斯方法,皮尔森方法,互信息方法和期望互信息方法)基础上,通过分配不同的影响因子进行重排,最终得到关联词期望排名。扩展词权重分配算法,是利用合适的数学函数为不同排名的扩展词分配不同的权重级别,最后使用扩展词来完成检索。我们将在文中详细讨论语义模型窗口参数、关联词重排(ER)算法各个参数和扩展词个数。经过实验训练,最终构建出了检索性能较好的关联词词典。实验结果显示,可以使用领域语料库建立关联词词典,来提高检索性能。总之,实验证明本文中所采用的方法是有效的。
其他文献
近年来,互联网的普及和网络技术的飞速发展,为P2P技术的发展奠定了良好的基础。当前P2P技术已成为了流媒体的关键技术,并且已经广泛应用于多个领域。然而当前国内外对于P2P流
随着各种新电信技术及业务的快速发展,其网络功能将不断的增加,导致电信管理网越来越复杂。基于传统TMN(Telecom Management Network,电信管理网)标准的管理应用已经开始呈现出
在医学史上,中医学取得的辉煌成就,是我国文化宝库不可缺少的部分,中医药的地位显得越来越重要。如何加强对中医药品的管理,决定了中医药企业是否能在竞争日益激烈的医疗市场
随着互联网图像的海量增长以及人机交互系统的快速发展,如何对图像进行有效的组织分类,使人们在浩如烟海的图像资源中找到想要的图像,越来越引起人们的注意。近年来,图像情感
基于构件的软件开发是一种采用可复用构件设计与构造软件系统的软件复用途径,把“软件实现”让位于“软件集成”。充分、有效地利用已有的开发成果,可以减少重复劳动,同时提高软
随着互联网技术的发展,社交网络在人们的日常生活中扮演着越来越重要的角色。与传统网络应用如论坛、贴吧、博客等相比,社交网络中的用户数量更多,用户间交流更频繁,信息传播
传统的粒子群算法(PSO)具有很强的全局搜索能力,但易于失去多样性,因而导致早熟收敛。本文通过将问题中蕴含的先验约束编码进PSO中来控制粒子的飞行从而提高PSO的搜索性能。
随着信息技术的不断发展,视觉信息也日渐丰富,特别是电子数码设备的普及,人们视野中的数字图像数据开始呈几何级数的态势增长。如何快速检索出所需图像成为人们关注的焦点。
随着我国经济发展,基础设施日趋完善,其中桥梁的数量也日益增加,这就增加了桥梁管理人员的工作量。因此,为了减少道路桥梁的管理工作量,更为有效对桥梁进行管理,桥梁数字化管理成为
随着中国铁道线路的快速发展和建设,养路机械产品市场竞争变得越来越激烈。而养路机械售后服务质量在提高企业市场竞争力和保持铁道线路良好状态中起着非常重要的作用,通过运