中文信息检索索引模型及相关技术研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:longwayli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机系统性能的提高,互联网络技术的快速普及,以及企业信息化程度的提高,中文信息资源以极快的速度递增。信息检索就是从庞大的信息资源中找到人们所需信息的技术。信息检索(Information Retrieval),通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。目前,信息检索已经发展到网络化和智能化的阶段。为了提高检索的准确率以及增强用户体验,对中文信息检索除了继续研究索引技术外,对索引技术之外的相关技术研究方兴未艾。跟英语的提取词根(stemming)技术类似,中文分词技术是处理中文所特有的技术,中文分词的好与坏直接影响到信息检索的精度。自动分类(聚类)在信息组织、导航方面非常有用,其目的是帮助人们更好的发现、组织、表示信息,提取知识,满足信息检索的高层次需要,有助于用户快速评价检索结果的相关程度。文本关联规则技术,特别是对文本频繁项挖掘,能给用户在对信息检索需求转为搜索关键词时提供帮助,从而给信息检索的人机交互方面增加了友好的一面。本文以中文信息检索的索引模型为研究对象,也对信息检索其它相关技术进行了研究,主要包括中文分词、文本关联分析、文本快速分类。提出了后续有序的互关联后继树索引模型、基于互关联后继树快速准确的中文分词算法、基于模拟退火算法的快速KNN分类算法和基于投影和树的频繁项挖掘算法。本文的研究工作和创新内容包括以下几个方面:1互关联后继树索引模型的改进研究互关联后继树是国内自主提出的优秀信息检索索引模型,它具有创建速度快,空间和查询效率高等特点,并且可以通过索引生成原文等优点。为了在Internet上大规模应用,在创建和更新文本索引以及全文检索速度等方面能达到实用的要求,本文对这个索引模型做了进一步的研究,提出了后续有序的互关联后继树索引模型。它的优点是在进行检索时,对有序的子树进行求交,能快速地检索出结果,从而有效地提高了信息检索的时间效率。2基于互关联后继树的快速和准确中文分词中文信息检索的查准率跟中文分词的准确率是息息相关的。目前有很多算法的准确率比较高,但是是以牺牲时间为代价获得的。在Internet上应用,分词算法的时间效率和分词准确率之间是个折衷平衡的关系,在能满足分词速度实用的前提下,尽可能提高分词的准确率。在提高分词速度方面,本文提出了用互关联后续树作为分词过程中使用的数据结构。中文分词准确率不高的主要原因是对歧义词和未登录词的划分不够准确,本文对中文机构名称和地名进行了研究分析,找出它们的特点,提出了一种结合规则和机器学习的分词方法,这种方法在对中文机构名称和地名准确划分上很有效,实验结果也表明这种方法是一种能快速划分中文词语同时准确率又很高的分词方法。3基于模拟退火的快速KNN算法在Internet信息检索应用环境上,对文本自动分类,涉及到问题主要有两个,一是文档分类的类别是变化的,另一个是文档量大。对于第一个问题,由于模板匹配类算法的特点,如KNN,它是一种懒惰(lazy)算法,将待分类样本与标准模板进行比较,看跟哪个模板匹配度更好些,从而确定待测试样本的分类,不需要事先确定分类函数,因此我们选择KNN分类算法来解决;解决第二个问题,我们先对文档的高维特征进行排序,然后借用模拟退火算法的思想,在精度稍微下降的情况下,极快地对文档进行分类。试验表明,基于模拟退火算法的快速KNN算法有实际应用前景。4基于投影和树的文本频繁项挖掘算法由于文本的频繁项挖掘的时间效率是随着项的增长以指数级别增长,因此对Internet信息检索应用环境下,频繁项挖掘的时间效率更是研究者研究的重点。本文提出了一种新的数据结构—投影和树,在对项进行建树时,可以同时对项进行计数,这样在挖掘时,可以直接利用统计好的计数,不需要重新计数;另外,在对树进行挖掘时,以深度优先的方式,对树进行一次深度优先遍历即可,加快了挖掘的时间。实验表明,基于投影和树的挖掘算法比同类的算法效率要高。5为中国电信集团黄页信息技术有限公司实现了一个黄页搜索引擎(一期)系统。利用上述创新技术,我们为中国电信集团黄页信息技术有限公司实现了一个黄页搜索引擎(一期)系统,并取得显著的成效。尽管黄页搜索引擎(一期)系统,是一种针对黄页信息专用的搜索引擎,但从技术本身来说,对于一般搜索引擎,也同样是有效和实用的。
其他文献
【教学目标】1.运用多种形式朗读,能做到正确、流利,读明白文言文,熟读成诵。2.初步了解文言文的特点,体会文言文的味道,学习阅读文言文的方法,尝试迁移运用。3.学生通过阅读
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
<正>技术进步是经济发展的持久动力。当前,在大数据和人工智能等技术的不断发展之下催生了智能经济。近期,国务院文件提出智能经济已经成为经济发展的新引擎。但是,如何认识