基于统计的NLP技术在中文信息检索中的应用研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:RichieHDD
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文信息检索是信息检索领域的一个重要分支。尽管中文信息检索的技术和研究已经取得了相当多的成果,但目前中文信息检索的效果却并不乐观。本文就中文信息检索的几个主要问题,在NLP技术的基础上,利用统计学和代数学方法,从词语层和文档层对信息检索中文档和文档集的处理方法进行了深入研究。本文首先从理论上对中文信息检索索引单位的选择做了详细分析,改进了传统的最大匹配分词算法,一定程度上解决了切分歧义的问题,同时在改进算法中引入了一种基于统计的窗口移动扩展方法,简单而有效地改善了未登录词的识别问题。信息抽取已成为制约信息检索性能的一个瓶颈,而关键词提取则是信息抽取的一个重要环节。本文针对中文,实现了基于χ2统计的单文档关键词提取算法,其主要基础是词与词之间的共现次数的统计,并使用χ2统计量来衡量两个词语之间的关联。同时改进了传统的KEA算法,扩展了标示关键词的特征,实现了基于朴素贝叶斯理论的中文多文档关键词提取模型。文本分类是对信息检索中的文档集进行组织的一项关键技术。本文首先对文本分类算法进行了研究,探讨了文本特征抽取方法,其中综合考虑了频度、分散度和集中度三项指标,设计并实现了一种新的特征抽取算法,使得选出的特征项整体优化。另外,提出了一种基于向量空间模型的词共现模型,并将通过该模型统计出的共现词信息应用于文本分类研究中。上述技术都在一定程度上提高了文本分类系统的性能。最后,本文把分类技术应用到了信息检索中的用户查询歧义消除方面,实现了一个分类检索系统,使用户可以快速获取自己真正需要的信息。针对高维词-文档矩阵所造成的高存储空间和运算时间开销,本文将线性(LSI)和非线性(Isomap、SIE)维数约减算法引入到高维文档数据的降维处理中,并在文档聚类方面对三种算法处理后的数据进行了性能比较。实验结果表明,采用了局部嵌入技术的SIE算法取得了与LSI相当的性能,优于全局优化的Isomap算法,并且降维处理时的运算复杂度也大大降低。最后,本文实现了基于N层向量空间模型的Windows上的信息检索系统。该系统对Web文档采用了一种分层处理机制,重点改进了Web文档中的关键信息的权重计算。
其他文献
泛发性雀斑样痣(GL)是一类常染色体显性遗传病,临床表现以多发性黑子合并心血管疾病、智力发育迟缓、神经性耳聋、头面骨发育异常、性腺发育不全、体格矮小等异常。目前研究表
目的:通过本课题的研究,使教师能吸收最新的教育科学成果,将其积极运用于教学之中,培养出既具有丰富知识又富有发明创造能力的综合型人才。 研究方法:查阅中西方医学教育
目的 研究化脓性脑膜炎患儿的血液神经元特异性烯醇化酶(NSE)和乳酸(LAC)含量与疾病之间的关系。方法 以随机法选取26例化脓性脑膜炎患儿,22例儿童为对照组,26例患儿按治疗时
消费一直作为人类社会的主内容。消费观对消费什么,怎样消费起着重要作用。本文从社会学的角度分析了消费的内含、属性、消费的层次性及其决定因素和产生消费的动力。分析了
存款保险制度作为金融安全网的三大要素之一,对保护存款人的利益和维护金融稳定发挥了巨大作用。它是针对近年来广泛出现的金融危机而产生的创新性金融制度。大多数发达国家
证券投资基金利益冲突是指在证券投资基金这一典型信赖关系中,基金管理人、托管人(或其关联人士)的个人利益与基金利益之间的冲突,表现为关联交易利益冲突、基金管理费利益冲
目的 对扩张型心肌病患者的T波峰末间期进行科学规范的测量,并将其与正常人群进行比较。方法 回顾性分析2010年1月至2011年6月在中国医学科学院阜外医院接受心脏再同步治疗的