NLP技术在中文信息检索中的应用研究

被引量 : 0次 | 上传用户:rongweihua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的高速发展和各种信息资源数量的不断增多,为了提高效率,信息检索己经成为信息科学技术领域最重要的研究内容之一。其中涉及到自然语言处理(NLP)的技术有:分词、信息抽取、自动聚类和分类、自动摘要、查询扩展、等等。近年来,对网络中文信息检索的需求与日俱增。针对这一需求,本文对中文信息检索中涉及到的几项NLP关键技术进行了研究。本文在深入研究基于向量空间模型的文本聚类方法的基础上,提出了一个新的聚类模型:即在传统的基于相似度的平面划分聚类模型中增加一个文本特征向量调整模块。本文同时给出了用以进行特征提取的特征评价函数,对基于相似度的平面划分聚类算法做了改进。实验结果表明增加了文档特征调整的聚类模型具有较好的聚类效果。本文提出了一种基于主题聚类的自动摘要算法。在一篇文章中,主题思想由文中的各个子主题构成,如同议论文中的论点由分论点构成一样,基于主题聚类的自动摘要算法把统计方法与知识理解相结合,既摆脱了领域限制,又使摘要的结果更为准确。本文构造出一个新的依赖关系模型,能较好地为摘要算法选择较为准确的属性,给出评价语句重要性的规则,这为摘要算法提供了选择较为重要语句的尺度。本文还提出了一种较为客观的、基于任务的摘要性能评估算法。目前大多数检索系统中,用户的需求是通过查询关键词来表示的。用户实际需求与查询关键词之间往往存在较大的语义差距,如何缩小这种语义差距是实现面向用户个性化信息服务的关键问题。本文提出了一种查询扩展优化算法,给出了对查询关键词的增加、删除和权重修改的自适应模型算法,在模型中给出了确定扩展关键词数量的方法,优化了查询反馈中的权重调节因子,使之能够更好的满足用户的实际需求。实验结果表明,该方法更适宜改进Web上的信息检索,相对传统的查询扩展算法可以提高查询精度。
其他文献
利奥西呱(riociguat,1),化学名N-[4,6-二氨基-2-[1-[(2-氟苯基)甲基]-1H-吡唑并[3,4-b]吡啶-3-基]-5-嘧啶基]-N-甲胺基甲酸甲酯,是拜耳公司研发的可溶性鸟苷酸环化酶(soluble
集体建设用地同国有土地同等入市、同权同价,有助于逐步破除土地管理的城乡二元制结构,显著释放集体资产价值空间,赋予集体经济成员更多的财产性权利,促进土地资源优化配置。
通过溶液培养试验,研究两种价态锑Sb(Ⅲ)和Sb(Ⅴ)与Si交互作用对水稻吸收积累Sb和Si的影响。结果表明,这两种价态的Sb对水稻生长均有抑制作用,Sb(Ⅲ)比Sb(Ⅴ)对水稻毒害更明
本题的选题类型为调查研究报告本研究报告为全面的中国手机市场渠道报告,通过对目前手机市场渠道现状的总结,研究其发展趋势.此论题可以作为目前手机厂商的现行销售渠道的分
本文的研究处于建设节能型社会的大背景之下,是在客观分析国内外相关技术现状并紧密结合中国实际国情的基础之上,提出了转子变频调速系统,主要用于风机、水泵类高压大中功率
近代以来,伴随西方列强对中国的入侵,外国的商品和资本也源源不断地涌入中国,严重动摇了我国封建社会自给自足的自然经济基础。受外国资本主义生产方式和商品经济的影响,我国
基督教,作为西方文化的一个载体,同时作为一种宗教模式,随着改革开放的浪潮,逐渐深入到了中国社会的不同层面。根据三自教会2000年的估计,中国现有注册在户的基督徒大约为两千万人
随着电力行业测量与管理的自动化、智能化和网络化的逐步推进,在计量表的基础上研制精度高且带分析功能的多功能电能计量表是一个必要基础,但目前国内外电力仪表行业中缺乏两种
通过在聚合物中引入纳米粒子形成的纳米粒子/聚合物复合材料,一方面可以利用聚合物分子链之间的排斥作用有效防止纳米粒子的团聚,另一方面聚合物材料可以为纳米粒子提供基体,利
幽默是一种交流形式,在人类社会中被予以高度关注。幽默几乎无处不在,它内容丰富,形式多样,是我们人类文明的最崇高的产物,并且在人们的日常生活中起着非常重要的作用。幽默