面向现代汉语文本处理的全文检索、自动分词通用系统

来源 :南京师范大学 | 被引量 : 0次 | 上传用户：aweids

【摘要】

：

全文检索是现代信息检索技术的一个非常重要的分支，它是处理非结构化数据的强大工具，也是搜索引擎的核心技术之一。本研究对中文全文检索的有关技术进行了较为深入的研究，重点放

【作者】

：

贺胜

【出处】

：

南京师范大学

【发表日期】

：

2006年期

【关键词】

：

全文检索 Lucene 自动分词词性标注词典

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

全文检索是现代信息检索技术的一个非常重要的分支，它是处理非结构化数据的强大工具，也是搜索引擎的核心技术之一。本研究对中文全文检索的有关技术进行了较为深入的研究，重点放在全文检索技术的应用上。对如何利用新技术、改善检索系统的结构、提高检索系统的性能和效率、不断适应信息技术发展的需求等方面进行了新的探索。全文检索是一种I／O密集型的应用，以往的全文检索系统的开发多在关系数据库的基础上进行。本研究针对全文数据库的特点，指出此方式的弊端与不足，并提出了基于文件系统进行构建的解决方案。由于目前全文检索系统的开发平台并不多见，本文介绍了一种全文检索引擎工具包——Lucene，它功能强大，小巧精悍，便于嵌入各种应用。近年在世界各地被广泛使用，诸如IBM等公司都使用其核心代码。作为一个开源软件，为我们掌握搜索引擎的核心技术提供了绝佳机会，根据现代汉语文本的特点对进行二次开发，是一件很有意义的事情。汉语自动分词及词性标注是中文信息处理中的重要环节。针对现代汉语自动分词及词性标注的难点，本研究在自动分词方面进行了如下探索：1．对几种常用电子词典的结构进行了分析和比较，实现了核心词典+专业词典的双词典策略，提高了系统的灵活性和适应性。2．采用根据分词有向无环图确定歧义字段的策略，一次性找出所有交集型和组合型歧义字段。3．采用基于角色标注的方法，识别未登录词中的中国人名、地名和外国人译名。4．采用规则的方法，对数字词及重叠词进行了分析和处理。5．利用基于隐马模型的汉语自动分词及标注一体化系统，实现了切分和标注的排歧。

其他文献

慢性浅表性胃炎胃镜像与舌象相关性研究的回顾与展望

大量的研究表明,胃镜镜像与舌象具有一定的相关性,舌象在一定程度上可反映胃病患者胃镜下的病变情况。文章从慢性浅表性胃炎与舌象的关系、慢性浅表性胃炎胃镜像与舌象的相关

期刊

慢性浅表性胃炎胃镜舌象中医辨证

发展性教师自我评价研究

教师评价是教育评价的重要组成部分，如何科学地评价教师，促进教师的职业发展，提高教育质量，是当前教育改革和发展面临的重要课题。为了能促进教师的发展，就要全面而客观地进行教师

学位

发展性教师自我评价现状指标

2018年兰溪市药品不良反应报告分析

目的分析我市药品不良反应(ADR)发生的特点和规律,为深入开展ADR工作提供依据。方法通过国家药品不良反应监测系统对兰溪市2018年ADR报告进行汇总分析。结果 869例ADR患者,男

期刊

药品不良反应报告分析合理用药

头孢哌酮钠舒巴坦钠致儿童药物性肝损伤1例

目的探讨头孢哌酮钠舒巴坦钠致患儿急性肝功能损伤的相关性和有效治疗方法,以及药学服务对头孢哌酮钠舒巴坦钠ADRs防治的意义。方法通过整理患者用药过程,查阅文献、诊治指南

期刊

头孢哌酮钠舒巴坦钠儿童药物性肝损伤溶血-尿毒症综合征药物不良反应

上海外籍人士的跨文化旅游行为调查研究

随着国际上政治经济文化交流日趋频繁,国际间交往日益增多,中西方文化交流达到前所未有的繁荣程度,相应的,国际旅游业也迅速发展壮大起来。国际旅游交往中,国家与地区间的巨

学位

上海外籍人士文化差异跨文化旅游行为调查分析

肾功能不全高龄患者抗菌药物个体化方案分析

目的评估肾功能不全高龄患者抗菌药物临床应用情况,并对个体化给药方案进行分析,促进个体化及精准用药。方法选取2018年10月至2018年12月肾功能不全高龄患者应用抗菌药物的病

期刊

肾功能不全高龄抗菌药物个体化给药

我院2013年~2017年781例药师参与的门诊特殊人群用药咨询分析

目的分析我院2013年~2017年门诊特殊人群的用药咨询情况,提升我院药学服务质量。方法收集、总结我院2013年~2017年门诊患者的用药咨询记录,并按照咨询患者的基本情况、咨询内

期刊

特殊人群合理用药药学服务沟通技巧

我院医师对超说明书用药认知情况的调查分析

目的了解医师对超说明书用药的认知情况,促进对超说明书用药的管理。方法通过纸质问卷调查的形式,对全院范围内的临床医师和实习医师进行超说明书用药认知情况调查,并用SPSS

期刊

医师超说明书用药认知调查分析合理用药

面向现代汉语文本处理的全文检索、自动分词通用系统

其他学术论文