中文信息处理中若干关键技术的研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:xiexiebinbin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的高速发展,以及各种资源数量的不断增多,为了提高效率,信息处理已经成为当前最重要的研究内容,其中涉及到切词和属性选择、信息抽取、自然语言理解、自动聚类和分类、自动摘要、自动标引和主题识别、信息结构分析、文本生成以及信息检索等等。其中,属性选择是一项较为重要的基础性研究工作,为其它的研究提供基础和前提。而其它研究工作可以有效地、而且较为准确地抽取出有用信息、挖掘出新的知识,提高获取大量有用信息的效率和速度。 针对当前对信息处理的需求,本文对中文信息处理中的若干关键技术进行了研究。本文的主要研究内容和贡献如下: 1.改进了N-gram切词算法和基于概率统计的属性选择算法。在信息处理研究领域,迄今为止,已提出了多种属性选择算法。由于基于字典的属性选择算法,需要花费大量的时间和精力来建辞典,所以,大多数现有的算法都是基于概率统计的。研究发现,现有算法在以下几个方面尚有待改进:(1)这些算法所依据的评分策略,没有充分地考虑词语在类之间和类内文档间的分布特性,要么只是基于传统的TF/IDF,要么只是基于词语在类间的分布特性;(2)现有的N-gram切词算法的效率有待提高;(3)现有算法在选择属性时,没有考虑相互重叠的词串之间的筛选问题;(4)现有算法没有考虑词语的位置对其重要性的影响。针对这些问题,本文改进了N-gram切词算法,并充分考虑词语的分布特性和位置的重要性,准确地处理叠词,提出了新的基于统计的属性选择算法,扩展和改进了现有算法。实验结果表明,本文提出的算法可以有效地提高属性选择的精度,从而改善信息处理的性能。 2.改进了词语间依存关系的定量识别策略。本文扩展和改进了现有的基于统计的词语间依存关系定量识别算法,力图解决现有算法中存在的有待改进的不足之处,提高识别的准确率,从而提高信息处理和自然语言处理等的时空效率和性能。为此,本文作了以下贡献和创新工作:(1)充分考虑词项的概率分布的影响,不仅能够有效地识别出相邻词项之间的依存关系,还可以识别出不相邻词项之间和潜在的依存关系;(2)明确区分词项之间的搭配关系、并列关系和从属关系,针对它们不同的特点,提出不同的识别算法;(3)提出字串匹配模型,以此识别部分词项之间的从属关系;(4)充分考虑两个词项之间相互位置的离散分布和距离的摘要影响、以及它们的概率分布特:性,提出词项间的依存强度模型,并据此构建词语间依存关系树;(5)提出更新策略,对已经建好的依存关系树进行裁剪,并从己建好的依存关系树中挖掘出不相邻词项之间的依存关系和潜在的依存关系。应用实验的结果表明,本文提出的算法可以有效地识别出词语间的依存关系,从而改善信息处理和自然语言处理等的性育旨。提出了一种具有增量学习能力、高效的信息分类算法。在模式识别研究领域,在己有的分类算法中,大多数都是基于向量空间模型的算法,其中使用范围最广的是kNN算法;,但是,其中的大多数算法都因为计算复杂度太高,而不适合于大规模的场合,而且,当训练样本集增大时,都需要重新生成分类器,可扩展性差。本文提出了互依赖和等效半径的概念,并将两者相结合,提出新的分类算法—基于互依赖和等效半径、易更新的分类算法SECTILE,SECT工LE计算复杂度较低,而且扩展性能较好,适用于大规模场合。将SECTILE算法应用于中文文本分类,并与kNN算法和类中心向量法进行比较,结果表明,在保证不损失分类精度的前提下,SECTILE可以大大提高分类速度,有利于对大规模信息样本进行实时在线的自动分类。提出了一种基于子空间的信J息聚类算法。在信息处理研究领域,现有的大多数聚类算法都需要人为给出一些参数,而且时空效率也有待于进一步提高。然而,在没有先验知识的情况下,人为确定这些参数是十分困难的。为了解决这一难题,本文提出了一种实用而且高效的聚类算法,力图避免需要人为事先确定的参数,同时提高时空效率和信息处理的性能。此外,本文还从多个角度分析了该算法的性能,并将该算法应用于中文文本聚类,结果表明,该算法不需要人为确定参数,同时,还提高了信息处理的时空效率和性能。提出基于子空间上子主题聚类的信息摘要算法。自动摘要的算法大致可分为两大类,一类是基于统计的算法,另一类是基于知识理解的算法。前者与领域无关,但是精度低;后者准确度高,但是应用范围受到领域限制。鉴于此,本文提出了一种基于主题聚类的自动摘要算法,采用统计方法的同时,适当结合知识理解,既摆脱了领域限制,又使摘要的结果更为准确。此外,本文还提出了一种较为客观的、基于任务的摘要性能评估算法。本文提出了一种自适应于不同样本的、动态确定摘要长度的策略。随着信息技术的发展和信息量的大量增多,提出了很多自动摘要的算法。在彭 摘要 这些众多的算法中,都有一个共同的现象—摘要的长度均需事先给定。 然而,实际的情况是,随着信息样本的不同,该信息样本所包含的信息 量也是不同的。为了能够全面地反映
其他文献
胡锦涛总书记的“七一”讲话,从马克思主义的理论体系、社会主义现代化建设的规律和趋势、对解决实际工作中的问题、应对各种风险和挑战等方面全面论述了学习贯彻“三个代表
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
本文通过对磷石膏的理化试验、级配试验、击实试验、三轴试验、固结试验等物理、化学、力学试验,对磷石膏的工程特性进行了系统的研究;通过磷石膏-石灰-粉煤灰混合料、磷石膏-
我国素有礼仪之邦的美称,礼仪渗透在社会的各个环节、各个角落而旅游行业是我国的窗口行业,旅游礼仪的学习对旅游专业的学生具有重要的意义。但在旅游礼仪的实际教学中还存在理
目的评价黄芪注射液配合适形放疗同步化疗治疗宫颈癌的疗效。方法 40例宫颈癌患者随机分为黄芪组与对照组,对两组的白细胞、B细胞及NK细胞水平、近期疗效与远期疗效对比统计
允许退货日益成为提升企业利润的一项竞争战略,全渠道运营以提高顾客的购买体验为核心,不仅要求各渠道保持自身高服务水准,同时要实现渠道间服务的相互协同,这无疑给供应链运
微博以其强大的新媒体特性和功能,吸引了无数网民。然而近年来微博上的虚假新闻也是层出不穷,不少影响恶劣的假新闻都来源于微博。在这些虚假新闻背后的助推者,却大多是传统
随着科技的发展,电子技术在音乐领域的应用愈加广泛,电子音乐、合成器音乐、数字音乐、MIDI音乐等数不胜数,并且受到越来越多人们的喜爱。作为对传统音乐的一场革命,电子音乐
二战后,英国于1948年建立了国家医疗服务体系(National Health Service,简称NHS)。自建立以来,英国国家医疗服务体系(NHS)快速成长,并取得了较大成就。一方面,国家医疗服务体系(NHS)既面向全体国民,自然也就无法忽视女性,于是不得不在其体系中逐渐改善针对女性的服务。另一方面,国家医疗服务体系(NHS)的建立与发展,进一步挑起女性参与公共事务的热情,女性得到进一步解放。