基于词联接的自然语言处理技术及其应用研究

被引量 : 0次 | 上传用户:fgvhfdvh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类社会信息化程度和计算机软硬件水平的提高,自然语言处理(Natural Language Processing,简称NLP)技术逐渐成为计算机应用和人工智能研究的热点,其基本技术目标是让计算机具有类似人的语言智能,例如能够象人一样听、说、读、写。围绕NLP技术逐渐形成了一个专门的学科——计算语言学。该学科属于交叉学科,涉及到语言学、心理学、心理语言学、脑科学、计算机科学、哲学、逻辑学、人工智能、数学、信息论、文学、美学等诸多学科或领域。从上个世纪中叶以来,虽然不同学科和领域的无数研究者投入了大量的研究资源,探索出了一些有效的技术,取得了一定的成果,但离实现基本技术目标还显得非常遥远。值此世纪之初,有必要从更高、更深的层面重新审视NLP技术的研究背景、目标和途径,在继承现有技术的基础上大胆创新,探索出切实可行、面向未来的新技术。本文在这个方向上作出了努力,以抛砖引玉,促进NLP技术的发展。 在国家自然科学基金项目“计算机辅助文学艺术创作研究——诗词曲联”(60173060,2002~2004)的支持下,在深入分析NLP技术背景的基础上,本文提出并初步构建了基于词联接的NLP技术(Term Connection Technique for NLP,简称TCT),并应用到诗词语言处理系统(Poetry Processing System,简称PPS)中。理论研究和应用研究的结果表明,TCT是一种继承并发展已有技术、高度综合与包容、操作性强、有效的NLP技术。本文的主要内容包括: 第1章介绍了TCT的技术背景,包括NLP的根本难点、现阶段NLP的根本目标、NLP技术的发展阶段和趋势,提出了一系列较为独特的观点。NLP的根本难点在于自然语言具有认识性和不确定性,现阶段目标应是受限语言智能仿知技术。这一目标是在分析了NLP根本难点、现阶段的计算机技术、已有人工智能和NLP研究成果的基础上提出来的,因此是切实可行的。NLP技术分为技术探索、规则技术兴起、统计技术兴起三个阶段,主要发展趋势是实例技术可能成为主流技术,规则技术和统计技术可能成为辅助技术。 第2章介绍了TCT的基本原理、技术结构、哲学基础、理论基础、方法基础,从宏观上初步构建了TCT。TCT的基本原理是基于受限自然语言环境建立动态语料库,基于动态语料库建立词联接实例知识库和高级知识库,基于知识库进行受限自然语言处理。TCT具有完整、简明、合理的技术结构,包括:TCT知识表示技术(TCTR)、TCT知识获取技术(TCTO)、TCT语言分析技术(TCTA)、TCT语言评价技术(TCTE)、TCT语言生成技术(TCTC)、TCT语言修改技术(TCTM)、TCT语言输入输出技术(TCTIO)。TCT的哲学基础是易学,这是本学位论文最具重庆大学博士学位论文特色的地方。易学是中国古代哲学的精华,具有朴素的唯物辩证思想和系统观,对于认识和认识建模都具有很强的指导作用。TCT的理论基础是神经认知语言学,该理论强调语言理论不悖于大脑神经事实,综合了联接主义和符号主义等理论的长处,是一种面向NLP的语言学理论。TCT的方法基础是基于实例的知识加工,以实例为基础,可以更好地综合各种知识加工技术。 第3、4、5、6章分别介绍了TCT技术结构中的TCTR、 TCTO、TCTA、TCTE,从微观上初步构建了TCT。由于研究资源有限,本文在斟酌各个技术模块关系的前提下,着重研究这四大模块。在每个技术模块的研究中都注意继承与创新相结合,注意各个技术模块在功能上的独立性与系统性。与传统的NLP技术相比较,各个技术模块都具有各自的特色和创新点:在TCTR中提出了自然语言知识结构和要素、抽象概念树(Abstract concePt Tree,简称AcT)、体验语义和价值语义等;在TCTO中提出了语言知识设计、语料标注规范、语言知识获取与管理等;在TCTA中提出了词联接最大语义符合度计算和最优句树搜索的初级语言分析算法;在TCTM中提出了豪放与婉约语言风格的计算模型。 第7章介绍了基于TCT的PPS开发和测试。由于构建TCT之初就认识到了自然语言认识性中的体验性这一难点,而体验性是自然语言尤其是文学语言的重要特征,因此TCT应当能够比传统的NLP技术更好地处理文学语言。诗词语言是一种典型的文学语言,开发PPS对传统的NLP技术和TCT都是一种挑战。本文基于当前水平的TCT开发了PPS,完成了语言知识类设计、语言知识库设计、模块设计、界面设计,并在大量数据准备工作的基础上进行了诗词语料标注测试、诗词语言初级分析测试、诗词语言豪放与婉约风格的评价测试。测试结果表明,PPS取得了成功,验证了TCT的有效性。 在论文的最后总结了研究成果,并指出了今后的主要研究方向。关键词:自然语言处理,实例技术,词联接技术,诗词语言,语言风格评价
其他文献
本文主要简单阐述了施工企业竣工结算过程中存在的问题并且给出了一些有效解决施工企业竣工结算存在的问题的对策,目前在建筑工程施工过程中施工企业作为整个工程项目的承包
在经济全球化进程中,金融和国际贸易是各个国家和地区最基础也是最主要的经济贸易活动,两者的变化发展对国家、地区的经济发展产生着重要的影响,他们相互作用共同推进经济的
结合某倾斜率达1%,且沉降仍未稳定的某筏板基础高层建筑的纠偏工程实践,对纠偏设计涉及的基础托换、纠偏顶升量的确定、施工准备、施工过程安全性控制及措施、顶升装置、顶升目
随着媒介技术的发展,媒介形式层出不穷,这必将对我国影视作品原有的单一媒体平台叙事模式产生巨大影响。本文通过对影视作品跨媒介叙事的叙事空间、叙事结构、叙事逻辑、叙事
本篇文章主要阐述了土木工程施工安全事故的原因,并针对原因提出了相应的对策,希望能对施工人员有所帮助。
从2006年北京市节能环保展会得到消息.中国中元兴华工程公司能源与环境工程所作为。节能医生。受到参会者的关注.为此,我们专门对能源与环境工程所胡忠京所长.李著萱、才振刚等从
采用有限元方法分析了超声切割刀片与变幅杆的匹配规律,探讨了切割刀片几何尺寸的变化对变幅杆与切割刀片组合体固有频率的影响.分析结果表明:随着切割刀片长度的增加,变幅杆
本文选取中国进出口贸易总额的面板数据为样本,在常规贸易引力模型基础上,引入衡量环境污染的碳生产率变量,运用拓展的贸易引力模型探讨中国与中亚五国双边贸易的影响因素及
发端于七千年前的河姆渡文化时代的漆器工艺,是聪颖智慧的中华民族的伟大创造。它以漆为媒介髹饰器物,具有胎薄体轻、坚固耐用、防腐抗酸的特性,兼有装饰华美、色彩绚丽的审美功