自然语言处理研究要点

来源 :科海故事博览·中旬刊 | 被引量 : 0次 | 上传用户:caoerduo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 语言能力(包括口语能力和书面语言能力)是人的首要能力,是其综合能力的重要组成部分。而计算机科学领域也有语言处理,即计算机理解和运用人类语言的能力,也就是自然语言处理技术。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。本文简要分析了自然语言处理学习中的重点,并对其处理过程和技术方面进行了主要探究,旨在从更多更深入的自然语言处理的方法和技术层面推动人工智能及计算机的发展。
  关键词 自然语言处理;人工智能计算机
  1引言
  机器翻译是最早的自然语言理解方面的研究,但人们当时低估了自然语言的复杂性,而且语言处理的理论和技术均不成热,所以相关方面的研究进展不大[1]。随着计算机与互联网的迅速发展,现在的自然语言处理技术可以做到信息提取,语音输入,舆论分析,情感分析,智能问答甚至语言生成等一系列较为先进的功能。随着深度学习在图像识别、语音识别领域的大放异彩,人们对深度学习在NLP的价值也寄予厚望。自然语言处理作为人工智能领域的认知智能,成为目前大家关注的焦点。自然语言处理这一研究方向主要解决的是使得计算机能够理解人类的自然语言的问题。自然语言理解完成了人类与机器的交互,并且做出人类要求的相应的命令控制处理工作。
  2自然语言处理研究要点
  2.1自然语言处理的基本问题
  (1)语音学问题:研究词语及其语音之间的关联。这是语音识别方面研究的主要问题,机器通过对语音信号进行处理、分析并识别从而判断语音的意思。此方面的应用主要有:输入法的语音识别、同声传译等等[2]。
  (2)语法学问题:研究其句子结构成分之间的相互关系和组成句子的序列的规则。如英语中的语法众多,汉语中也有很多的语法,这些语法也同样是自然语言处理中的难题。
  (3)语义学问题:研究如何从一个语句中得到一个词的本质意思,以及这些词在该句子中的句法结构的作用来推导语句的意义。这其中的主要问题是语言文字的歧义现象。歧义现象包括结构歧义和语义歧义。如何正确理解歧义也是一个重点。
  (4)语用学问题:研究在不同语境中语句的应用,以及上下文对句子理解所产生的影响。自然语言的处理大部分情况下离不开语境,在不同的语境下不同的句子会有不同的含义。因此语境的学习同样为语言识别的要点。
  3自然语言处理过程
  自然语言理解的研究分为两个方面,一方面是书面理解,另一方面是口语理解,其中计算机处理更容易处理书面理解。计算机对于语言的分析与理解通常是一个层次化过程,语言学家将这一过程分为语用分析、语音分析、语义分析四种。
  自然语言处理主要步骤包括:
  (1)分词处理:将一篇文章按词组依次分开。
  (2)词法分析:将分词处理后的词汇类型进行分词,标明词汇的词性也就是确定词的类
  型,包括名词、动词、形容词、副词、介词等。
  (3)语法分析:分析出句子的语法成分。
  (4)语义分析:指的是让计算机能够理解自然语言。
  4自然语言处理技术
  4.1语料库
  语料库是为一个或者多个应用目标而专门收集的,有一定结构的、有代表的、可被计算机程序检索的、具有一定规模的语料集合。语料是翻译和做语言研究的基础,同样是我们自然语言处理的一个重要的数据库。21世纪是大数据的时代,语料库中丰富的语言数据,对于自然语言处理這一工作是重中之重。
  4.2 word2vec
  该技术通过一个句子中的周边词语预测中心词语或通过中心词语预测周边词语来构建模型,并将句子中所有的词都转换为词向量的形式。中心词距离周边词较其他词语更近。该方法借助于神经网络进行自然语言的处理。
  4.3 长短期记忆LSTM
  普通的循环神经网络(RNN)在进行语言处理时候,对距离近的词记忆较好,而对于距离较远的词记忆较差,所以在实际中通常使用LSTM即长短期记忆的方法,其优势在于可以避免长距离的失忆问题。
  5总结与展望
  当前人工智能正从感知智能向认知智能升级,自然语言处理的重要性日益凸显。一方面,自然语言处理受到大数据和深度学习的双轮驱动,在各项关键技术方面都有不同程度的进步;另一方面,自然语言处理渗透到各个领域,与教育、医疗、法律等知识服务型行业深度整合,同时虚拟/实体机器人等新型应用模式与线下服务对接。人类对智能的需要随着社会科技的进步已经越来越必须,要求也越来越高。目前计算机还远远没有的达到人一样的理解水平,相信将来也不会达到这样的水平,所以应该从实用的角度去判断计算机对自然语言的理解,只要计算机能够实现人机会话,或者能够自动摘录一些语言信息,那么我们就可以说计算机已经具有了自然语言的能力。
  参考文献:
  [1]张静. 基于自然语言处理的智能识别和智能控制应用[D].南京邮电大学,2017.
  [2]孙茂松,周建设.从机器翻译历程看自然语言处理研究的发展策略[J].语言战略研究,2016,1(06):12-18.
其他文献
自扭矩光线能以螺旋方式传播  由来自西班牙和美国的科研团队宣布,他们发现了光的一种新特性——自扭矩,这种特性以前未被任何人预测过。光拥有的一些众所周知的特性,如波长、自旋等。同时,光也可以扭曲,这种属性被称为角动量。科学家们认为,拥有高度结构化角动量的光束具有轨道角动量(OAM),他们将这种光束称为涡旋光束。涡旋光束看起来就像一个围绕共同中心旋转的螺旋,当其撞击一个平坦表面时,它们看起来像甜甜圈那
饺子或肉丸在制作过程中,内部含有微量空气和二氧化碳。当刚投入水中时,由于饺子或肉丸的密度比水大,浮力小于质量,它们就沉到锅底。
丛林的空气中到处充斥着铁器橇击石头的声音。在布满陷阱的亚洲雨林中,一支劳动大军正在炽热的太阳下拆分和拖运数吨重的岩石。丛林掩映中,一系列庞大而又奇异的建筑巍然矗立。  在公元9世纪到14世纪之间,位于现代柬埔寨的吴哥已经发展成庞大的寺庙群。寺庙群的两侧有许多拥有百万人口的大城市。  今天,我们知道,吴哥窟只用了37年就全部完工。那么,究竟是怎样的一支队伍能够如此迅速地建造出这样的工程杰作呢?  一
嗨,你瞧这件围裙的下部有两个大口袋(题图),干嘛的?噢,是护手。用来端个热锅、热盘,避免烫得哇哇叫。  它看上去和普通围裙差不多,只是增加了两个棉布口袋,当你穿上这种围裙,在厨房里奏起锅碗瓢盆交响乐时,随时派上用场。免得临时找手套,找抹布(图1)。这款带护手的围裙还荣获了2007年德国红点设计大奖,真不愧是件非常实用又贴心的设计。  天冷时,躺在沙发上看看书,盖上一条毯子,很是惬意。但美中不足的是
在电影《蜘蛛侠》中,蜘蛛侠的指端可以喷射出柔韧结实的蛛丝。在电视剧《西游记》中,蜘蛛精则从肚脐眼中喷出蛛丝。在现实生活中,结网的蜘蛛都是从腹部喷出蛛丝。难道《西游记》比《蜘蛛侠》的描述更科学吗?最近,英国研究人员发现,有一种狼蛛可以从爪部喷射蛛丝。由此看来,蜘蛛侠的吐丝方式并不违背科学。  狼蛛边行走边喷丝  在常见的结网蜘蛛的腹部有名为吐丝器的腺体,腺体顶端有喷丝头,其上有数千个小孔,喷出的液体
山西省长治市上党区苏店镇西庄学校创建60余亩劳动实践基地,并把劳动技术纳入学校课程体系。学校开展“人人挂牌,认领果树”活动,学生通过学习果树的生长特性、养护技巧,独立完成果树的护养,既丰富了农业知识,又培养了学生高尚的劳动美德。图为西庄學校学生正在对认领的小树进行护养。
摘 要 社会在不断进步的革新的同时,在思想上层面上也会给人们带来极大的冲击,尤其是思维非常活跃的青年知识分子,更加容易受到各种不良思维的影响,为了保证社会发展根基的青年人才能够健康、积极的获得发展,必须要通过思想政治工作为其保驾护航。对此,文章针对如何做好基层青年知识分子思想政治工作进行了探究。  关键词 基层青年知识分子 思想政治工作 探究  随着市场经济与社会结构的转变,推进了社会心理与民族意
摘 要 新课程标准将情感、态度、价值观等人文因素置于教学目标的突出位置,突出了语文教育的丰富内涵,充分展示了语文自身的无穷魅力,使语文回归了其本来面目。初中语文是提高学生语言能力和文学素养的基础学科,也是学生学习其他学科的基础,具有一定语言能力的学生能更好地完成其他学科的学习。随着新课程改革的实施,教学水平在某种程度上已经有了改进,但目前初中语文教学有一些常见的问题,如旧的教学观念、教学模式,僵化
你害怕吗?    在日常生活中,有的人害怕老鼠、蜘蛛,有的人害怕与他人交往,有的人害怕雷电,怕登高,所有这些都是恐惧的表现。一般来说,恐惧反应是一种自我防卫、回避危险、保证安全的心理防卫功能,是正常的情绪。但如果反应过于强烈持久,影响生活、学习,就可能是恐惧症。恐惧症患者均具有明显的性格缺陷,如胆小、害羞、内向、不合群、依赖性强等。  常见的恐惧症有三种类型:  社交恐惧:这种人以年轻人为主,他们
摘 要 社会在进步,城市建设项目也越来越多,输电线路也在整体建设中凸显出其价值,应用范围极广。500kV输电线路的检修问题在新时期下逐渐暴露,需要技术人员结合实际情况进行有针对性地研究,使线路检修效率得到极大程度提升,同时也让线路能够稳定运行。新时期下,技术人员凭借先进理念,审视以往工作模式并找到其中不足,重视检修准备环节,对检修注意事项精准化把控,使500kV输电线路涉及的一系列技术得到有效利用