面向英文文章自动评改的词性标注技术的研究与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:Mywillz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时代的发展,中国英文学习者的数量在急剧上升。有限的教师资源和巨大的学习需求使得智能自动辅助教学备受关注。英文文章智能评改系统是一款为中国英文学习者写的英文文章自动评改系统,这很大程度的缓解了英文学习者过多和教师资源不足的矛盾。面向中国学生英文文章的词性标注是实现对中国学生英文文章自动评改的基础。到目前为止已有大量的研究者对英文词性标注做了很多有益的研究,然而,对中国学生写的英文文章词性标注的研究却是非常少见。另外,在现有的绝大部分词性标注方法中,人工提取的特征提取过程是必不可少的。由于中国学生写的英文文章可能出现大量的未知错误,并且不同层次的英文学习者写的文章犯的错误非常不同,因此对这类文章词性标注所需要提取的特征是非常不容易被发现的。本文从词向量的角度,对中国学生写的英文文章词性标注研究。本文提出一种基于词向量的两层词性标注方法。这种方法只有少量的人工提取的特征被提取,大部分的特征通过词向量与第一层标注概率向量自动训练得到。另外,这种方法还将标注集分成两类,按照两层结构对句子进行词性标注。提出一种特征值动态更新方法。该方法在标注模型训练过程中对特征值按照一定的规则动态更新。本文的词性标注模型使用上述特征值动态更新方法训练,然后使用基于词向量的两层词性标注方法对文本进行词性标注,其准确率达到了 95.63%,超过了现有的基于词向量词性标注器对中国学生写的英文文章词性标注的准确率。
其他文献
陕西地处中国内陆腹地,地理形貌南北长而东西伸缩,宛如一把金钥匙置于北纬30°这一文化发祥带上。当中国远古医药文明史拉开序幕之时,陕西率先在医药文化的大平台上,演绎了一
会议
知识经济时代,科技创新已成为社会发展的第一驱动力。大量学者展开了对科学与技术创新的研究热潮。然而,目前大量的研究都集中于定性分析。本研究对科技创新进行定量的研究,
我国地域广阔,所跨纬度广,海岸线长,每天都有海量的风速相关数据产生,对这些大量的历史风速相关数据进行处理成为非常重要的环节之一。气象预测中风速预测是必不可少的一项,
随着LTE(LongTermEvolution)时代的到来,围绕LTE语音,VoLTE(Voice over LTE)凭借自身的技术优势成为了 LTE语音目标解决方案。同时,VoLTE凭借与 RCS(Rich Communication Serv
本文调研了当前广泛使用的多种文本表示方法,尤其是现在热门的词向量方法,发现大多数论文都围绕着词向量表示的训练过程,提高最终评测指标展开,其特性的讨论不多。因此本文着
分析防焦剂CTP和邻苯二甲酰亚胺在质谱中的碎裂机理,建立通过GC-MS鉴定硫化胶和混炼胶中的防焦剂CTP的方法,并通过已知配方胶得以验证。结果表明,该方法灵敏度和准确性较高,
关系抽取的目标是从非结构化文本中自动获取实体和实体之间的关系,是信息抽取的重要子任务。谓词型开放关系是指基于谓词进行关联的实体间关系,这类关系在句法上依靠谓词进行
现阶段,大多数Web服务组合算法侧重于寻找一个服务质量(Quality of Service,QoS)最优的服务组合方案,但是单一的服务组合方案不能很好的满足用户的偏好需求,并且单一的选择容
阅读是语言输入的重要形式之一;也是习得语言知识和获取有用信息的重要手段。因此,阅读教学是高中英语教学的核心。然而,阅读的教学成绩并不令人满意。这引起了我国英语教育工作者们的关注,他们不断努力的开展相关的研究来寻求到有效的阅读教学方法。根据“输入假说”和“输出假说”,本研究探讨了“读写结合”对高中生英语阅读的影响。本研究讨论了三个问题:(1)“读写结合”是否对高中生英语阅读成绩产生影响吗?(2)“读
学位
在许多工程实际应用中,由于观测对象的复杂性与不确定性使得描述对象的属性值往往具有模糊性,因此常采用模糊数或区间数来刻画属性的不确定性。本文主要针对区间值数据建模,