日语依存关系解析的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:maye626
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是自然语言处理的基本技术,包括短语结构解析和依存关系解析两种句法分析方法。依存关系可以明确地表明词之间的句法依存关系,并方便地转化为语意依存描述,近年来得到广泛重视,在机器翻译、信息检索、自动文摘等领域有着直接的应用。日语依存关系解析是基于日语依存文法来确定句子中文节与文节之间的依存关系。基于支持向量机(Support Vector Machine,SVM)的组块逐步应用算法是一种比较成功的日语依存关系解析算法,依存关系精确率达到88.66%。这种方法存在两个问题,一个是使用SVM模型进行分类时,分类超平面附近的向量分类正确率较低;另一个问题是,日语长句的依存关系解析精度较低。针对这两个问题,本文提出了四种方法进行改进。(1)基于支持向量机与K邻近算法(K Nearest Neighbor,KNN)相结合的日语依存关系解析,首先使用SVM模型对向量进行分类,对位于分类超平面附近的向量,使用KNN算法进行修正。(2)基于支持向量机与条件随机场(Conditional Random Field,CRF)相结合的日语依存关系解析,当判断两个文节间是否存在依存关系时,综合考虑SVM和CRF两个模型的判断结果,利用中间参数比较两种结果的可信度,将其中可信度较高的模型的判断结果作为最终结果。(3)针对长句中依存关系复杂,解析精确率低的问题,本文提出了基于并列关系树的解析算法,依据并列关系将日语句子划分为层次结构,由里向外依次解析各层的依存关系,每次的解析过程都相当于是对短句的依存关系解析。(4)距离模糊支持向量机(Distance Fuzzy Support Vector Machine,DFSVM)是对模糊支持向量机(Fuzzy Support Vector Machine,FSVM)的改进。DFSVM重新定义了隶属度,将训练样本距离其正确分类超平面的距离转化为隶属度,能较好的反应训练样本对于分类的贡献程度,从而改进了分类精度。SVM与KNN结合方法、SVM与CRF结合方法解决了SVM分类超平面附近向量分类精度较低的问题。基于并列关系树的日语依存解析算法,解决了日语长句依存关系解析精确率较低的问题。DFSVM模型对FSVM进行了改进,给出了新的隶属度定义。实验采用日本京都大学语料库,几种方法均比传统SVM算法更具优越性,达到了较高的精确率。基于DFSVM模型解析算法的解析效果最好,精确率为89.87%。
其他文献
近几年,煤炭企业的伤亡事故频频发生,成为构建和谐社会不能承受之重,当务之急就是提高煤矿安全监测系统的技术水平。无线传感器网络作为一个新兴的研究领域,具有十分广阔的应
沁河中游地区分布着众多的古村镇,其丰富的文化遗产是我国历史文化资源的重要组成部分。随着山西建设国家新型能源和工业基地战略的实施,沁河中游地区凭借着丰富的煤炭资源,
本文选取图解设计(diagram)作为研究对象,通过文献阅读、国外建筑师案例分析、和其他事物类比研究、亲身介入实际方案示范,试图说明什么是图解以及展示出图解是如何作用在设
新闻传播学研究生教育的研究,是关涉到新闻学、传播学和教育学这三门学科的边缘性研究课题。目前,国内学术界对新闻学教育、传播学教育和研究生教育的研究都有涉及,有的领域
随着小城镇建设和新农村建设在我国迅速的发展。农村和小城镇环境问题变得越来越突出,巨大的污水处理压力及其经济相对城市落后的状况,迫切需要能适应其污水性质的低运行投入
新世纪以来,国际资源性商品价格的普遍上涨和波动,对世界经济发展产生了重大影响。作为国际资源性商品市场中的“寡头”国家,中国面临“中国供给带动世界价格下降,中国需求带
认知无线电技术可以使未经授权的无线通信设备主动发现和合理利用专用授权频段的空闲频谱资源,既能大幅提高频谱利用率,又能有意识地选择合适的工作频带,避免传输中的干扰和
随着传感检测技术的发展,集信号采集、信号处理、数据通信和自主管理功能于一身,精度高稳定性好的压力检测系统已成为生产实践发展的迫切需要。其中压阻式压力传感器以其灵敏
民用航空工业是对国民经济和社会发展、国家安全、国家科技进步有着重要影响的战略产业。现代民用航空工业具有高度国际化商业运营的特点,金融业的有效支持和服务对其持续和
随着中国社会现代化的展开,人们的思维模式呈现了多元化的状态,人们的婚恋观也随之发生了变化。“婚外情”现象在当前呈现出逐渐增多的趋势。这一现象引起了社会各界的广泛关