汉语句式结构研究与应用

来源 :山东大学 | 被引量 : 0次 | 上传用户:zhy724458069
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语语料库的相关数据已经广泛运用于语言研究、语言教育、人工智能等数个相关领域。随着当代自然语言处理技术以及大数据技术的迅速发展,这些领域的技术研究对汉语相关的分析数据,尤其是专用分析数据如:语法分析数据,语义分析数据,语用分析数据的需求量与日俱增。近几年来,随着计算机的更新迭代,汉语研究的相关算法已经取得了重大突破,汉语句式的分析在精度与准确度上都有了明显得提高。句式结构分析在中文信息处理中有着重要的意义。利用大数据及数据挖掘技术,对汉语句式结构进行分析处理是目前中文信息处理领域里新的视角和切入点,汉语句式库也为该领域研究带来了新的契机。因此,为了将这些海量庞大的汉语文本,集中到一个易处理,易管理,易扩展,易存储的个性化语料分析检索平台上,本文主要进行了如下工作:1、对大量文本数据进行句法分析,提取文本句式结构信息。2、基于依赖关系树结构,对文本句式结构信息进行特征提取,以从信息中提取出句子的主干信息,列出其主干结构。为了简化主干结构的空间复杂度,本文还提出了两种规约方法,对数据进行规约化处理。3、通过上述方法,基于训练文本,开始构建句式结构语料库,简称句式库。4、基于句式库开展一系列应用研究,如基于相似度计算公式计算文本之间的句式相似度,基于句式库分析各类作文的句式结构特征,分析经典长篇小说的常用句式结构特征。5、搭建了一个可扩展,可复用,研究可视化的句式结构分析处理平台。本研究的创新点有:第一、使用云技术将研究重点从文本处理向文本聚类的转变,提高了效率与精度。第二、基于依存语句树的概念结合汉语句式结构的特征对汉语句子进行主干提取,并在原语句树的基础上提出了改进办法。第三、汉语句式结构库的应用研究目前在国内外的相关文献还相对稀少,本文将从数据挖掘的方向探索句式结构的特征。
其他文献
随着人们出行需求的大幅增加和各类交通工具数量的迅速增长,对轨迹数据进行分析和挖掘开始受到广泛的关注和重视。得益于智能交通系统在各大城市的普及应用,大量的车辆轨迹数
随着大数据时代的到来,数据开始呈爆炸式的增长,互联网用户越来越被淹没在数据的海洋之中。因此,如何帮助用户从海量的信息中找到真正感兴趣的资源成为一个亟待解决的问题。商品
自然语言中的实体是指语句中出现的客观世界中存在的,并可相互区别的对象或概念。推断实体所属的语义类型是自然语言处理中的一项有着重要意义的任务,也是一项很有挑战性的任务
随着智能手机等移动终端的兴起,移动互联网正在慢慢地改变人们的生活和习惯。基于位置服务(LBS)的应用作为移动互联网的一个重要组成部分,是每一个移动终端上必备的应用程序。
云计算作为一种新的信息技术,为海量数据的分析和处理带来了全新的视野。它是一种商业计算模型,将计算任务分布在大量计算机构成的资源池上,使用户能够按需获取计算能力、存
轨迹可以看作是移动对象随着时间的变化在空间中留下的印迹。近年来,随着民用GPS(全球定位系统,Global Positioning System)等定位设备在移动终端上的广泛使用以及基于位置服务
二十一世纪以来,中国互联网行业得到了蓬勃的发展,网民规模也逐年攀升。微博是近年来互联网上越来越流行的消遣方式,上到政商名流,下至普通百姓,皆乐在其中,微博已逐渐变成了许多人
随着社会化媒体应用的普及,网络上留有大量的用户行为信息。尽管大多用户已具备隐私保护意识,有意识地隐藏身份信息,但是常常忽略了随机动态的行为信息带来的隐私泄漏。攻击者通
学位
现实生活中存在众多复杂的系统,这些系统构成了抽象的复杂网络。近些年来研究者们对复杂网络的研究产生了浓厚的兴趣,其中复杂网络聚类方法研究成为一个热点研究问题。复杂网