基于语料库的词汇级知识挖掘研究

来源 :南京大学 | 被引量 : 2次 | 上传用户:henry_lin08
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数字化和网络化浪潮的逐步推动下,情报学、自然语言处理和文本挖掘的研究对象和任务正在悄然发生改变,这种改变主要表现在,从非结构化文本中来获取人们需要的知识成为一种趋势,而基于大规模语料从宏观整体层面来考察词汇的分布规律、挖掘语言网络内部的结构特征、利用语言网络结构来获取词汇之间的词义关系正是顺应这一研究趋势而开展的词汇级知识的探究。基于语料库的词汇级知识的挖掘和获取研究不仅有利于词汇知识组织、词典构建、信息检索等情报学研究的开展,还有助于词义消歧、机器翻译等自然语言处理任务的解决。基于多种研究方法和多组实验语料,本文立足于以中文为核心的信息处理,从词频分布、语言网络的宏观整体特征以及微观结构特征、词汇相似度计算和词义归纳四个层面进行了相应的知识挖掘和获取研究。在词频分布这一层次的研究中,利用最大似然估计的曲线拟合方法对中文和英文的词频分布进行了比较验证。在该部分,通过采用最大似然估计的方法对齐普夫定律的词频和概率分布进行了曲线拟合,计算得到了英文的齐普夫率在1.0左右,中文的齐普夫率在1.3左右;在分布曲线的拟合效果上,英文的齐普夫分布拟合效果要明显好于中文。针对两种语言词汇分布的差异,本文进一步对中英文语料中的高频词和低频词分布进行了统计,发现了中英文在词频分布曲线首尾存在差异的原因。在古汉语诗歌网络研究中,首先通过字共现关系构建了古汉语诗歌网络,然后从宏观整体层面和微观内部结构层面探究了古诗歌网络的整体特征以及内部结构特点。在宏观整体层面,发现古汉语诗歌网络是一种小世界网络并且呈现出了典型的无尺度特征。但和现代汉语已有的相关研究相比,其小世界性偏弱,凝聚性不够强。在微观结构层面,发现其最核心的k-核子图可以在一定程度上揭示作者的写作风格、性格特点以及当时社会因素。在相似词的挖掘和获取研究中,首先基于人民日报标注语料构建了现代汉语词共现语言网络,进而利用网络中节点相似的思想来计算词汇的相似度。基于词汇分布的假设,本文提出了在语言网络中基于贡献度折扣的词汇相似度方法,该方法不仅考虑了网络边的权重信息,还将节点的全局度特征融合进来。通过节点相似度实验发现,本文提出的基于贡献度折扣的相似度算法要明显好于共同邻居法、Jaccard方法和Salton方法。为了考证左右邻居节点对相似词挖掘的影响,本文进一步对名词和动词的入链邻居节点和出链邻居节点分别进行了探究,发现在名词的相似词获取任务中,出链邻居节点的贡献要高于入链邻居节点,在动词的相似词获取任务中,出链邻居节点的贡献要明显小于入链邻居节点。在词义归纳的研究中,利用专为复杂网络设计的图结构聚类算法,探究了基于大规模语料来获取汉语多义词词义的可行性。研究首先构建了针对每个目标词的子网络,然后利用图结构聚类算法通过多次迭代计算,最终确定多义词的词义簇。通过多组多义词的聚类实验结果,发现以复杂网络为组织工具,基于大规模语料来进行汉语的词义归纳的方法是可行。同时还发现基于数据驱动的词义归纳和语料特征密切相关,词义归纳的效果受到语料的内容、规模等因素的影响。
其他文献
拓扑材料作为与传统Landau相变无法解释的新物质态,其在凝聚态中引起了广泛关注。与普通材料不同,拓扑材料最显著的特征是有受拓扑保护的无能隙边界态。这些边界态能够实现粒子物理中的一些粒子模型如Dirac费米子、Majorana费米子以及Weyl费米子。这些粒子在自旋电子学和量子计算中有重要作用。在拓扑材料中,自旋轨道耦合有重要作用。在拓扑绝缘体中,强自旋轨道耦合会反转能带,使其与传统绝缘体能带拓扑
生物膜是镶嵌有蛋白质和糖类的磷脂双分子层,起着划分和分隔细胞和细胞器作用,参与了物质、能量和信息交换等生命活动。正确认识和理解生物膜的组成、结构、功能及生物膜与外界的相互作用,对生物学、医药学和工农业等实际问题起到了重要的指导作用。磷脂膜作为生物膜的基础骨架成为研究复杂的生物膜功能与结构的简单模型系统。在本论文中,我们利用倒置荧光显微镜、石英晶体微天平及耗散系数测量仪(QCM-D)、共聚焦激光扫描
自从福特在其汽车工厂成功建立装配线之后,装配线已被广泛应用于食品、日用品和电子消费品等产品的生产过程中。由于构建一条装配线的成本往往比较昂贵,因此,如何设计一条高效、低成本的装配线是制造企业在激烈竞争中非常有效的措施之一。作为装配线设计过程中的关键问题之一,装配线平衡问题已被证明为NP-hard问题,自二十世纪六十年代开始得到学术界的关注。值得一提的是,大量的学者过于集中研究求解简单装配线平衡问题
文章首先明确了相关统计指标,然后在统计分析2017—2019年全国与浙江省的学前教育发展与国民经济发展有关数据的基础上,对学前教育发展与国民经济发展现状、发展趋势及两者的相关性与协调性进行了探讨,最后提出了提高浙江省学前教育水平的建议。
信息技术的变革深刻影响着人们的工作、生活乃至思想观念。当前信息的载体主要是电子和光子,随着电子集成芯片技术越来越接近发展的极限,摩尔定律正受到越来越严峻的挑战。同时随着信息量的增加,人们对通信速度和容量提出了更高的要求,考虑到光子可作为最快速的信息载体,因而光子芯片技术受到人们越来越多的关注。为了实现光子集成,人们提出了各种各样的微纳光子体系,例如:光子晶体、金属表面等离激元、超材料与超表面等。另
《中国石拱桥》1962年进入人民教育出版社十年制学校初中课本(试用本)语文教材,是不折不扣的"老课文"。历经近60年的教学实践与研究探索,在文献层面大致可以分为三个相对集中的研究主题。其一,中国石拱桥的科技资料。这部分文献主要讨论石拱桥的起源,石拱桥的发展历程和当代面貌,具体说明赵州桥的设计
期刊
边界层现象在技术上是指在一块区域中的流体由于固体的运动受到了影响。基于这样的事实,在边界区域,粘力起主要作用。这块区域是由基于Navier-Stokes方程的无限或半无限复杂的自然域决定的。到目前为止,Navier-Stokes方程的解答在已有文献中都尚未提及,所以本文通过相似变换得到了半无限区域中基于牛顿和非牛顿流体模型的Navier-Stokes方程的解答。众所周知,传热是我们需要将热量从一个
本文的研究内容主要关注于α衰变结团模型中的一个重要的物理量——α预形成因子(α-preformationfactor,简称:Pα)。α预形成因子所描述的是α结团在原子核内部的形成的概率,它反映了衰变母核初态波函数中α结团化成分的比重。在对α衰变的早期研究中,Pα通常被假设为1,即认为α结团本来已经存在于原子核内部,这种简单的假设导致了衰变宽度的理论值与实验值之间出现了固定的偏差。随后,科学家们意识
近年来,干旱荒漠矿区的生态恢复工作愈发受到重视。然而,干旱荒漠区土壤资源稀缺,矿区复垦土源不足,但表土剥离、保护和利用工作一直没有得到重视,导致大量的土壤和种子资源被浪费。本文以西北干旱荒漠区典型煤炭城市乌海为研究区,通过野外调查分析,研究了土壤种子库特征及其影响机理;通过实地模拟不同降雨和人工水肥赤霉素施加下的表土持久种子库萌发和幼苗生长情况,探究干旱荒漠区土壤种子库激活条件和效应。旨在为干旱荒