论文部分内容阅读
复杂网络起源于图论.实际网络中图的表示最早可追溯到18世纪著名数学家欧拉运用图形方法对‘’Konigsberg七桥问题”的研究,该研究促使了图论的诞生.在图论产生的200年里,由开始的停滞不前到最近100年的爆炸式发展,特别是20世纪60年代,由匈牙利数学家Erdos和Renyi建立了ER随机图模型,随机图理论的建立开创了数学史上对复杂网络研究的先河.但现实中绝大多数网络并不是简单、随机的.于是人们开始抽象出现实中结构复杂的网络,建立各种与实际网络匹配的模型,其中最著名的两个模型推动了复杂网络新纪元的到来,起到了划时代的作用.一个是1998年Watts和Strogatz建立的WS小世界模型[2],该模型真实地反映了实际网络中存在的小世界特性.之后,Newman和Watts对WS模型进行改进,建立了NW小世界模型[3],但两者本质上是相同的.另一个著名的模型是1999年Barabbsi和Albert [4]建立的无标度网络模型,该模型考虑到实际网络中网络规模的不断增长特性和新节点优先连接导致的度分布服从幂律分布特性.探寻网络中的重要节点一直是图论研究中一个重要课题.随着网络科学的蓬勃发展,如何寻找网络中的中心节点成为复杂网络研究中的一个基本而重要的问题[5].复杂网络中节点重要性的研究起源于社会学网络分析领域[6].Freeman等学者在早期针对社会学网络做了大量的研究,此后系统科学研究领域、信息搜索领域和文献检索领域等也分别独立地提出了类似的问题.对如何发掘网络中重要节点,2007年,赫南等人总结了发掘网络中重要节点的几种方法,包括度、接近性、介数及节点删除法.2013年,刘建国等人又从不同角度出发介绍了基于网络结构的节点重要性排序的不同指标:度、介数、接近性、特征向量、k-核分解,总结了各种排序方法的优缺点和不同的适用环境,例如接近性方法不适合随机网络,k-核分解方法不适用于树状网络[7].语言是人类文明的结晶,是一个经过漫长演化而来的复杂自适应系统.它不仅是一种网络,更是一种复杂网络.2001年,Cancho和Sole [9]在英语国家语料库的基础上建立了两个英语的词同现网络.据我们所知,这是人们首次将复杂网络的方法引入到人类语言的研究中.此后,人们用不同方法对不同语言建立语言网络进行研究.根据不同的连边定义,构建网络的方法有:同现网络、句法网络、语义网络、概念网络等.研究发现,绝大多数语言网络都是满足小世界特性和无标度特性的.人们对语言网络的构造各有千秋,但都偏重于对网络整体特性的研究,网络局部特性被埋没在网络的整体特性中.对语言网络的局部特性的研究不言而喻要从节点入手,不同的节点在网络中的作用和重要程度不同.节点的中心性指标,可以反映节点在网络中的作用以及对其它节点的影响.2011年陈芯莹、刘海涛通过考察度数、入度、出度、接近性、内接近性、外接近性、中间度等网络特征参数及删除节点法对有向的汉语句法网络的中心节点进行研究,从复杂网络角度研究中心词,定量地研究分析揭示了中心词的重要程度.至今为止,还未发现其它语言网络中心节点研究的论文.高宇阳和他的合作者选取了六种语言的联合国报告100篇,做了六种语言的平行文本(即语义内容一致但语言不同的文本的集合),构造了六种语言的词同现网络.在此基础上,本文将从复杂网络的角度,用社会网络分析的方法(即度、介数、接近性、特征向量、k-核分解)和系统科学分析方法(即节点删除法)来研究六种语言网络的中心节点的重要性,并进行排序,同时对六种语言网络中心节点的性质的异同进行比较分析.将两者方法结合起来应用,将有助于我们更好的寻求人类语言系统最本质的规律和特性.本文共分为八章,主要内容如下第一章介绍了六种语言的词同现网络的选材、分词和构造以及复杂网络的一些基本概念.第二章对汉语词同现网络中心节点进行研究.在本章中我们考察了汉语的有向加权词同现网络,通过对度数和词频的比较分析,发现前五个节点的度数和词频排序是相同的,我们选取前四个节点作为中心节点进行研究;再用社会网络的中心节点的中心性分析方法,通过考察多个网络中心性统计参数,我们看到四个中心节点都为网络的局部和整体中心节点,但四者在网络中的重要性不同.我们发现汉语词同现网络中四个节点的重要性排序与它们度和词频的排序是相同的,而且得到的结论:节点“的”是网络最中心的节点,节点“在”的整体中心性比节点“了”要强,这两点结论与刘在句法网络中心性的研究中所得到的结论是一致的.刘指出句法网络中节点“了”的介数为零,所以它并不是网络的整体中心节点,而我们在汉语词同现网络中得到“了”是仅次于“的”、“和”、“在”的整体中心节点.之后,应用节点删除法,删除这些中心节点,研究网络统计参数的变化和网络连通性的破坏情况.利用这些结果,我们可以进一步判断节点的重要性,所得结论与中心性方法一致.在第三章中,利用在第二章中所采用的方法,对英语的有向加权词同现网络进行研究.通过度数和词频的比较,选取了度数最高的三个节点作为网络中心=节点的研究对象,再用社会网络的中心节点的中心性分析方法,通过考察多个网络中心性统计参数,我们看到三个中心节点都为网络的局部和整体中心节点,但三者在网络中的重要性不同,局部中心性排序为:C英<A英<B英.节点B英的度不是最大的,但它的强度是最大的,使得它的局部影响力最大,这同时也证明了加权网络能够更详细全面地分析节点间的作用强度,这是加权网络的优势所在.随后我们又用节点删除法来验证并进一步判断节点的重要性排序.我们发现这三节点的整体中心性排序与节点的度的排序恰好一致.在第四章中,利用在第二章中所采用的方法,对俄语的有向加权词同现网络进行研究.通过度数和词频的比较,选取了度数最高的三个节点作为网络的中心节点,再用社会网络的中心节点的中心性分析方法,通过考察多个网络中心性统计参数,我们看到三个中心节点都为网络的局部和整体中心节点但三者在网络中的重要性不同,局部和整体中心性排序都为:C俄<B俄<A俄.三个节点的中心性排序与度数的排序是一致的.之后,利用节点删除法,我们研究这些节点的的重要性,所得结果与中心性方法获得的结果一致.在第五章中,我们采用相同的方法研究阿拉伯语有向加权词同现网络.通过度数和词频的比较,选取了两参数值最高的三个节点,同样看到三节点均为网络的局部和整体中心节点作为网络的中心节点,再用社会网络的中心节点的中心性分析方法和节点删除法,得到三节点均为网络的局部和整体中心节点.且三者的中心性排序为C阿<B阿<A阿.最后,我们发现,应用节点删除法与中心性方法所得到的结果一致.在第六章中,我们采用了相同的方法研究法语有向加权词同现网络.通过度数和词频的比较,选取了度数最高的三个节点作为网络的中心节点.再用社会网络的中心节点的中心性分析方法,通过考察多个网络中心性统计参数,我们看到三节点均为网络的局部和整体中心节点,三者的局部中心性排序为C法<A法<B法,A法和B法的度数和重复数排序不同,且重复数相差较大,此时重复数对节点局部中心性起决定性作用.整体中心性性排序为:C法<A法<B法.三个节点的整体中心性排序与它们的度值排序不同.最后,我们发现,应用节点删除法与中心性方法所得到的结果一致.在第七章中,我们采用了相同的方法研究西班牙语有向加权词同现网络.通过度数和词频的比较,选取了度数最高的三个节点作为网络的中心节点,再用社会网络的中心节点的中心性分析方法和节点删除法,得到三节点均为网络的局部和整体中心节点,三者中心性排序都与度的排序是一致的.第八章主要对六种语言网络中心节点研究结果进行比较.从节点的选取、中心性方法和删除节点法三方面进行分析,考察六种语言网络中心节点的共性和个性.