论文部分内容阅读
目前互联网已经融入了人们的生活,互联网的规模更是迅猛的扩张,网络上的数据也以几何级数的速度增长,从这些海量文本中获取有用的信息并将其转化为计算机能够识别和处理的结构化数据的研究是目前的一个重要研究课题。文本信息抽取是指从一篇或一段文本中抽取出指定的信息(比如实体、实体关系等),并将其以结构化的形式填充到数据库中供用户查询或计算机进一步分析、处理的过程。本文研究的是人物领域中实体关系抽取任务之一,即人物属性抽取。本文以百度百科人物网页为研究源数据,对百科人物属性信息抽取进行了研究。根据实际需要本文重点研究了以下几个问题。首先,本文实现了多线程网络爬虫,下载百科网页数据;然后通过分析百科网页的特征,利用正则表达式的方法实现网页内容的解析。其次,根据百科网页的开放分类特性,每个百科网页上都有开放分类,开放分类又称为社会性标注和大众分类法。通过分析发现人物类别的开放分类共有112个,本文利用此112个开放分类对人物类别的网页进行筛选,共提取出218,171个人物类别的网页。第三,本文对基于触发词的人物属性抽取方法进行了研究,通过网上搜集和语言分析制定触发词表,完成人物属性的抽取。实验表明该方法从百科文本中抽取人物属性信息是可行的。第四,本文提出了自动获取规则的方法,该方法利用各属性值的词性信息来定位到百科自由文本中,通过统计其前后词的方法发现候选规则,再对候选规则进行数学计算得到抽取规则,最后根据规则匹配从百科文本中获取人物属性信息。实验结果表明该方法的可行性和有效性。最后,本文实现了人物属性抽取原型系统,该系统具有数据采集和预处理、人物属性抽取等功能。