论文部分内容阅读
随着计算机的快速普及和Internet技术的迅猛发展,网络上的各种信息呈现指数级的增长,Web已经成为一个巨大的信息资源库,从海量数据中快速、高效地获取用户需要的信息成为了一种挑战。信息抽取旨在从无结构或半结构的Web文本中识别出用户感兴趣的数据,并将其转化为结构良好、语义清晰的格式,以方便快速、准确地获取关键信息。命名实体提取作为信息抽取的子任务和关键技术之一,已引起了国内外学者的广泛关注。针对传统的命名实体提取方法需要对训练集进行一定规模的人工标注,且所处理的基本上是新闻文本,包含的命名实体类别较少,算法的复杂度较高这一问题,本文提出两个新的网页命名实体提取算法,探索最大程度地避免人工干预且高效、准确的命名实体提取方案,提高命名实体提取的自动化程度,增强可移植性。主要工作如下:(1)通过分析实验数据集中个人网页的URL特征发现,同类别个人网页的URL会具有一些共同的基本特征,由此,本文将这些基本特征和每类网页特有的特征结合,构建出一个自动识别个人网页的分类器。(2)提出一个针对人名的命名实体提取方法,该算法是基于链接路径搜索的相关概念提出的,利用将锚文本和网页标题结合的机制进行求解,不仅避免了仅考虑邻近链接对网页信息概括的不足,而且能够高效、自动地提取人名命名实体,经过在选取的25个网站的个人网页上进行实验,平均正确率达到了86.11%。(3) Email命名实体提取算法采用“HttpClient”和“正则表达式”相结合的技术来实现,通过对实验结果统计发现,平均准确率达到了92.41%,可以满足实际系统的需求。(4)设计并实现了基于链接路径搜索的网页命名实体提取原型系统,在该系统上,研究人员可以专注于算法的改进和研究,快速进行实验,为信息抽取相关领域的研究和应用提供支持。