基于链接路径搜索的网页命名实体提取研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:yueyemingchan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的快速普及和Internet技术的迅猛发展,网络上的各种信息呈现指数级的增长,Web已经成为一个巨大的信息资源库,从海量数据中快速、高效地获取用户需要的信息成为了一种挑战。信息抽取旨在从无结构或半结构的Web文本中识别出用户感兴趣的数据,并将其转化为结构良好、语义清晰的格式,以方便快速、准确地获取关键信息。命名实体提取作为信息抽取的子任务和关键技术之一,已引起了国内外学者的广泛关注。针对传统的命名实体提取方法需要对训练集进行一定规模的人工标注,且所处理的基本上是新闻文本,包含的命名实体类别较少,算法的复杂度较高这一问题,本文提出两个新的网页命名实体提取算法,探索最大程度地避免人工干预且高效、准确的命名实体提取方案,提高命名实体提取的自动化程度,增强可移植性。主要工作如下:(1)通过分析实验数据集中个人网页的URL特征发现,同类别个人网页的URL会具有一些共同的基本特征,由此,本文将这些基本特征和每类网页特有的特征结合,构建出一个自动识别个人网页的分类器。(2)提出一个针对人名的命名实体提取方法,该算法是基于链接路径搜索的相关概念提出的,利用将锚文本和网页标题结合的机制进行求解,不仅避免了仅考虑邻近链接对网页信息概括的不足,而且能够高效、自动地提取人名命名实体,经过在选取的25个网站的个人网页上进行实验,平均正确率达到了86.11%。(3) Email命名实体提取算法采用“HttpClient”和“正则表达式”相结合的技术来实现,通过对实验结果统计发现,平均准确率达到了92.41%,可以满足实际系统的需求。(4)设计并实现了基于链接路径搜索的网页命名实体提取原型系统,在该系统上,研究人员可以专注于算法的改进和研究,快速进行实验,为信息抽取相关领域的研究和应用提供支持。
其他文献
引文网络是由文献之间的引用关系构成的一种社会网络。随着信息技术的不断发展,文献资料数量显著增加,引文网络已经成为一个大规模复杂的网络系统,并受到了越来越多的关注。
随着网络应用的普及和信息采集技术的发展,人类产生和获取数据的能力也迅速发展,导致海量数据几乎无处不在。为了有效支持海量数据的管理和计算,大规模和超大规模数据中心应运而
图像复原作为底层视觉问题一直受到广泛关注,已有众多学者提出复原模型及其优化算法来解决该问题。作为目标识别等应用的基础,复原算法的快速有效性是对其基本要求。全变分(Tot
人群仿真在影视动画、城市规划、游戏培训等各领域均有广泛的应用。如果人群仿真中的虚拟人物角色过于雷同,就会给人简单复制品的感觉,真实感较差。本文研究人群角色多样化问题
复杂图像中的目标检测是视觉领域的研究热点,在工业领域、军事领域、智能识别等领域发挥着巨大的作用。随着当前图像的复杂化,目标检测由于图像场景的复杂性、目标姿态的变化
在信息高速发展的当代,计算机网络已经成为我们共享信息最重要的途径,云的出现使得共享信息变得更为方便,云平台是一个能够向用户提供软硬件、数据资源等服务的系统,用户只需要利
从二维图像中恢复出目标场景深度信息是计算机视觉研究的关键问题,也是目前研究最多、应用最广、发展最迅速的一个领域。深度信息恢复技术可以广泛应用于三维信息重建、机器人
多机器人追捕目标问题作为多机器人系统中的一类典型合作与竞争问题,它研究的是一群追捕机器人如何通过合作去有效地捕获另一群逃跑机器人,已成为多机器人技术研究的一个热点
蛋白质复合体对于研究细胞活动具有重要意义。因此,从蛋白质相互作用网络中有效地识别出蛋白质复合体,是能够促进生物信息学向前发展的一项重要工作。  蛋白质相互作用网络
无线传感器网络(Wireless Sensor Network, WSN)是由部署在监测区域内的大量廉价、体积小、电源能量以及存储和数据处理能力有限的、具有无线通信能力的传感器节点通过自组织单