面向网络数据的信息抽取研究与应用

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:ZHUTINGFNEG12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的发展,人类的社会活动开始广泛使用人工智能技术,该技术的应用发展通常需要构建不等规模的知识库来为其做后台数据支撑。而知识库的建设往往需要从海量的半结构化、非结构化网络信息中抽取出结构化数据。本文研究的重点是面向海量的互联网网络数据做信息抽取,主要包括网页数据的收集整理、半结构化信息抽取、非结构化信息抽取和资源描述框架三元组构建知识库四个方面内容。豆瓣网、大众点评网、中文网络百科等海量网络数据中包含了大量半结构化、非结构化数据,这些数据是信息抽取的很好数据源。目前大多数网站有数据反抓取保护,从以上网站收集数据时遇到封禁lP,很难爬取到该网站全部数据的困难;以及由于中文网络百科属性是由无数网友人工自定义的,导致了属性多达几千个,之前的研究者都只是抽取了属性词频较高的少量属性的知识,而放弃了对大多数属性知识的抽取。针对以上难题,同时以构建结构化知识库为目的,本文完成了以下步骤的工作,并提出了以上困难的解决方案。具体内容如下:第一,本文研究了HttpClient代理服务器使用动态IP下载数据的方法。针对豆瓣网、大众点评网、百度百科、互动百科下载网页源码时遇到封禁IP的数据保护问题,采用HttpClient代理服务器开启多线程并使用多个免费代理IP循环下载。第二,对于半结构化数据的抽取,研究了一种基于正则表达式的半自动抽取方法。根据豆瓣、大众点评、中文网络百科中半结构化数据的特点,结合正则与字符串匹配,提出了一种半自动的信息抽取方法。第三,对于非结构化数据的抽取,研究了属性构建的方法。针对中文网络百科非结构化信息抽取中同一种属性用词不同,属性多,且相同属性与其他百科命名不一致,难以将不同的百科建立统一的知识库问题,提出了属性分层构建、属性统一的方法。第四,使用资源描述框架三元组构建知识库。在得到结构化数据之后,将这些数据整理为统一格式,然后使用资源描述框架三元组的方法将所获取的不同来源的结构化数据建立各自的知识库。本文以豆瓣网、大众点评网、百度百科、互动百科为数据集,分别对这些网页中的半结构化数据进行信息抽取。然后以百度百科、互动百科为数据集,建立每个分类下统一的属性,并在互动百科的非结构化数据集中对“人物”类别进行信息抽取实验。从实验结果可以看出,本文提出的方法可以较好地解决信息抽取时难以覆盖更多百科属性的问题,为构建各领域属性覆盖更加全面的知识库提供了思路方法。
其他文献
近些年来,伴随着云计算、大数据、移动互联网和无线通讯技术的大力发展,计算机在公共服务如金融、政府、教育等领域的应用也越来越普遍,与此同时计算机平台的安全性也遭遇到了最
虚拟现实技术(Xirtual Reality,VR)及分布式虚拟环境(Distributed VirtualEnvironment,DVE)在消防领域中的消防队伍的培训、消防预案以及消防的决策等应用中已经起到了十分重要
随着计算机与网络技术的迅速发展,现代办公自动化(OA)系统的定义已由原来简单的公文处理扩展到了整个企事业单位的信息交换平台,并实现了与系统支持平台的无关性,其功能已有极大
自1965年L.A.Zadeh提出了模糊集合以来,关于模糊系统的研究得到迅猛发展,这种研究在理论与应用方面都取得了丰硕的成果。特别是模糊控制技术被广泛应用于工业控制与家电产品的制
近些年来,计算网格技术在国内外的迅速发展,对计算资源的共享利用产生了巨大的推动作用。本文以建设成都理工大学校园计算网格为目标,在结合现有技术和成功案例的基础上设计了成
爸妒侨绾位竦玫?”、“知识以什么形式出现?”、“知识是如何被利用的?”这些都成为人工智能研究中最为基本的问题,在这些问题中知识又是一切研究工作的基础。所以,人工智能
本文分析了目前的量仪市场和量仪的发展趋势,结合当今计算机技术,使用嵌入式ARM-Linux系统,研制一款用于汽车机械部件测量的智能仪器。 文章按照研发过程,介绍了此款量仪的全
高血压是中老年人群中非常普遍的慢性病,也是引起心脑血管病等并发症最主要的危险因素,其引起的心力衰竭、脑卒中及慢性肾脏病等疾病,不仅有较高的致残乃至致死率,而且严重消耗了
随着国际化的发展,辽宁工程技术大学正在兴建一个国际学术期刊资料库,里面需要大量的英文PDF文档资料,本论文的设计目的就是要给这个资料库提供一个高质量的web全文检索服务,
众所周知,人类通过视觉获取的信息约占其获取总信息量的70%,视觉信息具有直观、可靠等优点。近年来,随着计算机网络、通信技术和多媒体技术的飞速发展,整个世界对网络视频方面的投