学术主页信息抽取系统的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:fdgerg454h4
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,海量的数据以网页的形式发布到互联网上。传统的网页是面向用户而设计的,人们可以通过浏览器可视化的阅读信息。然而对于机器来说,这些信息是难以理解的,不仅仅是因为其使用自然语言,也因为网页的表达形式具有随意性。网页信息抽取技术是一种对网页进行深度分析的技术,其主要目的是自动的从非结构化的文档中抽取出结构化的信息。由于网页主要使用自然文本描述,因此同样面临着同文本信息抽取相似的问题与挑战。LineX是一个学术主页抽取系统,系统能够自动化的发现学术个人主页并从学术主页上抽取出作者的个人信息和每年发表文章的信息。抽取结果经过进一步分析被集成到文献检索系统中。由于作者主页在风格和内容上都存在差异,因此基于规则的抽取方法往往无法取得很好的效果。LineX的核心抽取算法基于机器学习方法,包括支持向量机模型和条件随机场模型,其中支持向量机主要用来对信息进行分类,而条件随机场则用来对信息进行字段分割提取。系统首先利用HTML标签的语义特征将页面分割成文本单元。然后对文本单元进行分类和字段提取,之后进行裁剪和规范化映射。在抽取过程中,系统充分利用利用了网页所提供的额外信息,包括标题,DOM树,标签分隔等。此外针对机器学习算法在一些情况下的盲点,使用了启发式规则来进行辅助,提高了整体的抽取效果。经过对互联网的数据进行随机抽样和测试,结果表明系统对页面的变化具有较强的适应能力,在各项信息的抽取准确率上都达到的较高的水平。实验同时说明词典特征和HTML特征对最终的识别率起到了较大的贡献。
其他文献
NVD(Next-Generation Versatile Disc)是我国具有自主知识产权的红光高清视盘机产品系列,具有成本低、核心技术不受国外专利约束的特点,为了进一步降低整机生产成本,扩展新的
在传感器网络、无线射频识别、市场预测、信息提取等应用中,由于各种因素的影响,数据表现出固有的不确定性,而且不确定数据之间存在着复杂的相关性(包括时/空相关性),管理与查询这
语义检索是三维模型检索领域的研究热点,本文针对语义检索中的两个重要环节,内容特征提取和语义标注技术展开研究,考虑到计算机视觉图像是三维模型最有特点的内容特征之一,故
异构并行系统是高性能低功耗计算机系统的主要发展趋势之一,异构并行系统下的低功耗研究是近年来学者研究的热点问题。由于动态电压频率调整(DVFS,Dynamic Voltage and Frequ
项目管理是企业信息化的核心组成部分,项目管理技术和工具为项目管理提供了科学的技术和手段。随着管理理念的不断变革,科学技术的飞速进步,项目管理的应用也越来越广泛。当
在日常的军事演练中,运动目标和传感器的实时数据获取难度大,一般不具有可重现性,并且演练代价昂贵,因此有必要提出一种新的辅助数据融合系统。数据仿真系统是一个辅助数据融
自适应随机测试(Adaptive Random Testing, ART)是近几年发展起来的一种黑盒测试方法,固定候选集的ART算法(Fixed Size Candidates Set Version of ART, FSCS)是实现ART算法
随着互联网技术的不断发展和在线社交网络的出现,信息传播的速度更快、范围更广,引起了国内外学者广泛的注意。它既为一些商家病毒式营销创造了有利的条件,也使得谣言、诈骗
机载通信网络技术是实现航空电子系统间大容量的高速数据交换的枢纽和核心,其性能和功能决定航空电子系统综合化程度的高低,是现代先进飞机航空电子综合化最重要的关键技术之
基于构件的软件开发方法(Component-Based Software Development)被视为解决“软件危机”的有效途径之一,构件库是这一方法的基础设施。然而单一构件库的规模不能满足软件开