论文部分内容阅读
当今时代,互联网拥有着世界上最大的信息体量,构建领域搜索引擎、领域知识库以及文本分析时,都需要从互联网中获取领域、主题相关的海量文本数据作为支持。当前,自动化海量互联网信息采集方法主要面临以下三个难题:第一,常规的搜索引擎或爬虫,仅通过关键词匹配的方式搜索领域相关的信息,而这种单个或多个关键词组合的方式不能充分表述领域信息,没有全面考虑领域概念,因此准确率较低。第二,网页中存在大量不相关的内容,如导航栏、广告链接等,造成数据质量较低,给网页内容提取带来了难题。第三,网页中的文本信息没有相应的语义标签,但是在后续的文本数据应用领域中,如语义检索、信息推荐等,都依赖语义标签。语义标签的缺失导致网页文本难以直接、有效地支持后续应用。针对上述问题,本文提出了面向领域的网页内容提取及语义标签生成框架,通过链接的主题相关度预测算法,有效识别和目标领域相关的网页;并基于网页的文本对象模型,提取出网页的主体内容;最后,通过网页内容文本的统计和语义特征,生成每个文本对应的语义标签。本文的主要研究工作如下:一、提出了面向领域的网页内容提取及语义标签生成框架本文针对互联网场景下海量领域信息采集过程中的难题进行分析与归纳,针对性地提出了面向领域的网页内容提取及语义标签生成框架。框架分为网页采集层、数据提取层和语义处理层,能够有效识别主题相关的网页、提取网页的内容并生成内容文本对应的语义标签。二、提出了基于领域本体的链接主题相关度预测算法本文针对海量信息采集过程中准确率低的问题,提出了基于领域本体的链接主题相关度预测算法。该算法借助描述主题的领域本体,考虑链接URL、链接文本和链接上下文,预测链接的主题相关度,能有效识别主题相关的网页链接,提高准确率。三、提出了基于文本对象模型的网页内容提取方法针对网页中存在的大量无关内容,本文基于网页的文本对象模型,对文本对象模型进行压缩,然后通过文本链接密度,识别出网页的主体内容。最后针对聚集出现的噪声链接,提出基于节点熵的噪声链接识别方法,有效检测噪声链接。四、提出了基于统计和语义特征的语义标签生成方法该方法首先通过基于WordNet和Doc2Vec的语义消岐方法,确定文本中歧义单词的语义;之后,综合考虑统计特征、语义特征以及领域性,计算出语义标签权重,继而生成相关的语义标签。最后,基于语义标签,对网页内容文本进行聚类,更好地支持数据应用。五、构建了面向领域的海量信息采集平台基于本文提出的方法框架,设计并实现了面向领域的海量信息采集平台的原型系统,通过展示平台的相关功能以及与不同平台进行对比分析,验证本文所述的方法框架的实用性。