面向领域的网页内容提取及语义标签生成框架

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:lvchao222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今时代,互联网拥有着世界上最大的信息体量,构建领域搜索引擎、领域知识库以及文本分析时,都需要从互联网中获取领域、主题相关的海量文本数据作为支持。当前,自动化海量互联网信息采集方法主要面临以下三个难题:第一,常规的搜索引擎或爬虫,仅通过关键词匹配的方式搜索领域相关的信息,而这种单个或多个关键词组合的方式不能充分表述领域信息,没有全面考虑领域概念,因此准确率较低。第二,网页中存在大量不相关的内容,如导航栏、广告链接等,造成数据质量较低,给网页内容提取带来了难题。第三,网页中的文本信息没有相应的语义标签,但是在后续的文本数据应用领域中,如语义检索、信息推荐等,都依赖语义标签。语义标签的缺失导致网页文本难以直接、有效地支持后续应用。针对上述问题,本文提出了面向领域的网页内容提取及语义标签生成框架,通过链接的主题相关度预测算法,有效识别和目标领域相关的网页;并基于网页的文本对象模型,提取出网页的主体内容;最后,通过网页内容文本的统计和语义特征,生成每个文本对应的语义标签。本文的主要研究工作如下:一、提出了面向领域的网页内容提取及语义标签生成框架本文针对互联网场景下海量领域信息采集过程中的难题进行分析与归纳,针对性地提出了面向领域的网页内容提取及语义标签生成框架。框架分为网页采集层、数据提取层和语义处理层,能够有效识别主题相关的网页、提取网页的内容并生成内容文本对应的语义标签。二、提出了基于领域本体的链接主题相关度预测算法本文针对海量信息采集过程中准确率低的问题,提出了基于领域本体的链接主题相关度预测算法。该算法借助描述主题的领域本体,考虑链接URL、链接文本和链接上下文,预测链接的主题相关度,能有效识别主题相关的网页链接,提高准确率。三、提出了基于文本对象模型的网页内容提取方法针对网页中存在的大量无关内容,本文基于网页的文本对象模型,对文本对象模型进行压缩,然后通过文本链接密度,识别出网页的主体内容。最后针对聚集出现的噪声链接,提出基于节点熵的噪声链接识别方法,有效检测噪声链接。四、提出了基于统计和语义特征的语义标签生成方法该方法首先通过基于WordNet和Doc2Vec的语义消岐方法,确定文本中歧义单词的语义;之后,综合考虑统计特征、语义特征以及领域性,计算出语义标签权重,继而生成相关的语义标签。最后,基于语义标签,对网页内容文本进行聚类,更好地支持数据应用。五、构建了面向领域的海量信息采集平台基于本文提出的方法框架,设计并实现了面向领域的海量信息采集平台的原型系统,通过展示平台的相关功能以及与不同平台进行对比分析,验证本文所述的方法框架的实用性。
其他文献
基于GTS-901A智能型全站仪,开发了用于自动变形监测系统中的机载变形数据采集软件,通过数据后处理,实现了原始观测数据的手簿输出、改正计算、数据入库、成果输出及图形显示等功能。通过模拟试验,表明该软件能够实现变形监测系统中的自动多测回长期观测和数据采集,具有精度较高、操作简单、可靠性强等特点。
目的对某综合医院2015—2017年鲍曼不动杆菌分布及耐药性变化趋势进行分析,为临床合理用药提供参考依据。方法收集某医院2015—2017年临床标本中所分离的鲍曼不动杆菌,对不同
目的:探讨胸腔积液临床治疗过程中采取中心静脉导管胸腔闭式引流术的价值。方法:选取我院2016年6月至2018年6月收治的86例胸腔积液患者,依据接受治疗方案的不同分为对照组与
针对免疫层析检测试纸C/T线在生产制作上存在的不足,设计了一套对恒线速度运动的NC膜进行划液的专业设备,主要用于在试纸的NC膜表面划上定量均匀的蛋白质液。为了满足划液要
目前在我国煤矿主井提升系统中,大多采用转子回路串电阻调速方式,该系统存在诸多弊端,影响煤矿的安全生产。本文将四象限高压变频器应用于煤矿主井提升系统,实现了设备的无级
京津冀协同发展作为国家战略规划,对整合优势资源打造未来新的首都圈、实现京津冀优势互补、走出一条内涵集约协调发展的新路子具有重大意义。而对于河北省国土空间开发利用
型煤技术作为煤炭加工领域的洁净煤技术之一,在企业经济和环境保护方面效益显著,近30年来在中国合成氨行业得到了大力推广。本文论述了型煤气化技术对于合成氨工业的意义,介
目的:观察艾拉莫德治疗活动期类风湿关节炎的临床疗效。方法:将120例类风湿关节炎(RA)患者随机分为观察组(艾拉莫德)60例,对照组(甲氨蝶呤+来氟米特)60例,观察两组第4周、24周临床症状