【摘 要】
:
随着网络技术的不断发展,WEB平台成为人们获取信息的主要途径之一,目前各式各样的消息充斥着页面,其中包含很多与网页主题无关的噪音信息,这使得信息集成和检索变得越来越困难,也使得信息抽取技术这一课题变得越来越有意义。在研究生期间参加了农资商品备案交易的项目,需要从国内外各大农业网站中抽取出正文信息供数据库分析与查询,由于网页数量庞大,包含各种类型,现有的查准率和查全率较高的抽取技术往往适用性差,而适
论文部分内容阅读
随着网络技术的不断发展,WEB平台成为人们获取信息的主要途径之一,目前各式各样的消息充斥着页面,其中包含很多与网页主题无关的噪音信息,这使得信息集成和检索变得越来越困难,也使得信息抽取技术这一课题变得越来越有意义。在研究生期间参加了农资商品备案交易的项目,需要从国内外各大农业网站中抽取出正文信息供数据库分析与查询,由于网页数量庞大,包含各种类型,现有的查准率和查全率较高的抽取技术往往适用性差,而适用性高的抽取技术却没有较高的查准率和查全率,所以如何兼顾这两方面是研究的重点。由于项目研究的是国内外农业网站,所以数据集是从5种不同类型的农业网站中随机选出的1000个网页,然后以DOM树结构为基础对网页的正文信息进行抽取,提高正文信息抽取的通用性和适应性的同时,也提高了抽取的查全率和查准率。主要研究成果如下:(1)利用DOM树的节点相似度对页面进行分块。针对现有的页面分块方法适用性差的问题,提出基于DOM树的节点路径相似度的页面分块算法。首先将网页以DOM树的方式结构化表示,再以n元组的方式定义DOM树上每个叶子节点的节点路径,利用节点相似度算法计算路径之间的相似度,设置阈值,对大于阈值的进行融合。由于不用考虑节点标签及其属性,所以适用性较强,实验也表明了其适用性。(2)对页面分块后的正文价值判断。针对页面分块后无法判断正文信息块与噪音信息块的问题,分析了现有的基于DOM树密度模型和节点重要度的正文信息抽取方案,在此基础上结合了节点路径的特点进行密度模型和节点重要度的计算,基于阈值来区分正文信息块和噪音信息块,实验表明相较于其他的方法提高了抽取的查全率和查准率。(3)基于分类器的阈值自适应选取改进方法。由于阈值的设定没有明确的标准和自适应选取改进方法,实际效果不好,提出基于分类器的阈值自适应选取的改进方法,利用分类器对密度值和节点重要度进行训练分类,通过训练的结果来判断正文信息块和噪音信息块,实验表明使用分类器之后比使用之前的查全率和查准率都有进一步提高。(4)对信息块内进行去噪操作并抽取出正文信息。针对正文信息块含有少量噪音信息和噪音信息块中含有少量正文块的问题,利用正文信息的中心性和连续性,进行块内节点路径结构性去噪,然后对正文信息块中的节点路径通过编号进行排列组合,最终抽取出完整的正文信息。
其他文献
大气中CO2的含量急剧上升是导致全球变暖的主要原因,由此引发的温室效应也成为了如今最受关注的环境问题之一。微孔有机聚合物由于其具有较高的比表面积和纳米级孔道尺寸,使
气体参与的电化学反应在能源、环境等领域扮演了重要角色,如电解水的析氢、析氧反应;氢燃料电池的氢氧化、氧还原反应;氯碱工业的析氯反应,等等。由于气体在电解液中的溶解度
现今,互联网技术突飞猛进,互联网用户数目飞速攀升,网上阅读市场也逐步扩大,通过网络在线阅读的用户数目达到了近4亿。在海量的书籍中用户究竟该怎么选择,而提供服务方又该怎么做以帮助用户做出选择。推荐系统针对这一类问题应运而生。目前在推荐系统中使用最多的算法就是基于协同过滤的推荐算法,该算法实现简单,效果相对较好,但是也会面临很多的问题。随着用户和项目的数量增多,传统的协同过滤算法会逐步显现出一些不足,
天然气水合物是21世纪最具潜力的能源之一,世界上主要国家都投入了大量资源进行研究。本文围绕开采方面所涉及的CO2乳液开采技术,研究了其中CO2乳液的制备及稳定性评价。CO2
深度挖掘乡村功能价值是实现乡村振兴战略的重要途径,对乡村功能进行评价及土地利用进行优化能够满足区域粮食生产、生态安全和社会经济发展等功能的发展要求,有利于实现乡村振兴战略。本文在构建乡村功能综合评价指标体系的基础上,对乡村功能进行综合评价,对长江经济带乡村功能的时空分布特征进行研究;利用地理探测器定量解析影响乡村功能分布特征的影响因子,探究其影响机制;划分乡村功能类型区,针对不同类型区功能特征确定
视频中运动目标检测是计算机视觉领域中一个重要研究方向,在智能监控,辅助驾驶,车辆跟踪,人机交互等生活场景中有极大的作用,具有广泛的应用前景。由于在视频信息采集过程中常常会出现很多复杂的情况,如摄像头的移动,背景移动,以及运动物体本身的非刚性形变等问题,给视频运动目标检测带来很大的困难。研究者针对这些问题提出了很多视频运动目标检测方法,但仍有很多不足之处。为了提高在视频中对运动目标检测的检测速率和准
早期专利挖掘建立在结构化著录项数据基础上,近年来随着大数据技术、机器学习技术的兴起,专利挖掘逐步向以非结构化数据为数据源进行深层次挖掘的方向发展。本文首先对进行深
受武陵山片区政府和企业的委托,进行新型农业数字化平台的建设和推广工作。随着新型农业数字化平台在武陵山片区多家企业投入使用,平台开始面临由于企业用户和消费者用户的数量急剧增加而带来的极大挑战。大量用户频繁操作会对数据库造成巨大压力,严重情况下会造成系统响应时间过长甚至系统崩溃的现象。如何提高平台的高并发处理能力是一个重要的研究问题,目前常见的解决方案是采用Redis分布式缓存系统。为了提高平台高并发
碳纤维增强树脂基复合材料(Carbon fiber reinforced polymer,CFRP)在众多轻量化材料中因具有比强度高、比刚性大等优点被广泛应用于航空航天、汽车制造等领域。CFRP层合板在
类金刚石涂层(DLC)优良的物理和化学性能,包括高硬度、低磨损率及良好的化学惰性,使其得到了极大地关注和广泛的应用。由于DLC涂层内部的应力较高,导致涂层与基材表面的结合