基于DOM结构树和特征词的Web内容提取研究

被引量 : 0次 | 上传用户:gxb396104807
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着信息技术的飞速发展,互联网上的信息数量已经成爆炸式增长,文本信息的规模正在以指数形式急速扩大。丰富多彩的互联网为人们提供了海量的信息,Web是Internet上最重要的信息来源,且已经成为人们日常生活、工作中不可少的一部分。Web上的信息不仅仅只包含正文信息,还包含许多干扰信息,这样会降低Web信息的可利用性。如何在浩瀚如海的文本信息当中及时地获取有价值的信息,已经成为当今信息获取中亟待解决的问题。充分的利用数据挖掘和文本分类技术,能够很好的解决这一类问题。Web信息提取技术和短文本分类技术是文本信息挖掘领域中非常重要的研究内容。Web信息提取技术,首先对Web进行区域划分,然后利用算法从不同的区域间找到正文内容,最后将正文内容准确的提取出来。为了能够自动化提取Web信息,该类提取技术不应该需要大量的训练,而且应该具有较好的灵活性和正确率。在Web信息提取处理后,短文本分类处理是一个文本处理的重要步骤,经过短文本分类的处理,才能更好的给用户提供对其有价值的信息,保证工作的正确率和效率。本文介绍了Web信息提取技术和短文本分类技术的研究背景、研究意义、国内外研究现状、相关的理论知识。本文在总结了前辈们关于Web信息提取技术和短文本分类技术研究的基础上,分别提出了Web信息提取技术和短文本分类技术的新方法,具体的工作主要包括以下两个方面:提出了一种能够准确并且高效的Web文本信息提取方法,并且该方法可以将获取的文本信息按照原文的意思正确的分段。首先,该方法利用网页布局标签<table>和<div>构造一个DOM结构树,然后利用构造的DOM结构树所描述的布局标签的嵌套关系和层次关系,对文本内容区域进行判断取舍,提取出正确的正文内容,最后根据一些特殊标签属性,进行特殊的处理,实现正文内容的分段。实验证明,该方法易实现、效率高、灵活性强,能自动准确地提取正文内容。提出一种基于特征词相关度值的短文本分类方法。通过分析已有的短文本分类算法和所研究的领域,利用基于加权复杂网络的特征词提取方法,提出了一种新的基于特征词的相关度的短文本分类算法。首先对短文本进行分词和停用词处理,建立语料库,再利用特征词提取方法,获得短文本的特征词,最后利用特征词的相关度值,计算出文本相关程度,进行文本分类。实验结果表明,该算法具有很高的正确率,适合大量网页的自动化批量处理。
其他文献
自20世纪80年代开始,西方财务会计理论界致力于盈余管理的研究,盈余管理成为西方国家尤其是美国实证会计研究的重点之一。在我国,盈余管理是随着股份有限公司股票上市而出现的新
由于经济的飞速进步、城市化和工业化的不断深入,出现了各种各样的社会问题,其中比较显著的是青少年犯罪比率增长颇快,成为当今很多人关注的社会现象。本文正是在掌握青少年
文化观是关于文化的总的看法和根本观点,是文化理论的核心,也是制定文化政策的根据。中国特色社会主义文化观,是中国特色社会主义理论体系的重要组成部分,是马克思主义文化理
本文基于对国企改革与农村土地产权制度改革的比较研究,提出了业已在部分地方探索试验、以"确权"和"市场化"为主要目的的农村土地产权制度改革需要防范四大风险:一是产权改革
改革开放以来,为遏制我国人口快速增长的势头,国家开始推行计划生育政策,但却因此出现了大量的独生子女家庭。与此同时,随着我国经济的迅猛发展,人们的生活条件得到了改善,医
人口老龄化进一步加剧的社会现状使得我国的银发产业面临一个前所未有的发展机遇,而以老年人为对象的银发旅游者旅游业则是“夕阳产业”中的“朝阳产业”。20世纪90年代末到现
目的:观察标准化患者应用于感染稃临床护理带教的效果及总结经验。方法:选择2008年1月.2011年12月在我院传染科实习的护生共52名,依据完全随机对照原则将52名护生分为观察组及对
RNA组学研究日益蓬勃发展。RNA的相关研究被美国《科学》杂志评为2002年的十大进展。人们发现,双链RNA可以抑制含有特定序列的基因表达。应用这一特点,在生物体外强有力的使
在现有的市场环境下,随着企业数量的增加,外部资源对于企业显得越发重要,企业之间对于外部资源的竞争愈演愈烈。很多企业忽视了“可持续增长”这一理念,片面追求利润最大化,