论文部分内容阅读
伴随着信息技术的飞速发展,互联网上的信息数量已经成爆炸式增长,文本信息的规模正在以指数形式急速扩大。丰富多彩的互联网为人们提供了海量的信息,Web是Internet上最重要的信息来源,且已经成为人们日常生活、工作中不可少的一部分。Web上的信息不仅仅只包含正文信息,还包含许多干扰信息,这样会降低Web信息的可利用性。如何在浩瀚如海的文本信息当中及时地获取有价值的信息,已经成为当今信息获取中亟待解决的问题。充分的利用数据挖掘和文本分类技术,能够很好的解决这一类问题。Web信息提取技术和短文本分类技术是文本信息挖掘领域中非常重要的研究内容。Web信息提取技术,首先对Web进行区域划分,然后利用算法从不同的区域间找到正文内容,最后将正文内容准确的提取出来。为了能够自动化提取Web信息,该类提取技术不应该需要大量的训练,而且应该具有较好的灵活性和正确率。在Web信息提取处理后,短文本分类处理是一个文本处理的重要步骤,经过短文本分类的处理,才能更好的给用户提供对其有价值的信息,保证工作的正确率和效率。本文介绍了Web信息提取技术和短文本分类技术的研究背景、研究意义、国内外研究现状、相关的理论知识。本文在总结了前辈们关于Web信息提取技术和短文本分类技术研究的基础上,分别提出了Web信息提取技术和短文本分类技术的新方法,具体的工作主要包括以下两个方面:提出了一种能够准确并且高效的Web文本信息提取方法,并且该方法可以将获取的文本信息按照原文的意思正确的分段。首先,该方法利用网页布局标签<table>和<div>构造一个DOM结构树,然后利用构造的DOM结构树所描述的布局标签的嵌套关系和层次关系,对文本内容区域进行判断取舍,提取出正确的正文内容,最后根据一些特殊标签属性,进行特殊的处理,实现正文内容的分段。实验证明,该方法易实现、效率高、灵活性强,能自动准确地提取正文内容。提出一种基于特征词相关度值的短文本分类方法。通过分析已有的短文本分类算法和所研究的领域,利用基于加权复杂网络的特征词提取方法,提出了一种新的基于特征词的相关度的短文本分类算法。首先对短文本进行分词和停用词处理,建立语料库,再利用特征词提取方法,获得短文本的特征词,最后利用特征词的相关度值,计算出文本相关程度,进行文本分类。实验结果表明,该算法具有很高的正确率,适合大量网页的自动化批量处理。