【摘 要】
:
当今互联网技术的发展非常快速,网上论坛的功能也越来越强大和完善。各大门户网站几乎都建立了自己的论坛,而从门户网站的论坛板块细分上可以看出,论坛资源正在逐步完善,以适
论文部分内容阅读
当今互联网技术的发展非常快速,网上论坛的功能也越来越强大和完善。各大门户网站几乎都建立了自己的论坛,而从门户网站的论坛板块细分上可以看出,论坛资源正在逐步完善,以适应各种不同需求的人群。每时每刻都有人在论坛上发表言论,探讨问题等。论坛已经成为一个重要的信息库,论坛数据已经是许多应用(如舆情分析与监控、论坛搜索引擎、社区发现等)的重要信息来源,因此,针对论坛页面信息抽取技术的研究十分重要。 本文围绕论坛数据抽取这一核心技术,首先对论坛页面进行了深入的统计和分析,从而发现论坛页面所特有的结构信息和可视化信息,针对这些特点定义了一些启发性规则。由于每个不同的论坛都会有自己的一套模板来组织自己的数据,信息抽取面对的数据源也会不统一。为解决这些问题,本文提出了基于子树可视化信息的论坛页面分块算法,该算法通过逐层地对DOM节点进行筛选和合并,最终能够提取出论坛页面中的主体模块,过滤了许多垃圾模块,让后续的信息抽取算法只需要在主体模块上进行抽取即可。实验表明该算法具有很高的准确性。 在页面分块的基础上,本文提出了基于决策树分类的页面信息抽取算法。该算法将信息抽取问题转换为分类问题,通过对页面的再分块、特征提取、预处理、分类等过程实现了信息抽取。从分类的过程看,需要有一个训练过程,即人工标注的过程,本文从工程上实现了一个简易操作的可视化标注工具,因此该分类算法是半监督的。通过实验与分析,该算法能很好地抽取出作者、正文、时间等结构化信息。 最后在上述的理论研究成果的基础上,本文设计和实现了论坛信息抽取的原型系统,为本文进行的算法实验和应用研究提供了一个基础平台。
其他文献
从互联网诞生的那天起,信息量每日都在快速增长,搜索引擎是用户在海量数据中快速准确的寻找需要数据的最常用途径。随着网民数量的不断增长,特别是Web2.0技术的发展,互联网信
随着人类生活进入信息社会,以信息技术为核心的信息时代对教育领域产生了深刻的影响,并将成为教育改革的技术基础与动力。数据教育挖掘也随之成为一个新兴的、备受关注的研究
认知无线网络(CRN)与多输入多输出(MIMO)系统均是目前通信网络中的核心研究技术。MIMO系统的特点是可以将网络吞吐率在不加大通信带宽的前提条件下极大地提高,而 CRN具有智能
边界网关协议(Border Gateway Protocol,BGP)是在Internet上广泛使用的一种域间路由协议,BGP路由的收敛性影响着网络的稳定性,是影响网络路由性能的重要指标。判断BGP路由收敛性能
随着WEB2.0时代的到来,个人用户已经越来越多的参与到互联网信息的产生当中,各种各样的博客,微博,论坛和社区,每天都产生了大量的信息和数据。随着海量信息的不断整张,基于关
近年来,随着Android移动智能终端的普及应用,Android恶意软件也呈现爆发式的增长,严重影响了智能终端用户的财产安全和隐私信息安全。因此,如何实时监测和拦截Android软件恶
互联网是一个由数以百万计的本地网络组成的全球性网络,承载着广泛的信息资源与和服务。在网络空间中运作的系统和网络存在安全漏洞,给使用它们的个人、组织与国家带来安全风险
反射攻击是最近较为流行的一种分布式DDoS攻击,对互联网的正常运行造成了比较严重的危害;扫描通常作为所有网络入侵行为的起点在互联网上普遍存在。本文的研究工作将以反射式D
RFID(Radio Frequency Identification)是一种采用射频电波的自动识别技术, RFID基本系统由标签、阅读器和主机构成,阅读器读到的标签经过网络传输到主机。当前 RFID技术广泛
内网攻击是企业面临的最严重的网络安全威胁之一。在过去的十年里,成功的内网攻击案例增加了数倍,而由此带来的经济损失也数以亿计。在所有的对内网安全构成威胁的行为中,数