论文部分内容阅读
无处不在的网络、无处不在的通讯和堆积如山的文档,构成了当今社会信息爆炸的基本特征。BBS是目前最流行的网上讨论场所之一,越来越受到网络用户的欢迎。因此,在Web论坛上会产生大量的新的内容,这也使得人们对信息的获得变得越来越难。当然,人们打开论坛,首先关心的是该论坛内讨论最激烈最有价值的话题是什么。但是当面对如此庞大且繁杂的数据,获取这种热门的话题如此之难。为了解决这个难题,本文提出了基于语义和时间推移的单遍聚类方法来发现BBS中的热点话题,该方法是在深入分析和研究BBS的结构、语言模式、文本特点的基础上得出的。
首先,针对BBS论坛上的数据设计了相应的封闭式的网络蜘蛛,将Web网页上的帖子相关网页下载到本地供以后使用。以西祠胡同的十个教育版块为例,抓取了每个版块前十页的内容。
其次,针对抓取的信息进行信息抽取,并将抽取的结构化的数据信息存入本地数据库中。这里针对西祠胡同页面的语言模式特点和网页结构分布的规律,提出了一种基于网页结构和正则匹配的BBS信息抽取方法,该抽取方法能够高效且准确的抽取出BBS中的信息。
接着,由于BBS文本的非规范性导致很多帖子的内容根本没有实际的含义,因此在文本表示时首先需进行预处理,包括分词、去停用词、去噪等。然后对剩下的词通过同义词词林进行语义的映射,将BBS中非规范的词转成相对规范的词,有助于帖子语义信息的处理,将用不同表达方式表达的语句映射为类似方式表达的语句。
紧接着,对已经处理好的信息进行基于单遍聚类处理以发现话题。在进行聚类处理时考虑到帖子的时间特性及内容特性,认为每个帖子的热度是随着时间的发展而降低的,因此采取一种基于语义及时间推移的单遍聚类方法,在聚类的同时计算每个主题的能量值,话题的总能量值就是组成该话题帖子的能量值之和。
最后,对于前面已经生成的话题,进行热度的排序。这里热度高低的评价方法包含两个部分,一是用户的关注度,二是话题的爆发性。用户的关注度可从统计的角度来计算,包括浏览数、回复数、参与人数等。话题的爆发性即突发性,可从话题的第一回复时间和平均回复时间来计算。
基于以上的研究,本文设计了面向教育领域BBS的热点话题发现系统模型,在设计模型的过程中对每种算法也进行了实验研究,实验证明本文的方法是有效的。