教育领域BBS的热点话题发现研究——以西祠胡同教育版为例

论文部分内容阅读

无处不在的网络、无处不在的通讯和堆积如山的文档，构成了当今社会信息爆炸的基本特征。BBS是目前最流行的网上讨论场所之一，越来越受到网络用户的欢迎。因此，在Web论坛上会产生大量的新的内容，这也使得人们对信息的获得变得越来越难。当然，人们打开论坛，首先关心的是该论坛内讨论最激烈最有价值的话题是什么。但是当面对如此庞大且繁杂的数据，获取这种热门的话题如此之难。为了解决这个难题，本文提出了基于语义和时间推移的单遍聚类方法来发现BBS中的热点话题，该方法是在深入分析和研究BBS的结构、语言模式、文本特点的基础上得出的。　　首先，针对BBS论坛上的数据设计了相应的封闭式的网络蜘蛛，将Web网页上的帖子相关网页下载到本地供以后使用。以西祠胡同的十个教育版块为例，抓取了每个版块前十页的内容。　　其次，针对抓取的信息进行信息抽取，并将抽取的结构化的数据信息存入本地数据库中。这里针对西祠胡同页面的语言模式特点和网页结构分布的规律，提出了一种基于网页结构和正则匹配的BBS信息抽取方法，该抽取方法能够高效且准确的抽取出BBS中的信息。　　接着，由于BBS文本的非规范性导致很多帖子的内容根本没有实际的含义，因此在文本表示时首先需进行预处理，包括分词、去停用词、去噪等。然后对剩下的词通过同义词词林进行语义的映射，将BBS中非规范的词转成相对规范的词，有助于帖子语义信息的处理，将用不同表达方式表达的语句映射为类似方式表达的语句。　　紧接着，对已经处理好的信息进行基于单遍聚类处理以发现话题。在进行聚类处理时考虑到帖子的时间特性及内容特性，认为每个帖子的热度是随着时间的发展而降低的，因此采取一种基于语义及时间推移的单遍聚类方法，在聚类的同时计算每个主题的能量值，话题的总能量值就是组成该话题帖子的能量值之和。　　最后，对于前面已经生成的话题，进行热度的排序。这里热度高低的评价方法包含两个部分，一是用户的关注度，二是话题的爆发性。用户的关注度可从统计的角度来计算，包括浏览数、回复数、参与人数等。话题的爆发性即突发性，可从话题的第一回复时间和平均回复时间来计算。　　基于以上的研究，本文设计了面向教育领域BBS的热点话题发现系统模型，在设计模型的过程中对每种算法也进行了实验研究，实验证明本文的方法是有效的。　　

其他学术论文