教育领域BBS的热点话题发现研究——以西祠胡同教育版为例

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:somlist
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无处不在的网络、无处不在的通讯和堆积如山的文档,构成了当今社会信息爆炸的基本特征。BBS是目前最流行的网上讨论场所之一,越来越受到网络用户的欢迎。因此,在Web论坛上会产生大量的新的内容,这也使得人们对信息的获得变得越来越难。当然,人们打开论坛,首先关心的是该论坛内讨论最激烈最有价值的话题是什么。但是当面对如此庞大且繁杂的数据,获取这种热门的话题如此之难。为了解决这个难题,本文提出了基于语义和时间推移的单遍聚类方法来发现BBS中的热点话题,该方法是在深入分析和研究BBS的结构、语言模式、文本特点的基础上得出的。   首先,针对BBS论坛上的数据设计了相应的封闭式的网络蜘蛛,将Web网页上的帖子相关网页下载到本地供以后使用。以西祠胡同的十个教育版块为例,抓取了每个版块前十页的内容。   其次,针对抓取的信息进行信息抽取,并将抽取的结构化的数据信息存入本地数据库中。这里针对西祠胡同页面的语言模式特点和网页结构分布的规律,提出了一种基于网页结构和正则匹配的BBS信息抽取方法,该抽取方法能够高效且准确的抽取出BBS中的信息。   接着,由于BBS文本的非规范性导致很多帖子的内容根本没有实际的含义,因此在文本表示时首先需进行预处理,包括分词、去停用词、去噪等。然后对剩下的词通过同义词词林进行语义的映射,将BBS中非规范的词转成相对规范的词,有助于帖子语义信息的处理,将用不同表达方式表达的语句映射为类似方式表达的语句。   紧接着,对已经处理好的信息进行基于单遍聚类处理以发现话题。在进行聚类处理时考虑到帖子的时间特性及内容特性,认为每个帖子的热度是随着时间的发展而降低的,因此采取一种基于语义及时间推移的单遍聚类方法,在聚类的同时计算每个主题的能量值,话题的总能量值就是组成该话题帖子的能量值之和。   最后,对于前面已经生成的话题,进行热度的排序。这里热度高低的评价方法包含两个部分,一是用户的关注度,二是话题的爆发性。用户的关注度可从统计的角度来计算,包括浏览数、回复数、参与人数等。话题的爆发性即突发性,可从话题的第一回复时间和平均回复时间来计算。   基于以上的研究,本文设计了面向教育领域BBS的热点话题发现系统模型,在设计模型的过程中对每种算法也进行了实验研究,实验证明本文的方法是有效的。  
其他文献
知识经济时代,培养学生的创新能力与问题解决能力是新一轮课程改革的目标。作为一种运用信息技术进行创新学习的理论,“知识建构(Knowledge Building)"经历20多年的发展,其理
教育在社会发展中处于优先发展的战略地位,而教师是保证教育质量的首要条件,是决定教育事业改革和发展的关键。高质量的师资队伍依赖于有效的教师教育,而教师培训是在职教师专业