论文部分内容阅读
互联网的高速发展和广泛普及正深刻影响着社会的发展和信息的传播,越来越多的人习惯通过微博、论坛、社区等网络载体传播见闻、事件和政策等各种信息。教育领域也正在新的时代下飞快地更新迭代,信息平台的发展为我们提供了获取教育信息的一大捷径。而在信息充足丰富的同时,信息冗余的问题也随之而来。因此,在快节奏的生活中,我们希望尽可能快速而全面地捕捉到教育领域中的前沿内容。本文的研究对象主要是在微博平台上发布了与教育相关内容的博主账号,希望寻找一种途径能帮助我们在众多可供选择的对象集中筛选出一个小的博主集合,通过关注小集合中这些大V人群的微博信息,提炼出有关教育的、最新且覆盖面较广的信息动态。针对这个问题,我们首先对已有的研究和方法进行了分析,然后聚焦在比较有效的主题模型上。考虑到教育领域和微博文本的特点,我们确定出初步圈定对象的标准,找到合适的样本;继而获取他们的文本数据,并采用中科院的分词工具进行了数据转换和预处理,编写好词库和对应编号,使之形成形如“博主序号-词语编号-词频”的三元组,使数据能直接应用到模型中分析。在分析和解决问题中,我们针对数据做了三层递进的实验。首先抽取小样本分别进行AT模型和人工多重审阅的分析方式,观察能最大程度呈现出相近结果的筛选方式,将它确定为本文的筛选机制——首先采用AT模型对主题进行划分,其次根据呈现的关键词对主题进行归纳并根据他们的比率排序,优先关注在同一顺位上出现次数最多的博主。最后分别针对采集到的两个规模下的样本按照制定以上方式进行筛选,找到在限定主题中的最优关注用户集合。本文的研究为类似问题的处理提供了范例。也还存在一些可以更进一步挖掘的地方,如可以考虑备选博主群的实时更新,以满足话题变迁的可能性,或者博主间关联度分析和博主背景等。这需要持续开展研究,本研究结果可以为后续研究打下基础。