论文部分内容阅读
社交媒体是互联网近几年快速发展的产物,现如今已融入了人们生活的方方面面。社交媒体数据已经成为互联网中最重要的信息来源,在互联网各类应用中发挥着重要的作用。文本挖掘技术也正在逐步适应大数据时代,在社交媒体中逐步流行起来。传统的文本挖掘任务主要针对格式规范的新闻文本。各类文本处理工具在基于新闻文本的任务中都能够提供可靠的预处理结果。然而,传统的文本处理方法在互联网数据文本的处理中显得不尽如人意。互联网文本如微博数据,有着较多区别于传统文本的特性。这些特性给社交媒体文本挖掘工作带来了新的机遇和挑战。针对互联网数据的新特性,我们从社交媒体分析领域的两个具体任务出发提出了我们的方法。在微博平台中,用户能够随时发布微博来记录他们的日常生活以及表达他们的观点或者想法。最近,基于用户微博数据来为用户生成个性化标签的任务逐步流行了起来。个性化标签,作为描述用户个性化兴趣爱好的特征,在用户画像、个性化推荐等领域起到了非常重要的作用。很多已有的标签抽取工作都是作为普通的关键词抽取任务来完成。对于内容简短、格式不规范的微博数据,传统的关键词抽取方法难以获得较好的抽取结果。在本文中,我们提出了一种无监督的标签抽取方法。首先,我们使用了一种特殊的数据标准化方式来构造数据集。之后,通过基于稀疏模型的特征选择方法来为用户抽取特征词,并对目标标签进行扩展。最后,我们定义了一种重排序的优化策略来过滤抽取结果。我们在新浪微博的数据集上进行了实验。对比其他无监督的方法,我们提出的方法显著地提升了标签抽取效果。微博中的事件抽取任务是一个非常有趣却很难的任务。现存的大多数方法都是基于事件特征词的共现频率或者主题分布来进行事件抽取的。较少的工作使用到了微博数据中的时序信息进行事件识别。在本文中,我们使用了一种基于协同训练的多视角聚类方法,在事件抽取过程中能够同时考虑数据中的主题信息和时序信息。首先,我们分别利用主题模型和时序分析算法构造事件特征词的主题相似度矩阵和时序相似度矩阵。随后,基于协同训练的多视角聚类算法会被用来对事件特征词进行聚类,不同的类簇表示不同的事件。在Twitter数据集上的实验结果表明,我们的方法不仅比单独考虑主题模型和时序分析的单视角方法要好,对比其他基于关键词聚类和基于文本聚类的方法也有很大的优势。