社交媒体文本数据挖掘算法及应用

来源 :南京大学 | 被引量 : 0次 | 上传用户:liongliong535
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交媒体是互联网近几年快速发展的产物,现如今已融入了人们生活的方方面面。社交媒体数据已经成为互联网中最重要的信息来源,在互联网各类应用中发挥着重要的作用。文本挖掘技术也正在逐步适应大数据时代,在社交媒体中逐步流行起来。传统的文本挖掘任务主要针对格式规范的新闻文本。各类文本处理工具在基于新闻文本的任务中都能够提供可靠的预处理结果。然而,传统的文本处理方法在互联网数据文本的处理中显得不尽如人意。互联网文本如微博数据,有着较多区别于传统文本的特性。这些特性给社交媒体文本挖掘工作带来了新的机遇和挑战。针对互联网数据的新特性,我们从社交媒体分析领域的两个具体任务出发提出了我们的方法。在微博平台中,用户能够随时发布微博来记录他们的日常生活以及表达他们的观点或者想法。最近,基于用户微博数据来为用户生成个性化标签的任务逐步流行了起来。个性化标签,作为描述用户个性化兴趣爱好的特征,在用户画像、个性化推荐等领域起到了非常重要的作用。很多已有的标签抽取工作都是作为普通的关键词抽取任务来完成。对于内容简短、格式不规范的微博数据,传统的关键词抽取方法难以获得较好的抽取结果。在本文中,我们提出了一种无监督的标签抽取方法。首先,我们使用了一种特殊的数据标准化方式来构造数据集。之后,通过基于稀疏模型的特征选择方法来为用户抽取特征词,并对目标标签进行扩展。最后,我们定义了一种重排序的优化策略来过滤抽取结果。我们在新浪微博的数据集上进行了实验。对比其他无监督的方法,我们提出的方法显著地提升了标签抽取效果。微博中的事件抽取任务是一个非常有趣却很难的任务。现存的大多数方法都是基于事件特征词的共现频率或者主题分布来进行事件抽取的。较少的工作使用到了微博数据中的时序信息进行事件识别。在本文中,我们使用了一种基于协同训练的多视角聚类方法,在事件抽取过程中能够同时考虑数据中的主题信息和时序信息。首先,我们分别利用主题模型和时序分析算法构造事件特征词的主题相似度矩阵和时序相似度矩阵。随后,基于协同训练的多视角聚类算法会被用来对事件特征词进行聚类,不同的类簇表示不同的事件。在Twitter数据集上的实验结果表明,我们的方法不仅比单独考虑主题模型和时序分析的单视角方法要好,对比其他基于关键词聚类和基于文本聚类的方法也有很大的优势。
其他文献
益生菌作为饲料添加剂,对改善动物肠道菌群平衡,抑制病原微生物的生长已初见成效。益生菌生长过程中产生的一系列物质,具有抑制真菌和细菌生长的作用,本文旨在对益生菌产生的主要
园林绿化是城市建设的重要工程,其绿化树种的培育是园林绿化工程重中之重的环节。以平山县绿化工程为例,分析平山县地理位置、气候条件以及绿化概况,从园林绿化角度做好树种
<正>《巨人传》是文艺复兴时期法国作家拉伯雷的唯一一部长篇小说。作者用荒诞的手法、夸张的语言,塑造了卡冈都亚、庞大固埃等体魄健壮、心智发达、充满理性精神的巨人形象
财政支出绩效评价体系作为全面实施绩效管理的重要工具,为保证绩效管理的顺利推进,需提高绩效评价工作效率。本文从绩效意识薄弱、评价主体缺乏独立性、评价指标不完善、评价
1998年8月5日,全省园艺工作会议在无锡召开。当与会领导、园艺行家100多人驱车来到“全国科技致富能手”嵇夕华亲手创办的宜兴华盛杜鹃花实验场,亲眼看到那规模宏大的遮阳网下数十万盆杜
目的:分析运用生脉注射液治疗老年慢性肺源性心脏病合并心衰的临床预后疗效。方法:随机选择在我院进行治疗的肺源性心脏病合并心衰的老年患者168例,分成观察组和对照组,各84
元代扈从纪行诗以新奇的眼光透视异域文化,通过对居庸关、李陵台等地理意象的衔接组合,开辟了诗歌描摹对象的新空间,极大地丰富了唐宋之后诗歌的内容和视界,并在情感表达上表
《小的是美好的》是七十年代初发表的谈论发展问题的一部畅销书。尽管这本书存在着某些错误观点,总的来说它是西方研究发展战略的一部重要著作。尤其是它提出的“生产问题尚
目的:研究针刺配合循经筋拉伸治疗膝骨性关节炎的临床疗效,并与传统针刺比较,评价针刺配合循经筋拉伸的功能锻炼方式治疗膝骨性关节炎的疗效,探讨治疗膝骨性关节炎的最佳方案
本文首先用寡占市场的卡特尔理论来分析OPEC组织对世界石油市场供求平衡的影响,进而得出OPEC石油战略对世界石油价格的影响。短期内,OPEC的石油战略可能会影响石油供给和短期