论文部分内容阅读
近十几年互联网用户数量飞速增长,这形成了互联网发展的黄金时代。互联网用户同时以“生产者”和“消费者”的双重身份参与到互联网生活中,这极大的推动了社交网络的发展。于是学者提出,相对于之前的互联网环境我们已经进入了 WEB2.0时代。与此同时,中国社交网站经过不断的迭代和发展,如“新浪微博”、“(微信)朋友圈”的到了海量用户的好评和使用,它们已经成为目前用户量最多的社交网络形式。针对社交网络(微博)相关问题,特别是用户情感分析,学者对其进行了大量研究,也取得了一定成果。但是相关研究中还存在一些问题。本文就是从之前的学者研究入手,针对其存在问题做了相关研究。主要内容如下:针对新浪微博网站特性及其加强网站数据控制导致的数据获取困难,设计了分布式网络爬虫系统架构,并使用Python编程语言和MySQL数据库实现了分布式网络爬虫系统程序。抽取一定数量微博和微博评论作为样本,进行人工标注形成实验数据。使用Java编程语言实现并改进“基于传统文本分类算法(SVM算法)”、“基于情感词典的短文情感分类算法”,增加特殊处理双重情感倾向表情符号、特殊标点符号情感处理过程,优化网络词典。针对“对话式”微博评论的特点,使用Java编程语言实现基于社交网络评论结构的层次分析算法。对比分析上述改进算法在实验中的正确率。实验验证了本文中设计并实现的分布式网络爬虫能够稳定快速的获取新浪微博数据。改进算法前后实验结果显示,双重情感表情符号、标点符号、网络词典、分层分析“对话式”微博评论等特殊处理能明显提高微博评论情感分析正确率。