论文部分内容阅读
烟草行业在中国是一种备受争议的专卖专营特殊行业,行业的各种行为极易引发舆情讨论。烟草行业在发展过程中一直很重视对网络舆情的监控,但是行业内部对网络舆情的监测大部分还处于人工模式。本文设计并实现了一个烟草行业网络舆情监控系统,利用网络爬虫技术在采集、处理海量数据方面的优势,以实现对涉烟网络舆情全方位的抓取,并提供给用户可视化的舆情信息查询、主题追踪、统计分析等监控服务。本文首先对网络舆情监控研究现状,网络爬虫、自然语言处理、机器学习技术进行考察分析调研。其次,本文对烟草行业网络舆情监控系统的采集对象、需求进行分析,并根据需求及业务流程,进行了系统总体架构设计、数据库设计、子系统设计。本系统主要分为舆情采集、舆情应用、系统管理三个子系统。在系统实现部分,本文按照各子系统的实现进行说明。包括选用基于Python语言的Scrapy爬虫框架,自定义策略应对网站的反爬措施,运用Selenium解决了动态网页数据的抓取问题;通过正则表达式、XPath选择器,配合Pandas、Numpy库进行数据清洗提取筛选;基于Jieba的中文分词构建涉烟舆情词典和词性库,自定义涉烟舆情特色关键词的提取规则;通过Word2Vec训练词向量、PCA进行数据降维、SVM模型进行基于机器学习和情感词的文本倾向性分析;通过Wordcloud生成词云、Matplotlib绘制图表,构建Web项目实现系统可视化展示。最后,本文对系统进行测试分析,包括设置测试内容、测试方法、测试结果等方面。本系统的设计与实现,大大提高了涉烟舆情的监控效率,对于烟草行业的社会形象维护具有重要的现实意义。