新闻线索采集分析推送系统的设计与开发

来源 :山东大学 | 被引量 : 0次 | 上传用户:DINGDING122951
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展,电视、广播、报纸等传统媒体行业受到巨大的冲击。电脑、手机逐渐代替了电视机、收音机、报纸、杂志。差不多十年前开始,传统媒体纷纷转型求变,从开始的“三网融合”,到“互联网+”,再到“媒体融合”。出现了“统筹策划、一次采集、多种生成、多元传播、科学评价、有效应用”的全新业务模式。更推动了内容、平台、渠道、数据、技术、人才、机制、管理等方面深度融合。随着各地媒体纷纷建设自己的融媒体中心,在这个“内容为王”的时期,开发一套媒体融合平台便成了最重要的工作之一。而作为媒体融合平台中最核心的数据中心更是保障着其它系统正常运作。经过研究媒体融合过程中的最迫切的需求和关键业务,结合比较成熟的互联网和自然语言处理技术,设计并且实现了新闻线索采集分析推送系统。首先,本文在讨论新闻线索采集分析推送系统的背景和开发设计上所面对的问题的基础上,分析了系统的功能需求和非功能性需求。并且在需求分析基础上,我们对系统进行了技术架构和功能架构的设计。技术架构主要考虑系统的稳定性,可扩展性,可维护性以及性能问题,采用了 Linux系统下Nginx+MySQL+PHP(LNMP)的网站服务器架构[24],并对各层的功能进行了分析与设计。然后,在详细设计部分,首先对各个模块的实现进行了简单介绍,给出了系统的整体效果图和各个功能模块的实现方案。然后对数据采集、大数据分析、搜索引擎、接口开发进行了详细分析。其次,介绍了各个模块中重点功能的具体实现。数据采集介绍了用到的几种采集方法,重点介绍的了使用Python的爬虫框架Scrapy来进行网页内容抓取和使用移动端自动化测试工具Appium结合前端代理工具Anyproxy进行抓包。数据分析我们开发语言使用了 PHP和Python,讲到了使用机器学习、自然语言处理技术对数据进行加工。搜索引擎我们选择了 ElasticSearch引擎。ElasticSearch支持分布式存储,支持PB级的大数据搜索,海量数据下近实时性能支持,保证了系统的稳定性并且有很好的扩展性。再次,完成了测试的环境搭建,并对服务器和数据库进行了基准测试,对各功能模块进行了功能测试、性能测试,并且给出了分析结果。最后,对系统的使用情况进行了介绍,并提出了系统现在存在的一些问题和改进思路。
其他文献
1992年以来,我国进行了4次机构改革,其中,1998年至2001年的机构精简,是中国行政体制改革进程中力度最大的改革之一.
建设城市森林,改善城市环境,促进市民的身心健康,是实现城市可持续发展的重要保证。本文在对赤峰市经济、社会、土地利用概况等与森林城市建设相关的内容进行简单介绍之后,应
为加快北部边缘区油茶生产,选育适宜豫南山区栽培的优良油茶品种,通过对引种油茶长林系列的8个果实性状进行分析,采用主成分分析法评价各品种的综合表现。结果表明:长林系列的
互联网公益被视为中国慈善的未来,作为网络公益的重要载体,互联网公益平台在慈善法颁布后逐渐发展,多种运营模式日趋成形,加强对其的研究是应有之举,相互宝就是网络公益平台
【正】线是人类艺术表达最原始、最简洁亦是最能直接表达情感的造型手段。线是我国造型艺术的基础,是最重要的艺术表现语言。线存在于各种形态的艺术中,如绘画、雕塑、青铜器