论文部分内容阅读
我国是世界中药材资源大国,也是中药材贸易大国。中药材的开发和有效利用在我国已有几千年的历史,是作为人民防病治病的主要武器,对保障人民健康和民族繁衍起着不可忽视的作用,中药材产业成为国民经济重要支柱之一。中药材种植不仅影响其质量,同时也影响整个产业的正常发展。种植作为中药材产业的最前端,需要收集更多的相关信息,纵然随着网络技术的发展和广泛应用,网上存在着大量的中药材产业的信息,但这些信息存在源头多、数据杂、采集难的问题,缺乏合理的梳理归类;即便是统计数据,各系统之间也相互独立,形成―数据孤岛‖,不能实现数据共享。基于上述问题,本文利用Scrapy爬虫技术,对我国常用大宗中药材种植相关的数据,如:种植年份、地域、面积、产量、交易价格等方面的多源异构的数据进行收集整理,通过数据的交互,采用Django Web网络开发框架,设计并实现了基于B/S构架的大宗中药材种植可视化系统,并利用该系统进行了大量规律分析,实现了快速寻找这些大数据背后的规律,为中药材种植产业服务。主要研究结果包括:(1)系统功能需求分析。对系统进行了功能需求分析,确定了系统的5大功能需求:数据采集需求、数据处理需求、数据存储需求、数据可视化需求以及系统管理需求,并对各功能需求进行了详细分析和阐述。(2)对常用大宗中药材近10年种植的地域分布、种植面积、产量、交易价格等数据资源的采集。利用Scrapy网络爬虫技术和框架,设计了针对中药材天地网、康美药业、国家重要产品追溯体系、国家统计局等国内中药材信息网站的定向网络爬虫,实现了所需相关数据资源的抓取。(3)功能系统所需数据资源的ETL加工处理。依据数据可视化的需要和不同数据集的特点,通过对多源异构的数据进行抽取、清洗、转换、规则检查、加载等处理,建立了基于Python的MySQL数据库设计,为本研究的可视化系统提供数据资源。(4)可视化系统设计与功能展示分析。采用Django Web网络开发框架,利用ECharts可视化工具,设计并实现了基于B/S构架的常用大宗中药材近10年种植的地域分布、种植面积、产量、交易价格等多维度的可视化系统,利用该系统,分析了常用大宗中药材种植全国分布状态,并以黄连为例,分析了黄连在全国的分布状态,近10年种植面积、产量、交易价格的逐年变化规律。