论文部分内容阅读
我国农产品买难卖难问题日益凸显,严重影响农民收益和农业经济秩序稳定。农产品价格传导作为价格机制中不可或缺的组成内容,对于及时发现商品交易过程中买难卖难现象具有重要意义。而目前的农产品价格传导研究主要利用国家、省份的农业相关统计年鉴数据,存在严重滞后且数据粒度较粗,无法及时发现商品价格在不同城市间传导规律。随着信息化技术的快速发展,互联网已经成为最重要的信息源头,网络上农产品电商平台超过30000家,每天定时发布更新农产品公告、供求、价格等消息,数据实时且价格可细化到各个城市农贸市场一级,因此利用这些平台数据就有可能更加精确发现农产品价格空间传导路径。本文重点以互联网大数据为背景,针对农产品价格在不同地域的传导方向、周期等内容开展研究,具体来说,包括以下3部分。(1)由于互联网信息缺乏统一的描述格式,数据冗余且表达不一致,因此首先对农产品名称与类别进行语义级的自动识别。而传统的基于条件随机场(CRF)的信息抽取方法在农产品名称与类别识别过程中依赖样本语料,人工标注工作量大,没有考虑语义特征,准确率低。因此本文为解决该问题,利用CRF结合农业本体的方法进行农产品名称与类别识别。共使用词、词性、地理属性和农业本体概念4种特征,完成4组对比实验,识别7种农产品类别。通过实验表明本体概念的加入使CRF开放测试的总体准确率、召回率、F值提高了 10.20%、59.78%以及35.17%,从而有效实现了互联网农产品相关信息的语义级获取。(2)以西红柿为例,选取北京、上海、重庆等26个城市的从2016年1月11日到2017年2月27日的以3天为周期的共计138条价格时间序列数据。以300千米为半径将城市划分为8个区域,分别对同一区域内的城市西红柿价格数据进行平稳性判断即ADF单位根检验、长期稳定性衡量即Johansen协整分析并实现价格传导方向判断的Granger因果检验。综合考虑空间与时间因素,估算出价格空间传导的合理周期并得到传导路径,有利于减缓价格大幅度波动。(3)基于西红柿价格空间传导路径研究整理出来的农产品相关数据,开发了可视化系统,可实现以时间、价格或地区等不同维度的可视化展示,提高了决策的可交互性。