论文部分内容阅读
随着传感器、通讯、物联网及大数据等技术的飞速发展,人类已经进入万物互联的5G时代。我国是农业大国,亦是农机制造与使用大国。农业生产模式不一、田间环境差、生产环节繁杂、影响因素多样,使得农机田间作业产生的数据呈现存储介质多样、结构复杂、维度高、时效性强等特性,易产生云端运算负载大、响应速度慢、数据异常等突出问题。为此,本文研究了负载均衡大规模集群数据清洗与数据处理方法,建立了农机田间作业地块时空数据库及数据平台,优化了农机田间作业数据的检索技术。主要研究内容包括:1.对农机田间作业数据进行分类,建立了农机田间作业地块四维时空数据库。该数据库重点描述了不同时间及动态环境下地块的位置信息、气象信息、附着物信息及地块作业信息,以面向对象的方式描述农机田间作业数据之间的拓扑关系,并结合WebGIS技术对相关数据进行可视化。2.对农机田间作业数据在传输过程中出现的异常问题进行研究,提出了基于Flink的数据清洗算法。该算法通过方差约束的方式确定异常数据,通过最小变动原则求解一元二次方程的方式对异常数据做原始估算,通过ARX模型迭代计算出最优估算值,试验结果表明:当数据量达到1×105时,算法的准确性趋于稳定,准确率P为0.94、R值在0.9-1之间,F值为0.94,RMS Error为2.82;优化结果表明:在异常数据比例为5%,m=5,τ=0.1,W=1000时,能满足可接受的时间复杂度的最佳修复效果,其中准确率P为0.95、R值在0.9-1之间,F值为0.95,均方根误差小于1,响应时间小于1s,在一定程度上解决了服务端农机田间作业数据传输过程中的数据异常问题。3.选用了 HBase数据库进行农机田间作业数据存储,针对HBase在多条件时检索农机田间作业数据性能不足的问题进行研究,提出了基于Solr的二级非主键索引方法。在多条件农机田间作业数据检索时,当数据量达到5×107时,响应时间小于1s,优化的性能与原生HBase相比提高了 3倍;数据规模分别为1×105、1×106和1×107时,随着检索条件的增加检索的时间逐渐减小;读写能力在1×105、1×106和1×107条数据规模时,优化的插入性能平均降低了 13.3%,在一定程度上解决了数据检索响应慢的问题。4.设计了一种具有四层架构的农机田间作业数据平台解决方案,分别为感知层、网络层、中间层和应用层。并对搭建的数据平台进行了压力测试及性能测试,测试结果表明:平台在100线程的5×105次并发请求压力测试中,平均响应时间为110ms,最长响应时间为155ms,最快响应时间仅22ms,错误率为0.28%,吞吐量为94.5MB/s,可满足农机田间作业数据平台的要求。