论文部分内容阅读
大数据技术衍生出的应用为我们的生活不断地提供着便利,但其在产后访视方面的应用并不活跃。产后访视指为产妇和新生儿进行健康检查,指导产妇及其家人正确护理新生儿的活动,旨在提高产妇的情绪管理和自我控制能力。但我国产后访视工作还存在不足之处:访视流程较为繁复、没有统一的标准、用户群体较为单一;对于不断增长的访视数据,缺乏灵活的定制分析和挖掘。针对目前产后访视工作存在的不足,本论文致力于规范产后访视的信息采集流程,搭建起一个大数据分析平台和任务调度平台,更好的指导访视工作的开展。系统借助JakartaEE体系架构实现了对于访视信息的采集;大数据分析平台中的Hadoop负责数据的存储;Spark计算引擎负责数据的处理与分析。用户可在任务调度平台中定制离线或实时的统计分析任务,远程触发执行Spark的业务分析代码。其中采用Spark技术栈中的SparkStreaming负责实时流的计算,SparkCore与SparkSQL协作完成对于离线访视数据的统计分析,对于访视数据的挖掘采用SparkMLlib进行。分析和计算结果存储于关系型数据库或Redis中,最后通过可视化控件对其进行渲染和多维度展现,为统计分析人员带来了便利。论文采用决策树分类模型对访视数据集进行训练,得到产妇月子期间心理状态的预测树,极大方便了访视计划的制定。实现了分布式集群中NameNode节点的失效备援,降低了集群崩溃的风险;研究了容易影响系统性能的配置项、算子、数据倾斜等问题并给出优化措施。论文对访视信息采集以及Spark任务分析系统的功能进行了白盒测试和黑盒测试,通过压力测试对Spark统计分析任务的并发性能进行了检验;在不同分类模型下对心里状态数据集进行了训练,得出了最优的产妇月子期间心理状态预测模型,并对准确率进行了对比分析,截至目前,产后访视信息采集子系统已服务于成都市天府新区,为访视工作提供了很大的便利。业务数据的传输与处理流程也为后续访视系统与推荐系统的结合提供了理论基础和技术可能,对产后访视的后续发展有着深远意义。