基于Spark框架与K-means的篮球运动数据分析研究

被引量 : 0次 | 上传用户:proudboy_linux_wzh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究背景:随着篮球赛事的广泛开展,传统数据处理分析方法已不能满足篮球运动训练指标的优化和培训状态的评估,严重制约了篮球数据的数字化管理进程。当前篮球运动大数据分析存在以下问题:(1)缺乏对数据计算分析平台与框架的应用研究。随着计算机存储设备与运动数据采集设备功能日益强大,篮球运动数据存储量与计算量都在不断飞速增长,目前的数据分析平台无法满足篮球运动大数据分析需求。(2)缺乏对深度学习建模与机器学习算法研究,局限于个别动作数据查询和竞技水平统计描述,对数据的挖掘与分析不够深入,无法提供篮球运动信息预测与策略支持。研究方法:2.1构建大数据分析开源计算平台Hadoop MapReduce技术广泛应用于篮球运动大数据平台,由于MapReduce需要将任务产生的中间结果写回磁盘,因此需要从网络中的各个节点进行数据拷贝,大量的时间耗费在网络磁盘存储过程中。因Hadoop MapReduce技术制约了篮球运动数据实时分析与计算。为了应对Hadoop MapReduce的运算速度限制,本研究基于美国加州大学伯克利分校AMPLab提出的开源类通用并行计算框架Spark搭建大数据并行计算平台。Spark被设计成支持多场景的通用大数据计算平台,它可以解决大数据计算中的批处理,交互查询及流式计算等核心问题,数据的存储在生产环境中由Hadoop分布式文件系统HDFS承担。Spark拥有Hadoop MapReduce所具有的优点,但不同于MapReduce,Spark中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的算法。2.2.基于Scrapy抓取框架与AJAX技术提取球员数据基于web爬虫抓取技术自动采集技术统计数据作为学习样本,搭建深度学习网络模型,利用机器学习算法进行数据深入挖掘分析,为教练员提供运动训练决策支持。Scrapy是Python语言中实现抓取的框架技术,用于抓取web站点并从页面中提取的数据,可以用于数据挖掘与数据监测。AJAX(Asynchronous JavaScript And XML),即异步JS和XML,即使用JS语言与服务器进行异步交互。基于Python中json模块实现AJAX技术,通过json.dumps方法,将python中的基本数据类型序列化为一种标准格式的字符串,进而可以存储或通过网络传输。采用AJAX技术获取球员链接的网页,再基于Scrapy框架进行网络数据抓取,获得球员数据,导出CSV文件。2.3基于K-Means聚类算法进行数据分析与可视化控球后卫(Point Guards)是球场上拿球机会最多的人,通常是篮球运动中全队进攻的组织者。本文以控球后卫为例,采用k-Means聚类算法来进行数据分析与数据可视化展示。本研究通过控卫的助攻失误率和每场球赛的平均得分将控卫分为5大类型。我们也可以利用球员的更多信息来进行聚类。得到了这些聚类信息,再去获取每簇中的球员的信息,一个簇中的球员的水平相当,如果一个簇中有一个球员得到的关注很大,那么该簇内其它球员同样可能得到很大的关注,因为他们属于一个高水平的球员簇中。K-means算法的优点是容易实现,在聚类过程中,保存了每个点到质心的距离,将其理解为误差,那么SSH值越小表示数据点越接近于它们的质心,聚类效果也越好。因为对误差去了平方,因此更加重视那些远离中心的点。但因为随机初始化的质心不同,很有可能导致最后形成的簇也不同,因此可能不是最优解,并且要进行多次相似性度量。研究结果:在大数据时代,篮球赛事中数据挖掘能力不但影响着篮球数据统计与分析模式,也影响着篮球运动训练与竞技水平的未来发展水平。本文的研究意义在于:(1)基于Spark框架与云计算技术,整合现有分散孤立的运动数据源,并基于集群运算环境构建大数据分析计算平台,能够推进篮球赛事中数据分析信息化进程。(2)基于大量技术统计数据作为学习样本,搭建深度学习网络模型,利用机器学习算法进行数据深入挖掘分析,对篮球运动员比赛数据进行数据可视化描述,提升篮球运动的决策智能化水平。在下一步的研究工作中,将基于Spark框架,利用缓存与广播技术,调整计算并行度,从而进一步提升运算效率。同时,通过预处理使得数据满足分类算法的要求,减少对预定义类和类标号的训练实例依赖,从而减少计算代价异常增大的现象。
其他文献
随着我国乡村振兴战略的提出及推进和现代化农业的高速发展,我国的农业社会服务越来越成为现代化农业发展的强有力支撑,合作社作为有机衔接现代化农业的发展与小农户间联系的组织载体,是现如今我国农业社会服务体系中重要的服务主体与与中坚力量,在降低农户的生产成本与交易费用,推广现代化农业技术等方面发挥着重要的促进作用。农民专业合作社的基层组织成员是社员,其发展和社会化服务最终实施的主体也应该是社员,合作社的发
如今,新一轮课程改革正在逐步推进。在新一轮课程改革中,教师的教学和教育活动需要以学生为中心进行,采用多样化的手段引导学生自主探索和学习知识。随着高中教学中素质教育
近年来,伴随着乡村振兴战略的实施,中央和地方各级政府把加快发展乡村旅游作为促进农村地区产业转型升级、实现乡村振兴的一项重点工作,加快全国各区域范围内乡村旅游建设,乡村旅游的迅猛发展也为农村经济发展做出了显著贡献。杭州市作为我国的新一线城市和重要的旅游城市之一,其乡村旅游发展也在蒸蒸日上,在人均收入较高、生活水平较好,但人口老龄化较严重的背景下,老年旅游市场潜力巨大。本文以杭州城市老年人做为调研对象
最近二十年来,传播媒介形态迅猛发展,新的传播现象和传播规律不断突破传统传播学研究的阈限,彰显出对新的研究方法与研究范式的渴求;与此同时,作为研究人类感知和思维信息处
并州,地处北方游牧区与农耕区的过渡地带,形势险要,是防范北方草原民族南犯的重要关口,被誉为“中原北门”。作为大唐的边防重镇,并州不仅是河东道的首府,还是李唐的龙兴之地,朝廷对其的重视,可以从并州刺史的职责、选任、迁转等方面体现出来。特殊的战略地位使得并州刺史在抵御外敌入侵、维护区域秩序、整治军队等方面发挥着重要作用;作为一州最高行政长官,组织生产、善政恤民、移风易俗等是其最基本的职能。整理相关史料
自改革开放以来,我国居民对文化建设的关注日益增加,邓小平同志也曾多次提出要发展生产力,关键要重视文化建设;2017年,中共十九大报告中指出“产业兴旺、生态宜居、乡风文明、治理有效、生活富裕”的总要求,作为乡风文明的重要组成部分,加快建设农村公共文化步伐有助于社会主义体系进一步完善、带动周边经济发展,满足周边居民的精神需求,增加人们的幸福感。然而,当前我国农村的公共文化建设中农户参与意愿不强烈,使得
分子与表型相结合的大豆设计育种是分子数据和表型数据协同完成的。随着数字化农业的发展,数据库信息管理技术广泛地应用于大豆领域。育种家也越来越重视大豆植株精准表型数据的提取及管理。在线可查可上传的数据库系统实现了表型数据共享,为表型学研究者提供了一定的数据支持。目前关于作物精准表型信息管理数据库的研究相对较少,但数据库对于信息管理功能带来的便利程度远远超过了传统存储数据的方式,数据共享已经逐渐成为作物
由于农户长期不合理的农业生产行为,导致我国耕地质量破坏严重,改善农户农业生产行为,保护农产品质量安全是当前亟需解决的现实问题。家庭农场作为当前我国农业生产经营最适宜的主体,积极引导家庭农场采纳绿色农业生产技术,是保护我国耕地质量、减少农业面源污染较为科学的手段。鉴于此,本研究在梳理总结大量国内外相关文献的基础上,基于2018年全国家庭农场监测项目,以1706个种植业家庭农场为研究对象,构建Prob
癌症严重影响人类的生命健康和生活质量,许多学者已经从分子生物水平上对癌症的发生和发展进行了研究。膀胱癌(bladder cancer BCa)作为人体十大常见肿瘤之一,同时也是泌尿生殖系统中最常见的恶性肿瘤之一,占我国泌尿生殖系肿瘤发病率的第一位,其中男性多见,男女比例约为4:1,平均发病年龄在55-60岁左右。据统计全国肿瘤登记地区中,2012年膀胱癌的发病率约为6.61/10万,位居恶性肿瘤发
番茄是一种重要的蔬菜作物,具有广泛的应用价值和食用价值,但是在生长过程中,会受到低温的伤害,而多毛番茄(Solanum habrochaites)具有抗冷性,是重要的番茄抗冷种质资源。叶绿体是重要的细胞器,负责光合作用,并在绿色植物和藻类的植物生理和发育中起着至关重要的作用,叶绿体基因组不仅与光合作用、呼吸作用等重要的植物生理活动有关,而且对番茄系统发育的研究方面等也有重要的作用。因此,对多毛番茄