大数据背景下数据分析服务的市场分析

来源 :计算机时代 | 被引量 : 0次 | 上传用户:mabeishangdeniuzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘  要: 对提供大数据技术服务的电商,分析其现状和商业需求,并通过爬虫技术爬取大型电商网站关于大数据分析服务的真实信息。研究当前小型数据分析服务和个人数据分析服务的销售价格、月销数量、顾客评分等。结合词频分析和统计技术,分析大型电商网站的大数据分析服务质量、价格、服务种类。研究发现,现有的基于大数据技术的电商服务存在定价不清、质量难以保证、客户评价真实性存疑等问题。针对问题提出标准化数据市场、引入第三方监管、建立成熟的收益机制的建议。
  关键词: 数据分析; 大数据; 可视化; 电商服务; 大数据技术
  中图分类号:TP30          文献标识码:A     文章编号:1006-8228(2021)07-10-04
  Market analysis of the data analysis service in the context of big data
  Qiu Min, Liang Tingting, Liang Tianyou
  (School of Information Engineering, Nanning University, Nanning, Guangxi 530000, China)
  Abstract: This paper analyzes the current situation and business needs of e-commerce company which provides big data technology services, and crawls the real information about big data analysis services on large e-commerce websites through crawler technology. The current sales price, monthly sales volume and customer ratings of small data analysis service and personal data analysis service are researched. Combining with word frequency analysis and statistical technology, the quality, price and service type of big data analysis service of large-scale e-commerce websites are analyzed. Through the research, it is found that the existing e-commerce services based on big data technology have some problems, such as unclear pricing, difficult quality assurance, and doubt about the authenticity of customer evaluation. In view of the problems, the suggestions of standardizing the data market, introducing the third-party supervision, and establishing a mature revenue mechanism are put forward.
  Key words: data analysis; big data; visualization; e-commerce service; big data technology
  0 引言
  近年來,随着移动互联网、云计算、大数据、人工智能的迅猛发展,全球大数据存储量持续快速增长,其中中国数据量的增长最为迅速。根据国际数据公司(IDC)的监测数据显示,2013年至2018年全球大数据储量分别为4.3ZB、 6.6ZB、8.6ZB、16.1ZB、21.6ZB、33.0ZB,近年全球大数据储量的增速每年都保持在40%左右。根据IDC最新发布的统计数据,中国的数据产生量约占全球数据产生量的23%[1]。
  IDC最新发布的《全球半年度大数据支出指南,2018H2》预测在2019年度,大数据与商业分析解决方案全球市场的整体收益将达到1896.6亿美元,相比2018年增长12.1%。IDC预测,2019年中国大数据市场总体收益将达到96.0亿美元,2019-2023年预测期内的年CAGR(复合年均增长率)为23.5%,增速高于全球平均水平。到2023年,市场规模则将增长至224.9亿美元[2]。
  在这样的背景下,数据在全球市场经济运转中的价值日趋显著,所以数据分析服务应当顺应当前国家政策以及未来市场,收集大型电商网站的数百条关于大数据分析服务的真实信息和数据相关的门户网站,研究当前小型数据分析服务和个人数据分析服务的销售情况与大型门户网站的定价、服务,从小型数据分析服务和个人数据分析服务的需求程度、服务反馈,来分析小型数据分析服务和个人数据分析服务的发展趋势,并分析两者之间的优缺点。
  1 电商服务现状分析
  1.1 淘宝
  淘宝网是中国现下最受欢迎的专业网购零售平台之一,注册用户数量高达5亿,日均浏览量超过1.3亿。在淘宝出售数据分析等相关服务,在没有知名度的情况下,前期不需要投入大量宣传投入,靠着淘宝自带的流量,也不会担忧没有人流量。但淘宝的数据分析服务也存在如下问题。   ⑴ 数据和人工成本估算,以及数据收益机制还不成熟,导致商品的定价没有统一标准,也没有可参考的依据,价格相差过大,客户无法判断商家所给的定价是否与自己的需求相匹配。
  ⑵ 交易双方信任机制难以建立,把握数据使用流向问题难以解决[3]。淘宝商家在淘宝注册商铺资质最低费用为1000元,若是发生纠纷,商家跑路所需承担的风险很小,个人的权益难以保障。
  ⑶ 交易评价真实性不可查,涉及电商销售,难免会存在刷单行为,客户也很难辨别商品评论的真实性,存在被误导以及引诱消费的风险。
  1.2 大型门户网站
  本研究以数据为关键词,找寻了四个大型门户,分别对它们的框架、定价、服务对象进行研究分析。
  火车采集器主打数据采集,有较为清晰的定价,有免费版供需求不多、不需要太深入处理数据的人群使用,更多的版本选择让用户可以自由的根据自己的需求做选择。除此之外,还有在线客服可进行咨询、指导。
  八爪鱼采集器主打数据采集,操作简单,是人人可用的数据采集器。采集教程有图文版和视频教程,让客户更容易上手。采集软件也有不同的定价,方便客户选择。问题的解决方案也有细分,涵盖了新闻采集、电商采集、金融采集数据服务、市场洞察等十几种,可为不同领域的客户提供有针对性的方案。
  前嗅主打数据采集和大数据可视化。比起前两个按软件的版本来定价,前嗅的定价更为详细些。前两者的数据采集需要自己动手完成,而前嗅有ForeSpider数据采集引擎可自己爬取数据,也可以选择数据代采。在数据采集这个模块,前嗅就分出了6种服务及定价,对客户来说更详细也更好理解。可视化报告分出了3种不同的需求,预存云数据系统,研究报告和定制报告。还可根据客户数据进行情感分析、用户画像分析、语义识别等。
  集搜客主打网页抓取和内容分析,主要是对文本的处理和情感分析。集搜客有专门的爬虫软件,分为4个版本,每个版本都有自己的定价。除此之外,也有定制服务的价格,划分出了6个定制项目,并显示每个服务最低的价格。
  火车采集器、八爪鱼采集器、前嗅、集搜客在页面下方都放了合作的企业,其中有中国人民银行、中国电信、可口可乐、凤凰网、中国平安等知名大型企业,对它们是一种能力的认证,也是交易的认可。
  2 数据分析服务的商业需求
  2.1 淘宝:小型数据服务方
  本研究以“数据分析”为关键词,于2020年8月通过爬虫技术爬取淘宝电商网站的529条信息。其中包括9个字段:商品名、链接、图片、价格、邮费、店铺名、月销数量、店铺评分、发货地等。去除重复、不符主题的噪声数据,留取了202条有效数据。去除对本次研究没有研究意义的字段,本研究将对这202条有效数据的价格、月销数量、高频关联词、发货地这四个字段进行分析。
  2.2 门户网站:大型数据服务方
  2.2.1火車采集器
  火车采集器是目前互联网上应用最广泛的数据处理、分析和挖掘软件。软件凭借其灵活的配置与强大的性能领先国内其他数据采集类产品,并赢得众多企业和用户认可。目前共客户使用的有五个版本,可以免费使用,有需要更强大功能的付费版本,价格在960元至8600元,购买后的版本均可终身使用。
  2.2.2 八爪鱼采集器
  八爪鱼采集器是一款拥有百万用户的数据采集软件,其使用方法简单易懂,不懂网络爬虫技术,也能轻松采集想要的数据。目前共客户使用的有七个版本,有免费的版本,付费版本价格在49元至69800元以及根据顾客要求制定节点再定价格。私有部署版、数据服务都没有明确的价格,需要根据客户需求来制定方案,再根据方案制定价格。
  2.2.3 前嗅智能大数据专家
  前嗅是可提供数据采集、定制和研究可视化报告、自然语言处理以及大数据周边配套产品等且拥有国内唯一自主知识产权Web服务器系统的大型门户网站。在价格的制定上,比前两者分的更细,许多服务的起步价多为200元至400元。划分板块多,衍生的服务更为多样。
  2.2.4 集搜客GooSeeker
  集搜客GooSeeker是一款网页抓取和内容分析,把互联网装进表格和数据库的软件。网络爬虫软件目前有四个版本,除了免费版本外,其他三个版本的价格在49元至20000元之间,还有根据需求的定制服务。
  通过对以上四个大型门户网站的调研,发现每个服务方所服务的人顾客群体有所区别,需求存在着明显的差异。火车采集器和八爪鱼采集器都是主打数据采集的软件,但价格上却有所差别,火车采集器的价格明显比八爪鱼便宜,可见针对的目标客户是不一样的。前嗅智能大数据专家针对的是有大数据技术需求方面的人群,大数据的衍生服务也包括在内,多样且全能。集搜客是针对有网页抓取和内容分析,主要是对文本的处理和情感分析的需求的顾客群体。以上四个大型门户网站都有自己明确的市场定位,针对不同的需求,发展自己的特点。
  3 数据调查与分析的方法及过程
  利用爬虫技术爬取了2020年8月大型电商网站的数百条关于大数据分析服务的真实信息,研究当前小型数据分析服务和个人数据分析服务的销售价格、月销数量、顾客评分等,结合词频分析和统计技术,以及分析大型电商网站的大数据分析服务质量、价格、服务种类。
  3.1 价格分析
  在本次爬取的信息中,价格较为多样化,单价从1元到500元不等,数字较为随机,可见淘宝的数据分析标准没有统一,差异性较大。大多标价也非实际交易价格,实际交易价格往往是在双方交流后才确定的价格。没有统一的定价标准,会导致顾客在购买服务之前难以了解实际交易价格与自己心理预期价格的差距,从而难以选择与自己心理预期相符的服务。
  3.2 月销数量
  在本次爬取的信息中,单项付款最多人数为717人,最少为0人,月销数量大于100的占总收集信息的10%。但仅看付款数量无法判断实际交易人数,因为一人可拍下数量不可知(如:单价100元,在交流后,所需服务实际需要为400元,可以单价*4拍下)。如图1所示。   3.3 高频次关联词
  在本次爬取的信息中,标题中除了数据分析出现的高频词汇有:spss、可视化、爬虫、python、stata、统计。出现的频次分别为:可视化出现61次、spss出现59次、stata出现30次、python出现31次、爬虫出现23次、统计出现19次。其中spss、stata、python都是数据分析工具,不同的行业与需求对数据分析工具有不同的要求,可视化的高頻次出现体现着客户对数据可视化的需求强烈。如图2所示。
  3.4 发货地分析
  在本次爬取的信息中,发货地有北京、上海、杭州、深圳、南京、成都和武汉等地址。其中出现次数较多的为北京、上海、南京,分别为44次、29次、16次。这三大城市的占比为44%,可见这三大城市的数字经济发展明显优于其他城市。如图3所示。
  从价格、月销量、高频次关联词、发货地址的分析结果看,以淘宝网为代表的小型数据服务方的定价模糊,没有清晰、明确的定价标准,月销量有高有低,但由于定价模糊的关系,并不能判断它的真实销量。从高频关联词数据分析与可视化关系紧密这一点看,数据可视化是数据分析中的一大需求点,发货地点多为一线城市,可见经济与数据经济关系成正比关系。
  4 结论与建议
  经过研究和分析电商数据分析服务的多方面数据,获知了以淘宝电商为主体的小型数据分析服务在体系上的不完善,多数是在商品标题添加相关词,但商品详情页面没有详细的服务名称、服务范围、服务价格,大多需要咨询客服才能了解;以大型门户网站为主题的数据分析服务为主体的数据分析服务都有着自己明确且清晰的体系,有详细的产品分类,可提供服务的范围,有标准的定价,以及自己的主打的特色产品,火车采集器、八爪鱼采集器、集搜客也提供有免费的服务,供客户体验产品、了解产品。当前我国数据资源流通存在诸多瓶颈问题,尚不具备作为一种生产要素的商品化、资产化机制,无法界定权属、无法评估质量、无法有效定价、无法可信流通等问题较为突出[3]。在此提出以下建议供参考。
  ⑴ 推进建立商品化、资产化和规范化的数据商品体系。
  ⑵ 建立第三方数据监督机构。市场的数据质量难以保障,已过期数据、错误数据、没有意义的数据俯拾皆是,第三方机构可监督数据的来源,评判数据的可用性。
  ⑶ 小型数据分析服务应确立自己的基本框架,将所能提供的服务、服务范围、服务价格,进行清晰的划分并标明,让顾客能更加简单便捷、有对比性的了解所提供的服务。
  ⑷ 建立成熟的数据和人工成本估算以及数据收益机制。纵观淘宝和大型门户网站对同类服务的定价,价格相差悬殊。建立成熟的数据和人工成本估算以及数据收益机制可以为客户避免“贵的就是对的”的心理;也可以避免客户一味的贪图便宜买到假数据。
  5 结束语
  伴随着“数据创造价值,智慧引领经济”的潮流,越来越多的行业加入到数据经济的行列中来。本文分别对几个不同类型的数据电商服务的框架、定价、服务对象进行了研究,从目前的数据看来,数据电商服务的在定价和数据来源方面存在一定的模糊地带,但随着国家层面推进大数据政策,数据电商服务也会进一步完善,最终形成一个成熟的体系。
  参考文献(References):
  [1] 从全球大数据市场看未来发展趋势[EB/OL].(2019-08-16)[2020-01-12].http://bigdata.idcquan.com/news/168822.shtml.
  [2] IDC发布最新版全球大数据市场规模预测,中国持续稳定增长[EB/OL].(2019-09-12)[2019-12-06].http://www.elecfans.com/d/1070471.html.
  [3] 于施洋,王建冬,郭巧敏.我国构建数据新型要素市场体系面临的挑战与对策[J].电子政务,2020.3:2-12
  [4] 徐鑫.大数据环境下竞争情报分析的变化与方法创新[J].科技情报研究,2020.2:25
其他文献
摘 要: 新能源汽车中锂电池的荷电状态(SOC)估计是电池管理系统的关键技术,对其准确估算有重要意义。所提的算法参考无迹卡尔曼滤波(UKF),将无迹变换(UT)融入到扩展[H∞]滤波中,用以估计锂电池系统状态均值和协方差,避免线性误差累积、增加算法的数值稳定性。在仿真实验中,在不同动态工况下分析了该算法的估计误差,证明算法在面对噪声干扰时具有较好的鲁棒性和准确性,是一种有效可行的算法。  关键词:
针对路边停车的智能化管理程度较低的问题,以现行标准为依据,对车牌识别面临的问题进行分析。根据所捕获图像的特点,通过高斯滤波、顶帽运算、Otsu算法进行图像预处理,消除噪点,完成背景提取和图像二值化。运用闭运算结合车牌的外形特征完成车牌识别。结合投影法、字符间隔及尺寸的测定和轮廓分析法完成字符分割。最后,提取字符图片的HOG特征,设计了一个基于SVM的字符分类器,实现了一个准确率高、适应性强的车牌识
摘 要: 长春工业大学计算机科学与工程学院设计并实现了针对高校计算机专业的智慧教育实验云平台。文章介绍了平台的功能、架构及实现,及其在实践教学中的应用。教学实践表明,该平台达到了提高实验教学质量和提升学生程序设计能力的目的。  关键词: 智慧教育; 云平台; 教育云; 实践教学  中图分类号:TP393.05-4;G642.4 文献标识码:A 文章编号:1006-8228(2021)07
针对工业物联网中云端压力大、工业协议标准繁多等问题,设计了一款基于边缘计算的工业物联网容器管理引擎。该引擎具有三个分布式端,分别部署了容器管理引擎KubeEdge、协议转化工具EMQ X Edge和可视化工具OCP、Kuboard,提供资源监控、镜像管理、持续集成、自动伸缩、协议转换等功能。测试显示,集群数据带宽提升339.19%,响应时间减少81.22%。把部分计算任务从云端卸载到边缘后,系统能
摘 要: 在网络入侵检测中,异常样本通常要比正常样本少得多,数据的不平衡问题会导致检测模型的分类结果倾向于多数类,影响模型准确率。文章提出应用变分自编码器(VAE)模型对网络入侵检测中的不平衡数据进行过采样,通过学习原数据的特征后生成新样本重新平衡数据分布,以提高检测模型的性能。在训练检测模型时采用迁移学习方法,先在过采样后混合的数据集上预训练,再迁移到原数据集上进行训练,得到最终的检测模型。在N
摘 要: 虚拟仿真实验教学是信息技术与专业实验教学的深度融合,是高等教育信息化建设的重要内容,也是实验教学改进和发展的方向。为提高信息安全技术教学中学生的实战技能,分析了信息安全技术实验教学的现状,提出以OpenStack技术构建信息安全虚拟仿真实验教学平台,采用练习、考核、选关、闯关、知识对抗等多种实战模式,完整构建网络安全教、学、练、战一体化教学训练体系。通过该虚拟仿真平台,既将理论学习与工程
摘 要: 智慧校园建设利用信息化手段和工具,以服务为向导,将校园的各项资源、管理及服务流程数字化,以提高服务质量和数据质量为目标,采用基于业务流程重构的微服务与微应用,将普遍存在于部门间的业务流程断层进行再造,解决智慧校园建设中数据更新不及时、不完整和不唯一等问题。文章以学校的人事职称评审服务为例,介绍了微服务在智慧校园建设中的应用。  关键词: 智慧校园; 微服务; 职称评审服务; 信息化  中
摘 要: 为了满足研究生多样化、个化性的培养需求,提出了应用泛在学习模式来提高研究生科研创新能力的方法。文章分析了传统研究生培养方式的不足之处,总结了基于EduCoder平台建设泛在学习系统的过程,并探讨了引导研究生应用泛在学习系统进行自主式学习的方法。泛在学习模式激发了研究生利用碎片化时间进行学习的热情,有效缓解了师生交流压力,提高了研究生的科研创新能力。  关键词: 研究生; 泛在学习; 自主
摘 要: “互联网+”环境下,网上自主学习已成常态。文章提出一种个性化试题推荐方法,先通过认知诊断模型诊断出学生的认知状态,再采用协同过滤方法推荐试题,能给学生推荐准确且可解释性的试题。  关键词: 个性化试题推荐; 认知诊断; 互联网+  中图分类号:TP302.1 文献标识码:A 文章编号:1006-8228(2021)07-58-03  Personalized question
摘 要: 近年来,在线学习得到了大规模普及,互联网上已发布了海量的慕课学习资源。针对广大学习者进行在线慕课学习时面临的“信息迷航”和“信息过载”等问题,以混合推荐算法为基础,通过多角度挖掘用户的个性化信息,设计并实现了一个面向个性化学习的慕课资源推荐系统,以此为广大学习者提供自主学习的辅助支持。该系统能充分挖掘学习者的显式和隐式偏好,为其推荐满意的慕课资源,具有良好的应用价值。  关键词: 慕课;