CSDN用户画像研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:klose123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,用户的基本信息和行为信息充斥着整个网络,如用户地址、用户购物信息、用户发表言论等。针对当前大量的用户数据进行整理、分析与挖掘,以从中获得有价值的信息,发挥数据的价值是当前的研究热点。目前部分企业已利用现有的用户数据,分析用户共性,形成用户标签并构建用户画像。通过用户画像帮助企业实现用户研究、精准营销、个性化服务、业务决策等目标。CSDN是中文的IT技术交流平台,为国内互联网从业者和爱好者们提供了知识传播与学习的途径,平台拥有大量的用户,且大部分为IT技术从业者。目前企业的IT技术人员招聘存在着不少难题,如招聘者缺少合适的简历、面试者不符合企业的期望等。而用户画像在企业招聘领域的研究较少,且CSDN平台又拥有大量IT从业人员的用户数据,为尽可能缓解企业招聘IT技术人员的现状。本文以企业招聘为视角,基于CSDN用户数据构建用户画像,目的是为企业招聘IT技术人员提供参考。本文的主要工作如下:(1)数据收集和处理:通过对CSDN网页的分析,设计了用户数据爬取流程,并实现爬虫程序。将收集到的用户数据存入数据库表,并进行数据处理,保证用户数据的准确和规范,为用户画像提供数据基础。(2)用户标签挖掘:根据收集的用户数据,以企业招聘的角度分析,设计了两个企业需求的标签,包括用户类型标签和学习类别标签。用户类型标签是对用户综合性的评价,通过基于马氏距离的K-means++聚类算法进行标签挖掘,得到用户类型标签,根据标签将用户分为一般型、良好型、优秀型用户。学习类别标签是标识用户技术方向的标签,通过结合图卷积神经网络和长短期记忆网络的算法将文章分类,并按照用户发表的文章类别给用户打上学习类别标签,最后计算各类别的分值,用以判断用户该类别的水平。挖掘的用户标签将为用户画像提供标签基础。(3)建立用户画像与可视化平台:基于企业需求的标签,并结合用户基本属性标签来建立用户画像。根据建立的用户画像,设计并实现可视化平台,为企业招聘提供服务与参考。
其他文献
误差检测与补偿技术是提高机床加工精度的有效手段,误差检测技术决定了误差辨识方法。本文针对基于复合式基准件的误差检测技术,设计了带有C轴转台多轴数控机床几何误差的建
2018年2月,国务院办公厅印发《关于加强电梯质量安全工作的实施意见》,要求地方各级人民政府将“没有物业管理、维护保养和维修资金”的“三无电梯”以及存在重大事故隐患的电梯作为重点挂牌督办,落实整改责任和资金安排,多措并举综合整治,消除事故隐患和风险。我国电梯住宅大多兴建于2003年后。在住宅电梯蓬勃发展的同时,物业管理单位与业主之间的矛盾、维保市场混乱以及梯龄增长带来的安全风险也逐渐显露出来,“三
肽类化合物在自然界中分布非常广泛,肽及其类似物具有多种多样的生物学功能,包括作为激素、抗菌素、毒素、抗毒素、抗癌物以及抗病毒物等功能。对一些活性的天然多肽的全合成
数控机床作为国家装备制造业的工作母机,其水平和生产能力反映了国家的技术、经济综合能力。“中国制造”2025中提出要加快高档数控机床等前沿技术和装备的研发,以提升可靠性
三维场景的感知与重建一直是计算机视觉的重要问题,也是真实环境中人机交互的基础。本文详细讨论视觉惯性里程计的设计架构与三维重建系统。使用视觉惯性里程计技术实现更为稳定的SLAM系统,并提出一种基于RGB-D数据的室内场景重建方法。分析其中潜在的不足并提出可能的改进方法。眼动追踪是重要的人机交互手段。传统的眼动追踪技术主要针对二维场景下的注视估计,这无法满足人类与真实三维环境交互的需求。本文总结和分析
本论文首先综述了过渡金属催化腈与芳基化试剂的加成反应进展。然后围绕这一主题开展了钯催化脂肪腈与芳基硼试剂加成反应的研究,主要分为以下六部分内容:第一章,总结了近年
工程专业技术人才是工程界不可或缺的重要力量,也是国家得以发展的基本支持,高职高专工科毕业生生则是工程专业技术人才的主要新生力量,对高职高专工科毕业生的培养水平决定
电铲是露天矿的主要挖掘机械,推压减速器推动电铲的斗杆带动铲斗完成装载动作。目前电铲推压减速器输出轴的支撑轴承是采用油脂润滑方式的滑动轴承结构,通过油脂泵将润滑脂压
相变存储器在读写速度、功耗、成本、抗辐射性和多级存储方面相较于其他类型存储器具有明显优势,最有可能成为下一代主流半导体存储器。由于相变存储器在多晶态和非晶态两种
自从上个世纪以来,钢箱梁和正交异性钢桥面板已经成为桥梁建设中极为重要的结构形式,后者更是因其较高的承载能力和良好的经济效益而得到广泛应用。钢桥面板在当前面临的突出问题是疲劳问题,其众多的构造细节和焊缝连接导致桥面板在承受轮载过程中出现应力集中和反复循环,是导致裂缝开展和结构失效的主要原因。在钢桥面板疲劳的研究中,有限元模拟是目前常用的一种分析方法;相比实桥测试和模型试验,该方法在降低研究成本的同时