基于社交媒体的中文网络流行语自动获取方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:linqingxia15
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网走入我国的千家万户以及移动互联网井喷式的发展,我国的信息社会经历了飞速的发展。同时,网络生活的不断丰富,越来越多的网络流行语从“线上”走入到人们的“线下”生活中。网络流行语作为网络环境中的交际语言,简单实用、生动活泼,深受网民的追捧,在一定程度上影响着数字化时代文化传播的方向,是网络文化的体现形式之一。研究网络流行语对于舆情分析、热点事件追踪以及语言演化规律研究等都有重要意义。目前有很多关于网络流行语的评选活动,但通常是通过问卷调查等人工评选方式来获取的,这种方式主观性强并且会耗费大量的人力物力。在这种背景下,使用机器学习的方法通过计算机辅助获取网络流行语来得到客观的网络流行语排名是具有重要的学术研究价值的。同时,流行语的自动获取作为一种基于自然语言处理研究上的应用性研究工作对计算语言学及中文信息处理的研究都具有重要意义。本文提出了一种使用计算机自动获取网络流行语的模型,该模型以大规模网络语料库为基础,通过使用条件随机场模型对网络语料进行分词、网络百科平台规则提取词条信息、汉语输入法细胞词库的导出等步骤构建出网络流行语候选集。依据网络流行语在使用度分布上存在短时间内快速提升这一规律,对候选词语在不同时间节点的使用频度进行统计并按年度对候选词语建立概率模型,通过计算相邻时间段的模型间的KL距离对候选网络用语的流行程度进行度量并词语流行度得分,通过排序自动获取网络流行语。最后,依据中文网络流行语获取模型设计并实现了一个流行语流行度计算系统,该系统包括网页信息抽取、网络用词频次统计、流行语流行度计算功能等模块。使用该系统对2014年度网络论坛大数据集进行实验的结果表明,本文提出的中文网络流行语获取模型能有效地识别网络流行语,自动获取的结果与人工协同标记的结果具有很高的一致性。由于该方法受调查者主观喜好的影响小,所以自动获取的结果排名甚至在一定程度上优于人工排序的结果,能更客观地反映语言在真实使用中呈现出的特点与规律。该模型不仅仅为计算机辅助判定词语的流行特性提供了参考依据,同时也提供了一种便捷获取中文流行语的途径。
其他文献
随着最近几年高校的扩招,高校的学生规模越来越大,随之而来的问题也越来越多,其中学生考勤的问题越来越突出。由于目前的高校学生的考勤方式主要是人工考勤,由上课老师在课前几分钟进行点名式考查学生的出勤,或者由督导不定时的对教室随机的进行抽查。这种方式最大的缺点就是费时,不仅严重影响到上课的正常秩序而且还浪费时间。学生代答、代上课现象也越来越多,由于是大班授课,这种现象很难考察学生的出勤情况。在这种情况下
新一代VOIP呼叫中心对坐席平台的分布式部署能力和快速开发能力提出了新的要求,本文提出并实现了一种基于软交换技术和H.323协议的、并且同时可以处理话务和应用业务的坐席设
人工神经网络是在现代神经生物学研究成果的基础上发展起来的一种模拟人脑信息处理机制的网络系统,涉及生物、数学、物理、电子及计算机技术等各门学科,目前已广泛的应用于图像
随着各种影像设备在医学诊断中的广泛应用,医学图像处理技术对医学科研及临床实践的作用和影响日益增大,其结果使临床医生对人体内部病变部位的观察更直接、更清晰,确诊率也
随着互联网的高速发展,云计算已经成为当今IT最热门的研究方向。而云存储是云计算的一个新的发展浪潮。云存储可以以极低成本为用户提供各种便利的服务,可以说云存储是社会发展
随着VOIP技术的不断发展,网络电话已经进入人类社会生活的各个领域。网络电话以其方便的接入、低廉的运营成本、安全的通话保证,成为众多用户的首选。VOIP系统一般由IP电话终
问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。目前,国内外有很多的科研机构参与了英文问答技术的研究,甚至己经有相对成熟的英文问
随着计算机技术和网络技术的发展,在网络环境下关系数据库的应用越来越多,随之带来数据窃取、非法拷贝等问题,使得知识产权和信息安全问题受到各方面的重视。因此迫切需要采
随着数字广播技术的飞速发展,因特网的广泛普及,移动终端的逐渐成熟,人们越来越离不开网络所带来的各种便利的服务。社会的发展,人口的聚集,“社区”这个概念日益显现,每个“
本文在对GPRS-Internet网络和计算机测控技术进行充分研究的基础上,设计实现了保定市城市路灯远程监控系统的监控中心计算机软件。该系统由监控中心计算机、GPRS-Internet网