【摘 要】
:
随着近年来互联网的发展,社交网络已成为实时信息的重要来源。根据中国互联网络信息中心发布的第45次《中国互联网络发展状况统计报告》,截止到2020年3月,中国现有网民数量超过9.04亿。与此同时,网络中产生的实时数据,其数量远多于现有的网民数。这些数据中,存在大量的不规范用语,如近音词、缩略语、书写变体等。本文对这些用语进行了充分的分析,并将其定义为非标准词。非标准词的出现,对自然语言处理下游的各项
论文部分内容阅读
随着近年来互联网的发展,社交网络已成为实时信息的重要来源。根据中国互联网络信息中心发布的第45次《中国互联网络发展状况统计报告》,截止到2020年3月,中国现有网民数量超过9.04亿。与此同时,网络中产生的实时数据,其数量远多于现有的网民数。这些数据中,存在大量的不规范用语,如近音词、缩略语、书写变体等。本文对这些用语进行了充分的分析,并将其定义为非标准词。非标准词的出现,对自然语言处理下游的各项任务带来了巨大的挑战。为了解决这个难题,研究者提出了诸多方法对这些包含不规范用语的文本进行规范化。然而,随着社交网络语言环境的发展,现有的文本规范化方法不足以有效应对频繁出现的非标准词。对此,本文的主要工作为:1)针对文本规范化任务,对国内外的研究进行了详细的介绍和分析,并对这些方法进行了分析对比,总结出了它们在实际应用过程中存在的缺陷;针对社交网络非标准词的特点,提出基于序列标注的方法对其进行识别与分类。2)提出了基于Transformer的序列标注模型。模型的输入向量采用汉语特征结合词向量的方式,从而加强了对词语的特征表达能力;同时采用了堆叠式降噪自编码器对特征向量进行编码,提升了模型的效率;在训练策略上,针对非标准词的特点进行了专有的设计,从而优化了模型的识别效果。3)针对文本提出的模型进行了多项对比实验。由于目前缺少包含中文非标准词的公测语料集,本文针对各大社交网络进行了文本的抓取,并经过各项文本预处理操作后构建了实验所需的语料集。之后,本文对该模型进行了方法、参数和其他模型的对比实验。本文模型在测试集上得到的F1值为85.6%。各项实验结果表明,文本提出的模型对各类非标准词的识别与分类效果良好,在本文给定的语料集下各项测试指标均超过现有的模型,适合应用于当下社交网络中海量数据的文本规范化任务。
其他文献
膜分离技术在水体的处理,特别是废水处理中有着十分广泛的使用,吸附膜作为分离膜材料的一种,是分离膜与吸附相结合的一种材料。吸附膜是使用具有一定孔径的膜材料作为基体或介质,将具有目标功能的颗粒或基团嵌入/连接到膜上,使其具有膜分离和吸附两种能力。膜材料性能优异,应用广泛,近年来对膜材料的改性一直以来是研究热点。本文选用的超支化聚酰胺-胺(HPAMAM)具有特殊的超支化结构和大量的端胺基团,且相较于具有
在我国悠久的养老历史发展中,家庭养老具有极其重要的地位,家庭养老能够延续几千年,孝文化在其中发挥了不可替代的作用。但由于经济的发展以及人们思想观念改变带来的冲击,孝
随着社会的进步,智能汽车逐渐走入人们的生活,我国政府高度重视智能汽车的发展,而驾驶员辅助系统被普遍认为是使智能汽车实现自动驾驶的过程性技术,因此,研究ADAS驾驶模拟器整体上是符合未来汽车开发的趋势,同时,转向装置作为ADAS驾驶模拟器中的重要一环,其路感的逼真程度直接影响驾驶员对车辆操作的准确性,对驾驶模拟器的品质起到了极为重要的作用。本文对ADAS驾驶模拟器的开发包括了选择系统软件、选择系统硬
由于超空泡减阻技术的应用,水下航行体的速度得到了极大的提升。但是,水下高速航行体所处环境的复杂性,包裹航行体的空泡不断变化等都为航行体的机动控制带来了极大的困难。针对水下高速航行体运动时所面临的的外部噪声干扰、模型不确定性以及部分状态参数不可测等问题,设计有效的观测器和鲁棒控制器具有重要的理论价值和实际意义。因此,本文在对水下高速航行体进行纵平面建模的基础上,完成观测器和控制器的设计方法研究及仿真
语言与社会阶层是社会语言学中经久不衰的话题之一,它伴随了社会语言学的诞生和发展。语言的阶层差异在有过被殖民史的地区常表现为双语或多语现象。在有多语现象的地区,语码选择的阶层差异反映了一定的权力关系和意识形态。为研究该话题,本文选取电影语篇《起跑线》作为语料。该电影借由印度中产阶层家庭的择校问题探究语言现象背后的社会因素。为更好地研究电影这种多模态语篇并能够探究其社会意义,本文采用了多模态批评话语分
在现阶段“大众创业,万众创新”的新时代背景下,多种多样的创新活动在全社会范围内都备受推崇。而在传统创新视角中,人们往往认为走上成功的创新之路只有研发这一条“单行道”。这种只认为研发才能进行创新的单一线性观点在很大程度上忽视了在研发实力上较为薄弱的中小企业所做出的并非基于正式研发的创新活动。在现实情况中,有很多企业尤其是中小企业往往都没有足够的资源或能力支撑以研发为主的创新活动,但是这并不表明这些企
近年来,随着量子计算机的不断发展,量子计算以其超强的并行计算能力和指数级的存储容量等特征,被誉为未来计算科学发展的重要方向之一。量子计算充分利用了量子的某些固有性质,如量子的相干性、量子叠加性、量子纠缠态和量子测量等进行运算和数据处理。智能优化算法是目前人工智能优化研究领域的一个重要分支,主要是人们受自然界或者生物界规律的启发,根据其原理,模仿其规律而设计的一类求解问题的算法。量子计算原理与智能优
能源和环境问题已引起全球关注,生产可再生能源、全面保护生态环境已成为科学研究的重点。半导体光催化技术(如光分解水生成氢和氧,利用光催化进行选择性有机物合成,利用光催化去除污染物等)被认为是解决能源短缺现象与环境污染问题最具前景的技术之一。为了使该项技术更好应用与人类可持续发展,一些研究者将目光转向新型光催化剂研发。单斜白钨矿型钒酸铋(BiVO_4)作为能响应可见光的新型光催化剂,具有成本低、无毒、
指代消解是自然语言处理的基本任务之一,对篇章的语义理解具有重要作用。现有研究主要集中于普通领域的文本,如:新闻通讯、广播对话、百科和博客等,对法律领域的指代消解研究关注较少。不同于普通文本,法律文本表述严谨、高度专业、富含知识。在庭审记录文书中,发言人具有一种至多种代称表述,实现发言人实体间的指代消解,对于法律文本分析具有重要意义。基于此,本文提出了一种融合标签表示的端到端指代消解方法,联合地进行
本文针对由制造商、零售商以及消费者构成的三级供应链系统,分别研究了由单一风险中性零售商和单一损失厌恶消费者组成的供应链系统以及由大型多元化风险中性垄断制造商和单