文本规范化相关论文
随着近年来互联网的发展,社交网络已成为实时信息的重要来源。根据中国互联网络信息中心发布的第45次《中国互联网络发展状况统计......
社交媒体具有文本不规范的特点,现有自然语言处理工具直接应用于社交媒体文本时效果不甚理想,并且基于关键词的算法和应用也达不到......
传统的分词器在微博文本上不能达到好的性能,主要归结于:(1)缺少标注语料;(2)存在大量的非规范化词.针对这两类问题,文中提出一个......
互联网文本中存在着大量的非规范词,这些非规范词既包含用户无意识产生的输入错误,也包含用户出于幽默、规避审查等目的而使用的一......
文章就藏语TTS系统中必须的文本规范化技术进行讨论.对基于正则表达式的上下文规则进行文本块类型分析的算法.以及藏语非规范文本块......
近些年,微博由于其短文本性、即时性和裂变式传播特性,已成为当前最重要的社交网络媒体之一。它亦成为人类获取新闻时事、人际交往......
随着互联网的发展,微博成为人们生活中不可或缺的部分。对微博文本的研究已然成为自然语言处理领域的热点。但同时,微博文本中也存......
拉丁化的维吾尔语在使用过程中具有文本不规范的特点,这种不规范是造成歧义等现象的最主要原因,严重制约着与维吾尔语相关的自然语......
当前国内对于文本可视化的研究还停留在初级阶段,存在着许多方法处理文本语料库。随着科学技术的不断发展,网络变得越来越普及,人们可......
探讨了现代公示语的文本规范化问题,及其文本属性和应用功能,并以交际翻译原则为理论依托,阐释了公示语英译问题诸方面,认为翻译公......