中文短文本分类中关联强度语言模型的研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:fsp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的急速发展在不断地改变人们生活方式的同时,也使得信息传播的形式在不断地丰富和翻新。短文本(通常文本长度小于160字符)作为手机简讯、在线即时聊天、论坛用户评论等信息的主要表现形式,已经成为网络中大众信息传播的重要渠道。短文本分类技术,基于内容分析的将短文本分派到预先定义的类别中,在信息安全和商战信息获取等领域具有广泛重要应用前景。   短文本分类实际上是一项非常具有挑战性的任务,因为它具有长度短、所描述概念信号弱和高的类间模糊度等固有缺陷。这导致常用文本分类方法都不太适用于短文本分类。解决短文本分类困难的一条有效途径为挖掘短文本中本身存在的内涵关联,进而提取其中辨识度高的信息。鉴于此,本文提出了一种关联强度语言模型加深考虑了词之间的关联性和有序性以便能够提炼出更多的内涵,从而弥补短文本先天信息量不足的缺陷。该模型其重要贡献和核心在于:   (1)针对传统方法的不足,提出了一种新的能够有效地描述词对之间关联性的标尺--累积连接分布函数。   (2)保留了原始语言模型中更适合中文短文本分类的两大特性--关联性和有序性的同时,将通过累积连接分布函数挖掘出来的隐含内联关系融入语言模型中,改变语言模型的链式结构,形成一种新的辨别能力较强的短文本分类模型。   (3)在要处理大规模短文本的情形下,通过特征选择的方式有效地控制原始模型的词表大小从而降低了模型的复杂度。   该模型基于语言模型理论架构,从挖掘词对之间的关联性入手,运用挖掘出来的隐含内联关系降低了投递中文短文本到预先定义类别的困惑度。与此同时,有效地通过关联强度标尺修缮原始模型中存在的链式结构问题使得模型更加适合中文短文本分类任务。此外,模型的复杂度也可以得到一定的控制。   经过本文后面部分的与传统方法的实验结果对比,该模型用于中文短文本分类取得了一定的提高效果。  
其他文献
近年来无线网络通信技术取得了卓越的发展,为无线多媒体网络用户提供了更好的用户体验。在无线多媒体网络中基于不同用户的需求合理的分配资源以提供良好的服务质量保证(QoS)
软件定义网络(Software Defined Network,SDN)通过控制层与数据层的解耦,利用集中式的控制器对网络设备进行可编程化管理,实现对网络资源的灵活配置。然而,随着SDN网络的发展,需要采
预测分类是数据挖掘中的一个重要的分支部分。它能够用来预测对象的数据标签。目前,数据分类技术在很多领域都有着广泛的应用,如银行中的风险评估,市场营销中的客户分类,文本检索
动态背景下运动目标的检测是计算机视觉领域的一个重要课题,在精确制导武器、交通监控、智能车辆等领域有着广泛的应用前景。研究由于摄像机运动引起的背景运动并检测其中的
电容层析成像技术(ECT)和电阻层析成像技术(ERT)都是基于电磁场理论的新型测量技术,具有广阔的应用前景。将两种技术融合成双模态成像技术,可以扩大应用范围,提高测量精度,成为过程层
近年来,无线传感器网络获得了快速发展,广泛应用于环境监控、医疗卫生、军事以及工业等领域,同时也引起了众多研究者的关注。WSN的覆盖问题是网络构建初期和应用过程中的必要
随着在创新2.0下“互联网+”这种新业态的出现,社会生活的各个领域都与互联网变得密不可分。这也导致了互联网上的各类非结构化数据,结构化数据,半结构化数据的大数据爆炸式
无线传感器网络融合了传感器技术、信息技术和网络通信技术,它是由大量传感器节点通过无线通信技术自组织构成的网络。无线传感器网络是信息技术中的一个新的领域,在军事和民用
随着P2P网络应用和用户数量的不断增加,网络所面临的问题比如网络拥塞和Qos保障等问题变得越来越棘手。因此,对P2P进行识别并加以控制就成了关键问题。早期的P2P应用通常采用
随着科学技术的发展,许多生产和科学研究领域对计算机的计算能力要求越来越高,传统的单处理器系统受散热问题和制造工艺等因素的影响已达到性能瓶颈,处理器体系结构开始向多核心