大规模短文本的分类过滤方法研究

来源 :北京邮电大学 | 被引量 : 28次 | 上传用户:zhangtao707382332
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现代信息社会即时通讯技术取得蓬勃的发展,手机短信息也被誉为继网络之后的又一大信息传播媒介,它的应用已经逐渐渗透到社会和生活的各个领域。作为沟通交流工具的同时,短信息在舆论导向和传播上也扮演着越来越重要的角色,因此,对短信息这类具有特殊意义的短文本进行分析和研究,并建立有效、准确的分类体系,挖掘用户感兴趣的信息,显得尤其重要和紧迫。基于这样的背景,本文对短文本的过滤和分类技术进行了探索和研究。目前,传统的文本处理技术已经趋于成熟,能够针对标准意义上的文本所包含的信息进行过滤、分类等;然而手机短信息以短文本作为载体,其相关处理方法的研究仍然处于起步阶段。本文以课题为基础,结合对短文本自身特点及相关处理技术的大量研究,提出了基于规则的过滤方法和基于统计语言模型的分类方法,具有重要的研究意义和现实意义。本文的主要贡献在于:首先,在对短文本的语言特点和语料构成进行研究的基础上,结合课题背景提出基于规则的方法对大规模特定短文本进行过滤,并采用正则表达式作为规则生成及匹配的工具,以便最大化地将那些格式固定且表达方式类似的无意义短文本准确快速地匹配进而过滤。其次,探索并建立了短文本的分类体系。通过对统计语言模型的构造原理及平滑算法等理论的研究,论文提出了基于统计语言模型的短文本建模方法,并建立分类器对非手写的短文本进行处理。针对单个短文本包含信息较少这一实际问题,在建模时结合了主题特征,更加准确地刻画了短文本语言模型。本文系统地介绍了短文本的语言特征和分类方法,并针对大规模短文本提出有效的过滤和分类方法。然而,相对于已发展得较为成熟的文本处理技术来说,短文本的相关研究还有很大的发展空间。
其他文献
在航空电子网络中,对通信速率和网络容量的要求很高,传统的总线技术和电交换技术,已经逐渐不能满足这种需求。基于波分复用技术(WDM)的光交换网络具有大容量、高速率、强实时性、
自从Differ-Hellman双方密钥交换协议提出至今,密钥交换协议已经有了飞速的发展,并已在计算机互联网通信等方面有着较多的应用,在密码学领域占有重要的地位。双线性映射的提出使
未来宽带无线通信系统需要使用先进技术来有效地处理时间离散移动无线环境的影响。Turbo原理的应用可以对并行或串行级联纠错码进行迭代译码,从而使得性能逼近Shannon信道容
语种识别是指利用计算机自动地判断给定的语音属于哪一个语种的过程。随着国际交流的日益频繁,语种识别在军事情报搜集、电话自动转接系统、多语种语音识别前端等方面显现出越
随着3G技术的发展,多输入多输出(MIMO)技术已成为当今无线通信领域研究热点之一。该技术利用多根发射和接收天线,从空间和时间上同时传输多个在同一频带上的数据流,从而显著
LTE无线通信网络已经在全球逐步普及,而且用户对移动性和通信量的需求越来越大。经过调研得知,无线通信业务大量的发生于室内,但建筑墙壁对无线信号的阻挡,使得室内用户的服