论文部分内容阅读
在现代信息社会即时通讯技术取得蓬勃的发展,手机短信息也被誉为继网络之后的又一大信息传播媒介,它的应用已经逐渐渗透到社会和生活的各个领域。作为沟通交流工具的同时,短信息在舆论导向和传播上也扮演着越来越重要的角色,因此,对短信息这类具有特殊意义的短文本进行分析和研究,并建立有效、准确的分类体系,挖掘用户感兴趣的信息,显得尤其重要和紧迫。基于这样的背景,本文对短文本的过滤和分类技术进行了探索和研究。目前,传统的文本处理技术已经趋于成熟,能够针对标准意义上的文本所包含的信息进行过滤、分类等;然而手机短信息以短文本作为载体,其相关处理方法的研究仍然处于起步阶段。本文以课题为基础,结合对短文本自身特点及相关处理技术的大量研究,提出了基于规则的过滤方法和基于统计语言模型的分类方法,具有重要的研究意义和现实意义。本文的主要贡献在于:首先,在对短文本的语言特点和语料构成进行研究的基础上,结合课题背景提出基于规则的方法对大规模特定短文本进行过滤,并采用正则表达式作为规则生成及匹配的工具,以便最大化地将那些格式固定且表达方式类似的无意义短文本准确快速地匹配进而过滤。其次,探索并建立了短文本的分类体系。通过对统计语言模型的构造原理及平滑算法等理论的研究,论文提出了基于统计语言模型的短文本建模方法,并建立分类器对非手写的短文本进行处理。针对单个短文本包含信息较少这一实际问题,在建模时结合了主题特征,更加准确地刻画了短文本语言模型。本文系统地介绍了短文本的语言特征和分类方法,并针对大规模短文本提出有效的过滤和分类方法。然而,相对于已发展得较为成熟的文本处理技术来说,短文本的相关研究还有很大的发展空间。