面向短文本分类的特征扩展方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:killlikk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,各种各样的网络应用(如Facebook, QQ, Twitter,新浪微博等)不断涌现,伴随着这些网络应用,各种各样文本信息随之而来,其中不少应用产生的文本信息内容一般都比较短,我们称之为短文本信息。短文本数据量异常庞大。短文本信息的研究在很多领域有其重要的用途,例如在社交网络的推荐系统、互联网信息安全、网络信息数据挖掘,话题跟踪与发现、网络新词发现、网络舆论监控等领域都具有广泛的应用场景。本文所研究的是面向短文本分类的特征扩展问题。短文本信息的特点主要体现在文本内容较短、特征稀少、噪音影响大等方面,传统的统计文本分类算法是基于bag-of-words范式的,由于短文本特点,这些文本分类方法对于短文本分类表现相对较差。针对这些问题,本文设计并实现了基于搜索引擎的特征扩展方法,将短文本通过检索得到网络信息,然后将这些相关的信息用于短文本扩展,最后再选择合适的文本分类器对短文本分类,本文主要选用的三种常用的全监督分类器,同时也尝试将半监督分类器应用于短文本分类问题。然而基于特征扩展的短文本特征扩展方法,普遍存在一个问题,即扩展的网络信息通常存在歧义内容。有歧义的网络信息很显然是不合适用于特征扩展的。为了解决这一问题,本论文提出了一种基于图的特征扩展约束方法,通过短文本扩展信息的不断迭代过滤,最终得到用于扩展特征的高质量信息。同时本文也提出一种短文本关键字提取算法,该算法的设计结合了短文本的统计信息,语义信息及关键字出现的位置与顺序等特征,系统中使用这种算法提取可靠的短文本关键字,用于检索网络信息。本文采用的实验数据为新浪微博语料,实验中实现了短文本特征扩展方法、短文本关键字提取算法、扩展约束方法,在此基础上结合多种分类器,设计了中文的短文本分类系统。在这个系统平台通过实验得出多组对比数据。最终的实验结果表明,本文提出的特征扩展方法及特征扩展噪音消除方法能够很好地提高短文本的分类效果,达到了预期的目标。
其他文献
近年来,立体视觉技术是计算机视觉领域中一个相当重要的分支,它的主要目的是根据在不同位置对同一场景拍摄多幅图像,寻找多幅图像中对应点之间的关系,从而能够确定物体的三维轮廓
如今,各种可穿戴智能设备和便携移动终端智能设备的数量爆炸增长,而且这些智能设备中配备的传感器种类日益丰富,这就为新型的物联网感知模式——群智感知,打下硬性基础。在群智感
本文采用建构主义理论对数字化学习社区建设进行了系统的研究,分析了当前数字化学习社区存在的问题,阐述了用建构主义理论指导数字化学习社区建设的可行性,绘制了数字化学习社区
网格技术是近年来国际上兴起的一种重要信息技术,它的目标是实现网络虚拟环境上的高性能资源共享和协同合作,消除信息孤岛和资源孤岛。开放网格服务体系结构(OGSA,Open Grid
资源弹性调度技术已成为云计算系统研究的基础性问题,也是构建弹性云计算系统的关键问题,对云计算服务提供商最大化资源利用率,节省用户的资源使用成本和提高用户应用的执行
随着网络技术和多媒体技术的不断发展,多媒体通信业务逐渐在Internet应用中占据主导地位,其中以VOIP技术的应用尤为突出。VOIP即基于IP网络的语音通信,它不仅是狭义上的IP电话,更
遗传算法是一种模拟生物进化过程的随机搜索算法,其自组织、自适应、自学习和种群进化能力使其适合于大规模复杂优化问题。它将问题的求解表示成“染色体”的适者生存过程,通
本文运用贝叶斯方法和关联规则对学生信息库进行数据挖掘,生成了对当前数据库有效的模型和关联规则,并对发现的规则进行分析,结合实际工作,为高校管理决策提供参考。 贝叶斯分
本文论述了吉林化工学院图书馆管理信息系统的设计、开发及实现过程。首先,概括介绍了软件工程理论的相关概念、技术基础以及系统的开发背景,然后综合运用软件开发策略和多种系
计算机支持的协同工作(CSCW)技术是协同技术在信息时代的新发展,是在计算机技术和网络技术迅速发展的基础上,适应人类社会日益紧密的协作需求而逐步发展起来的。它将提高人们