【摘 要】
:
在信息爆炸的时代,如何快速从海量文本中高效获取有价值的信息,成为自然语言处理领域的关键问题,也推进了文本分类技术的发展。文本分类主要分为预处理、特征提取及分类识别
论文部分内容阅读
在信息爆炸的时代,如何快速从海量文本中高效获取有价值的信息,成为自然语言处理领域的关键问题,也推进了文本分类技术的发展。文本分类主要分为预处理、特征提取及分类识别三大模块,其中预处理后的文本表示是文本分类技术的首要关键点,也是基础。传统的文本表示方法,通常以词作为文本的基本单元,不仅容易造成语义信息的缺失,还易导致文本特征的高维性和稀疏性。目前文本分类技术的应用多是基于统计学习及机器学习方法,而面对特性多样的文本数据,又易导致基于传统方法的文本分类器的泛化能力下降。而深度学习独特的网络结构,能够层层提取、层层抽象,可以很好的解决当前文本分类面临的问题。本文提出的情感分类方法是基于张量空间模型将文本数据张量化,同时在STM模型的基础上融入LSTM神经网络并提出L-STM算法模型,将向量序列作为LSTM网络的输入进行更高级别的优化,以此减少求解参数最优解时的迭代次数。实验结果表明基于张量空间的L-STM模型不仅能有效解决文本数据过拟合问题,还减少了文本分类器的运行时间,且相较目前主流的情感分类方法,基于该模型的文本分类器的分类准确率更高。基于深度学习思想设计的S-DBN模型是一个五层结构:前两层使用稀疏自动编码机,以Word2Vec处理后的词向量作为原始输入,进行初次特征提取;并将提取出的特征作为中间两层深度置信网络的输入,进行深层次的特征提取;然后经softmax分类器进行文本分类。本文分别在隐藏层节点数和微调次数对分类性能的影响进行测试,并在相同数据集下,分别与B-CNN、DBN、改进的SVM、SVM分类器进行实验对比;结果表明基于S-DBN模型的文本分类器的分类性能更优,准确率更高。最后基于以上两种分类模型,设计并实现了一种混合分类系统。
其他文献
目的比较三种不同膳食脂肪酸对葡聚糖硫酸钠(Dextran Sulfate Sodium,DSS)诱导大鼠溃疡性结肠炎作用,并初步探讨其可能的作用机制。方法健康雄性SD大鼠随机分为正常对照组、D
电子鼻是一种由一个以传感器阵列形式存在的化学传感系统和一个神经网络形式(典型模式)的模式识别系统组成的高级传感器系统。它可以在几小时、几天甚至数月的时间内连续地、
本文主要应用对比分析与偏误分析理论,通过问卷调查的方式,对朝鲜族小学的学生习得汉语述补结构的情况进行了分析研究。对朝鲜族小学生现阶段汉语中介语系统中述补结构方面的情
情感教育是通过在教育过程中尊重和培养学生的社会性情感品质,发展他们的自我调控能力,促使他们对学习、生活和周围的一切产生积极的情感体验,形成独立健全的个性与人格特征
“校本课程开发”的思想源于20世纪60—70年代的西方发达国家,它主要是针对国家课程开发的弊端,要求以学校为基地进行课程开发,实现课程决策的民主化。 2003年4月,由中华
[策划人语 ] 2 0 0 3年 12月 10日 ,温家宝总理在哈佛大学发表了题为《把目光投向中国》的演讲 ,首次全面阐述了“中国和平崛起”的思想 ,即今天的中国 ,是一个改革开放与和
心理词库是心理语言学、神经语言学和理论语言学共同关注的问题,它主要涉及各种词汇信息(形、音、义)在大脑中的表征和提取。双语心理词库则是该研究中一个较独特的领域,研究重点
上古中国,从图腾崇拜角度看,主要分为西北华夏龙族和东南东夷鸟族。从炎、黄之战,到秦灭六国,龙族与鸟族一直处于融合过程中。汉代,这个过程在中原基本完成,青龙、朱雀同为四灵,龙逐渐演变为皇权的象征,鸟固定为凤凰,成为皇权的配角,(可能因为胜利者是龙族的黄帝和秦吧)。但是,这个过程在西南边陲的四川、云南一直没有完成,神秘、浪漫的鸟崇拜一直延续。川滇文化有许多差异,但从鸟文化类型上讲,却有相似之处,本文仅
本文面向自动句法分析的实际需要,对大规模真实文本中动宾搭配的自动识别问题进行探索性研究,提出了“概念+词语”匹配模型,并在借鉴国外相关研究经验的基础上提出“词语+词