面向内容安全的文本分类研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:xiaohe1025
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网应用技术的发展,滥用信息所造成的政治、经济、军事、社会和文化等诸多方面的问题引起人们的关注,内容安全逐渐成为信息安全的一项基本内容。文本分类是根据内容对相关信息进行组织、管理、识别及过滤的有力手段和核心技术之一,面向互联网内容安全的需求对文本分类技术提出新的挑战。信息内容的安全必须对异常的内容实施高效监控和及时响应,因此需要分类系统对通过的文本进行高速实时的检测。互联网上的内容多样且更新频繁,某些情况下必须以较大代价,甚至无法为分类器的训练提供感兴趣内容的更多标注样本,成为分类系统构建的主要瓶颈,因此通过少量标注样本和大量未标注样本进行分类器训练的半监督学习方法成为研究的热点。内容的多样性和各种主题的相互交叉,还使得内容安全不同领域的关注者可能希望对类似或完全相同的内容作出响应,多标签学习主要解决这种实例可能同时属于多个类别的问题,成为一个新的研究方向。本文围绕互联网内容安全需求背景下的文本分类这一主题,主要针对高效率的文本分类训练和预测方法、缓解标注瓶颈的半监督学习,以及多标签的文本分类三个问题展开深入研究,取得的主要成果与创新工作概括如下:1.高效率的SVM多类学习方法研究。提出了与Rocchio级联的SVM多类方法Roc-SVM,通过Rocchio分类器高速准确的过滤大部分不相关类别,大幅减少所需的二值SVM判别次数,将“一对一”和“一对剩余”两种SVM多类方法实验中的分类时间降低约一个数量级,分类的准确性却基本不受损害。为了优化一对剩余SVM多类训练的过程,提出一种简洁的类增量式SVM多类方法CI-SVM。实验表明,其训练时间相对一对剩余多类方法大幅减少,分类过程的效率也显著提高。2.通过类别层次对na(l|¨)ve Bayes分类器准确性的改进。Na(l|¨)ve Baye方法的训练效果受主观选择的训练数据关于类别全局分布的影响。利用层次式分类的特点,通过在类别的后验概率计算中引入新的概率条件,并在每个内部类别所属的子类局部数据中进行决策的方法,对na(l|¨)ve Bayes分类器进行改进。改进方法EHNB降低了全局数据分布对分类器的影响,部分缓解了样本关于类别分布不均衡的问题,使得na(l|¨)ve Bayes方法在层次式分类中的效果有较明显的提高。3.基于自训练与EM方法集成训练的半监督学习方法。提出将激进的对未标注样本进行标注的自训练,与保守调整未标注样本标签状态的EM两种方法训练过程进行集成的思想,并提供ESTM和SEMT两种半监督学习方法。ESTM在EM的迭代中利用中间结果进行确定性标注,而SEMT在自训练过程中,以半监督的EM方法代替na(l|¨)ve Bayes监督学习方法。实验表明,ESTM和SEMT有效结合了自训练和EM的优点,具有更好的利用未标注样本提高分类器准确性的能力。4.面向协同训练的特征集分割。给出了特征子集间条件独立性度量的定义,并证明了特征子集分组合并时独立性的保持性质。以此为根据,提出对每个类别的局部特征子集分别进行分割,再分组进行合并的局部化分割策略,同时给出基于样本局部自适应聚类和特征关联图分块的分割方法,两种方法均以尽量保持子集间的条件独立性为前提。在两个数据集上的测试中,所获得的特征集分割使得协同训练利用未标注样本,更好的提高了na(l|¨)ve Bayes方法的分类效果,拓展了基于特征集分割的协同训练方法的适用性。5.基于标签状态向量的多标签学习方法。通过在排位(ranking)方法的标签状态向量空间LSVS中,二次挖掘标签状态值关联中所蕴含的多标签信息,提出基于标签状态向量的两阶段多标签学习框架。在此框架下,给出kNN LSVS上的BOL(bag of labels)模型和Bayes多标签学习方法,并在LSVS上改进ML-kNN方法。在na(l|¨)ve Bayes LSVS上,我们采用线性最小方差拟合(LLSF)进行多标签的训练和预测,并证明了LLSF的方差可以给出分类器Hamming训练损失的一个上界。在11个多标签分类问题上的应用表明,两阶段框架下,各种多标签方法训练所得的分类器具有较好的多标签分类效果。
其他文献
网络流量的预测对控制网络拥塞以及提高网络利用率有着重要的意义。为了更精确地预测网络流量,本文根据已有的流量矩阵,采用跟踪最好专家的思想,通过专家跟踪预测方法来获得
我国《刑法》规定的破坏社会主义经济秩序罪中有两个比较相近的罪名:骗取贷款、票据承兑、金融票证罪与贷款诈骗罪。两罪都是以银行贷款为犯罪对象,两罪所采用的犯罪手段也基
概率混合模型是一种常用的统计分析工具。由于其表达灵活,概率混合模型已成为当前最流行的密度估计与聚类工具之一。然而,概率混合模型的一般形式往往无法直接投入某些特殊的应
本文对不同情况下组织、领导传销活动罪的罪数问题进行了探讨。认为关于一罪的情况,触犯本罪也同时触犯集资诈骗罪、诈骗罪等罪名的,属于想象竞合犯,应从一重罪论处。而如果
目的探讨雷公藤多苷联合小剂量泼尼松治疗老年原发性肾病综合征的临床效果与可行性,为老年原发性肾病综合征的临床治疗提供借鉴参考。方法将78例老年原发性肾病综合征患者随
本文着重就目前大学生英语学习实际情况和应用现状做了必要的分析,对于他们学习和应用过程中存在的问题进行了探讨;同时针对性地提出了学习勇气的培养和学习应用方法的建立;结合
目的探讨临床老年人皮肤肿瘤的病理特征。方法选取2014年6月~2017年8月在本院进行就诊的皮肤肿瘤老年患者48例作为研究对象,对48例老年患者的临床资料进行回顾性分析,分析老
目的探讨系统规范化培训在干部病房新入职护士带教中的应用效果。方法将2013年2月—2014年4月干部病房新入职的21名护士作为对照组,采用传统一对一带教方式带教3个月;2014年6