论文部分内容阅读
文本聚类是指利用计算机自动识别文本集合中类簇的技术。随着大数据(Big Data)时代的到来,互联网上不仅流动着由多样化应用而产生的内容资源,还充斥了大量侵犯个人隐私,妨碍社会正常运转的行为和信息,从数据管理的角度来看,有必要对不同行业、领域的信息进行快速的、高效的、有组织的分析和提取;同时,从信息安全的角度来看,有必要对个人和国家的敏感信息进行保护,过滤和分析恶意虚假的内容,在保护受害者的同时,及时准确地发现危害源。在众多的分析挖掘当中,文本聚类技术是被认为快速准确的发现具有特定用途的的可用信息和行为模式,同时聚类分析作为一种机器学习手段,也是数据挖掘、自然语言处理的一个重要课题,在搜索引擎、用户划分、模式识别等方面均有重要的应用。本文以提高文本聚类的精度为目标,提出三种文本聚类的有效方法。(1)首先提出一种基于密度与最小距离来初始化K-means类簇中心的算法,利用数据集的整体分布,计算出每个数据点的密度,然后比较每个点与较大密度点的最小距离,利用这两个参数来初始化K-means算法的初始中心。(2)其次本文提出了一种利用概率潜在语义分析模型(Probabilitic latent semantic analysis)提取语义来进行文本聚类的算法PLSA-KNN,该模型把文档表示成文档-主题、主题-词项三层模型,算法首先计算出三层模型概率分布来,把高维的词频信息表示成低维的文档-主题、主题-词项分布,由此抽取文本的语义信息。然后在此基础上利用K-近邻算法(KNN)算法进行文本聚类。(3)最后在第二点的基础上,对概率潜在语义分析模型其加上贝叶斯框架,利用LDA(Latent Dirichlet Allocation)对文档进行建模,与PLSA把文档主题当做固定的参数不同的是,该算法对文档的主题进行深入的分析,把文档的主题分布用多项分布来表示,根据结果来抽取文档最有可能展现的主题,在此基础上,此抽取到的主题与词项进行KNN聚类,从而实现了语义聚类。