基于词频和语义的文本聚类算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:adamsilei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类是指利用计算机自动识别文本集合中类簇的技术。随着大数据(Big Data)时代的到来,互联网上不仅流动着由多样化应用而产生的内容资源,还充斥了大量侵犯个人隐私,妨碍社会正常运转的行为和信息,从数据管理的角度来看,有必要对不同行业、领域的信息进行快速的、高效的、有组织的分析和提取;同时,从信息安全的角度来看,有必要对个人和国家的敏感信息进行保护,过滤和分析恶意虚假的内容,在保护受害者的同时,及时准确地发现危害源。在众多的分析挖掘当中,文本聚类技术是被认为快速准确的发现具有特定用途的的可用信息和行为模式,同时聚类分析作为一种机器学习手段,也是数据挖掘、自然语言处理的一个重要课题,在搜索引擎、用户划分、模式识别等方面均有重要的应用。本文以提高文本聚类的精度为目标,提出三种文本聚类的有效方法。(1)首先提出一种基于密度与最小距离来初始化K-means类簇中心的算法,利用数据集的整体分布,计算出每个数据点的密度,然后比较每个点与较大密度点的最小距离,利用这两个参数来初始化K-means算法的初始中心。(2)其次本文提出了一种利用概率潜在语义分析模型(Probabilitic latent semantic analysis)提取语义来进行文本聚类的算法PLSA-KNN,该模型把文档表示成文档-主题、主题-词项三层模型,算法首先计算出三层模型概率分布来,把高维的词频信息表示成低维的文档-主题、主题-词项分布,由此抽取文本的语义信息。然后在此基础上利用K-近邻算法(KNN)算法进行文本聚类。(3)最后在第二点的基础上,对概率潜在语义分析模型其加上贝叶斯框架,利用LDA(Latent Dirichlet Allocation)对文档进行建模,与PLSA把文档主题当做固定的参数不同的是,该算法对文档的主题进行深入的分析,把文档的主题分布用多项分布来表示,根据结果来抽取文档最有可能展现的主题,在此基础上,此抽取到的主题与词项进行KNN聚类,从而实现了语义聚类。
其他文献
目的:探讨新生儿行为神经测定(NBNA)与新生儿缺氧缺血性脑病(HIE)程度的关系以及对HIE预后的早期评估价值.方法:分别对生后3,7,14,28 d的HIE患儿进行NBNA检测,然后采用<儿心0
目的:探讨非小细胞肺癌抗原(LTA)测定的临床价值,以提高非小细胞肺癌(NSCLC)早期检出率.方法:采用结合细胞外基质蛋白乳胶定量以测定LTA含量,采用放射免疫分析法测定肺癌中癌
“ 问题提出” 近些年来引起了许多学者的重视,这些学者一致认为“ 问题提出” 是数学课程的重要组成部分,甚至是数学教学活动的中心.“ 问题提出” 在课程与教学上的最大作
在国家政策的大力支持与引导、电子商务的催生与带动等众多因素的合力作用下,作为创新2.0下互联网发展的新形态即"互联网"与教育逐渐深度融合,在优化教育资源配置、促进教育
<正>一、强化整地要求在1立方米大塘的基础上,依据坡度,回填种植做树盘时,形成以大反坡鱼鳞坑为主的单株经营台地,以后的经营过程中逐渐形成便于管理的台地,以利于保土、保水
目的 :分析肠系膜软组织恶性肿瘤的临床特点及病理特点。方法 :收集 31例肠系膜软组织恶性肿瘤的资料进行分析及文献复习。结果 :单纯切除肿瘤加全身化疗 16例 ,术后 2年内复
中国经济自身固有的缺陷和国际金融危机的"倒逼"使经济发展方式的根本转变刻不容缓、再无退路;转变经济发展方式,首先要转换政府职能、启动政府自身改革,要统筹兼顾、循序渐
<正> 青蟹(Scylla serwata Forska)福建沿海俗称“蟳”。性成熟的雌性青蟹,因甲壳两侧充满“红膏”,俗称“红(膏)蟳”,它是海水养殖中经济价值较高,可出口创汇的高档水产品之