基于K-means的中文文本精确聚类算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:foreststonezgdd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类在数据挖掘和机器学习中发挥着重要的作用。该技术经过巨大的发展,已产生了一系列的理论成果。K-means算法是文本聚类当中的经典算法之一,由于其时间复杂度低,在文本聚类领域中得到了广泛的应用。论文研究了文本聚类的关键技术与算法,提出了一种新的高性能无监督特征选择方法,并针对K-means算法的不足做了相应的改进工作。主要工作有:首先,在深入研究了文本聚类领域特征选择算法的基础上,发现一些算法存在不足之处,例如忽略了特征间的潜在关联。为了克服现有特征选择算法的缺陷,提高特征选择的效率,通过引入特征聚类的思想,提出了一种新的无监督特征选择算法,用以在保证聚类质量的前提下裁剪冗余特征词。其次,分析了欧式距离在度量文本相似性方面的缺陷,并对其做了校正处理。我们不仅考虑了文本中的词语频率信息,还结合词语对文本聚类的贡献差异度信息,提出了一种基于信息熵的赋权欧式距离计算方法。再次,提出了一种优化初始聚类中心的精确赋权K-means聚类算法。该算法从传统K-means算法选择的初始聚类中心可能不能很好地代表整个文本集分析出发,结合校正后的欧式距离计算方法对初始聚类中心进行优化,以保证选择的初始聚类中心比较分散且代表性好。给出了优化的精确赋权K-means算法的详细执行过程,并对算法的正确性和复杂度进行了分析。最后,通过详细的实验过程验证了本文的研究内容,通过与现有算法的对比,对实验结果进行了详细分析,从而验证算法的正确性与执行效率。
其他文献
该文阐述生态—经济系统恢复与重建的内涵、应遵循的原则与框架 ,论述生态、经济、社会要素彼此相互作用对生态—经济系统恢复与重建的影响 ,以及我国生态—经济系统恢复与重建的重要意义。指出生态—经济系统的失衡 ,一方面是受自然生态脆弱因子的影响 ,另一方面是受人类不适当的生产和生活行为的影响。生态恢复与重建不能仅限于生态系统层次 ,而应是多尺度、多等级的 ,应从生态系统到景观及整个生态—经济系统 ,应是
笔者结合自身的实际工作经验探析水稻的种植与施肥技术,以期对种植户提供一定的帮助与参考。
由于青海湖地区的草地蝗虫对气温、降水等气候因子的敏感性 ,因此气候的空间分异明显地决定了蝗虫的空间分布。根据该区蝗虫优势种的生命史及关键时期相应地选取 5种气候指标 ,即蝗虫发生当年 1月的负地温的积温、5月下旬的积温、6月下旬的积温、5 - 7月的湿润指数以及上年 8月的湿润指数 ,在地理信息系统软件Arc/Info的支持下 ,建立了青海湖地区草地蝗虫发生信息的GIS样点数据库及 5种气候指标的
本文通过对成都市居住区停车问题的调查、分析,综合对成都市部分居住小区对于可停车空间的开发利用情况的调研结果,数据分析,结合国内外居住区停车空间建设的实践和经验,力求
该文通过结构法和非结构法相结合,对南京城市旅游形象进行问卷调查,发现游客对南京形象的认知主要集中在"古老"、"绿化好"和"文化底蕴深厚"方面.南京在旅游信息获取、旅游事
宋代佚名的《百花图卷》是一幅中国古代工笔花鸟画的经典代表性作品之一。在众多工笔花鸟画中,其风格、意境独树一帜,既具有宋代花鸟画的一般属性,又有开文人画先河的意向,在
随着互联网技术的迅猛发展以及互联网应用的不断普及,Internet上的信息与日俱增,互联网已经成为越来越多的人们获取信息的重要来源,同时也成为人们表达自己观点的平台。网络
地下地质构造非常复杂,经常出现正断层、逆断层、褶皱、尖灭、不规则体等复杂地质情况。为解决地质层位和断层等面构造几何建模问题,实现了Delaunay剖分和限定Delaunay剖分算法,研究了层面求交、分割、缝合、统一输出等关键技术,为复杂地质体三维实体建模提供了地质体模型的几何分布参数,保证了地质层位和断层等复杂地质构造在几何拓扑上的一致性。