【摘 要】
:
聚类作为挖掘数据结构信息的有效工具之一,已被广泛应用于图像处理、生物信息学与数据挖掘等众多领域。根据在聚类目标函数中是否引入特征权重,可将聚类算法分为传统聚类算法
论文部分内容阅读
聚类作为挖掘数据结构信息的有效工具之一,已被广泛应用于图像处理、生物信息学与数据挖掘等众多领域。根据在聚类目标函数中是否引入特征权重,可将聚类算法分为传统聚类算法与特征加权聚类算法。传统聚类方法(诸如k均值和模糊c均值等)未对数据特征对聚类的不同贡献或重要度进行区分,结果当处理高维数据时,由于未考虑高维数据特征间存在的相关性和冗余,常导致期望不足的聚类性能。但现有的特征加权聚类算法能获得特征权重但未必符合用户所期望的相对重要性(或偏好)。为弥补这一遗漏,本文尝试利用用户给定的特征间的实际偏好,提出两种能尽可能真实反映特征偏好的聚类方法,具体总结如下:1.将Sun等人的基于Bregman散度的聚类算法CFP进行改进,通过利用用户给定的实际偏好,将现有独立于个体聚类的全局加权型偏好聚类方法拓展至聚类依赖的局部特征加权型方法,以此来体现聚类过程中各特征对不同类别贡献的大小或重要度,结果可避免原有算法仅利用了全局特征的欠缺。同时结合特征偏好约束,使聚类过程所获权重能更好地遵守特征间的先验关系。而其中所用策略也可拓展至相关聚类算法和应用领域。最后在UCI数据集上的实验结果验证了算法的可行性。2.提出了结合特征信息与样本信息的半监督聚类算法,并将特征层面的先验信息通过特征偏好形式加以体现。不同于通常意义的半监督聚类算法,其仅仅从单一的特征层面或样本层面赋以半监督信息。本工作则通过将两种信息相结合,拓宽了先前限于单一层面的半监督聚类算法。在数据集上的实验验证了其比单一层面的半监督聚类算法有更优的性能。
其他文献
移动的无线自组织网络MANET(Mobile Ad hoc Network),是由带有无线收发装置的移动终端组成的一个多跳的临时性自治系统。Ad hoc网络技术不但在军事领域中得到充分利用,还在紧急
软件过程自提出以来,一直被认为是解决软件危机的重要手段。软件过程评估最为改进软件过程的基础,软件过程评估方法受到越来越多研究人员的关注。软件过程评估已经称为制约软
P2P网络的开放性和匿名性使得任何终端都可以加入网络并共享资源和服务,从而导致网络中存在大量的只消费资源、不共享资源的节点和提供虚假资源、不可靠服务的节点。建立节点
基于历史项目的数据挖掘是近几年来软件项目风险分析领域的研究热点,但目前常用的数据挖掘方法难以免受软件项目级的风险分析中存在的样本量有限和模型复杂的不利因素的影响并
当前的WebGIS系统普遍存在数据可重用性差、客户端通用性差、对平台的依赖性强、开发复杂度高等问题,迫切需要引入新的技术来进行改进。目前计算模式和程序设计模式领域己经发
随着Web信息资源的迅速增加,如何在浩瀚的信息海洋中准确、方便、快速地找到自己所需的信息,是个迫切需要解决的问题。由于自然语言的模糊性和用户信息需求的随机性和动态性,
在基于UML的软件开发过程中,各种UML图形从不同侧面描绘着所开发的软件系统,这些图形之间存在着信息的重叠,从而导致UML模型的一致性问题。UML模型的一致性问题也是建模过程中一
GUI测试多采用基于规约(Specification)的方法,即检查软件实现是否与规约一致。这种测试通常先基于规约建立测试模型,然后再在模型的基础上生成测试用例。当前描述GUI的测试模
随着国民经济的飞速发展,人们对通信业务的需求不断增加,对服务质量的要求也不断提高。电信运营支撑系统和运维支撑系统接口的结构化运行模式已不能满足市场发展的需求,迫切