聚类结果评价方法与聚类知识提取技术的研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:hjjytsfsdf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是一种无监督的学习,其任务是按照给定的相似性将数据分组,使得同组数据彼此相似而不同组数据不相似。由于用来聚类的数据本身并没有类别信息,故而无法通过传统的“训练——测试”方法来判定聚类的效果。因此,对聚类结果的评判就只能依赖于聚类评价指标。聚类评价指标的作用是检测聚类的结果是否符合“同组数据相似,不同组数据不相似”的要求。而对于什么样的数据被称为相似则并无一个统一的标准。聚类算法与聚类评价指标所采取的相似性定义往往并不一致,这就导致了在某种意义下聚类评价指标的无用性。“可解释性”是评价聚类的一个重要依据,因此在评价聚类时应首先对聚类结果做出相应的解释,而后根据解释信息做出评价。解释聚类结果时首先应对聚类结果进行一定程度的抽象,提取出相应的知识;然后通过知识来描述、解释聚类结果。代表点方法是一类经典的聚类表示方法,基于这种方法构造的聚类算法与增量聚类算法都具有很好的效果。有鉴于此,本文提出了一种用聚类算法原有相似性定义进行聚类评价的方法。这种方法首先对聚类结果进行知识提取,抽取数据集中最为核心、最为本质的信息;然后针对这些本质信息做出相应评价,这种评价依据的是最小描述长度原理。实验表明,这种新的评价方法在一般情况下与大多数现有常用评价指标的结果一致;而在一些特殊应用场合则优于一些现有评价指标。除了可以给出具体的定量评价值之外,这种新的评价方法还可以对聚类结果的结构信息进行描述与分析。
其他文献
在信息化时代,数字化的信息数据正在以前所未有的速度增长着,信息查询工具已经成为人们日常生活中不可缺少的工具。目前,互联网上已经出现了众多的搜索引擎,为广大的用户提供
文本聚类一直是数据挖掘和信息检索领域的基础性研究议题,它试图将内容相似的文本划分到相同的类簇。文本聚类不仅得到了国内外学者广泛的关注和探索,也在大量实际系统中获得广
随着无线网络技术的普及和工业生产的飞速发展,无线设备信息化管理与“自动化立体仓库”的结合,已成为提高仓储效率展示企业实力的有效手段。在现实应用中,由于立体仓库面积很大
随着互联网的迅猛发展,Web已成为全球最大的信息源和知识库。而Web信息的主要载体-网页,除了表达主题的内容外,还有为了维持页面的链接关系而进行的导航设计或出于商业目的等进
软件需求管理对于软件项目开发至关重要,能直接决定项目的成败。目前国内中小型软件企业普遍没有建立规范的需求管理过程,对企业发展造成很大影响。软件能力成熟度模型集成CM
Web服务是近年来蓬勃兴起的一种分布式计算模型,能够实现在不同平台、不同程序设计语言编写的应用程序或应用程序组件之间无缝的互操作。随着Web服务标准的完善和支持Web服务
嵌入式软件技术开发正面临着产品的功能要求越来越复杂,开发周期越来越短,系统硬件和软件平台的变化太快等方面的挑战;同时,问题有时不在于软件本身,而在于如何理解软件开发项目及
随着人类活动不断的改变着土地的用途,土地利用/土地覆被变化研究越来越重要。土地在不同的因素共同作用下,逐渐的改变为人类所需要的利用类型。改革开放以来,我国经济进入飞
Internet的快速增长,使web 应用成为目前最重要、最广泛的应用,需要更高性能的web 服务器提供更多用户的web 服务,因此,web 服务器面临着访问量急剧增加的压力,对其处理能力、响应