论文部分内容阅读
聚类分析是数据挖掘(Data Mining,DM)重要方法之一,在图像处理,环境预测,天气预报等许多领域有着广泛应用,也是进行海洋飓风和赤潮研究的一种新方法。针对目前海洋环境中的飓风和赤潮的分析方法单一性和不完善性,本文采用聚类分析方法对这两种现象进行分析。传统的飓风研究方法依据气象学或空气动力学的原理进行分析,本文采用聚类方法,根据飓风生成的移动特征,把飓风抽象为轨迹,并以此聚类。赤潮过程包含多个阶段,各阶段具有不确定性,这是由赤潮理化因子的不同作用而引起的。传统研究赤潮对所有影响因子数据统一处理,这种方法难以发现个体因子对赤潮的影响作用。针对这一不足之处以及赤潮过程多阶段模糊的特点,提出模糊聚类与权重值相结合的方法,并以此分析赤潮产生过程以及各阶段的特征。影响赤潮发生的理化因子具有高维性,高维数据综合分析,更适合采用模糊聚类分析方法。为了表明算法的有效性,本文构造了一种新有效性评价指标,克服传统依靠距离作为衡量标准的有效性指标的不足。本文以提出的聚类创新理论为研究重点,以海洋环境领域中的应用为背景,内容涉及计算智能技术、海洋飓风以及赤潮,属于交叉学科的研究课题,具有十分重要的理论意义和实际应用价值。论文的主要工作如下:1.研究了飓风轨迹聚类算法。提出了一种基于相似子轨迹的聚类算法。该算法基于子轨迹的划分,提出相似子轨迹的概念,利用相似子轨迹近似代表一个子轨迹聚类区域的空间特征,因此可以减少空间搜寻,算法能够有效的降低时间复杂度和空间复杂度,提高了算法的执行效率。2.研究了轨迹聚类算法输入参数问题。针对轨迹聚类过程中对输入参数ε和Min Lns具有敏感性,提出了一种对输入参数非敏感的轨迹聚类算法,算法根据轨迹划分的子轨迹指定距离和可达距离概念,计算得到上一个参数化的簇排序,通过此排序序列表示轨迹数据内在聚类结构,并且使用此排序序列聚类的结果等效于利用一个参数范围实现轨迹聚类的结果。因此算法能够避免由唯一参数值带来聚类结果的不确定性,有效降低了聚类结果对输入参数的敏感性。3.研究了赤潮发生过程中各阶段的模糊聚类。赤潮发生过程可以分为四个阶段,这四个阶段受多种理化因子制约,各阶段之间难以区别,具有模糊性。某一理化因子在四个阶段都有可能有相同的值,或者值变化非常大。因此不同理化因子在赤潮过程各个阶段的作用大小并不相同。针对赤潮过程的模糊性和各因子对赤潮各阶段影响的重要程度不同的特点,提出一种基于权重的模糊聚类算法,为隶属度函数和典型值函数分配不同的权值。算法克服了模糊可能性均值聚类算法(Fuzzy possibilitic C-Means,FPCM)中限制典型值的不足之处,也克服了可能性模糊聚类算法(Possibilitic Fuzzy C-Means,PFCM)中随机确定参数的不合理性。算法运用基于原型驱动的学习方法确定权重参数,使得权重参数计算更合理。实验结果表明该方法聚类效果明显。4.研究了区间数据集的模糊聚类问题。随着应用的需要,使用区间值变量描述对象大量存在于实际生活中。基于欧氏距离的聚类方法虽然对点数据聚类效果明显,但对区间数据的处理欧氏距离度量方法则显得不足,聚类效果不明显。针对这一特点,提出了区间数据集的三种二次型距离度量方法,在此基础上修改目标方程产生三种算法。在UCI数据集和海洋鱼类数据集上的实验结果表明,新算法能够得到较好的聚类效果,并且有较低误分率。5.研究了聚类有效性指标。在未知数据集中如何确定最佳聚类数和如何确定真实聚类中心,以及如何度量类内紧致度和类间分离度属于聚类有效性研究的问题。目前许多有效性指标算法的类内和类间的度量方法都基于欧氏距离方法,这种方法对于球状数据能够较好的发现最佳聚类数,但对于重叠度较高的数据集和不规则数据集,效果不明显。本文提出了一种非欧氏距离有效性指标VI,指标对类内采用隶属度表示数据集的紧致程度,而类间度量采用反贴近度方法,能够有效克服采用欧氏距离作为重叠数据集和不规则数据集的度量指标而引起的不准确性。该方法既考虑了模糊划分又结合了数据的分布特征,对聚类结果的评价更客观,飓风和赤潮以及其他数据集实验结果表明,该有效性指标都能够找出最佳聚类数和聚类中心。