论文部分内容阅读
类内、类间距离分布函数的研究具有重要的现实意义,本文我们主要利用参数统计的方法来确定类内、类间距离的分布函数。基于类内、类间的分布函数,我们提出了基于类内距离参数估计的文本聚类评价方法,同时确定了基于类内、类间距离比值型(ratio)指标的临界值。首先,文章研究了基于类内距离参数估计的文本聚类评价方法,发现当聚类类别数过小或与真实类别数相同时,该方法是可行的;而且它可以减弱初始类中心的选取对K-means算法的影响,提高聚类结果的准确性。其次,本文对基于类内、类间距离的比值型(ratio)指标的临界值也进行了研究,我们通过实验确定了聚类指标真实值在上、下界范围区间的位置,该位置可以作为评判基于类内、类间距离的比值型(ratio)指标好坏的依据。