使用类内集中度和分层递阶约简的特征选择方法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:ellen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。首先简单分析了几种经典的特征选择方法,总结了它们的不足,然后提出了类内集中度的概念,紧接着把分层递阶的思想引入粗糙集并提出了一个改进的基于分层递阶的属性约简算法,最后把该约简算法同类内集中度结合起来,提出了一个综合的特征选择方法。该方法首先利用类内集中度进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用所提约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明此种特征选择方法效果良好。
其他文献
为了减少传感器节点的能耗,延长无线传感器网络的生命周期,将任播运用到WSN的MA路由之中,提出了一种面向数据源搜索的移动代理路由策略。首先利用人工免疫系统的多样性和自适
根据人头的特征,提出了基于区域轮廓特征的人头识别方法。详细描述了对预处理后的二值化图像进行去轮廓毛刺的方法,以防止轮廓提取时产生死循环。提出了一种提取区域轮廓的方法,并给出了其详细步骤。利用轮廓所包围区域的面积对人头进行初步筛查,然后利用圆形度进行人头识别。该方法实时性好,而且所需内存空间小。最后,用实验证明了这种方法的良好效果。
"我们一个日常工作中的小小决定,就可能会影响孩子的一生。因而,在办理未成年人刑事案件时,除了一身正气之外,更需要一颗善良的心。"通化县人民检察院未成年办公室负责人检察官
数列、函数极限、数学归纳法一直是历年高考重点考查的内容,纵观近几年高考题,每年都有求极限的题目,常以选择题、填空题的形式出现,有时也可能作为大题的某一小问出现,主要考查利
目的:比较等张运动与等长运动对高血压患者的心血管反应及脂蛋白代谢的影响,为高血压病运动处方的制定提供理论依据.方法:对45例老年高血压患者随机分成主要基线资料具有可比