最大信息系数算法研究

来源 :太原理工大学 | 被引量 : 6次 | 上传用户:sntatgh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的到来促进了科技的发展与进步,海量数据中蕴涵着大量未知信息,寻求数据间的相关关系变得备受关注,从纷繁复杂的数据中探索隐藏的规律需要有效的数据分析方法,因此,分析与挖掘数据计算中的相关关系具有重要价值及意义。最大信息系数(The Maximal Information Coefficient,MIC)是近几年较为有效的一种统计相关性评估算法,其具备优良的普适性(Generality)和均匀性(Equitability),MIC算法能够挖掘数据集合中潜在的相关信息,且可以度量不同类型数据间的相关性。本文主要针对MIC算法现有的不足进行研究,提出检测大规模数据集中两变量以及多变量间相关性的有效统计度量方式。本文主要创新点如下:针对最大信息系数MIC算法计算时间复杂度较高的问题,本文提出一种基于动态均分的最大信息系数(The Dynamic Equpartition Of Maximal Information Coefficient,DE-MIC)算法,利用动态均分对两变量在网格中的散点图进行不断迭代寻优,计算获得不同网格划分中的最大互信息,之后进行归一化得到最优的DE-MIC值,同时利用标准的可移植操作系统接口(Portable Operating System Interface Of UNIX,POSIX)对数据集进行多线程计算,使算法在大规模数据集上的计算效率更高。经过在多个数据集上与RapidMIC算法比较,DE-MIC算法在保持原有最大信息系数算法普适性和均匀性的前提下,计算速度更快且效率更佳。针对最大信息系数MIC算法不适用于检测多元变量间相关性,基于DE-MIC算法,提出一种度量多元变量相关性算法——非线性最大信息熵(The Nonlinear Maximal Information Entropy,NMIE)。首先将数据集合中的多变量归并为两变量并且穷尽全部归并;然后利用DE-MIC算法来评估降维后的两变量数据集的相关关系;根据得到的任意两变量间相关系数值构造特征张量,利用特征张量计算大规模数据中多变量间的非线性最大信息熵,以度量多变量间相关度。数值实验结果验证,NMIE算法在检测多变量相关关系时具有优良的普适性与均匀性,以及适合大规模数据集上的应用。
其他文献
艾滋病 (AIDS)是由人类免疫缺陷病毒 (HIV)侵染表达CD4表面抗原 (CD4+ )的T淋巴细胞而引起的 .艾滋病病毒进入CD4+ T淋巴细胞首先是通过病毒与细胞膜的融合来完成的 .该融合
无论是石油化工和精细化工,碳氢化合物的氧化,具有十分重要的地位,因此寻求高效烃氧化催化剂和氧化方法,这是一个非常有趣和具有挑战性的课题。甲苯液相氧化的反应过程是一种
伴随着城市化的高速发展,财产税的讨论成为近年来社会热议的话题:一方面,我国正在大力促进新型城镇化任务的开展,积极稳妥推进农村人口向城市转移成为政府重要的政治任务之一;另一方面,随着经济的快速发展和城市化水平的提高,社会上要求推进财产税征收的声音层出不穷,尤其自201 1年启动上海、重庆房产税试点后,社会反响强烈。但二者之间存在何种关系有待研究。从理论上说:一方面,城市化带来人口和各类生产要素的集聚
当前恐怖主义活动频发为我们的工作与生活带来了极大的安全隐患,反恐工作已经被列为公安工作的核心任务之一,公安机关正在深入推进信息化建设,将新型信息技术融合创新应用于反恐事务将成为新趋势。而随着大数据时代的迅猛发展,信息呈爆炸性增长,如何从海量的数据信息中挖掘出具有反恐情报预警价值的信息,成为反恐工作关注的焦点。因此反恐情报预警系统的研究与设计在公共安全领域具有难以替代的作用,拥有广阔的发展前景。在大
电子证据性质的澄清是电子商务快速、健康发展中急需跨越的法律障碍。虽然当下已有不少的研究成果,但在司法实务中对电子证据性质的准确认定依然紧迫。而为实现传统商务与电
<正>【本刊讯】海南省陵水县公安局为当地经济发展、百姓安居乐业构筑起铜墙铁壁,成为一方"平安守护神"。该局投入1000多万元,以全省第一、全国一流的标准建设覆盖全县城乡的
在实验和观察中,由于测量者、仪器、实验条件、环境等因素的限制,对任何一个量进行测量都不可能无限精确,测量值与客观存在的真实值之间总会存在着一定的差异,这种差异就是误
通过对676条人microRNA进行筛选,共得到了53条新的具有p53-DNA结合位点且调控p53上游转录因子和下游靶基因的microRNA.结合已有蛋白质互作关系与microRNA调控信息,构建了p53-
目的獉獉:调查云南省苯丙胺类兴奋剂滥用及与HIV/STD感染的关系。方法獉獉:采用横断面调查法,自拟《苯丙胺类兴奋剂使用情况及HIV高危行为调查问卷》。从2010年1月到2010年12
脑室周围白质软化(PVL)是早产儿缺血缺氧性脑损伤的最主要神经病理类型,少突胶质细胞(OLs)是PVL病变的关键靶细胞,本文阐明了早产儿缺血缺氧性脑损伤中少突胶质细胞损伤的机