【摘 要】
:
信息时代的数据存储技术使存储海量数据成为可能,数据挖掘作为一个新兴的研究领域,正在试图通过探索大数据量、复杂的数据类型以及建模技术来解决信息过载的危机,并使得对海
论文部分内容阅读
信息时代的数据存储技术使存储海量数据成为可能,数据挖掘作为一个新兴的研究领域,正在试图通过探索大数据量、复杂的数据类型以及建模技术来解决信息过载的危机,并使得对海量数据进行建模和知识提取成为可能,因此数据挖掘技术融合多种学科如统计学、人工智能、机器学习、模式识别、数据库技术等,广泛应用于社会生产的各个领域。其中,离群值挖掘(Outlier Detection)作为数据挖掘中的一个重要分支,其主要目的是找出数据集中与剩余的数据相比显著相异或存在明显偏离的一小部分对象,并对其进行分析从而获取有用知识。基于“一个人的噪声可能是另一个人的信号”的观点,即数据集中极少数的异常观测数据可能隐藏着我们感兴趣的信息或隐含更大的研究价值,因此离群值挖掘算法的研究和改进具有重要的理论价值和实际意义。本文首先从机器学习的角度对各类离群值挖掘算法进行了分析研究,并在此基础之上针对侦测欺诈交易的实例进行研究,主要工作如下:(1)对数据挖掘中的离群点检测算法进行了深入研究,包括基于统计分布、基于距离、基于密度、基于聚类以及基于偏差的离群点检测方法;(2)从机器学习角度按照无监督、半监督、有监督的学习方法对离群点检测模型分类介绍,然后阐述了一般的模型评价准则和实验方法,特别给出了针对本文侦测欺诈交易案例的离群点检测模型的评价指标即提升图、PR曲线、标准价格的标准化距离;(3)在R语言中分别设计并实现了上述三类离群点检测模型包括LOF模型、简单贝叶斯模型、AdaBoost.M1模型、半监督的自我训练模型,并用于某企业具体的侦测欺诈交易报告案例,按照跨行业数据挖掘过程标准即数据处理、建模、模型结果分析评估等步骤对其进行分析并得出最终结果。
其他文献
网络与通信技术的迅速发展,使得结构复杂的网络环境和灵活多样的业务应用对网络管理的依赖性日益增强,同时也对网络管理系统在自动化、智能化及快速反应和动作协作等方面的能
近年来Linux系统在服务器领域的占有率一路攀升,尤其是在云计算领域。但是由于源代码开放,Linux面临着日趋严峻的安全挑战。Linux环境下的内核级Rootkit类型木马拥有与操作系统
RFID (Radio Frequency Identification)射频识别技术,是采用无线射频方式进行非接触通讯,自动识别物品并获取数据的一种快速识别技术,已在各个领域得到广泛应用。基于RFID技
PC机是以其低廉的价格、灵活的架构、不错的性能被人们广泛地应用在各行各业中。近十几年来,PC机性能飞速发展。但是PC机重要的存储部件——硬盘的性能发展速度缓慢。而人们
无线射频识别(Radio Frequency Identification,RFID)技术的快速多样化发展对传统RFID应用的适应性、灵活性及可维护性提出了挑战,导致了RFID中间件的出现。RFID中间件为应用提
P2P网络中的节点既是服务的提供者也是消费者。由于P2P网络大多排斥集中的CA,没有权威机构来规定节点的交易规则,使得网络中的节点经常是在未知环境下进行交易的,一些节点可
随着信息技术的发展和计算机的广泛应用,如何保证和提高软件质量成为软件工程最为关心的问题之一,以软件测试为中心的软件质量保障技术在软件生产实践中得到了迅速的发展。但
如今对于标准编码文字的检索已非常成熟,其应用几乎无处不在。如果能用与检索标准编码文字相类似的方法来实现对以计算机文件形式存储的手写文档的查询和检索的话,则能够大大
数据挖掘是目前信息领域和数据库技术的前沿研究课题,被公认为是最具发展前景的关键技术之一。数据挖掘涉及到统计学、人工智能(特别是机器学习)、模糊理论和数据库技术等多
众所周知,为了达到良好的预测效果,一个必须的条件是大量的知识。我们可以使用人工输入、机器学习等方法来获得大量的知识,这些知识大都表示为if-then的形式。随着规则引擎系