论文部分内容阅读
作者简介
周敏珍(1976—),女,汉族,江苏张家港,硕士,讲师,从事中高职计算机教学,研究方向为计算机应用
摘要:协同过滤是推荐系统最常用的一种技术,但它对用户概貌信息较为敏感,欺诈攻击者很容易通过注入有偏差的用户概貌信息,人为干预推荐系统的结果。针对这个问题,本文研究了欺诈攻击的攻击模型,分析了欺诈攻击的检测预防方法,以期提高推荐结果的准确性和系统的鲁棒性。
关键词:欺诈攻击 推荐系统 攻击模型 检测 预防
中图分类号:TP393.08文献标识码:A 文章编号:1672-3791(2011)12(b)-0000-00
协同过滤是目前推荐系统最常用的技术,但其推荐结果对用户概貌信息的敏感性使得系统容易受到人为攻击。攻击者通过注入有偏差的用户概貌信息,人为干预结果,使结果产生偏差,从而影响推荐系统质量和安全性问题。目前,关于欺诈攻击的研究很多,如欺诈的检测预防、利用可信机制的推荐算法等。本文研究了欺诈攻击的攻击模型,分析了欺诈攻击的检测预防方法,以期提高推荐结果的准确性和系统的稳健性。
1欺诈攻击简介
1.1定义
用户概貌信息是指推荐系统中用于记录用户兴趣爱好和特定的行为模式的个人数据,由于协同过滤是根据相似商品或相似用户来产生推荐值的,攻击者可注入虚假或有偏差的用户概貌信息,通过对项目的恶意评价使推荐结果偏离用户需求,这类攻击称之为用户概貌攻击或欺诈攻击。
一个攻击用户概貌由一个n维向量表示,记I为推荐系统的项目集,即I=IT∪IS∪IF∪Iφ。其中IT是攻击目标项目,是为提高攻击效率而指定的项目集,对于某些攻击IS可以为空,IF是需指定评分的项目集,Iφ是未评分的项目集。
1.2攻击意图
欺诈攻击意图分为:推攻击即抬高目标项目的评分,核攻击即贬低目标项目的评分。常见的为推攻击,如2001年6月Sony Pictures公司承认利用仿造电影评论家评论的手法向客户推荐许多新发行的电影,实际上并没有人对这些电影做出评论。另一个可能的意图是扰乱整个推荐系统的准确性,使系统逐渐失去用户的信任,最终停用该系统。
1.3攻击模型
攻击模型是在对推荐系统知识、商品、评分数据以及其他用户了解的基础上构建欺诈攻击概貌的方法。按攻击用户概貌的组成不同,攻击模型主要分为:
1.3.1随机攻击
随机攻击就是攻击者确定攻击目标后,选取一定填充规模的用户资料,使IF中所有项目的评分值在以所有用户对所有商品的平均评分值为中心的某个很小的范围内随机选取。攻击概貌如表1所示。由于推荐系统中的平均评价值是开放的,攻击者较易取得这些信息,攻击代价小,现实中是可行的。但由于填充规模较大,执行成本高,实验证明攻击效率较低。
表1 随机攻击和平均攻击的攻击概貌形式
项目 I1 … Il Il+1 … Im-1 Im
评分 R1 … RL 0 … 0 Rm
1.3.2平均攻击
平均攻击要求攻击者知道每个项目的评分平均值,很多推荐系统对用户公开这些信息。与随机攻击基本相同,知识成本较高,需要了解所有项目的评分平均值,实现难度较大。
1.3.3流行攻击
流行攻击者选择那些流行的或畅销的占全部项目少部分的项目作为攻击概貌的选择项目,将它们赋予最高分,并把目标攻击项目赋予预定值。流行攻击概貌如表2所示。
2攻击的检测与防御
2.1攻击的检测
欺诈攻击的检测主要是根据检测推荐个体与其他用户评分的相似性来判断是否为欺诈攻击,从而生成攻击用户概貌。欺诈攻击的用户配置文件和诚信用户非常相似,所以要正确识别很困难。早期算法忽略了用户之间的相互影响,利用分析档案的签名来识别欺诈攻击,准确率较低;而基于SVD的协同过滤算法利用用户的群体效应,并设计算法监控评分的时序模式,去除不正常的对象与用户,准确率较高。文献[1]通过计算低维模型下每个用户概貌的概率来检测随机攻击,那些概率异常低的被认为是攻击用户概貌。
2.1.1攻击检测模型
攻击检测模型是通过对用户评价数据库进行挖掘的算法模型,分辨攻击用户与真实用户资料,并对前者做出反应。使用前提是两者有所不同:例如前者的评价分可能与系统的平均值有很大的偏差;前者间的相似度应比后者间的大得多。
攻击检测模型目前主要有:基于基础监测模型的方法、基于 Chirita模型的方法。文献[2]介绍了Chirita模型检测攻击的算法思路为:攻击者在评价模型上有明显的特点,如很高的预测变化值,平均相似性、与其他用户的偏离度和背离平均度,同时也有很低的标准差。
基于Chirita模型的基本检测算法
设置MetricsLow为评分标准差方法,MetricsHigh为预测变化值、平均相似性、与其他用户的偏离度和背离平均度四种方法;
for m in MetricsHigh and MetricsLow
for 每个用户u
(4)计算m(u);
(5)for 每个用户u
(6)if 用户u有很高的MetricsHigh并且有很低的MetricsLow then
(7)u是一个攻击者
2.1.2攻击检测工具的开发
对于欺诈攻击入侵,一方面要提高系统的防御性能;另一方面还需要检测工具的帮助。由于入侵和恶意攻击的瞬时性和动态性,在流数据环境中进行入侵检测是非常关键的。
2.2 攻击的预防
欺诈的预防是在推荐之前利用用户推荐历史判断用户是否为欺诈攻击者。攻击的防御一方面致力于提高攻击的成本,更重要的是要寻求抗攻击能力强的推荐算法。为了防御攻击,推荐系统可以采取控制输入概貌信息速度的措施,如目前流行的在数据输入界面上添加验证码的方法,可以防止攻击者利用自动化手段快速地输入,以提高其执行成本。
2.2.1身份验证
主要实现对用户身份识别,防止恶意用户对推荐系统进行攻击。可采取随机验证码的形式来防止用户的攻击。用户只有通过了身份验证才能进行其他的操作,否则只能作为浏览者。通过检测并移除被怀疑的攻击用户,Chirita等人提出了一系列检测属性来分析恶意用户的评分信息,并评估了这些属性对不同攻击模型的检测性能[2]。
2.2.2黑名单
黑名单是由用户的不可信邻居组成的,针对不同用户应该建立不同的黑名单。黑名单记录的是可信度较低的用户,其中包括了欺诈攻击者。利用黑名单中用户的评分特性和目标用户的评分特性进行比较,如果他们具有很高的相似性,则将目标用户过滤。
黑名单不仅考虑欺诈攻击用户,而且也考虑推荐可信度低的用户,只要满足其一就会被列入黑名单。在考虑某个用户是否可作为推荐者进行推荐时,不仅要考虑这个用户和需求用户评分的相似性,而且也要考虑他的推荐可信度。黑名单的作用使得系统形成的推荐群体不仅和需求用户很相似,而且推荐可信度也很高,这样就提高了推荐的准确率。
对于欺诈攻击的检测和防御,大都是建立在目前已知的攻击模型之上。随着时间的推移,新的攻击模型还会出现,所以构建适应性良好的检测和防御方法是研究的重难点。
欺诈攻击分析是近几年的一个研究热点,虽已取得了一定的成果,但仍有很多问题有待解决:如何提高推荐系统对欺诈攻击的自动检测,如何降低欺诈攻击对系统的影响等。
参考文献
[1] Sheng Zhang, Yi Ouyang, James Ford. Analysis of a Low-dimensional Linear Model under Recommendation Attacks. ACM. SIGIR’06, August 6–11, 2006, Seattle, Washington, USA.
[2] P. A. Chirita, W. Nejdl, C. Zamfir. Preventing Shilling Attacks in Online Recommender Systems[C]. Proceedings of ACM International Workshop on web Information and Data Management, New York, USA: ACM Press, 2005: 380-395.
周敏珍(1976—),女,汉族,江苏张家港,硕士,讲师,从事中高职计算机教学,研究方向为计算机应用
摘要:协同过滤是推荐系统最常用的一种技术,但它对用户概貌信息较为敏感,欺诈攻击者很容易通过注入有偏差的用户概貌信息,人为干预推荐系统的结果。针对这个问题,本文研究了欺诈攻击的攻击模型,分析了欺诈攻击的检测预防方法,以期提高推荐结果的准确性和系统的鲁棒性。
关键词:欺诈攻击 推荐系统 攻击模型 检测 预防
中图分类号:TP393.08文献标识码:A 文章编号:1672-3791(2011)12(b)-0000-00
协同过滤是目前推荐系统最常用的技术,但其推荐结果对用户概貌信息的敏感性使得系统容易受到人为攻击。攻击者通过注入有偏差的用户概貌信息,人为干预结果,使结果产生偏差,从而影响推荐系统质量和安全性问题。目前,关于欺诈攻击的研究很多,如欺诈的检测预防、利用可信机制的推荐算法等。本文研究了欺诈攻击的攻击模型,分析了欺诈攻击的检测预防方法,以期提高推荐结果的准确性和系统的稳健性。
1欺诈攻击简介
1.1定义
用户概貌信息是指推荐系统中用于记录用户兴趣爱好和特定的行为模式的个人数据,由于协同过滤是根据相似商品或相似用户来产生推荐值的,攻击者可注入虚假或有偏差的用户概貌信息,通过对项目的恶意评价使推荐结果偏离用户需求,这类攻击称之为用户概貌攻击或欺诈攻击。
一个攻击用户概貌由一个n维向量表示,记I为推荐系统的项目集,即I=IT∪IS∪IF∪Iφ。其中IT是攻击目标项目,是为提高攻击效率而指定的项目集,对于某些攻击IS可以为空,IF是需指定评分的项目集,Iφ是未评分的项目集。
1.2攻击意图
欺诈攻击意图分为:推攻击即抬高目标项目的评分,核攻击即贬低目标项目的评分。常见的为推攻击,如2001年6月Sony Pictures公司承认利用仿造电影评论家评论的手法向客户推荐许多新发行的电影,实际上并没有人对这些电影做出评论。另一个可能的意图是扰乱整个推荐系统的准确性,使系统逐渐失去用户的信任,最终停用该系统。
1.3攻击模型
攻击模型是在对推荐系统知识、商品、评分数据以及其他用户了解的基础上构建欺诈攻击概貌的方法。按攻击用户概貌的组成不同,攻击模型主要分为:
1.3.1随机攻击
随机攻击就是攻击者确定攻击目标后,选取一定填充规模的用户资料,使IF中所有项目的评分值在以所有用户对所有商品的平均评分值为中心的某个很小的范围内随机选取。攻击概貌如表1所示。由于推荐系统中的平均评价值是开放的,攻击者较易取得这些信息,攻击代价小,现实中是可行的。但由于填充规模较大,执行成本高,实验证明攻击效率较低。
表1 随机攻击和平均攻击的攻击概貌形式
项目 I1 … Il Il+1 … Im-1 Im
评分 R1 … RL 0 … 0 Rm
1.3.2平均攻击
平均攻击要求攻击者知道每个项目的评分平均值,很多推荐系统对用户公开这些信息。与随机攻击基本相同,知识成本较高,需要了解所有项目的评分平均值,实现难度较大。
1.3.3流行攻击
流行攻击者选择那些流行的或畅销的占全部项目少部分的项目作为攻击概貌的选择项目,将它们赋予最高分,并把目标攻击项目赋予预定值。流行攻击概貌如表2所示。
2攻击的检测与防御
2.1攻击的检测
欺诈攻击的检测主要是根据检测推荐个体与其他用户评分的相似性来判断是否为欺诈攻击,从而生成攻击用户概貌。欺诈攻击的用户配置文件和诚信用户非常相似,所以要正确识别很困难。早期算法忽略了用户之间的相互影响,利用分析档案的签名来识别欺诈攻击,准确率较低;而基于SVD的协同过滤算法利用用户的群体效应,并设计算法监控评分的时序模式,去除不正常的对象与用户,准确率较高。文献[1]通过计算低维模型下每个用户概貌的概率来检测随机攻击,那些概率异常低的被认为是攻击用户概貌。
2.1.1攻击检测模型
攻击检测模型是通过对用户评价数据库进行挖掘的算法模型,分辨攻击用户与真实用户资料,并对前者做出反应。使用前提是两者有所不同:例如前者的评价分可能与系统的平均值有很大的偏差;前者间的相似度应比后者间的大得多。
攻击检测模型目前主要有:基于基础监测模型的方法、基于 Chirita模型的方法。文献[2]介绍了Chirita模型检测攻击的算法思路为:攻击者在评价模型上有明显的特点,如很高的预测变化值,平均相似性、与其他用户的偏离度和背离平均度,同时也有很低的标准差。
基于Chirita模型的基本检测算法
设置MetricsLow为评分标准差方法,MetricsHigh为预测变化值、平均相似性、与其他用户的偏离度和背离平均度四种方法;
for m in MetricsHigh and MetricsLow
for 每个用户u
(4)计算m(u);
(5)for 每个用户u
(6)if 用户u有很高的MetricsHigh并且有很低的MetricsLow then
(7)u是一个攻击者
2.1.2攻击检测工具的开发
对于欺诈攻击入侵,一方面要提高系统的防御性能;另一方面还需要检测工具的帮助。由于入侵和恶意攻击的瞬时性和动态性,在流数据环境中进行入侵检测是非常关键的。
2.2 攻击的预防
欺诈的预防是在推荐之前利用用户推荐历史判断用户是否为欺诈攻击者。攻击的防御一方面致力于提高攻击的成本,更重要的是要寻求抗攻击能力强的推荐算法。为了防御攻击,推荐系统可以采取控制输入概貌信息速度的措施,如目前流行的在数据输入界面上添加验证码的方法,可以防止攻击者利用自动化手段快速地输入,以提高其执行成本。
2.2.1身份验证
主要实现对用户身份识别,防止恶意用户对推荐系统进行攻击。可采取随机验证码的形式来防止用户的攻击。用户只有通过了身份验证才能进行其他的操作,否则只能作为浏览者。通过检测并移除被怀疑的攻击用户,Chirita等人提出了一系列检测属性来分析恶意用户的评分信息,并评估了这些属性对不同攻击模型的检测性能[2]。
2.2.2黑名单
黑名单是由用户的不可信邻居组成的,针对不同用户应该建立不同的黑名单。黑名单记录的是可信度较低的用户,其中包括了欺诈攻击者。利用黑名单中用户的评分特性和目标用户的评分特性进行比较,如果他们具有很高的相似性,则将目标用户过滤。
黑名单不仅考虑欺诈攻击用户,而且也考虑推荐可信度低的用户,只要满足其一就会被列入黑名单。在考虑某个用户是否可作为推荐者进行推荐时,不仅要考虑这个用户和需求用户评分的相似性,而且也要考虑他的推荐可信度。黑名单的作用使得系统形成的推荐群体不仅和需求用户很相似,而且推荐可信度也很高,这样就提高了推荐的准确率。
对于欺诈攻击的检测和防御,大都是建立在目前已知的攻击模型之上。随着时间的推移,新的攻击模型还会出现,所以构建适应性良好的检测和防御方法是研究的重难点。
欺诈攻击分析是近几年的一个研究热点,虽已取得了一定的成果,但仍有很多问题有待解决:如何提高推荐系统对欺诈攻击的自动检测,如何降低欺诈攻击对系统的影响等。
参考文献
[1] Sheng Zhang, Yi Ouyang, James Ford. Analysis of a Low-dimensional Linear Model under Recommendation Attacks. ACM. SIGIR’06, August 6–11, 2006, Seattle, Washington, USA.
[2] P. A. Chirita, W. Nejdl, C. Zamfir. Preventing Shilling Attacks in Online Recommender Systems[C]. Proceedings of ACM International Workshop on web Information and Data Management, New York, USA: ACM Press, 2005: 380-395.