论文部分内容阅读
线上社交网络已经成为了人们维系社交关系的主要工具,用户在线上社交网络上进行信息分享、态度表达、公共事件评论等行为。随着信息在线上社交网络中的传播,出现了各种各样的安全、欺诈、隐私问题,给网络信息环境的管理带来的新的挑战。为了解决以上问题,需要对用户在信息传播中的个体行为进行研究。用户是信息传播的主体,是信息传播的发起者与承载者;用户之间的社交关系是信息传播的主要路径与渠道。对微观的个体个性行为的分析能够为信息传播的研究提供更为深刻的理解,有助于深入分析信息传播的动力与规律。本文研究了围绕信息传播的四个主要用户个体行为:垃圾用户行为、个体转发行为、用户链接行为和影响力,并取得了以下一些主要研究成果:1.提出了基于主动学习与自步学习的垃圾用户行为检测方法。垃圾用户行为的检测通常分为监督学习和非监督学习,监督学习需要足够的标记样本,非监督学习则需要更多的额外特征信息保证检测率。针对这些问题,本文将主动学习引入到垃圾用户行为检测问题中,在尽可能少的标记工作量下保证了比较高的分类准确率。同时,将自步学习作为主动学习的补充,提出了主动自步学习框架,并将整体框架抽象为优化问题,对主动自步学习原理进行了理论解释。最后在Twitter和微博数据集上进行了实验验证,结果表明本文提出的主动自步学习算法能够有效地在较少15%的标记数量下,达到比较理想的分类效果。2.提出了多任务用户个体转发行为预测算法。用户的个体转发行为预测是对个体转发数据的建模,通常,个体模型难以克服个体转发数据存在稀疏性的特点。本文采用多任务学习方法解决个体转发行为的预测,在对实际数据进行统计分析的基础上,根据社会学中的行为影响力的概念,提出了将单个任务之间互相关联的转发行为相似性的概念。模型考虑了个体因素和用户行为相似因素,解决了个体用户转发数据的稀疏性问题,在微博数据上取得了比较好的效果。同时,本文还以实际网络仿真的形式对信息传播模型中个体转发概率的影响进行了分析。说明了考虑个体转发概率的传播模型更符合实际。3.提出了基于结构和基于主题的个人网络圈子发现算法。用户的个体链接行为形成了用户的个人网络,个人网络是用户同外界进行信息传播的主要渠道,个人网络中的圈子发现是解决个人网络信息过载问题的主要手段。本文提出了针对个人网络结构特点的基于结构的圈子发现算法,在分析了基于结构的圈子发现算法的不足之后,将信息传播中的主题因素和结构因素结合,提出了基于主题的圈子发现算法。通过在微博数据集上的实验说明了用户信息主题在圈子中起到的作用。本文还以实际仿真的形式,探讨了局部圈子在整体信息传播过程中的作用。4.提出了数据驱动的多主题用户影响力排序算法。用户的影响力行为来源于信息传播,同时又作用于信息传播。对用户的影响力排序一般是利用理论的模型进行分析,无法准确反映实际数据中的影响力现象。本文采用了数据驱动的方法,从数据中直接抽取排序模型中需要定义的参数。同时,对用户个体影响力行为产生的数据进行了分析,将用户影响力分为直接影响力与间接影响力,提出了多主题影响力模型。基于多主题影响力模型,进一步提出了主题相关的排序算法,在算法中引入多个主题相关的基节点形成新的网络。实验证明主题相关的排序算法能够根据主题对用户进行影响力排序,数据驱动的形式能够保证算法对现实影响力的预测更准确。