面向社交媒体的时序因果关系发现算法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:Janette
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和社交媒体的迅速发展,用户在社交媒体上产生了大量数据,营造了活跃的网络环境,这些数据所包含的信息在社交媒体的庞大网络中传播和流动,为人们了解和挖掘社交媒体的潜在规律提供了基础。通过发现社交媒体上的因果关系网络,可以得出其中的相互影响所遵从的隐含因果关系,反映信息的流动,为预测和引导舆论提供帮助。社交媒体是一个复杂的系统,由于具有时效性,因此高维下的时序因果关系网络推断算法研究是社交媒体因果关系发现的重要问题。以往因果关系发现领域的研究重点多在非时序的范畴,静态的非时序因果关系发现算法不能刻画随机过程之间的影响传播。已有学者在动态系统的因果关系发现上取得了一些成果,例如传递熵、CSE等重要算法,然而这些方法存在一定的局限性,传递熵基于双变量做因果推断,在扩展到高维情况下会产生大量冗余因果关系,CSE也因为只研究上一时刻的影响来确定因果关系,所以容易对那些影响有延迟的随机过程的信息传递估计欠缺,进而导致发现出的因果关系网络不准确。为此,社交媒体因果关系发现问题需要研究如何得到包含直接因果关系、准确估计原因节点的信息传递、消除冗余因果边的因果网络,描述社交媒体上信息流动的真实情况。本文针对以上问题提出了一种推断社交媒体直接因果关系网络的方法。该方法基于时间序列数据进行建模,用时序因果模型来表示社交媒体信息在时间维度上的传递,为了拟合这种时序上的信息传递,在模型中引入了因果影响延迟和充分影响长度。在模型选择策略上,按照最小描述长度准则来选择模型,平衡模型复杂度和模型对数据的拟合程度来求解模型参数。参数学习策略是一个启发式学习过程,首先对节点自身影响进行准确估计,然后在已知自身影响的条件下,搜索其他节点,通过因果关系显著性检验来判断候选原因节点。在发现原因节点的过程中,将已知原因节点集合作为条件节点集,用于消除非直接因果关系。学习过程中迭代计算充分影响长度,直到时间足够久远,影响消失,保证对因果影响传递的充分估计。最后为了进一步降低因果网络冗余程度,对模型进行回溯剪枝。本文采用了模拟数据集对本文算法和对比方法进行多组实验,结果表明本文算法的有效性和准确性优于对比方法,能够发现直接因果关系网络,并且具有稳定性和鲁棒性。通过新浪微博数据对算法进行用户因果关系和话题因果关系发现的实验,结果证明本文算法消除了显式关系中的非真实影响,符合实际场景。另外,还能帮助我们发现一些隐含的结论,揭示社交媒体背后的影响规律。
其他文献
定向增发作为上市公司股权再融资的重要方式之一,在近几年呈现喷井式的发展。2006年全国进行定向增发的上市公司仅为48家,融资规模783亿元,2016年达到809家,全年定向增发融资
光电线缆是输送电能、传输信息和实现能量转换的线材产品,它是国家基础设施建设的关键材料,是促进国民经济发展的重要力量。目前线缆市场总体供大于求趋势较为明显,产品同质化竞争加剧,市场价格呈现一路下滑态势。作为生产军用通信线缆起家的GL电缆公司,在光电线缆行业竞争日益激烈的今天,面临着利润空间越来越小,盈利能力不强,盈利水平下降的问题。GL电缆公司如何通过改进盈利模式,提升公司盈利能力和水平成为需要解决
振动台模型试验是目前研究结构抗震的主要办法之一,而微粒混凝土是应用在振动台试验中最重要的模型材料。微粒混凝土的力学性能对振动台试验的成功与否有着直接的联系,目前人
巴基斯坦北部地区是历史上犍陀罗文化的中心区域,拥有大量的印度教、佛教和伊斯兰教文化遗产。本文借助考古文献资料、遥感影像和高分辨率数字高程模型数据,对巴基斯坦北部地区两处疑似文化遗址开展空间考古,并对该区域印度教、佛教和伊斯兰教文化遗址的时空演变状况进行研究,结合课题组的野外实地考察,针对它们的保存现状提出相应保护对策。研究结果如下:(1)空间考古确定2处新发现的文化遗址特征,野外考察10余处文化遗
针对黄淮平原过量及不合理施氮的现状,探讨减氮条件下不同耕作和施肥方式对小麦根蘖发育、产量和土壤氮含量的影响,以期为减氮条件下提高氮肥利用率提供理论依据。以半冬性小麦品种矮抗58为材料,于2016~2018年连续两个种植年度,采用裂裂区试验设计,设置两个施氮量(240 kg·hm-2,180 kg·hm-2)、两种耕作方式(旋耕、深耕)和3种追肥方式(撒施、隔行开沟追肥、隔二行开沟追肥),研究了小麦
我国是世界上铁路网最大的国家,2019年底,我国的高速铁路运营里程就已达3.5万公里,是世界高铁运营里程的三分之二,检修调试工作是高铁安全运行的重要保障。面对日益复杂的高铁列车,检修调试工具也随之增多,给工具管理带来了巨大的考验。经过实际调研发现,在检修调试过程中经常出现工人借还工具时间过长影响工作进度,工具遗失等问题,甚至发生过因维修工具遗落在列车上造成列车晚点等重大事故。为了解决高铁检修调试人
在越来越依赖公共财政支持的背景下,公交服务均等化成为政府关心并亟待解决的重要问题。以改善服务品质、均衡资源分配等为目标,研究科学、合理的公交服务公平性评价理论、方法及其应用逐渐成为热点。本文选取缓冲区法、路网比率法、距离衰减法三种通用的、可实施的公交站点可达性指数计算方法,用来表示居民到达公交站点的难易程度,站点服务半径选取400m。并结合基尼系数和洛伦兹曲线,分析三种方法公交基尼系数差异。利用地
随着中国经济社会持续快速发展及人民的生活水平不断提高,近几年来全国机动车保有量继续保持快速增长态势。加油站作为各种机动车添加油料的主要场所,也已成为民众生活中不可或缺的一部分,因此加油站供应能力及服务水平也直接影响到民众生活。随着国内成品油市场的全面开放,国企、外企和民营企业在加油站市场上的争夺越演越烈!这不但造成加油站的投资成本不断攀升,投资风险越来越大[1];同时,加油站为争夺客户,各种营销手
信息管理是制造与销售型企业实现转型的根本保障。信息管理水平直接影响公司管理。BR集团公司2007年就已经开始构建企业信息化管理平台,公司信息化管理平台构建直接影响公司
近几十年来,溶瘤腺病毒(Oncolytic Adenovirus,OA)在癌症的基因治疗领域显示出了巨大的潜力,已经广泛应用临床研究,虽然OA在局部肿瘤基因治疗中有种种优势,但是静脉注射OA的效果却依然受到机体免疫清除和靶向性差的限制。仿生矿化是生物系统中非常普遍的现象,其很大的优势在于可以将生命体与无机材料整合为一个整体,这不仅不影响原本生命体的活性,还会赋予生命体更多功能。在本课题中,我们通过