一种基于共享内存的快速并行主题建模算法

被引量 : 0次 | 上传用户:game00vergoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,对非结构化数据处理的时效性要求逐渐变高,并行化的主题建模是一种能够有效的快速处理非结构化数据的方法。潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)是一种常用的概率主题模型,它能够通过获取文档在主题空间的低维表示来实现文档的分析。但是并行LDA模型在处理大规模数据时面临两大问题:一是对于已有的LDA近似推理算法,都存在着相应的缺点使其难以被应用于大规模数据的处理与分析。信息传播算法虽然在收敛速度以及计算复杂度上都具有一定的优势,但其空间复杂度过大,使其无法在大数据处理上得到很好的应用;二是现有基于共享内存并未很好的解决线程之间的阻塞问题,线程阻塞大大降低了并行LDA算法效率。如何改进已有LDA算法中近似推理方法以避免其在大规模数据处理中的缺陷,以及如何有效减少共享内存并行算法中线程阻塞时间,从而实现一种更实用和高效的基于共享内存的并行LDA算法是一件非常有挑战性的工作。基于传统信息传播算法的空间复杂度较大的问题,本文通过从最大化期望(Expectation Maximization,EM)的角度对信息传播算法进行重新解释,提出了一种新的参数更新方法(Expectation-maximization Belief Propagation,EBP)。这种更新方式不再需要剔除信息矩阵本身信息,能够避开统计过程中的信息存储问题,从而极大地减少信息传播算法中的空间复杂度。基于传统共享内存的并行LDA算法无法有效利用线程的计算资源,经常会导致线程阻塞问题。本文提出了一种基于共享内存的动态调度并行方法,能够将算法并行的过程看成是一个为线程分配工作的过程,通过动态的为线程分配任务,实现了线程间无等待的动态调度,改善了传统共享内存并行算法中的线程等待问题。通过将改进的信息传播算法与改进的并行算法结合实现了一种基于共享内存的快速并行主题建模算法(Parallel Expectation-maximization Belief Propagation,PEBP)。实验结果表明,EBP算法在混淆度与收敛速度方面的性能接近基于传统近似推理算法的LDA模型。此外,相对于一般的基于共享内存的并行方法,PEBP具有更好的加速比以及纵向扩展比,在混淆度以及收敛速度方面同样具有明显的优势。
其他文献
从宋末元初的时代背景下,对蒋捷词作中充溢着的愁苦情绪加以分析,以求更好地把握以蒋捷为代表的由宋入元的一部分文人的复杂心态。
本文论述网络传播淫秽物品犯罪的特点及相关对策。
就是否应当适当降低刑事责任年龄问题从三个方面进行了分析:首先,从未成年人心智不成熟的实际情况看,我国不应该降低刑事责任年龄;其次,采取此做法并不能起到很好成效;再次,
目的:观察加味温胆汤治疗慢性阻塞性肺疾病(hronic obstructive pulmonary disease,COPD)痰浊阻肺证患者的临床疗效。方法:将100例COPD痰浊阻肺证患者按照随机数字表法分为对
音乐欣赏活动是幼儿园音乐教育的基础 ,音乐欣赏可以开阔幼儿的音乐视野 ,丰富幼儿的欣赏经验 ,发展音乐才能 ,提高他们的音乐审美能力。幼儿音乐欣赏活动只有从感受、体会音
本文从探索农村地区支付结算体系建设存在的主要困难入手,结合农业银行历年来在支农、惠农方面积累的实践经验,提出优化网点布局、创新结算方式、加大宣传力度和创新结算方式
针对同一起跨境犯罪,内地与香港特区在双方根据各自刑事法律均享有刑事管辖权,且均已启动刑事诉讼程序时,可进行区际刑事诉讼转移,即就该案件刑事管辖权的实际行使达成共识,
近三年的全国高考作文题均为材料作文,审题难度不大,写作范围较广,但阅卷结果却不尽如人意:内容俗套化、材料单一化、思维平面化等作文趋同化倾向极为严重。要使中学作文教学
文章对电子政务协同参与方进行合作博弈分析,通过改变博弈矩阵中的变量,提出以下协同策略:完善电子政务标准、推动部门间电子政务均衡发展,推进电子政务协同的制度规范和鼓励
以Wireshark为监测工具,在网络带宽不足、背景流量复杂的环境下,采用数据包分片技术和Winpcap网络编程技术提高了音、视频应用传输质量。