多关系数据挖掘中的概率模型研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:gz20090907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代存储和通信技术的发展,存储不断增长的大规模数据已经不再是难事,人们迫切地想从这些数据中获得有用的信息,因而如何有效地处理复杂数据并做有效的建模分析己成为计算机科学亟待解决的问题。例如,电子商务网站的数据库中既包含某件商品的文本描述、图片又包含用户评论和购买信息,对这些多关系数据建模分析是机器学习和数据挖掘领域的热点。  概率模型方法被广泛用于文本分类、信息检索、文本和图像标注、协同过滤、链接预测等问题。这些方法通常假设一个概率模型来刻画数据的生成过程,通过最大化似然概率得到模型参数的估计值,进而利用模型参数对新的数据做预测。本文的主要工作包括:  系统地总结了两种基本模型,混合主题模型和因子分解模型的相关解法。混合主题模型是一种聚类模型,它可以分析隐主题以及对单词和图像做标注。因子分解模型的经典例子是概率矩阵分解,通过假设矩阵元素由交互的因子内积,以达到对不完全观察矩阵填充的目的,常用于评分预测协同过滤、图像恢复、背景提取等问题。  提出基于混合主题模型和因子分解模型的多关系模型,以处理同时具有链接信息与辅助信息的数据。本文有效地利用上述基本模型的解法,提出了三种新模型。公开数据集上的实验表明其有更好的预测精度。
其他文献
数字图像拼接技术是指将一组具有重叠区域的图像,根据重叠区域内的对应关系合成大视角图像的技术。遥感图像一般应用于较大面积的区域研究,且由于远距离拍摄的位置限制,一般需要进行多方位多次拍摄,再将拍摄所得的多幅遥感图像进行拼接。遥感图像拼接技术具有广泛的实际应用需求,为地理环境监测、军事侦察以及自然灾害控制等应用提供了及时有效的信息基础。本文主要对基于特征的遥感数字图像拼接技术进行研究,从特征点检测和配
蒙特卡罗路径追踪(pathtracing)是目前最重要的真实感绘制方法,是照片级真实感绘制的基础,然而,无偏的(unbiased)、基于物理的蒙特卡罗路径追踪存在收敛慢的问题,在采样不充分时
目前,组合优化问题广泛地存在于国民经济的各个领域,针对组合优化问题的求解能够为经济建设、宏观决策等重大问题提供有力的科学支撑,提高决策的科学性、正确性以及前瞻性。然而,随着问题规模的不断增大,大多数的组合优化问题搜索空间呈指数型增大,搜索地形愈加崎岖,使用传统的方法通常求解速度缓慢且质量不高。因此,目前对于组合优化问题的研究以及有效地求解组合优化问题仍然是学术界的研究热点之一。由于智能优化算法通常
学位
随着物联网的兴起与应用,越来越多的多媒体数据在无线多媒体传感器网络中传输。由于传感器节点通常部署在公共环境中,容易受到窃听与篡改,其安全性受到严重威胁。WMSN具有能量敏
随着数码相机以及其他彩色图像采集设备的不断普及,与灰度图像相比,彩色图像表现的信息丰富,所以人们更倾向于选取彩色图像作为信息获取的主要手段。然而,在彩色图像的获取、传输
蒙古文具有悠久的历史,是我国重要的少数民族语言文字之一。蒙古文的信息处理工作深刻影响着蒙古族聚居区的政治、文化生活。而蒙古文输入法作为信息时代交流的工具,其发展更
工资管理体系是衡量一个公司企业管理的重要标准之一,与其对应的工资管理系统则是公司管理的一个重要信息化工具。繁杂的Excel编辑或者其它手动管理,不但耗费了大量的人力资
云计算因其良好的发展前景受到了人们的广泛关注,越来越多的机构开始采用云计算模式。然而,云计算中也存在着包括身份认证及访问控制在内的众多安全问题,这些问题阻碍了云计算的
闪存作为一种新的存储介质,凭借其性能上的优势,真正逐步代替磁盘。传统的数据库存储引擎是基于磁盘的特性设计的,而闪存与磁盘在特性上的差异决定了现有的存储引擎不能充分发挥