【摘 要】
:
近年来,基于正样本和未标记样本的归纳式矩阵补全(简称PU归纳式矩阵补全)作为相似人群拓展等推荐应用的有效建模方法,受到学术界和工业界的广泛关注。然而,真实应用中的相似
论文部分内容阅读
近年来,基于正样本和未标记样本的归纳式矩阵补全(简称PU归纳式矩阵补全)作为相似人群拓展等推荐应用的有效建模方法,受到学术界和工业界的广泛关注。然而,真实应用中的相似人群拓展所涉及的用户规模可达10亿级别,用户特征的数目也常达到亿的级别,这给PU归纳式矩阵补全的模型实现带来了极大的挑战,其中一项代表性挑战是存储方面的挑战。如何在工业界的真实环境下设计出存储高效的模型和算法,是摆在研究者面前的重要问题。模型压缩是实现存储高效算法的常用思路,要求在保证模型精度不下降太多的前提下,对模型的参数进行压缩。已有的模型压缩方法都是基于非归纳式矩阵补全,对于PU归纳式矩阵补全,目前还没有相关的模型压缩方法。本文在国际上首次研究PU归纳式矩阵补全的模型压缩问题,提出了基于二值优化的PU归纳式矩阵补全BinaryIMC、基于多比特量化的PU归纳式矩阵补全MBIMC以及基于特征哈希的PU归纳式矩阵补全HashIMC三种解决方法。这三种方法将从不同的路线出发去提高模型的存储效率,具体说来:一、BinaryIMC方法通过将原实值优化问题转换为二值优化问题,最终得到二值的PU归纳式矩阵补全模型,以略微降低模型精度的代价,大幅降低了模型的存储开销。二、MBIMC方法通过将训练完成后的参数进行合理量化,以压缩参数的存储空间,在不明显降低模型精度的前提下能达到降低模型存储开销的目的。MBIMC方法相较于BinaryIMC方法压缩比率较小,但模型精度得到大大提高。三、HashIMC方法对模型的原始特征空间进行降维,特别适用于拥有高维稀疏特征的应用场景,在真实的相似人群拓展数据集上相比前两种方法整体上取得了更好的结果。
其他文献
水环境生态问题日益严重,全球面临水资源短缺,水环境被污染等问题,寻找一种可以高效去除水体中有机污染物的材料对生态和环境均具有重要意义。除了传统的吸附剂和光催化材料,
无线传感器网络(WSNs)由各种异构的传感器节点组成,因其具有易大规模部署、自组网等优点被广泛应用于生活、工业、军事等方面。由于资源有限且能力不同,传感器节点可以执行不
近些年来,VR(虚拟现实)设备越来越受到人们的喜爱,全球前列技术公司也纷纷布局VR市场。其中数据手套就是当前国内外研究热点。但当前的数据手套手部姿态采集大多使用惯性传感
作为一种新型的人机交互方法,脑机接口技术(Brain-Computer Interface,BCI)因其可以直接读取人类思维而被视为改变人类未来世界的颠覆性技术之一。经过多年的发展,脑机接口技
在光纤光栅发展的几十年内,因为其具有体积小,重量轻,抗电磁干扰等优点,被国内外许多学者关注。近年来,光纤光栅在传感领域发展颇为迅速,涉及的传感领域包括物理,生物,化学等
低频微弱信号检测是高灵敏度传感器的关键技术。传感器前置放大电路是传感器信号处理系统的重要组成模块,前置放大电路的噪声、增益、失调电压等参数决定了传感器的整体性能
宫颈癌威胁着全球女性的健康。在高收入水平国家,筛查技术的普及大大降低了宫颈癌的发病率与死亡率。但是,现有宫颈癌筛查技术都存在各自的不足,迫切需要一种新的基于高分辨
工业现场的许多控制过程中存在着时变大时滞现象,针对这类对象的控制通常需要进行在线辨识,但要求控制器具有较高的实时数据处理能力。此外,在实验室环境下设计时变时滞实验
近年来,中国自然灾害频发,严重的影响了中国的经济的发展,对人民的生活造成了巨大的损失.为了减少巨灾造成的损失,巨灾风险管理的能力正在加强,人们运用数学,金融等方面的知
近年来,随着计算机视觉领域相关技术正如火如荼的发展着,三维重建越来越受到相关专家学者的重视。而随着三维重建场景的复杂度越来越高,以及重建精度的要求越来越高,重建的难