面向分类效用的流数据文本聚类和局部敏感哈希算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:sun4679
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流数据往往是由连续的数据块组成,数据流场景下的检索研究是数据挖掘领域的重要基础应用,其在机器学习等各种分析任务中扮演着不可替代的重要作用。特别地,其是电子邮件的分类、新闻推送、医学诊断、文本识别、信用卡欺诈检测等的基石。传统的检索方法不能充分考虑到样本间的语义关系从而在效用和效率方面表现较差。本文基于聚类算法和局部敏感哈希算法来检索数据流文本信息的类别标签属性。特别地,在对文本检索、文本聚类和局部敏感哈希的进行综述的基础上,深入研究和分析了现有聚类算法和近似最近邻检索技术,设计了对应的研究方案。具体内容如下:聚类算法是解决无标签数据检索分类的的有效手段,但在研究中经常面临着相似度的选择比较武断带来的聚类效用较差的问题,许多学者提出一些改进算法来缓解。无论选择皮尔逊相似度还是TF-IDF(Term Frequency-Inverse Document Frequency)相似度都不能保证聚类的效用,而且可能在一个数据集上的效果好,在另外个数据集上的效果差。同时,在数据流场景下,服务器在初始阶段需要对到来的数据块进行聚类。为了满足实时响应的要求,同时达到较高的聚类效用,本文提出“误差驱动的多相似度模糊C均值聚类”算法PCM(PSObased FCM)。在PCM中,采用皮尔逊相似度、TF-IDF相似度以及杰卡德等相似度进行融合,同时采用粒子群优化算法来自适应地求解各个相似度所占用的权重以避免遍历所有权重带来的大量计算开销。最后,由于到来的数据块往往存在不均衡的问题,直接采用现有的硬聚类比如KMeans算法会导致大多数样本被分给样本数较多的类别,提出扩展T-S(TakagiSugeno)优化的模糊C均值算法进行处理。在爬取的数据集和两个真实数据集上的实验结果表明,PCM算法相比较传统聚类算法有较大提升,同时由于采用粒子群这样的启发式优化算法,从而有效地降低了时间开销。在数据流中新的数据块到来的时候,本文对数据块中的每条记录结合局部敏感哈希进行特征匹配以求达到精度和效率的均衡。显然,数据流中每条特征的构造方式以及好坏关系到检索的精度和复杂度。传统的特征构造方式构造的特征区分度低,而且构建时间较长,不能满足本文数据流场景下的实时性需要。现有研究表明,基于哈希的方法在效用和效率方面表现较优。为了在较低复杂度的前提下构造出精度较高的特征,本文基于局部敏感哈希,提出“数据驱动的分层监督核局部敏感哈希”算法SKH(Supervised Kernel Hash)。在SKH中,首先利用分层思想精心构建的的监督信息,采用数据驱动的形式学习哈希码,引入核函数增强了数据的可分能力,进一步提升了检索的效率。在爬取的数据集和两个真实数据集上的实验结果表明,SKH算法的检索效用相比较传统检索算法有提升,同时由于采用核函数来提取特征从而也有效地降低了时间开销。
其他文献
现如今,大数据技术已经成为了互联网技术中至关重要的一部分,如何运用数据分析方法挖掘出数据背后的价值是大数据技术的核心问题。与此同时,数据的安全分发问题显得尤为重要,而关系型数据库作为一种重要的数据存储手段,它在分发时也面临着种种挑战。关系型数据库在分发时容易发生泄密,如何在关系型数据库发生泄密后对泄密者进行溯源追踪成为了研究重点。针对关系型数据库分发后可能出现的泄密问题,本文提出了两种分别适用于数
软件产品和我们日常的工作生活息息相关,一旦软件中存在缺陷,可能会带来严重后果。由于软件本身是一种逻辑实体,并且软件产品开发过程中往往涉及人员、技术、管理及成本等多方面,缺陷往往难以避免。目前应对缺陷的主流方法是软件测试技术,但随着软件和信息技术服务业的蓬勃发展,软件规模越来越大和软件复杂度越来越高,导致测试资源紧张和测试速度过慢。随着发现缺陷时间点的延长,修复缺陷的代价呈指数级增长,因而尽可能早地
如今的人类社会,多芯线缆的应用非常广泛。如桥梁斜拉索,高压电缆,光缆和数据电缆等。这些应用在各个领域各个角落的线缆,将整个人类社会连接起来,其重要性不言而喻。这些线缆若是出现损伤,又无法及时准确得检测出来,将会给社会与国民经济造成重大损失。以高压电缆为例。近年来电力系统中的高压多芯线缆因为退化、随机过载和腐蚀等原因造成的损伤,直接威胁电力系统的安全。在此背景下,对多芯线缆进行损伤检测具有重要意义。
目标检测与识别是计算机视觉领域的基础任务和热点研究问题。目前,大多数的方法基于图像数据充足的假设。但是当训练数据稀少时,即小样本情况下,模型的训练精度会因为过拟合和泛化能力差而急剧下降。为了解决上述问题,本课题分别从改进网络表示能力和损失函数两个角度进行研究。具体内容如下:现有的小样本目标检测方法主要针对已有的目标检测网络设计新的训练策略,忽略了网络表示能力的重要性。本课题从改进网络结构出发,提出
随着当今社会对于老年人群和残疾人群关注度的提升,如何满足上述群体的出行需求,成为亟待解决的社会热点问题。机器人轮椅是将移动机器人的相关技术应用于普通的电动轮椅,具有广阔的应用前景。作为机器人轮椅的关键技术之一,人机交互接口对用户与轮椅之间的和谐操作具有至关重要的影响。头姿交互控制可以通过直观的头部运动,帮助用户完成轮椅的人机交互,但容易因肌肉疲劳给用户带来二次损伤。脑-机接口是一项新兴的技术,其最
晶体管作为集成电路的最重要的组成部分之一,其性能的提升为微电子技术的发展提供了重要的技术基础。有机晶体管由于其中半导体分子之间通过弱范德华力进行键合,薄膜中的分子相对无序。较多的结构缺陷限制了载流子的传输,通常情况有机晶体管的载流子迁移率相对常规无机材料的器件更低,因此有机晶体管不适合用于对开关速度要求非常高的应用中。尽管如此,有机半导体有着独特的加工方法,大多数有机层通过配置有机前驱体液,在常温
在自旋电子学领域中,由于磁性隧道结有潜力成为下一代磁性随机存储器(MRAM)的基本元件,因此是近些年的研究热点。传统磁性隧道结的势垒层通常是由Al2O3、Mg O等氧化物制备的。但是,制备氧化物势垒层磁性隧道结的工艺复杂,成本较高。单晶二维材料简单易制备的特点可为制备低成本的磁性隧道结提供一个新途径,因而人们对单晶二维材料势垒层磁性隧道结进行了广泛的研究。研究发现,单晶二维材料势垒层磁性隧道结的温
多层复杂动态网络作为复杂网络学科的一个重要分支,在近几年得到了越来越广泛的关注,但相比单层复杂动态网络,关于多层复杂动态网络的研究成果仍相对较少。复杂网络的研究领域众多,包括状态估计、拓扑辨识、同步控制、故障检测、行为特性分析等等,其中状态估计是其余各种研究的前提,只有在网络节点的状态信息已知的条件下,才能进行拓扑辨识、同步控制等研究。在实际中,复杂网络的规模巨大,拓扑结果错综复杂,往往无法直接获
电力系统中单一故障引起的连锁故障是大停电事故频繁发生的主要原因,从单一元件的故障到引起连锁故障造成全网崩溃,往往只是一瞬间,调度人员根本来不及采取有效的控制措施来抑制故障的传播。因此,预先掌握电网的运行状态,辨识并定位电网中的脆弱环节,提前采取保护措施,是避免连锁故障、保障电力系统安全稳定运行有效手段。本文首先从电力网络的结构脆弱性和状态脆弱性两个层面出发,构建了包含网络凝聚度、网络效能变化率、节
随着互联网的高速发展,网络广告市场规模迅速扩大,展示广告成为了最受青睐的宣传手段。精准的广告推荐是互联网平台收益的保障,而准确的广告点击率预测是精准推荐的前提。根据广告平台的更新速率、实时性等要求,广告推荐技术可以分为线下和线上两类。线下广告推荐技术主要基于构建数学模型,通过模型挖掘用户、商品特征之间的复杂关联;线上广告推荐技术主要基于用户的实时反馈,通过收集反馈信息,即时改变推荐策略。本文对线下