【摘 要】
:
随着人工智能技术的飞速发展,作为人工智能领域的重要分支,机器学习同样获得了长期而稳定的发展,目前已经成为学术界研究最多的领域之一。其中,监督学习是目前研究的最多、应
论文部分内容阅读
随着人工智能技术的飞速发展,作为人工智能领域的重要分支,机器学习同样获得了长期而稳定的发展,目前已经成为学术界研究最多的领域之一。其中,监督学习是目前研究的最多、应用最广泛的一种学习框架。但是,传统监督学习采用单示例单标记的形式描述现实对象,不适用于解决歧义性对象的学习问题。基于此,研究者们提出了多示例多标记(MIML)学习这一新型框架,在此框架下,现实对象被描述为多个示例,且被赋予多个概念标记。这种框架更适合处理歧义性对象,有助于复杂对象学习问题的解决。针对MIML框架,研究人员提出了多种学习算法,其中,最为直观的是以多示例学习或多标记学习为桥梁,将MIML学习退化为传统监督学习进行求解,代表算法为MIMLBoost算法和MIMLSVM算法。本文针对这两个退化算法中所存在的问题和不足,做了以下方面的研究工作。首先,分析MIMLBoost算法转化过程中出现的类别不平衡问题,根据现有的类别不平衡解决方法,对算法进行改进。本文结合欠采样思想,运用聚类算法和TF-IDF算法计算每个类别标记在各个聚类簇中的重要度,然后筛选出重要度高的若干标记与聚类簇中的示例包拼接,以此缩减数据间的类别不平衡性。其次,研究发现MIMLSVM算法只从包层面构造聚类,而忽略包内示例分布对分类影响这一不足之处,提出一种新的示例包表示方法。本文从示例层面构造聚类,挖掘出示例中的潜在概念,运用R-PATTERN算法计算每个概念簇的概念权重,再利用TF-IDF算法计算每个概念簇在各个示例包中的重要度,最后将示例包表示成概念权重向量,向量的每一维即为概念簇的概念权重与在该包中重要度的乘积。最后,通过仿真实验分别比较改进算法和原算法的性能优劣。仿真实验结果表明,两种改进算法在部分评测指标上取得了良好的实验效果,在整体上略优于原算法,说明了本文改进方法的有效性,具有较好的实用价值。
其他文献
计算机技术与互联网技术迅速结合形成了独特网络文化,流传于网络的大量数字信息给人们的日常生活和工作带来巨大影响。一方面,诸如图书封面、信封封面、文档内容的文字部分等
无线射频识别(radio frequency identification,RFID)技术是从上世纪八十年代兴起的一项非接触式自动识别技术。RFID技术目前已经得到广泛的应用,但其安全机制还不够完善。
针对无线Ad hoc网络中存在的TCP协议性能下降问题,研究者提出了包括端到端的改进方案,单层改进方案,跨层改进方案等各种方案,但这些方案均具有各自的缺陷,特别是不能有效解决
随着互联网技术的高速发展和计算机的大范围普及使用,人们的日常生活越来越离不开信息技术的支持。智能教学系统在信息检索、数据挖掘、机器学习等前沿计算机技术的支撑下有
复述是含义相同而表达方式不同的词、短语和句子。例如,英文单词“film”和“movie”为单词级别复述又称同义词或近义词;英文短语“take care of”和“look after”为复述短
恶意程序是威胁计算机与网络系统安全的一个重要因素,已成为计算机犯罪的一种新的演化形式。随着计算机和互联网技术的迅猛发展,恶意程序的传播速度、传播范围以及破坏程度日益
企业服务总线(Enterprise Service Bus, ESB)作为面向服务体系架构SOA(Service Oriented Architecture)的核心框架,是企业异构应用交互的基础平台,具有高效、全面、灵活的特
由于传统的敏感数据方法主要针对单一敏感属性的数据,然而很多现实应用中,发布的数据往往涉及到多个敏感属性。目前多敏感属性的数据发布方法成为重要的研究方向,但由于不同
众所周知,软件危机的主要特征是软件开发难度大,生产效率低,其正确性和可靠性得不到保证,而高级程序设计语言中的泛型语言机制和泛型程序设计,也称为参数化程序设计,是提高软
基于发送端和接收端多天线输入输出(Multiple-Input Multiple-OutPut,MIMO)的技术是LTE 系统中的关键技术之一,其最为显著的优势在于能充分利用随机衰落和空间多路径传播来提高