不确定数据的PU学习贝叶斯分类器研究

被引量 : 0次 | 上传用户:wangaijjuan860610
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的分类算法需要来自每个类别的样本,然而在现实应用中,想要获得大量标记的样本通常是昂贵费时的。PU学习(Positive Unlableled Learning)在只有正例和未标注样本下学习,在现实应用中普遍存在,近年来已得到广泛研究,但大都是针对确定数据的,而现实应用中会产生大量的不确定数据,如传感器网络、市场分析、医疗诊断。由于测量精确性的限制、过时的数据源、决策错误等原因,收集到的数据往往是不精确的,带有一定的不确定信息。因此,在只有正例和未标注样本的情况下对不确定数据进行分类分析具有重要意义。本文探讨在正例和未标注样本场景下的不确定数据分类问题,主要研究内容与成果:(1)提出在正例和未标注样本下的不确定数据分类问题,并基于朴素贝叶斯分类器来处理该问题。基于PNB(Positive Na ve Bayes)算法,一种处理确定性离散数据的PU学习贝叶斯算法,采用概率势的概念将其扩展以处理不确定离散数据。同时将处理不确定连续数据的朴素贝叶斯分类算法FBC(Formula-Based method)扩展以在只有正例和未标注样本的情况下处理不确定连续数据。实验结果表明,在只有正例和未标注样本下处理不确定数据时,与传统的PU学习贝叶斯分类算法忽略数据中的不确定性相比,本文的算法考虑到数据中的不确定性可以潜在地提高分类器的分类性能。(2)由于在正例样本和未标注样本中构建朴素贝叶斯分类器时,正例的先验概率作为参数需要人为提供,因此需要一种智能的方法来自动估计正例的先验概率。本文采用两种方法来估计正例的先验概率。第一种方法:采用一种类似F1的性能指标在只包含正例和未标注样本的验证集上评估分类器,在0.1,0.2,,0.9中选择使分类器在验证集上达到最好分类性能的值作为正例的先验概率。第二种方法:采用Elkan和Noto (2008)在“完全随机选择”假设下提出的在只有正例样本和未标注样本的情况下估计正例先验概率的方法来帮助构建朴素贝叶斯分类器。实验结果表明,采用以上两种估计正例先验概率的方法改进后的算法在避免人为给定正例先验概率的同时,在不确定数据上可以取得较好的分类性能。
其他文献
目的:通过研究足月窒息新生儿振幅整合脑电图(amplitude-integrated EEG, aEEG)背景活动的变化特点与窒息及其严重程度相关性,探讨aEEG对围产期窒息后脑损伤早期诊断的意义及其
食品工业与人类的发展和生存息息相关,粮食是关系到我国国民经济发展、社会稳定和国家自立的全局性重大战略问题,而小麦是最主要的粮食作物之一。随着科学技术的发展,小麦加
本文对运行十年时间,直径630mm,长度3900m的直埋蒸汽管道进行了研究和探索。总结了保温层厚度计算和结构设计、保温层内滑动、保温管防水设计、运行热损失和工程投资等目前行
<正>许多学者的研究表明,1970年代国际货币体系的解体和随后出现的金融全球化是导致经济周期波动性增大的原因。在过去的20年中,许多国家都曾经因为金融危机而导致经济出现大
本研究在天津大黄堡湿地植物野外调查的基础上结合功能植物的筛选文献对该湿地已知的植物进行筛选,旨在筛选出具有较强耐盐能力、较强脱氮除磷功能、较好景观功能的植物,在确定
基于“历史当事人”的口述叙事关注个体“过去”与“现在”、“个体”与“国家”关系问题,在中国社会研究领域早已不只是一个被“偶尔提及”的问题。本文尝试基于东北吉林省F
研究淫羊藿次苷II(icariside II,ICS II)对大鼠体外培养骨髓间充质干细胞(rat bone marrow stromal cells,rBMSCs)成骨性分化过程中诱导性一氧化氮合酶(induced nitric oxide
当前,汉英语码转换现象在人们日常生活中非常普遍。随着网络科技的快速发展,中国网民在网络交际中也经常进行汉英语码转换。因此,本文运用Verschueren的语言顺应论和于国栋的语
土地发展权制度在英、美、法等国家已有完善的体系和实践基础,虽然在我国尚未明确提出,但涉及此方面的矛盾和纠纷早已出现,我国学者对土地发展权理论的研究也较为广泛,但还有
本研究在已有研究的基础上,编制青少年生命意义预测问卷并施测于广东省641名青少年,了解青少年生命意义状况。结果发现:1自编青少年生命意义问卷有较好的信度和效度;2青少年