海洋文献分类中极小化标注问题的研究

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户：gzlongzhijian

【摘要】

：

高效率的进行海洋文献的分类对海洋科学研究具有重要意义。目前,解决此问题较为成熟的技术是有监督的文本分类技术。但其往往存在人工标注量太大的缺点;此外,有标注资源代价

【作者】

：

姜亦宏

【出处】

：

中国海洋大学

【发表日期】

：

2009年期

【关键词】

：

海洋文献文本分类机器学习半监督学习协同训练

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

高效率的进行海洋文献的分类对海洋科学研究具有重要意义。目前,解决此问题较为成熟的技术是有监督的文本分类技术。但其往往存在人工标注量太大的缺点;此外,有标注资源代价昂贵,而大量无标注资源没有加以利用。半监督机器学习方法能根据少量有标注资源从大量无标注资源中获取有用信息,有效降低人工标注量。因此,本文运用半监督机器学习方法进行海洋文献分类中的极小化标注问题的研究。本文从描述文本分类和机器学习的基本概念入手,对基于机器学习的文本分类基础技术——文本的表示、分类方法和效果评估三部分内容逐一进行了讨论和介绍,并根据已有实验结果选择了最佳的分类方法;接着通过对半监督机器学习问题的描述,引出了本文所采用的核心算法——协同训练(co-training)算法;最后,使用c#.net语言编程实现了基于co-training算法的海洋文献分类极小化标注,这是本文研究的核心问题。本文的主要工作和创新点有:(1)本文给出了基于协同训练算法的海洋文献分类的详细流程,详细设计了六大功能模块,包括文本预处理、特征分割、训练、预测、挑选特征和评估模块。其中,特征分割模块是co-training方法区别于传统的有监督分类方法的标志性模块,是本文所实现的分类方法的重点部分。(2)采用给特征添加标签的方式,将特征分成两个View,从而训练两个不同的分类模型,实现协同训练方法。又通过一系列的实验,确定了适当的协同训练次数和缓冲区样本数,以使分类结果稳定且良好。(3)最后,将基于co-training的分类方法与有监督分类方法的效果做了对比,实验结果表明,在有标注训练集仅包含2篇文献的条件下,该方法最终的F1值和错误率分别可达到85.88%和14.35%左右,分类性能上基本接近由1500多篇有标注样本训练得到的有监督分类器(90.20%和9.13%)。这说明将co-training方法应用于海洋文献分类可以大大减小人工标注量,并有着较为良好的分类性能,从而实现海洋文献分类的极小化标注。

其他文献

秸秆禁烧工作存在的问题及应对措施

<正>一、存在的问题(一)秸秆禁烧工作的对象是广大农民朋友,他们大多没有受过高层次教育,文化素质较低,守旧心理、从众心理比较严重,并且受传统观念束缚,对于科学种田、秸秆

期刊

秸秆禁烧秸秆还田问题及应对措施

支气管扩张症的诊治进展

支气管扩张症临床上比较多见,本文综述其可能的病因如感染、原发性纤毛运动障碍、免疫缺陷、囊性纤维化、风湿性疾病与其它原因引起的支气管扩张及其可能的发病机制;诊断手段

期刊

支气管扩张症病因诊断治疗

痴情青楼女子传奇汧国夫人——《李娃传》李娃形象浅析

唐传奇著名作品中白行简的《李娃传》通过记述一个青楼女子李娃与所爱士人荥阳公子历经磨难,终于有情人成为眷属,并被御封为"汧国夫人"的喜剧性传奇故事,表现了作者对青楼女

期刊

唐传奇李娃传青楼女子汧国夫人

湖北农村小城镇发展模式研究

以建设社会主义新农村的要求为依据,在充分调查湖北省农村具体现状的基础上,依据优化资源配置,实现农村可持续发展和构建和谐社会的原则,提出了发展湖北省小城镇建设的9大优

期刊

农村小城镇发展模式城镇化

沪深300股指期货的价格发现功能研究

将交易成本引入到一般向量误差修正模型(VECM)中,建立了时变门限先验向量误差修正模型(TVECM),利用公共因子权重法计算了期货市场的价格贡献度,对我国沪深300股指期货的价格

期刊

股指期货门限向量误差修正模型公共因子

网架工程设计与施工

通过网架工程设计实例 ,介绍了解决大跨度空间结构的一种简单方法 ,该方法同样可以解决开口结构的设计难题。同时 ,介绍了双向压力平板支座的设计和应用。

期刊

网架四角锥螺栓球节点拱度双向压力平板支座

中国家庭代际转移的模式和动机研究——基于CHARLS数据的证据

本文运用中国健康与养老追踪调查(CHARLS)项目2008年先导调查数据,研究发现中国家庭代际转移呈现向上转移和隔代向下转移的特征:即经济状况较差的老年人获得子女不菲的经济帮

期刊

代际转移无私动机交换动机

淮北市依靠旅游业转型的策略探讨

资源枯竭型城市面临的首要任务是产业结构调整、实现城市转型。以淮北市为例，该市正处于煤炭资源枯竭期，必须实现产业转型，获得继续发展的动力。从现实来看，淮北市有理由依托现有

期刊

资源枯竭城市转型淮北旅游业

基于图论的股权多属性拍卖双边匹配及仿真

以风险投资退出市场股权拍卖为研究背景,研究存在多个风险投资家和多个外部投资者的双边匹配问题。首先运用双边匹配相关理论设计了股权拍卖的双边匹配机制,通过图论分析证明

期刊

图论股权拍卖双边匹配Netlogo仿真

基于飞思卡尔32位Kinetis-K60单片机的直立行驶智能车设计

介绍一种基于线性CCD传感器进行路径识别的智能车控制系统。进行了软硬件设计,利用线性CCD传感器采集路径信息,以及陀螺仪和加速度计采集角度偏转信息,提出转向控制策略和速

期刊

智能车线性CCD传感器直立行驶PD路径识别

海洋文献分类中极小化标注问题的研究

其他学术论文