海洋文献分类中极小化标注问题的研究

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:gzlongzhijian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高效率的进行海洋文献的分类对海洋科学研究具有重要意义。目前,解决此问题较为成熟的技术是有监督的文本分类技术。但其往往存在人工标注量太大的缺点;此外,有标注资源代价昂贵,而大量无标注资源没有加以利用。半监督机器学习方法能根据少量有标注资源从大量无标注资源中获取有用信息,有效降低人工标注量。因此,本文运用半监督机器学习方法进行海洋文献分类中的极小化标注问题的研究。本文从描述文本分类和机器学习的基本概念入手,对基于机器学习的文本分类基础技术——文本的表示、分类方法和效果评估三部分内容逐一进行了讨论和介绍,并根据已有实验结果选择了最佳的分类方法;接着通过对半监督机器学习问题的描述,引出了本文所采用的核心算法——协同训练(co-training)算法;最后,使用c#.net语言编程实现了基于co-training算法的海洋文献分类极小化标注,这是本文研究的核心问题。本文的主要工作和创新点有:(1)本文给出了基于协同训练算法的海洋文献分类的详细流程,详细设计了六大功能模块,包括文本预处理、特征分割、训练、预测、挑选特征和评估模块。其中,特征分割模块是co-training方法区别于传统的有监督分类方法的标志性模块,是本文所实现的分类方法的重点部分。(2)采用给特征添加标签的方式,将特征分成两个View,从而训练两个不同的分类模型,实现协同训练方法。又通过一系列的实验,确定了适当的协同训练次数和缓冲区样本数,以使分类结果稳定且良好。(3)最后,将基于co-training的分类方法与有监督分类方法的效果做了对比,实验结果表明,在有标注训练集仅包含2篇文献的条件下,该方法最终的F1值和错误率分别可达到85.88%和14.35%左右,分类性能上基本接近由1500多篇有标注样本训练得到的有监督分类器(90.20%和9.13%)。这说明将co-training方法应用于海洋文献分类可以大大减小人工标注量,并有着较为良好的分类性能,从而实现海洋文献分类的极小化标注。
其他文献
<正>一、存在的问题(一)秸秆禁烧工作的对象是广大农民朋友,他们大多没有受过高层次教育,文化素质较低,守旧心理、从众心理比较严重,并且受传统观念束缚,对于科学种田、秸秆
支气管扩张症临床上比较多见,本文综述其可能的病因如感染、原发性纤毛运动障碍、免疫缺陷、囊性纤维化、风湿性疾病与其它原因引起的支气管扩张及其可能的发病机制;诊断手段
唐传奇著名作品中白行简的《李娃传》通过记述一个青楼女子李娃与所爱士人荥阳公子历经磨难,终于有情人成为眷属,并被御封为"汧国夫人"的喜剧性传奇故事,表现了作者对青楼女
以建设社会主义新农村的要求为依据,在充分调查湖北省农村具体现状的基础上,依据优化资源配置,实现农村可持续发展和构建和谐社会的原则,提出了发展湖北省小城镇建设的9大优
将交易成本引入到一般向量误差修正模型(VECM)中,建立了时变门限先验向量误差修正模型(TVECM),利用公共因子权重法计算了期货市场的价格贡献度,对我国沪深300股指期货的价格
通过网架工程设计实例 ,介绍了解决大跨度空间结构的一种简单方法 ,该方法同样可以解决开口结构的设计难题。同时 ,介绍了双向压力平板支座的设计和应用。
本文运用中国健康与养老追踪调查(CHARLS)项目2008年先导调查数据,研究发现中国家庭代际转移呈现向上转移和隔代向下转移的特征:即经济状况较差的老年人获得子女不菲的经济帮
资源枯竭型城市面临的首要任务是产业结构调整、实现城市转型。以淮北市为例,该市正处于煤炭资源枯竭期,必须实现产业转型,获得继续发展的动力。从现实来看,淮北市有理由依托现有
以风险投资退出市场股权拍卖为研究背景,研究存在多个风险投资家和多个外部投资者的双边匹配问题。首先运用双边匹配相关理论设计了股权拍卖的双边匹配机制,通过图论分析证明
介绍一种基于线性CCD传感器进行路径识别的智能车控制系统。进行了软硬件设计,利用线性CCD传感器采集路径信息,以及陀螺仪和加速度计采集角度偏转信息,提出转向控制策略和速