金融年报语义网中本体自动扩展与语义标注方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:eclipse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义网提出以来,本体(ontology)正在成为人工智能和知识工程中的一种重要工具,在知识的获取、表示、分析和应用等方面具有重要的意义。其中,本体的构建与扩展是本体研究的核心和关键。随着领域知识的增加和应用需求的发展,本体的扩展成为本体建设的重要环节。但目前关于本体的扩展尚无系统、深入的研究成果,一些涉及本体扩展、进化的研究多侧重于技术层面,与实际应用相脱节。因此,如何将本体扩展理论应用于实际,不断的对现有本体进行丰富和完善,成为本体建设的一个重要课题。  本文首先对现有的初始金融年报本体进行介绍,在此本体的基础上,以大量的上市公司年报为语料,研究并实现了本体的自动扩展。然后利用定义好的本体对上市公司年报进行语义标注,将非结构化的HTML文档转换成带有语义表示的XML格式。最后,通过实验对本体自动扩展以及语义标注的结果作了详细的分析。本文的研究内容主要包括以下几个方面:  (1)通过对当前本体扩展方法的研究,提出了基于统计、基于上下文结构的两种本体学习方法对初始本体进行扩展。  (2)对上市公司年报的语义标注方法进行研究。开发了一个半自动语义标注工具。并对上市公司年报中的自由文本,即非表格部分进行了自动的语义标注。  (3)通过实验,对基于统计、基于上下文结构的两种本体扩展方法进行对比,并对结果作了详细的分析。  (4)综合两种方法的结果,对现有本体进行扩展。并对比了扩展前后的本体对语义标注结果准确率的影响。  经过扩展后的本体,在初始本体的基础上添加了将近300个同义词,新增了40多个概念,以及20多个实例。扩展后的本体使语义标注的准确率得到了显著的提高。目前该本体系统已经被应用于本课题组的金融年报语义网搜索引擎中。
其他文献
随着计算机网络通信的迅猛发展,网络安全开始被人们所重视,其中安全协议分析验证已成为一个研究热点。对安全协议的分析验证的方法和手段有很多,其中形式化分析方法已被证明
场景文本识别主要研究的内容是识别出自然场景环境下拍摄的图像中所包含的文本。自然场景文本包括路牌、商业广告、杂货店店面和车牌号码等。随着计算机技术的发展,尤其是智能
随着计算机技术的普及以及互联网的快速发展,搜索引擎已经成为人们日常生活中必备的信息搜索与获取工具。虽然搜索引擎发展非常迅速,但其效果远未达到令人满意的程度。用户不得
随着计算机网络的快速发展,以及计算机用户的增多,使得Internet上的信息呈爆炸式增长。传统的基于C/S结构的文件共享系统已经不能满足用户的需求,一批基于P2P结构的文件共享系统
随着人们工作压力的日益增大,心血管疾病是现代工业社会中对人类生命威胁最大的疾病,我国城镇中现有4000多万冠心病患者。由于心脏疾病发病时具有很大的突然性,如果失去了宝贵
AdHoc网是由一组带有无线收发装置的移动终端组成的一个多跳临时性自组织网络。它起源于军事上的需求,并且近几年来,随着便携式计算机设备的普及以及无线通信技术的快速发展,人
基于模型的诊断是由Reiter在1987年提出的一种基于逻辑推理的故障诊断方法.待诊断系统的行为可以通过系统的输入输出变量之间的对应关系来描述.由于其一般性和在许多领域的应
电子邮件过滤系统的主要任务是帮助用户节省手动删除垃圾邮件的时间和精力,帮助服务器过滤掉垃圾邮件以节省网络资源。邮件过滤属于文本分类的二值分类,系统必须具有实时性、高
许多工业生产存在非线性、时变性、维数高的等不确定性特点,因此较难用传统的建模方法进行精确地描述。为构造一个合理的、可追踪的模型就需要引入模糊性的概念,并且理论已经证
数字视频属于国家重点发展的信息产业领域,宽带网络和数字电视的迅速发展,使得视频点播、交互电视、视频网站等应用都将面临大量涌现的数字化视频数据,对视频摘要技术的研究对基