金融领域异构信息的自动获取方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lijws
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,在互联网上进行金融行为的人越来越多。在金融领域,每时每刻都有大量的信息通过互联网公布。由于网络本身所具有的信息量庞大、信息来源不固定、文本化表述等特征,目前互联网上的金融信息在发布时仍是以半结构化或非结构化的形式为主。相比结构化的数据,这些异构信息虽然易于发布和收集,但噪声度高、信息冗余量大、不便于阅读和理解,所以有效的信息提取变得至关重要。  目前,金融领域主要采用人工录入的方法添加最新的金融产品。因此本文提出并设计了一种面向金融领域异构信息的自动化获取方法,基于该方法的信息抽取系统首先能够从多个信息源发现最新的金融产品电子文档。随后通过本文所设计的规则本体语义的标注方法对训练语料进行标注,系统能够在半监督学习策略下生成抽取规则,进而使用这些规则在文本信息中提取用户感兴趣的数据。  本文主要研究内容包括以下几个方面:  (1)实现了异构信息获取和预处理模块:自动更新下载最新的金融数据,然后将这些异构信息整合成纯文本文档。  (2)设计了半监督的规则学习算法:根据语料特征定义规则的形式;设计语料标注方法并对训练样本进行标注;应用启发式学习策略在标注样本上生成规则。  (3)基于规则的信息抽取模块,使用学习到的规则进行信息提取;设计并实现了一套完整的应用系统,实时发现互联网上的金融信息并以结构化的形式呈现。  本文采用了2010年9月至2011年10月的企业债上市公告书作为实验数据,信息系统完成对这些数据的收集,通过人工标注训练样本,系统可以自动学习抽取规则,并在测试集上对学习效果进行评估。  本文所提出并实现的信息抽取系统能够在实际工作环境中完成金融信息的实时获取,具备了较高的正确率,极大的简化了人工操作,并能在此基础上开发结构化数据应用程序。同时通过对规则库的衍生,本系统能够完成对多种金融产品的信息抽取,具有一定拓展性。
其他文献
现代处理器上提供了多种功耗调节机制,使用这些技术可以在运行时根据需要调节处理器功耗以适应不同的应用场合和需求。功耗封顶技术是其中一项重要的应用。控制部件功耗可以
随着信息技术的飞速发展,人们对计算机的要求不再是仅仅满足于大量的计算以及海量的数据存储查找,人们希望计算机能够模拟人类的某些能力,于是计算机的应用范围不断拓宽。其
随着网络技术的发展,网络信息正在以几何级速度迅速膨胀。如何通过信息融合进行在线信息的处理,特别是进行数据量巨大的文本信息处理,已成为一个亟待解决的难题。文本聚类作
网络编码(Network Coding)是一种能够提高网络吞吐量的新兴技术。通过对接收到的信息进行某种编码操作,将不同的数据融合一起再发送。接收端通过接收编码包来进行解码操作从
随着视频监控技术的广泛应用,智能视频分析技术正受到越来越多的青睐。视频图像序列中的异常行为检测技术成为智能视频分析领域中一个重要的研究方向。该技术能够在异常行为
随着信息技术的发展,很多应用领域都产生了大量流数据,因此流数据挖掘成为数据挖掘领域的热门研究课题。其中流数据闭合频繁模式挖掘是流数据挖掘领域的一项关键技术,被广泛
收益最大化问题是科学研究、股票投资和商业投资中的热门话题。此问题在新股申购决策以及公司新产品投资的过程中表现得尤为突出。本文针对该问题,提出了分合增益模型,并将该
视频监控系统在诸多领域发挥着极其重要的作用,由于计算机视觉的方法有着成本低廉、部署方便等优势,使得近年来多摄像机系统的应用越来越广泛。摄像机网络中的目标跟踪在维护公
虚拟现实技术,是一项运用现代的计算机技术来构建的一个类似于客观环境、可以让人们沉浸其中并且自由驾驭的人机环境的技术。虚拟场景的绘制方法概括起来主要有两种,分别是基
目前,用户声誉系统被大规模应用于各种电子商务网站,每次交易中的双方用户通过交易后对系统的反馈信息,来达到对对方声誉值的影响,从而督促用户在交易中培养出好的行为,恪尽