论文部分内容阅读
随着信息技术的发展,在互联网上进行金融行为的人越来越多。在金融领域,每时每刻都有大量的信息通过互联网公布。由于网络本身所具有的信息量庞大、信息来源不固定、文本化表述等特征,目前互联网上的金融信息在发布时仍是以半结构化或非结构化的形式为主。相比结构化的数据,这些异构信息虽然易于发布和收集,但噪声度高、信息冗余量大、不便于阅读和理解,所以有效的信息提取变得至关重要。 目前,金融领域主要采用人工录入的方法添加最新的金融产品。因此本文提出并设计了一种面向金融领域异构信息的自动化获取方法,基于该方法的信息抽取系统首先能够从多个信息源发现最新的金融产品电子文档。随后通过本文所设计的规则本体语义的标注方法对训练语料进行标注,系统能够在半监督学习策略下生成抽取规则,进而使用这些规则在文本信息中提取用户感兴趣的数据。 本文主要研究内容包括以下几个方面: (1)实现了异构信息获取和预处理模块:自动更新下载最新的金融数据,然后将这些异构信息整合成纯文本文档。 (2)设计了半监督的规则学习算法:根据语料特征定义规则的形式;设计语料标注方法并对训练样本进行标注;应用启发式学习策略在标注样本上生成规则。 (3)基于规则的信息抽取模块,使用学习到的规则进行信息提取;设计并实现了一套完整的应用系统,实时发现互联网上的金融信息并以结构化的形式呈现。 本文采用了2010年9月至2011年10月的企业债上市公告书作为实验数据,信息系统完成对这些数据的收集,通过人工标注训练样本,系统可以自动学习抽取规则,并在测试集上对学习效果进行评估。 本文所提出并实现的信息抽取系统能够在实际工作环境中完成金融信息的实时获取,具备了较高的正确率,极大的简化了人工操作,并能在此基础上开发结构化数据应用程序。同时通过对规则库的衍生,本系统能够完成对多种金融产品的信息抽取,具有一定拓展性。