基于异构信息的异动事件发现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:FreeDom_BBQ
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网技术的不断发展,网络信息已经逐步成为人们学习、工作和生活中不可或缺的重要组成部分。网络提供了大量的文本信息,如新闻、博客、论坛、微博等。这些非结构化的数据提供给人们定性的信息,而在许多行业,这些信息还会同时作用于结构化数据。这个现象在金融领域尤为突出,由于金融股票领域的特殊性,我们需要同时把握市场中的结构化数据和非结构化数据中蕴含的信息,特别是非结构化的金融文本中体现的金融事件,它们可能会对结构化数据的变化产生重要的影响。  为此,本文将综合金融股票领域的结构化和非结构化信息,以金融本体为基础,发现影响股票市场异动的金融事件,并对这些事件加以归类整理。本文的主要研究内容包括以下几个方面:  (1)异构信息的获取和预处理:包括每日异动股票结构化数据和非结构化网页数据的获取、预处理和异构信息关联;  (2)金融事件的抽取:利用文本挖掘的方法从关联后的金融新闻文本中抽取金融事件;  (3)事件金融本体的构建:建立一个以动词为核心,涵盖股票领域基本金融事件的领域本体;  (4)基于金融本体的事件标注:利用建立的事件金融本体标注金融事件并加以归类。  本文利用实时的股票数据与各大金融网站的金融新闻构建在线系统,并利用和讯金融网站2010年10月至2010年12月的上市公司新闻作为金融本体构建的训练语料,2011年1月至2011年7月的公司新闻作为信息关联、事件抽取和本体标注的评测语料来进行实验。利用文本挖掘和本体标注的相关评测方法,事件抽取过程在准确率上达到78.06%,召回率上达到81.16%, F1值达到0.7958,本体标注准确率达到83.33%,基本满足在线应用系统的要求。
其他文献
无线传感网络的覆盖控制是无线传感器网络的一个基本问题,它反映了传感器网络所能提供的“感知”服务质量。在野外、敌对等环境中布置无线传感器网络的时候,往往只能采用空投
随着互联网时代的到来,智能手机在世界上的普及率也越来越高,而Android智能手机操作系统则凭借其优良的性能,获得了巨大的市场份额。可随着智能手机的发展,越来越多的手机恶
美国国防部的可信计算机系统评估标准TESEC认为访问控制是评价信息系统安全的主要指标。访问控制根据已定的系统安全策略的要求,对每一个用户提出的的访问请求做出是否允许的
计算机网络技术的迅猛发展,分布式系统应用的不断拓展,分布式应用对高可靠性和可用性的要求越来越迫切。一个高可用性的系统要求在任何情况下服务不会被中断并且能够提供正确
时间序列是按时间先后顺序将某指标时间点上的数值排列而成的数列,时间序列分析是一种动态数据处理的统计方法,它根据历史数据来判断下一个时间点的数值,从而估计时间序列变
当前的大多数中文分词系统都是基于词典的,但是其不能正确的切分文本中新词(字典中不包括)。这些基于词典的分词系统在处理包含较多新词的文本时,效果较差。  当前新词识别
随着国内投资风气的兴起,越来越多的人关注金融信息。在众多的金融产品中,股票的投资回报率最高,因此关注股票的投资者最多。那么,挖掘出和股票相关的资讯就变得很有必要。而
传统的接触式掌纹识别系统,在手指之间设计了固定杆,用于固定手掌的位置,这样可以减少图像采集过程中由于平移、旋转、扭曲引起的误差和失真,降低了图像处理和定位算法的复杂
脉象蕴含着人体丰富的器官信息,通过切脉即可感知人体脏腑的病理变化。但是长期以来中医理论对脉象的描述主观性太强,较模糊和笼统,医师要熟练掌握脉诊需要长期经验积累。所
随着社会的快速发展,人们对安全的要求越来越高,尤其是在涉及国家安全、金融、政法、电子商务等行业或领域时显得尤为重要。在这种情况下,就需要一种安全可靠的认证方法。生