【摘 要】
:
随着计算机的发展和互联网的日益普及,海量文本的出现极大地丰富了我们的信息来源。尤其在财经领域中,大量的财经新闻、公司公告、行业研报等非结构化文本的出现丰富了投资银行业与经纪业的信息来源。然而,这些文本的阅读和解析通常需要花费专业人士大量时间。从海量自由文本中自动抽取我们想要的数据成了当下急需解决的问题。信息抽取技术也成为了自然语言处理的重要研究领域。事件抽取是信息抽取领域的一个重要研究方向。事件抽
论文部分内容阅读
随着计算机的发展和互联网的日益普及,海量文本的出现极大地丰富了我们的信息来源。尤其在财经领域中,大量的财经新闻、公司公告、行业研报等非结构化文本的出现丰富了投资银行业与经纪业的信息来源。然而,这些文本的阅读和解析通常需要花费专业人士大量时间。从海量自由文本中自动抽取我们想要的数据成了当下急需解决的问题。信息抽取技术也成为了自然语言处理的重要研究领域。事件抽取是信息抽取领域的一个重要研究方向。事件抽取能从非结构化文本中抽取出用户感兴趣的事件信息,这样可以把自然语言表达的事件以结构化的形式抽取出来。因此,本文提出了财经领域的事件抽取技术。首先基于自由文本抽取算法,通过Python语言开发网络爬虫系统,并将该系统用于财经网站数据的采集与解析。然后基于所获取的文本数据,通过AC自动机、模式匹配等方法进行财经领域中的事件抽取。本文的主要研究内容如下:(1)基于聚类技术自动化抽取财经网站中的新闻正文。(2)通过句法依存识别主谓关系和动宾关系,获得事件句种子触发词。(3)使用新闻语料,通过开源的“结巴分词”工具将新闻分词,利用Word2vec进行训练生成词向量模型。通过词向量的相似性进行触发词聚类,获得本文中的不同事件类别的触发词,极大提升了触发词扩展的速度,减少了人工构建词典的工作。(4)针对事件抽取中非事件句比例高的问题,本文通过AC自动机算法,实现了通过触发词来对事件进行预分类。然后利用决策树算法对候选事件句进一步地分类处理,从而提高了事件分类的效率。(5)对于事件识别,通过模式识别进行事件元素的识别与抽取,其中针对不同的事件类型,本文提出了实体识别法、实体泛化法、实体结构法三种解决策略来进行模式匹配。为了提升分词效果,本文构建公司字典、政府部门字典、职位字典等相关字典,并成功将这些字典应用到分词器中。对于命名实体识别技术,本文首先通过哈工大社会计算与信息检索研究中心的LTP技术进行预处理,并通过实体字典进行二次识别,从而进一步提升命名实体识别的召回率。通过对实验结果地进一步分析,本文提出的事件抽取方法其准确率和召回率达到了业界较高水平,从而验证了所提出方法的有效性与可行性。本文提出的事件抽取技术已成功应用于“嗅金牛金融平台”的事件驱动模块与事件追踪模块,并得到了业界的一致好评。
其他文献
目的探究优质护理应用于老年慢性支气管炎患者中的效果。方法选取66例2015年5月-2016年10月的本院老年慢性支气管炎患者做研究,随机分2组,每组33例,观察组采用优质护理结合常规
社会经济的发展,推动教育的进步,学前教育作为基础教育的开端,在教育领域占据着及其重要的地位。近几年随着网络媒体的发展,人们对学前教育的关注越来越多,幼儿教师在网络媒体中的曝光度也逐渐增多。2017年“携程亲子园”、“红黄蓝幼儿园”虐童事件的曝光,负面报道频发,社会公众由此对幼儿教师群体产生强烈质疑,幼儿教师群体一时之间被推向风口浪尖,因此,有必要站在网络媒体视角下探讨幼儿教师形象。本研究期望通过对
介绍了仿真在反水雷UUv研发中的应用,包括规划论证阶段流体参数优化及操纵性评估,和后续将要进行的导航控制半实物仿真的方案想定。着重说明了仿真在解决降阻,辅助产品总体评
家庭是历史的产物,家庭文化是人们在实践中自觉的审视家庭生活后的理性反思结果。家庭是社会机体的有机细胞,家庭文化是确保家庭细胞形态健康的重要因素。家庭和谐、家庭文化
无论我们是否愿意,也无论我们是否做好了准备,新课程犹如一列正常运行的列车,已向我们驶来!专家预言:新课程中的学生将有可能改变他们的一生,而新课程中的教师也将焕发出新的生命!我市九年级化学使用了由上海教育出版社出版的新教材,该教材在构建思路、体系结构和内容呈现等方面较以前的教材发生了较大的变化。新教材在使用的过程中,教师就如何正确解读新教材,转化为实实在在的课堂教学行为,还存在不少的困惑和误区。笔者
大学生的理想教育是一个历久弥新的话题和研究热点,许多专家学者都在这一领域付出了大量的心血和精力。究其原因,还是因为大学生的理想教育十分重要,大学生的理想教育不仅事
【目的】本文旨在研究分析经皮椎体成形术(Percutaneous Vertebroplasty,PVP)对于非小细胞肺癌(Non-small cell lung cancer,NSCLC)脊柱转移患者的短期疗效及安全性。【方法】回顾性分析我院于2015年10月至2018年7月收入院并采用PVP治疗的NSCLC脊柱转移患者,所有患者均经严格的纳入标准及排除标准进行筛选。入组患者采用疼痛视觉模拟评分(
背景:肺炎克雷伯菌(Klebsiella pneumoniae,KPN)普遍存在于生活环境之中,可在患者体内多个部位定植,当宿主免疫力下降时,可引起呼吸道、血液、泌尿道、消化道、手术切口、皮