【摘 要】
:
在大数据时代,对于海量网络数据的信息抽取与应用已成为自然语言处理和信息检索技术发展的重要主题。其中,基于弱监督的关系抽取方法,因为具有不需要过多人工参与、适应性强的
【机 构】
:
北京大学计算机科学技术研究所北京100871
【出 处】
:
2013年中国计算机学会人工智能会议
论文部分内容阅读
在大数据时代,对于海量网络数据的信息抽取与应用已成为自然语言处理和信息检索技术发展的重要主题。其中,基于弱监督的关系抽取方法,因为具有不需要过多人工参与、适应性强的特点,受到了广泛的关注.目前针对它的研究主要集中在英语资源上,主要使用传统的词法和句法特征。然而,词法特征有严重的稀疏性问题,句法特征则对一些语言分析工具的性能有较强的依赖性.提出利用n-gram特征来缓解传统词法特征稀疏性的问题。特别地,这种特征还可以弥补传统句法特征在其他语言上不可靠的情况,对于关系抽取的跨语言应用有重要作用.在此基础上,针对弱监督学习中标注数据不完全可靠的情况,提出基于bootstrapping思想的协同训练方法来对弱监督关系抽取模型进行强化,并且对预测关系时的协同策略进行了详细分析。在大规模的中文和英文数据上进行实验的结果显示,把传统特征与n-gram特征相结合并进行协同训练,在中文和英文数据集上均可以提升弱监督关系抽取的效果,可以适应多语言的关系抽取需求。
其他文献
为全面提高铁路行车设备的养护维修质量,公司每年实行两次"集中修"。针对"集中修"施工期间存在的作业单位多、项目多、人员多的特点,本文从施工前期准备、过程组织监控、强化日常
农村剩余劳动力向城市流动是我国从二元经济走向同质经济,实现现代化的一个必然过程.人力资本投资是实现这个历史转变的关键所在.人力资本投资不仅能够改变中国农村人力资源
<正>一、课题提出的背景在新课程标准的实施的背景下,人们愈发重视传承民族文化、吸收世界文化。在《义务教育美术课程标准(2011版)》中充分体现了素质教育的思想。提出"引导
目的评估利伐沙班联合奥扎格雷钠治疗脑栓塞的应用效果及安全性。方法选取2016年9月-2017年9月我院收治的脑栓塞患者120例,采用随机数字表法分为对照组和研究组,各60例。对照
与国外相比,目前我国大型岩土工程仍处于粗放发展的阶段,随着国民经济的发展,为应对国内外激烈的市场竞争、急需提高岩土工程施工企业的发展方式和项目成本管理水平。基于此,
中国砖瓦经历了六千年的风雨,铸就了“秦砖汉瓦”的灿烂文明。在改革开放中,砖瓦工业确保了国家经济建设的巨大需求,我们行业也逐步由作坊企业转变为利废环保的现代生产材料
1电站概况九牛圳水电站位于广东省龙门县天堂山镇,于1981年1月投产发电,装机容量为3×320kW,水头为53m,流量为2.1m^3/s,平均年发电量为280万kW·h;发电机型号为SWN85/37—8,水