中文名实体识别:基于词触发对的条件随机域方法

来源 :高技术通讯 | 被引量 : 0次 | 上传用户:moke707
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
首次把条件随机域(CRF)模型应用到了中文名实体识别中,且根据中文的特点,定义了多种特征模板。同时,为了解决长距离约束问题,将词语触发对融合到了CRF模型中。提出了基于词语方差(word variance)的选词方法,在词语相关性计算上,采用了平均互信息(AMI)方法和χ^2统计量方法。通过在半年人民日报上的测试,结果表明在采用相同特征集合的条件下,条件随机域模型较其他概率模型有更好的性能表现;融合长距离触发对的条件随机域模型可以使系统的F量度提高约1.38%。
其他文献
给出了一种局部海域潜器高精度声学定位导航方法。该方法利用安装在潜器上的超短基线(USBL)定位系统和锚定于海底的单只应答器构成定位导航系统,为潜器在局部海域提供高精度定
基于带缓存crossbar的交换结构提出了一种支持多优先级的调度方案。该方案在带缓存crossbar交换结构的输入端口提出了一种基于端口与优先级标识的层次化排队机制,并结合该排队
西门子通信集团将目光投向亚洲的成长性地区,以期扩展其3G/W-CDMA移动网络业务."到2009年,W-CDMA将占亚洲移动网络投资份额的大约80%,由于我们在这一地区拥有长期的客户关系,
GORouter运用多种语义网技术和工具构建了一个以基因本体为中心的基因和基因产物相关信息知识库,为生命科学研究人员提供跨物种、跨领域的语义搜索服务。GORouter核心数据集
运用RNA干扰技术,针对斑马鱼血管内皮生长因子(VEGF)基因设计并合成了特异性小分子干扰RNA(sim姨),并从血管形成水平研究了siRNA对VEGF基因表达的影响。为了得到能在体内稳定表达的
金融投资学的"高风险、高收益"不一定存在于企业财务层面,相反,企业收益与企业风险可能存在负相关,这将转变企业经营者对于投资的决策思考。本文选取样本企业数据,考察我国上市
运用遗传算法对透明质酸(HA)产生菌——马链球菌兽瘟亚种ATCC39920发酵培养基的6种组份进行了优化研究。每个长度为36位的染色体编码一种培养基配方,以HA产量为适应度函数值对其
改革开放之后,我国的家族企业迅猛发展,占据民营企业90%以上的席位,且家族控制程度较高。由于在中国化的现实土壤中成长,我国家族企业的发展还面临诸多内外部障碍。30年来,我国许多