【摘 要】
:
为对微博语料中的中文新词进行有效的识别发现,针对微博语料的文本特性,提出一种基于词语互信息模型和外部统计量的新词发现方法。采用互信息统计模型基于候选词内部最小搭配
【基金项目】
:
国家自然科学基金项目(60743008);河南省重点科技攻关计划基金项目(142102210045)
论文部分内容阅读
为对微博语料中的中文新词进行有效的识别发现,针对微博语料的文本特性,提出一种基于词语互信息模型和外部统计量的新词发现方法。采用互信息统计模型基于候选词内部最小搭配单元向右邻元扩展统计的方法,建立候选词集;针对统计特性、语料特征,进行低频筛选,引入外部统计量的概念进行过滤。该统计方法解决了基于互信息统计模型用于新词发现时只能统计两组成元素的局限性,规避了影响新词发现研究准确性能的N元重叠问题,过滤方法对于包含大量短语句的微博语料用着良好作用,通过实例与对比验证了该方法的有效性。
其他文献
在英语教学中,注重训练的学生阅读理解能力,提升学生的英语综合素质。本文从英语阅读的意义,提高初中英语阅读能力的有效措施两个方面探讨了提高初中英语阅读能力的有效措施
在交替传译过程中,译员失误改口的现象在所难免。本论文借鉴伊曼纽尔·谢格罗夫(Emanuel A.Schegloff)、盖尔·杰弗逊(Gail Jefferson)和哈维·赛克斯(Harvey Sacks)三位学者
近日,“临界VeRyedge”VR时尚秀——2013级戏剧影视美术设计专业(人物造型方向)毕业设计作品展、《电视文艺晚会创作》与《电视综艺节目创作》课程实践暨戏剧影视学院多专业联合
正值吃虾季,"人气美食"小龙虾一下子蹦跶进了资本市场——4月28日,湖北省潜江市最有影响力的16家小龙虾企业,集体挂牌湖北区域性股权市场(又称"四板")。
对铸态AZ31镁合金进行温度350~450℃、平均应变速率为2.26~8.3 s-1的中高应变速率轧制,研究轧制后镁板的边裂和组织性能。研究结果表明:随着平均应变速率增加,轧制边裂得到改善
目前在高师院校及社会音乐团体的声乐教学中,教师对学生的声音形象的示范和作品情感的引导普遍采用“意念教学法”。此方法在声乐教学实践中有着不可小觑的积极作用,但其在实
<正>新生适应不良是大学新生比较常见的心理问题。本案例通过对1例新生适应不良引起的心理问题个案进行咨询,通过摄入性会谈、临床观察和调查法收集求助者的资料后,运用认知
一次系统是供电系统的主体,是用电负荷的载体,高电压或大电流是一次系统的主要特点.一次系统作为供电系统中的主要组成部分,其主要功能是进行电能的生产、输送、分配和使用,
从翻译活动诞生之日起,绝大多数翻译家和翻译理论家都是围绕着“如何译”、“怎么译最忠实”的话题来展开研究,忠实于原文的原则始终没有变。翻译的文化转向使翻译研究转向了
本文综合"位置查询"及"路径查询"为一体,同步解决最佳位置及路径的查询问题,并在此基础上考虑其合理性,以满足实际路网查询与分析应用的要求. 同时针对实际问题,进行实际案例分析