词典与统计相结合的中文分词的研究

被引量 : 47次 | 上传用户:feng_lingpeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化的发展,人们很容易获得海量信息。但是要处理海量信息,靠人工是不可能的,必须依靠计算机的帮助。和西方语言不同,中文中的词与词之间没有明显的切分标志。所以,要使计算机能够处理中文文本,就必须先进行中文分词。现在大多数中文分词研究都依赖计算机完成切分工作,但其结果一般还不能令人满意。由于汉语的复杂性和新词语的不断出现,现有的中文自动分词系统还没有达到令人满意的效果。本文分析了当前中文分词已经实际使用的算法,各种分词词典组织形式,并研究了中文分词目前存在的问题。并主要介绍了一种基于机械匹配与基于统计相结合的中文分词算法,解决了一部分条件下的人名,地名,机构名,数量词等类型的未登录词以及交集型歧义引起的切分错误问题。本文采用了统计和词典相结合的复合分词方法,在多个方面进行了改进。在统计方面,通过对第一次分词结果中碎片的统计,识别出在文本中出现过超过一次的未登录词,并将其加入临时词典;对词典的组织结构进行了改进,把单个词典分为基本词典和扩展词典两个部分。改进了基本词典在内存中的组织结构,根据汉语中双字词的数量最多的特点和哈希结构查找速度快的特点,采用了双字哈希索引结构将基本词典中的词按照前两个字为关键字进行存储,并在词条中加入词频信息用于歧义消解,扩展词典则包括数量词词典,姓氏词典,临时词典,停用字词典等,它们将分别用于数量词和命名实体识别等;通过对数量词的预先正确切分减少了由于这些词所引起的歧义数量;使用改进的正向最大匹配分词法对文本进行第二次分词,并使用统计的方法消除部分歧义;最后使用规则的方法,在机械分词结果中识别出在文本中只出现一次的未登录词。由于命名实体中人名识别的上下文限定条件最多,所以识别效果最好,机构名组成结构最复杂,识别效果也最差,所以本文是依次进行人名,地名和机构名的识别。通过实验发现本系统具有较好的未登录词识别能力和歧义消除能力,基本上可以满足中文信息处理实际应用的要求。
其他文献
纳兰性德是在清词中兴的过程中涌现出的一个大家,与朱彝尊、陈维崧并列为清初三大家,是满族子弟向汉民族学习优秀的传统文化的典范。他短暂的一生著作颇丰,尤善工词。纳兰性
信息化成为了当今社会的主要特征。现代信息技术的发展,特别是网络技术的发展,正在改变着人们几千年来形成的信息传递方式,人际间的沟通方式和社会组织的管理方式,自然,农村
英语课程标准把“为初步运用英语的交际能力”作为学生的听说培养目标。在初中课堂上,“交际”是虚拟的背景,操作运用才是实质内容。目前,学生中普遍存在着轻口语重读写的现
<正> 与HP和方正公司的中小型企业解决方案的策略相比,IBM则显得有些独特,它对中小型企业的划分标准、市场策略,以及解决方案,都有一套自己的看法。 中小型企业的市场划分 就
相变和组织转变是热处理的理论基础。钢和合金经加热、保温、冷却后的组织和结构发生了变化,从而获得人们所期待的性能要求。因此,相变和组织转变的研究一直是金相和热处理
随着WiFi技术的不断发展,无线城市的推动,WiFi技术被广泛应用于各个行业。定位服务市场同样发展迅速,定位服务需求量迅速增长。例如,医疗行业中重症病人跟踪监护,产房婴儿防
随着改革开放的逐步深入,我国先后制订了“引进来”和“走出去”的战略以将中国经济融入世界经济,并以此带动了国内经济的快速发展和结构升级。2007年开始的全球性金融危机引
众所周知,环境问题的日益严峻,面临传统的环境治理手段的失灵,各国开始探索运用经济刺激的方法来控制环境污染,改善环境质量,达到环境目标。于是,排污权交易制度成为当今环境
在思辨终止的地方,在现实生活面前,正是描述人们实践活动和实际发展过程的真正的实证科学开始的地方。现实生活给了马克思对黑格尔法哲学进行批判动机,在1842一1843年间担任
本文研究的主要对象是电子商务类网络内容提供商中企业与个人消费者的模式,也即所熟知的B2C网站。目前我国大多数的B2C网站仍然是中小企业,挣扎在生存的边缘。许多B2C网站并