论文部分内容阅读
随着web2.0技术的蓬勃发展与网络的普及,人们越来越积极发挥自我的存在价值,主动参与各个网络话题,因此造成大量新词涌现在人们的日常生活中。这些网络新词以较少的符号形象生动的表达更多的信息,是未来语言交际的需要,同时由于它的使用广泛、传播速度快等特点,已越来越被语言学界所重视,与此同时,也是中文信息处理领域不可避免的问题。新词识别技术是汉语自动分词、人机交互、在线翻译等各项领域的重要支撑技术。因此本文致力于对新词识别技术进行研究,识别包括网络新词与传统新词,提出有效的新词识别方法,并开发相应运行系统。本文的主要研究工作包括以下几个方面:(1)设计针对单字串模式的传统新词的识别方法,提出极大值方法,可以有效的识别出该模式下的传统新词。(2)针对后缀模式的传统新词,本文通过“归纳法”、“阈值法”两种方法的实验比较,提出采用归纳法识别该模式的传统新词。在基于网络新词与传统新词的区别,本文在取得的传统新词的基础上,对其出现的幅度进行跟踪,提取网络新词。(3)针对关于新词识别的算法研究,本文新建一套能够具体运行的系统,设计并实现针对五大新闻门户网站的采集方法,将采集的文本进行处理存储,作为实验语料,将本文中所设计到的方法具体实现。目前本文中提到的各种方法已被应用到本文开发的新词识别系统中,取得不错的结果。