论文部分内容阅读
新词指在进行词法切分时词典中未收录的词。中文新词检测是中文信息处理领域一项关键的技术。由于中文的词与词间无间隔的特点,中文词法切分存在着歧义消除和新词检测两大难题,新词检测技术成为分词性能的瓶颈之一。对人名、地名、机构名等专有新词的研究,已经有了较为成熟的技术,而对于普通新词的检测,尚处在不断探索的阶段。本文在基于词的串频统计基础上,利用语言学的知识把新词检测问题进行分类细化。首先利用熟语料训练得到垃圾串词典、垃圾头词典、垃圾尾词典、词缀字词典以及独立词概率等参数,然后针对不同模式的新词采取不同的垃圾串过滤算法,提高了新词识别的性能。在对400张网页的实验中,我们对频度大于1的新词进行识别,准确率是80.4%,召回率是81.8%。新词的特征包括字面特征、分布特征和语义特征等方面。对新词特征的分析,已有的研究并不多,而新词的特征是认识新词的一条重要途径。本文的新词检测基于大规模的因特网语料,因此可以获取丰富的上下文信息。在此基础上,我们进行了新词特征的挖掘,从串频、互信息和相似度等角度主要对新词的空间分布规律和时间分布规律进行了分析。缩略语关系是新词的语义特征的一种。由于新词中缩略语的现象比较普遍,本文提出了一种自扩展获取缩略语词典的方法。以识别的新词以及之前获取的庞大的短语库为数据基础,利用语言学的知识和无监督学习的方法,得到短语的语言模型、短语到词的对齐模型等参数,以此来度量一组缩略语和源短语对有效的程度,最终得到一部缩略语词典。在对50万张网页的实验中,我们以频度大于100的新词为候选缩略语集进行提取,准确率是51.4%,召回率是81.7%。在以上技术基础上,我们开发了一个B/S结构的基于Internet的中文新词检测与分析系统,实现了对中文新词的实时在线检测。