论文部分内容阅读
当人们使用搜索引擎在互联网中检索信息时,查询词中会出现拼写错误,这严重阻碍了人们获得其所需信息。这些拼写错误可分为两类:打字错误和认知错误。其中,认知错误是指人们知道某个单词的发音而不知道其正确的拼写而进行的猜测。拼写纠正算法正是用于纠正这些拼写错误,其首先要对错误的拼写生成其候选者集合。Double Metaphone技术是目前主流的对认知错误生成候选者集合的方法。然而,由于其是一组发音规则的简单模拟,加之英语发音系统非常复杂,因此其生成的候选者集合并不理想。本文提出了一种基于机器学习理论的音素候选者生成器以代替Double Metaphone技术,用于产生与查询词发音相似的候选者集合以增强拼写纠正的性能。
音素候选者生成器包含两个模块:音素序列估计和音素序列相似度测量。音素序列估计是基于Letter-To-Sound算法的,可能采用的模型有分类回归树模型以及条件随机场模型。这两种模型都是基于大量数据的机器学习模型。本文提出的音素候选者生成器分别采用两种模型进行实验,分析和指出了他们的优劣。音素序列相似度测量基于加权的Levenshtein编辑距离计算。该距离的计算需要一个元距离表,该表描述音素的插入、删除和替换的代价。本文通过计算两个隐马尔科夫模型之间Kullback-Leibuler散度的来获元距离表。
音素候选者生成器中所采用的模型都是通过大量数据训练而得,有很好的抗噪声性和鲁棒性。通过实验表明,音素候选者生成器较Double Metaphone有着更好的性能。不仅候选者的准确率有明显的提高,而且所产生的候选集合的候选者个数也更少。