论文部分内容阅读
随着网络信息的飞速增长和搜索引擎等技术的日趋成熟,人类社会所面临的主要问题已经不再是信息匮乏,而是如何提高信息获取和信息访问的效率。文本聚类技术具有较强的灵活性和自动处理能力,已经成为对文本信息进行有效地组织和导航的重要手段。尽管目前围绕文本自动聚类技术的研究已经取得了一些进展,当前人们仍然面临聚类质量较低、对语义知识把握不足等问题。 为了解决上述问题,本文在对几种比较经典的文本聚类方法进行对比分析的基础上,考虑到自组织映射网络在拓扑保序和抗噪声能力等方面的优势,以自组织映射模型作为文本聚类的主要框架,研究和探索借助自组织映射模型进行文本聚类的特点以及所面临的主要问题和相应的解决方法。其目的是研究具有良好自适应能力的聚类方法,以反映输入文本集合的主题结构,从而减少人工劳动并改善信息的访问效率。 本文研究的主要内容包括以下四部分: 第一,本文首先对现有的几种经典文本聚类方法进行了对比分析。层次聚类方法聚类结果比较细腻,但运算开销较大,并且在硬聚类的情况下,如何找到最佳的划分仍是需要进一步研究的问题。相比之下,k-means方法和SOM方法在效率上则存在明显优势,本文对二者的聚类性能作了进一步的比较分析。针对k-means方法对初始分布如聚类k值和初始聚点的选择比较敏感的问题,本文给出一种改进的基于最小最大原则的聚类初始分布选择方法。该方法利用最小最大原则选择初始聚点,并进一步选取初始k值,使得k-means的聚类结果变得稳定,也改善了聚类性能。 第二,本文分析了传统SOM模型的特点,指出其存在的问题是由于固定的网络结构难以反映输入数据的结构信息,导致灵活性较差,并且很容易出现神经元的欠利用现象。本文提出一种动态变结构模型V-SOM,该方法将分解策略和神经元的动态扩充相结合,在聚类准则函数的指导下对网络结构进行动态自适应调整,以真实反映输入文档的主题分布特征。为了克服由于采用其它输出层拓扑结构进行神经元扩充可能导致的神经元欠利用现象,V-SOM采用了闭合的环形输出层结构。该模型可以渐进地进行神经元扩充,生成的神经元个数即为聚类块数,也有利于避免采用其他输出层结构需要对神经元进行二次聚类的问题。 第三,和很多自然语言处理应用一样,文本聚类也是和本体知识密切相关的。相关研究中一般采用基于外延的方法,即不关心文本的语义,而仅仅根据文本的外在特征如词频等统计信息进行处理,使聚类质量受到影响。此外由于语言表达方式的多样性,即使同一概念也可能有不同的表达形式。因此单单依靠特征词的重复而产生的频率信息难以较好的把握和体现语义信息。本文以HowNet作为知识源,将概念相关知识注入,并与统计信息进行有效融合,以便提升对概念的敏感能力。由于采用部分理解文本语义的方法进行文本聚类,因此如果文档之间具有一定的概念相关性,模型就可以将其聚为一个簇中,即使他们之间有较少的公共词。实验结果验证了该方法的有效性。 第四,本文对聚类描述生成中的重要技术——关键词自动抽取进行了研究和探讨。将关键词自动抽取分解为词的重要性评价、关键词短语构成规则挖掘、冗余检测和冗余消除等子问题。由于通常所说的关键词实际上有相当一部分具有短语形式,本文利用粗集理论在规则发现和数据泛化方面的优势,对人工标注的关键词短语语料进行挖掘,从而获得了中文关键词短语一般构成规则。获取的规则可以用于关键词自动抽取,也可以为人工标注关键词短语提供帮助。研究结果表明粗集的知识约简和规则发现能力比较适合进行关键词短语构成规则的挖掘工作。将挖掘出的规则用于指导关键词的自动抽取,避免了一些错误的搭配被抽取,从而提高了系统的性能,使抽取结果更加符合通常的语法习惯。本文还给出了一种评价体系,其目的是为了客观评价关键词抽取系统的性能。