基于动态自组织映射模型的文本聚类研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:dyq1890
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的飞速增长和搜索引擎等技术的日趋成熟,人类社会所面临的主要问题已经不再是信息匮乏,而是如何提高信息获取和信息访问的效率。文本聚类技术具有较强的灵活性和自动处理能力,已经成为对文本信息进行有效地组织和导航的重要手段。尽管目前围绕文本自动聚类技术的研究已经取得了一些进展,当前人们仍然面临聚类质量较低、对语义知识把握不足等问题。  为了解决上述问题,本文在对几种比较经典的文本聚类方法进行对比分析的基础上,考虑到自组织映射网络在拓扑保序和抗噪声能力等方面的优势,以自组织映射模型作为文本聚类的主要框架,研究和探索借助自组织映射模型进行文本聚类的特点以及所面临的主要问题和相应的解决方法。其目的是研究具有良好自适应能力的聚类方法,以反映输入文本集合的主题结构,从而减少人工劳动并改善信息的访问效率。  本文研究的主要内容包括以下四部分:  第一,本文首先对现有的几种经典文本聚类方法进行了对比分析。层次聚类方法聚类结果比较细腻,但运算开销较大,并且在硬聚类的情况下,如何找到最佳的划分仍是需要进一步研究的问题。相比之下,k-means方法和SOM方法在效率上则存在明显优势,本文对二者的聚类性能作了进一步的比较分析。针对k-means方法对初始分布如聚类k值和初始聚点的选择比较敏感的问题,本文给出一种改进的基于最小最大原则的聚类初始分布选择方法。该方法利用最小最大原则选择初始聚点,并进一步选取初始k值,使得k-means的聚类结果变得稳定,也改善了聚类性能。  第二,本文分析了传统SOM模型的特点,指出其存在的问题是由于固定的网络结构难以反映输入数据的结构信息,导致灵活性较差,并且很容易出现神经元的欠利用现象。本文提出一种动态变结构模型V-SOM,该方法将分解策略和神经元的动态扩充相结合,在聚类准则函数的指导下对网络结构进行动态自适应调整,以真实反映输入文档的主题分布特征。为了克服由于采用其它输出层拓扑结构进行神经元扩充可能导致的神经元欠利用现象,V-SOM采用了闭合的环形输出层结构。该模型可以渐进地进行神经元扩充,生成的神经元个数即为聚类块数,也有利于避免采用其他输出层结构需要对神经元进行二次聚类的问题。  第三,和很多自然语言处理应用一样,文本聚类也是和本体知识密切相关的。相关研究中一般采用基于外延的方法,即不关心文本的语义,而仅仅根据文本的外在特征如词频等统计信息进行处理,使聚类质量受到影响。此外由于语言表达方式的多样性,即使同一概念也可能有不同的表达形式。因此单单依靠特征词的重复而产生的频率信息难以较好的把握和体现语义信息。本文以HowNet作为知识源,将概念相关知识注入,并与统计信息进行有效融合,以便提升对概念的敏感能力。由于采用部分理解文本语义的方法进行文本聚类,因此如果文档之间具有一定的概念相关性,模型就可以将其聚为一个簇中,即使他们之间有较少的公共词。实验结果验证了该方法的有效性。  第四,本文对聚类描述生成中的重要技术——关键词自动抽取进行了研究和探讨。将关键词自动抽取分解为词的重要性评价、关键词短语构成规则挖掘、冗余检测和冗余消除等子问题。由于通常所说的关键词实际上有相当一部分具有短语形式,本文利用粗集理论在规则发现和数据泛化方面的优势,对人工标注的关键词短语语料进行挖掘,从而获得了中文关键词短语一般构成规则。获取的规则可以用于关键词自动抽取,也可以为人工标注关键词短语提供帮助。研究结果表明粗集的知识约简和规则发现能力比较适合进行关键词短语构成规则的挖掘工作。将挖掘出的规则用于指导关键词的自动抽取,避免了一些错误的搭配被抽取,从而提高了系统的性能,使抽取结果更加符合通常的语法习惯。本文还给出了一种评价体系,其目的是为了客观评价关键词抽取系统的性能。
其他文献
蚁群优化算法是一种基于自然启发的metaheuristic算法,从其提出到现在历经10多年的发展到目前已经成为一种解决组合优化问题的有效工具。最大团问题是一个经典的NP难的组合优
随着网络应用的日益普及,电子银行、电子商务等网络服务正在悄悄地进入人们的生活。随着网络的发展,网络安全问题日益突出,成为整个社会关注的焦点。 入侵检测技术是继“
嵌入式系统的出现至今已经有30多年的历史(其间的发展经历了从以单芯片为核心的可编程控制器形式到以嵌入式CPU为基础以简单操作系统为核心的嵌入式系统再到以嵌入式操作系统
虚拟手术仿真(Virtual Surgery Simulation)是专门用来模拟在手术过程可能遇到的各种现象的虚拟现实(Virtual Reality)应用系统。其研究内容包括对医学数据的处理与可视化、
由于车载自组织网络具有节点移动速度快,无中心机构等特点,使得近年来道路交通事故频繁发生,交通事故已经成为全世界非常关注的安全问题之一。为了提高VANET中通信的安全性,VANET
图像分割是数字图像分析中的重要环节,是长期以来国内外研究的热点问题。本文专注于血管图像领域的分割方法研究,针对不同形态的血管图像进行分割算法研究,总结各个算法的特性。
随着移动终端和网络的日益普遍,移动学习(Mobile Learning)逐渐成为E-Learning研究和应用中最新的发展趋势和研究热点之一。研究者和开发人员希望借助方便、灵活的移动终端和网
多序列比对(Multiple Sequence alignment -MSA)是生物信息学中最重要、也是最有挑战性的任务之一。目前虽有不少比对方法提出,但在准确性和效率方面仍不够完善,因此,还需要
传统的网络安全技术如加密、防火墙、认证等只是静态的网络安全技术,不能适应当前动态变化的网络环境,这几年来网络入侵检测技术作为一种动态网络安全技术逐渐引起人们的重视。
随着Internet网络的普及和商业化的发展,各种宽带网络应用层出不穷,如:电视会议、股票报价、新闻放送、软件更新、网络游戏等,这些应用都适合采用IP组播技术。组播通信系统的