SOM算法的改进及其在中文文本聚类的应用

来源 :南昌大学 | 被引量 : 0次 | 上传用户:cngaofeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几十年来,国外学者对英文文本聚类投入了大量研究工作,并取得了些优秀的成果。与英文文本聚类相比,中文文本聚类技术研究和应用起步较晚,文本聚类效果普遍不太理想。针对此现状,本文对中文文本聚类技术进行深入研究。重点在于改进经典SOM算法,并应用于中文文本聚类中。本文研究工作主要涵盖以下四点内容:(1)研究中文文本聚类技术,包括中文分词、停用词过滤、特征选择等中文预处理技术以及各种聚类分析算法。(2)针对特征项维数灾难导致计算负载过大,在预处理中引入同义词合并技术,实现特征空间的语义降维,提高系统聚类速度和准确性。(3)重点研究经典SOM算法,针对其聚类数目需预先输入、网络结构固定、初始化效果不理想以及聚类结果依赖样本输入顺序,提出一种改进的自增长SOM算法予以解决之。(4)采用C#.net技术设计实现了基于改进的SOM算法的《中文文本聚类系统》平台。然后进行了系统测试评估,评估结果表明改进SOM算法可以改善系统聚类效果。
其他文献
学位
随着网络的日益普及,信任在P2P网络交互中的地位越来越重要,完善的信任模型系统给网络实体间的交互提供了重要支撑。但P2P网络中的信任模型目前仍存在着多种缺陷:首先,单一的
Internet是一个庞大的、全民共享的信息资源库。用户希望通过这个数据集,检索到与自己需求相关的权威信息。因此,如何有效、准确地从Web资源里找到用户所需的知识成为信息检
伴随着P2P(peer-to-peer)对等网络应用技术迅速发展,P2P业务成为了重量级的互联网应用,在给网络用户带来方便的同时,同时也长时间占据大部分的网络带宽,吞噬大量的网络资源,
随着网格技术的飞速发展,对数据的应用需求不断增长,出现了计算网格、数据网格的概念。数据库技术在网格技术中扮演着一个十分重要的角色,而现有的分布式数据库系统要么有统
随着网络技术的迅猛发展和全球信息化的加深,网络多媒体成为电子技术、计算机技术、通信技术相互结合的产物。同时,多媒体实时通信已成为网络通信中的一个非常重要的业务。基
近年来利用关系数据库来实现XML数据管理已经受到了广泛的关注和重视。本文在研究传统的基于关系数据库的XML数据存储和查询技术基础上,给出基于模式分层映射的XML关系存储策
进入21世纪后,随着无线通信技术和微芯片技术的发展,无线传感器网络各方面的研究取得了重大进展,但无线传感器网络管理的研究还处于起步阶段。无线传感器网络是由大量随机分
起重机能耗检测是起重机节能设计及节能监管的基础。起重机能耗检测无线传感网络采用无线传感器收集输入电能数据和运动机构的速度数据。起重机运行环境复杂,时刻面临着强烈的机械振动、高温、电磁干扰以及传感器零点漂移,导致传感器收集的数据经常出现不规则的非线性干扰变化,针对此问题,本文引入卡尔曼滤波器技术对传感器数据进行处理以期获得更准确的数据。本文研究了传统卡尔曼滤波器技术及其扩展技术的特点及应用,重点分析
随着计算机与网络的发展,各式各样的通讯交互不断增加,计算机已经成为我们生活中不可或缺的部分。信息化进程的加快,使得社会各个方面对计算机的依赖越来越重。与此同时,信息