【摘 要】
:
随着计算机的广泛使用与网络技术的深入发展,人们更多的将各种资料信息以电子文本的形式存储于计算机及网络空间中。这些文本信息的大规模增长,导致人们对信息的过滤、筛选出
论文部分内容阅读
随着计算机的广泛使用与网络技术的深入发展,人们更多的将各种资料信息以电子文本的形式存储于计算机及网络空间中。这些文本信息的大规模增长,导致人们对信息的过滤、筛选出现困难,如何对这些文本进行比较或是对文档的相关性进行分析从中得到隐藏的、潜在的有用的信息,进而为人们的工作提供一定的指导与线索,成为了亟待解决的问题。文本聚类技术是将文本集聚合为由若干个文本簇组成的集合,是一种无监督的文本处理方法。文本聚类方法作为文本数据挖掘领域中的主要方法之一,经常并有效的被用于信息检索领域。对大规模无规律的文本信息进行划分,是文本聚类的一个重要的应用研究。本文主要是将文本聚类技术应用于某单位所搜集的大量文本信息中,通过对其进行处理,将信息聚类,为该单位进一步的分析工作提供一定的线索。本文介绍了文本聚类的概念,针对具体的应用需求,说明了聚类过程中的文本预处理、特征选择、文本向量表示及特征词的权重计算等方面的工作。针对文本聚类中忽略特征词之间的关系问题,本文引用了本体的知识。将HowNet知网作为本文的知识背景,对预处理后的文本进行同义词之间的合并,减少文本向量表示的维度,改善文本聚类的结果。此外,本文详细阐述了文本聚类的各种算法,表明各自的优缺点,从而选择合适的算法进行聚类研究,本文选取其中的三种聚类算法进行聚类。本文将文本聚类技术在某单位所搜集的文本中进行了实验。通过文本聚类技术,将文本聚集成簇,取得了较好的实验结果。
其他文献
随着Web服务相关标准的不断完善以及面向服务的体系架构的发展,基于Web服务构建信息系统的方式已经为工业界所广泛接受并实施。另一方面,学术界也一直对服务的发现、推荐和组
伴随移动互联网的高速发展,社会生活对嵌入式系统功能的要求越来越高,嵌入式系统的软件规模日益扩大,软件复杂度不断增强,传统的嵌入式系统软件开发模式已经跟不上嵌入式设备更新
嵌入式产品越来越广泛的被人们使用,图形用户界面作为人们对产品的第一印象在嵌入式开发中的地位也越来越重要。传统的二维图形界面能够在功能上满足人们的需求,但是相对于生动
近年来,伴随着社交网络、移动互联网和物联网等技术领域的迅猛发展,数据量呈现爆炸式的增长。在这些领域中,通常需要实时地、高效地处理快速变化的海量数据。目前,针对数据流的实
随着计算机视觉传感器技术的快速发展,计算机视觉开始渗透到医学、城市交通、视频监控、机器人视觉等领域。传统窄视角的普通摄像头已经不能满足场景信息宏观层次的分析需求,而
现实生活中的很多决策问题都要考虑同时优化若干个目标,而这些目标之间往往是彼此冲突的,多目标优化算法就是要从所有可能的方案中找到最合理、最可靠的解决方案。其主要面临
数据库自然语言查询界面(NLIDBs)是指允许用户用自然语言访问数据库的一种方式,它的出现大大简化了人机交互的过程。它是多学科交叉的产物,涉及自然语言理解、数据库技术、人工智
信息检索系统中最核心的数据结构是倒排索引。随着信息化水平的不断提高,索引数据也越来越庞大,必须保存在辅助存储器中。目前常用的辅存设备是磁盘,磁盘虽然具有容量大、便宜等
数据重要性越来越受到企业和用户的关注,系统可靠性也是企业在选购存储设备时首要考虑的因素。RAID(Redundant Array of Independent Disk独立冗余磁盘阵列)存储系统的可靠性可