论文部分内容阅读
信息挖掘是目前人工智能领域和计算机应用领域研究的重要课题之一,基于Web的中文文本信息挖掘是信息挖掘的一个重要方面。互联网现在已成为一个巨大的信息源,如何让互联网信息更好地为人类服务,是我们面临的一个重要课题。一方面是人们对快速、准确获取所需信息的渴望,另一方面是Internet上信息的纷繁芜杂,如何在这两者之间架设一座桥梁是一个巨大的挑战。作为从浩瀚的Web信息资源中发现潜在的有价值知识的一种有效技术,基于Web的信息挖掘正悄然兴起,倍受人们的关注。目前Web挖掘的研究正处于发展阶段,需要在理论、实现方法与技术上进行更多的研究。 论文针对Web环境下中文文本信息挖掘的具体问题,主要研究中文文本信息挖掘的方法与实现技术。讨论了文本分类中的中文词切分、特征提取、特征表示、特征匹配方法,建立了基于神经网络的中文文本分类、聚类算法,在Web中文文本信息挖掘的设计中,对网页信息的表示、结构特点、网页控制符、HTML控制符号处理进行了详细分析与研究,构建了网页信息提取流程,并结合实际问题,给出了Web环境下中文文本信息挖掘的两个具体应用。