论文部分内容阅读
如何让Internet更好地为人类服务,是未来几年的一个真正挑战。一方面是人们对快速、准确而全面获取信息的渴望,而另一方面却是Internet上信息的纷繁芜杂,在这两者之间架设一座桥梁的确是一个巨大的挑战。作为从浩瀚的Web信息资源中发现潜在的有价值知识的一种有效技术。Web挖掘正悄然兴起,倍受关注。目前Web挖掘的研究正处于发展阶段,尚无统一的结论,需要国内外学者在理论上开展更多的讨论。同时,Web挖掘系统的开发对其研究也将起到很大推进作用。 本文对Web挖掘的有关理论进行了论述,着重讨论了Web文本挖掘系统的结构和技术。本文的主要内容包括: 一、详细描述了Web文本挖掘系统的构建,包括Web的数据模型,Web文本挖掘系统的体系结构,系统功能等; 二、具体讨论和分析了Web信息的自动获取的总体设计思想、主要实现技术,并给出了实现方案; 三、深入研究聚类和分类算法的关键技术,首先总结了在统计、机器学习和模式识别等领域的聚类/分类算法。随后从理论的层面来剖析聚类/分类算法,并介绍了一种基于粒度的分类算法; 四、介绍了在文本处理中如何提取文本特征,给出了一种权重计算的对偶性策略。