论文部分内容阅读
SDD算法可以用来构建数据量大和变化快的文档集的隐含语义索引。利用SDD 算法来建立特定网页采集模型需要两步,即建立训练网页集和生成SDD 阵,其中SDD 阵的生成过程包括中文网页预处理、中文分词、建立词表、构建文档——词矩阵、计算SDD 阵、压缩SDD 阵。在windows 平台上构建了中文特定网页的采集实验系统,运行结果表明系统设计是可行的,并且具有良好性能。