论文部分内容阅读
互联网和科学研究的高速发展导致可利用的科技文献的数量急剧增加,为了更有效地利用这些文献、特别是英文文献,迫切需要对它们进行机器自动分类。传统的文本分类算法没有考虑科技文本具有明显层次结构的这一特征,在进行分类时无法达到满意的效果。论文针对这一特征提出了一种基于层次结构的文本分类模型,并对环境类科技论文进行了分类研究。结果表明,该模型能够稳定并有效地提高分类的精度,提高的幅度在1%到24%之间;同时,该模型还具有良好的泛化能力。