论文部分内容阅读
文章提出了一种提取中文软件文档与源代码问的关联关系的方法,根据中文软件文档和源代码的一些特征,在潜在语义索引模型的基础上使用了3种策略:引入项目数据词典辅助中文分词和中英文的翻译、将文档按类型分层以实现反馈、调整代码中的特征项的权值。实验结果表明,同时使用3种策略可以在提取阀值C相同的情况下,提高查全率4%~28%,在查全率不变的情况下,提高查准率8%~30%。