论文部分内容阅读
网络信息资源庞大,增长迅速,利用搜索引擎搜索学术信息资源,检索效率较低。学术文献的文体特征可以用于过滤和排除无用信息,提高学术文献的相对检准率。本文较系统地阐述了学术文献文体特征的研究进展,并在此基础上,对利用学术文献文体特征的研究成果开发的网页检索系统NSR的进行评估,提出了改进意见。文章主要通过扩大学术文献语料库,建立新的非学术文献参照语料库,对学术文献的文体特征重新进行了统计分析与评价。针对网络新闻报道大量存在于学术文献的检索结果中,干扰学术文献的检索效率这一问题,建立了网络新闻语料库作为参照语料库,并对网络新闻报道的文体特征作了对比分析,然后将研究成果应用于改进NSR系统。根据学术文献文体特征的统计分析结果,对文体特征进行权重大小划分,重新设置了NSR系统的权值,同时增加了网络新闻文体特征作为排除检索的标准;最后通过系统实验,验证了改进后的系统,结果显示其相对检准率得到了提高。