论文部分内容阅读
在日益扩大的数字信息环境下,网络学术资源迅猛增长,其中以PDF为载体格式的学术文献具有很高的利用价值。如何有效、便捷地对网上无序分布的PDF学术文献进行组织、保存和开发利用是一个急需解决的重要问题,而学术文献的自动识别是达成这一目的的关键环节。学术文献的文体特征有助于从网络众多信息中快速、高效地识别和过滤出有价值的学术信息。本文主要探讨了学术文献的文体特征,并尝试将其用于PDF格式网络中文学术文献的自动识别。本文首先总结了网络学术文献的检索与利用状况,介绍了文体特征及其研究和应用情况;然后从文体学的角度详细说明了学术文献的文体及其文体特征,并通过构建一个小型语料库,运用语料库文体学的文体分析理论,总结出中文学术文献的文体特征。在前述理论基础上,设计和改进了一个基于学术文献文体特征的PDF文件检索系统,将学术文献文体特征的过滤、排除功能应用于网络搜索引擎。实验测试显示,该PDF文件检索系统在Google检索结果页面基础上,能有效地提高中文学术文献检索的相对查准率。