论文部分内容阅读
随着全面阅读的火热开展,图书在人们生活中的地位急速提升,图书评价也得到越来越多的人的关注。作者是图书的基本属性之一,因而作者评价是图书评价的基本组成部分。近年来,国内外学者对图书评价已有广泛讨论和多种观点,但针对作者评价方面的研究却寥寥无几。本文分析了现有作者评价的传统方法,提出了基于文本挖掘的作者评价方法。本文主要工作如下:⑴对国内外作者评价的方法进行了调查研究,分析了当下作者评价偏重主观性的特点,提出了以大量作者信息为数据基础、基于文本挖掘算法的作者评价思路。力求为作者评价提供客观的数据支撑。⑵从互联网的海量数据中采集本文研究所需的作者信息作为研究的数据基础。对网络爬虫技术进行研究、对数据源进行分析,尽可能采集全面而详尽的作者信息。通过文本去重、文本去噪以及文本抽取技术对原始数据进行文本预处理,得到1527429条作者信息以便后期使用。同时,将图书编目数据与处理后的作者信息相关联,丰富图书编目的广度。⑶在采集的作者信息的基础上,进行了大量的统计计算。通过对计算结果的分析,选取了作者的工作单位、职称、获奖情况以及代表作者学术水平的h指数四个部分作为作者评价的主影响因子。⑷构建了基于文本挖掘的作者评价模型。提出了评价作者的自动化处理方法:采用朴素贝叶斯算法替代过去的主观评价方法,解决了作者评价主观性过强的问题,使作者评价能够在少量人工干预的前提下,快速有效地处理海量作者信息数据。实验表明,基于文本挖掘的作者评价模型能够较好地应用于作者评价任务,评价结果准确性较高、效率较快,能够当前对于作者评价模型的需求。