论文部分内容阅读
引文分析是科技评价与管理领域的一个重要研究议题。引用内容分析相较于传统的只考察被引频次的引文分析方法而言可以有效发现引用内容中的语义关联、情感倾向等有重要价值的引用信息,从而更加全面的判断引文的引用价值。但引用内容的情感分析不同于传统文本(如微博文本)的情感分类,引用内容中表达的情感大多为隐含的,这使得引用内容情感(尤其是负面情感)自动识别的准确率较低。随着引用内容分析研究的深入,结合引用内容生成单篇论文的科学摘要也逐渐受到研究者们的关注,其可从被引文献的应用角度阐明被引文献在科学社区中的贡献。但是,当前的引文摘要研究没有考察施引者的施引情感,使得生成的引文摘要带有一定的片面性。本文对引用内容的情感分类问题及基于施引情感的引文摘要生成问题进行了研究。通过捕捉施引者用以表达施引情感的话语模式,以提升引用内容情感分类的性能。在引用内容情感分类的基础上生成考察施引情感的逐面引文摘要,从而更好地阐述被引文献在科学社区中的贡献和价值。具体研究内容如下:(1)基于话语模式的引用内容情感分类研究。从引用内容的上下文语境中提取反映引用内容语义和结构特性的特征,将具有逻辑关系的特征进行组合以提取引用片段中的话语模式,捕捉施引者用以表达引用情感的隐含的语义结构。将提取出的话语模式连同其他有助于区分引用情感的特征相结合构成特征模板输入条件随机场(CRF)模型,同时引入否定范围特征以增强负面引用情感的识别准确率。基于构造的特征模板,利用CRF模型实现对引用内容隐含情感的自动分类。实验结果表明,考察引用片段中隐含的话语模式,有助于提升引用内容情感识别的性能。同时,对引用内容否定范围的界定,对识别负面的引用情感起到了积极的作用。(2)基于引用内容情感的引文摘要生成研究。在对引用片段进行引用情感分类的基础上,为目标文献的正面、负面和中性引文集合分别生成摘要,将各类情感的引文摘要合并形成目标文献的逐面摘要,以更清晰地阐述目标文献在科学社区中的贡献和价值。使用BERT预训练模型对引文片段进行处理,生成考虑引文片段上下文语义信息的文本向量。为了聚类时能够更合理的描述对象与类簇之间的隶属关系,使用基于柔性划分的Fuzzy-C-Means聚类算法对向量化后的引文片段进行归类。最后,使用LexRank与MMR相结合的方法选择摘要内容,以使最终生成的摘要内容兼顾重要性与多样性。实验结果表明,本文所使用的摘要算法在文本向量化表示、聚类、摘要内容选取三个方面都优于基线方法,从技术上全面提升了摘要生成的性能。同时,从摘要内容看,基于情感的逐面引文摘要相较于一般的引文摘要能更好地概括目标文献的优缺点,从而更有利于揭示目标文献的应用价值。