论文部分内容阅读
当前,信息技术快速发展对新闻服务带来巨大挑战,一方面,新闻媒体机构需要从海量媒体信息中获取有价值的新闻线索;另一方面,广大读者需要从长篇文字阅读中解放出来,在准确获取新闻信息的同时避免信息过载。因此,可运用文本分析、深度学习等先进技术实现智能化新闻分析。随着自然语言处理、机器学习和深度学习等技术快速发展,文本分析从基于规则、词典和统计概率转变为利用机器学习和深度学习的智能分析方法。本文基于深度学习算法和自然语言处理技术,围绕时政新闻的分类、观点抽取、要素抽取、主题和情感分析五个方面进行研究分析,目标是实现快速、精确、便捷的时政新闻智能挖掘分析。主要研究内容如下:(1)通过对文本分类理论研究,结合新闻短文本上下文依赖过长等特点,提出基于BERT-CNN模型的时政新闻分类方法。首先基于BERT预训练中文语言模型提取新闻正文的字符特征,然后将表示新闻正文特征的字符向量输入CNN构建时政新闻分类模型。(2)针对时政新闻中观点多元化和未登录词频繁出现的问题,提出一种基于BiLSTM-CRF融合字符特征的时政新闻观点抽取方法。方法将时政新闻观点抽取任务转换为观点标签序列标注任务,利用字符特征作为观察序列输入到双向长短时记忆网络,计算每个字符的标注概率,其中字符特征包含字符向量、字符词性、字符相对位置和字符n-gram特征;最后通过条件随机场计算标注序列的最优路径来获取观点。(3)通过研究细粒度情感分析理论及算法,构建时政新闻细粒度情感分析模型。首先基于BERT-CNN模型进行情感极性预测,然后基于BERT-BiLSTM-CRF模型抽取时政新闻要素,并对新闻要素中的政要人物机构进行层级权重量化,同时抽取时政新闻的观点要素并计算观点情感词的情感分值,最后结合情感极性、情感分值和层级权重进行时政新闻的细粒度情感分析。最后,基于时政新闻分析相关模型,设计实现智能新闻分析系统,提供时政新闻智能分析和分析结果的可视化展示。