领域关键词抽取:结合LDA与Word2Vec

来源 :贵州师范大学 | 被引量 : 0次 | 上传用户:congrorm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网与信息技术的发展,大数据分析成为目前热门话题之一。大数据分析主要从海量数据中提取有意义的信息作为数据特征,通过分析已有数据的特征,实现数据的归纳分析,预测数据集的发展方向。自然语言处理是实现文本信息智能分析的一项重要研究工作。对特定领域内文本的分析,可以获取该领域内的重要信息,以及实现对该领域发展方向的预测。针对财经领域而言,分析财经领域内海量的文本信息,可以了解经济发展的前景,实现对经济发展的预测。中文文本分析主要是文本的分类、聚类等工作,依赖于对文本中词汇的分析。从文本词汇集中提取主要的信息是分析文本的基础工作。关键词是文本数据的重要特征,是分析文本数据的重要依据。关键词自动识别方法是自然语言处理研究的基本任务,是分析文本的前提,具有重要的研究意义。本文研究以财经领域文本为例,提出了一种基于主题模型和词汇相似相结合的方法,提取财经领域关键词。通过已有的分词工具实现中文文本分词,提取文本中的词汇;对给定的文本集建立主题模型,提取主题相关词汇作为初始关键词集;提取与初始关键词集语义相似的词汇,扩展关键词集。主要工作如下:对财经领域内的新闻文本利用已有的分词工具切分文本,提取文本集中的词汇。依据LDA(Latent Dirichlet Allocation,隐含的狄利克雷分布)对文本集建立主题模型,提取主题相关词汇形成初始关键词集。依据word2vec模型,将财经领域内词汇向量化表示,计算初始关键词集中的词汇与领域内词汇间向量的相似度,对关键词集进行扩展。通过实验进行数据分析。第一,利用主题模型提取初始关键词集,计算初始关键词集的准确率;第二,利用主题模型和词汇相似,对初始关键词集进行扩展,提取关键词集,计算关键词集的准确率;第三,利用已有的TF-IDF(term frequency–inverse document frequency)方法提取关键词集,计算关键词集的准确率。比较三种方法的实验结果,依据实验结果得到,针对财经领域内文本,基于LDA模型和Word2Vec模型相结合提取关键词的方法效果较好。
其他文献
文章针对传统采暖系统不适宜分户计量的缺点,分析介绍了现阶段对新建建筑适合采用的几种分户采暖系统形式。传统系统散热器分散布置,一家一户的散热器往往不在一个环路,这对
农产品加工业是农业生产的继续和延伸,是我国国民经济的基础行业,在增加农民收入、解决“三农”问题、保障民生方面具有重要的战略意义。本文通过对陕西省农产品加工业现状的调
由于BOC调制信号是一种非常新的调制信号,在伽利略系统中占据着重要地位,因此对它的捕获研究就显得尤为重要。而本文正是研究了BOC调制信号的捕获技术。首先,介绍了BOC调制中
采用二项logistic模型分析法,对农村贫困地区农户大病成员的医疗服务利用影响因素进行分析。研究发现,慢性病大病患者的相对于非慢性大病患者更倾向于不就诊;经济条件显著制约着
集资诈骗罪是当前较为多见的一种破坏金融秩序的犯罪。集资诈骗犯罪一旦发生,往往被骗人数多,被骗资金数额巨大。集资诈骗罪是金融诈骗罪的头号犯罪,其严重地扰乱了国家正常
对潜水电机定子腔、接线腔、油室腔三个腔的常见密封结构进行剖析.