面向在线评论的关键词抽取和知识关联研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:m634606037
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子商务交易过程中能够产生大量有价值的用户消费数据和口碑信息,这些信息能够提供最直观的用户体验,并有助于消费者对不同偏好、不同品质的产品进行筛选。这些短文本信息数量大,所要表达的主题针对性强。针对以在线评论为载体的口碑信息挖掘是研究热点,本文的核心是从海量的评论文本中提取出具有代表性的关键词,并对关键词进行语义关联,使之具有一定的解释性和可读性。该问题研究的难点是提出有效的关键词抽取方法以及建立关键词间的语义关联。本文主要分为以下三部分:第一,为尽可能多的保留评论文本信息,避免分词工具错误地识别未登录词而丢失信息,针对中文文本预处理过程中分词后出现的大量的词碎片,本文通过加入规则模型的词碎片处理,识别词碎片中单个字为主的未登录词和词碎片组合的未登录词,以提高对评论文本的利用率和分词准确率,为关键词抽取和以关键词为基础的语义关联奠定了基础并提供了更丰富的语料信息。第二,针对在线评论进行关键词抽取,提出利用LDA主题模型、Word2vec词向量模型与TextRank相融合的关键词抽取算法。本文将主题影响力纳入到节点之间相互转移的影响因素中,并认为主题影响力大的节点向主题影响力小的节点转移的概率要大,利用LDA主题模型计算候选词在文档中以潜在主题为中间层的主题影响力;并且,认为如果一个词具有很强的文档重要性,那么其他词与该词在语义上越是相近,则越具有重要性,这种语义上的相关性消除了基于词频辨识关键词的影响,利用Word2vec词向量方法计算文档中词汇之间的相似性度,将这种基于全局和局部的候选关键词信息融合到以邻接关系为主的结构信息中;最后,通过图模型TextRank算法计算出词汇节点的得分,最后得到按得分排序的关键词抽取结果。第三,利用LDA主题模型和分布式表示中的Sentence2vec模型,在词性分类基础上,计算主题和语义相似的关键词间的关联度,按照关联度大小对不同类别关键词语义关联关系进行排序,最终得到带有关联程度的在线评论文本的关键词关联结果。本文针对在线评论的关键词知识,提出语义关联的挖掘方法,建立以关键词为核心的产品评论信息的语义关联。提出关键词抽取的融合算法和关键词关联方法,通过实验分析进行方法评估,结果表明关键词抽取算法具有较好的表现、基于关键词词性的语义表示具有一定的解释性和关联性。该研究进一步完善了短文本信息处理,并且能够在面对海量的评论文本时为用户提供凝练的文本表示信息。
其他文献
<正>广东美术馆2015年首场动用全部12个展厅以及馆外公共空间进行的年度大展"机构生产:广州青年当代艺术生态考察"于2月11日拉开帷幕。近年来,国内关于当代艺术研究与策展的
社会变迁提供的体制环境和文化传统内蕴的自组织机制的有机结合促进乡村精英的成长,另一方面,乡村精英在公共空间的活动中能够正向地推进农村社区的发展.从九溪村精英成长的
我国是产煤大国,煤炭国有企业是我国经济发展过程中的支柱型企业。国有煤炭企业的生产发展队伍庞大,企业员工的工资结算工作是煤炭企业财务管理中的重要问题。工资集中核算是
<正>银团贷款在中国的发展现状尽管银团贷款在国际金融市场已是成熟产品,但我国银行业的国际银团贷款业务起步较晚,首笔外汇银团贷款是中国银行1986年为大亚湾核电站项目筹组
<正>机油泵的作用是为润滑系统提供动力。四冲程发动机机油泵有两种形式,即齿轮泵和次摆线型机油泵(亦称内外转子式)。机油泵的结构是将内转子固定在油泵腔内转动。当内转子
目的:探讨中药熏洗联合美宝湿润烧伤膏外用在痔疮术后患者中的应用。方法:将120例痔疮术后患者随机分为对照组和研究组各60例,对照组给予常规高锰酸钾坐浴护理,研究组则给予
目的:观察外伤后冠根折的前牙残根由牙槽内移植的外科牵引再植术治疗后的临床效果.方法:经3年随访,外伤后根折至龈下3~6mm的前牙10例患者共11颗患牙,经由牙槽内移植的外科牵引
随着我国经济市场化水平的不断提升,国有企业也逐渐转变过去单一的管理模式,不断运用现代企业管理方法,注重管理工作和手段的灵活性与人性化。随着国有企业的转型升级,绩效管
20世纪40年代,周錬霞是上海文化名流圈内的活跃人物,她不仅在诗词方面与苏青、张爱玲、潘柳黛等齐名,而且在书画方面,也是从传统中出新。本文将叙述周铼霞的诗词交友,并阐释其绘画
纳米粉体的稳定分散是制备微观结构均匀、缺陷少的纳米复相陶瓷坯体的关键。本文中采用Zeta电位、粒度分析、SEM等测试技术分析了超声震荡和HF酸洗对SiC纳米粉体的影响;对比