跨领域的汉语意见挖掘方法研究

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:fangfang200805
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着web2.0时代的到来,网络已经成为人们生活与交流的重要工具。人们在网络上发表对某一事件或者产品的意见或者评论。如何挖掘产品评论中的有用信息即意见挖掘任务,成为自然语言处理研究的一个重要的问题。而跨领域意见挖掘不同于同一领域内的意见挖掘,完成一个自适应强的跨领域挖掘系统对跨语言信息检索、自动文摘等任务起到重大意义。本文是在机器学习的框架下,面向网络用户生成的非正式的产品意见文本研究跨领域的意见挖掘方法和技术,主要内容包括意见文本标点校正、意见要素抽取、领域相关的动态极性获取和融合领域知识的情感极性分类,重点解决汉语领域相关的情感知识获取问题,以提高系统在开放的网络中的自适应能力。具体地,本文从以下四个方面展开研究:(1)针对网络意见文本存在的标点错误,本文提出了一种多级的融合词层次、短语层次和功能块层次等深层次特征的无标点序列标注方法,重点研究不同层次的特征对标点预测和校正的性能影响,考察了不同序列标注模型对其性能作用。实验证明,融入深层次特征的多级序列标注方法对标点预测和校对的有效性。(2)意见要素抽取作为意见挖掘的核心研究任务之一。本文提出了一种基于语素的意见要素标注及抽取方法,探索了基于不同类型的序列标注单元对意见元组要素抽取的影响。实验结果表明,基于语素的汉语意见要素抽取的有效性。(3)领域相关的情感知识获取是跨领域意见挖掘的关键问题。针对跨领域情感知识获取所面临的数据稀疏问题,本文在分析汉语意见复述特点基础上,提出了基于相似度的属性-评价对正规化方法,并以此在权重化下的simRank算法进行领域相关极性识别,进而构建了一种基于正规化属性-评价对的领域相关的情感知识获取方法。在手机和汽车两个领域上的初步实验结果表明,引入正规化属性-评价对信息有利于系统性能的提高。(4)跨领域情感分类方面,本文首先识别了待测语句的领域,然后融合领域相关的情感极性知识、多种特征选择方法,在最大熵的框架下完成跨领域的情感分类问题。实验结果表明,融入识别领域知识,、融入领域知识对于跨领域情感分类的积极作用。
其他文献
嵌入式系统近年来在取得了高速的发展的同时也开始逐渐被软件性能问题和硬件的功耗问题所困扰。本文就嵌入式处理器中的性能计数器在解决当前嵌入式系统发展中遇到的两方面的
随着计算机处理分析图像能力的日益提高,利用计算机跟踪和分析群体的行为已经成为计算机视觉研究领域的一个热点。群体运动的分割和人群的异常行为检测是群体运动分析的首要步
Web服务技术是面向服务体系架构的一种实现方式。随着服务的提供者日渐增多,部署在分布、开放、多变、难控的网络环境下的Web服务,保证其能够正确、安全和有效的为用户提供服务
神经网络集成是以多个人工神经网络同时对同一个问题进行学习,其集成的结果由参与集成的各个神经网络在同一输入示例的输入条件下的输出进行组合而成的,即输出由构成这个集成的
随着物联网技术的出现及不断发展,作为物联网感知层关键技术之一的无线传感器网络技术也受到越来越多的关注。无线传感器网络在灵活性、容错性、低功耗及快速部署方面具有特
微博拥有信息多元、表达快捷、互动性强等传统媒体无法比拟的优势,迅速发展为人际交互及信息传播的主要方式,在商品营销、舆情传播等方面有着广泛的应用。影响力的问题被引入到
摘要:经典智能规划问题是人工智能研究领域里最为重要的问题之一。但是由于其时间复杂度上的不可跟踪性,使得这项技术在实际应用中的范围十分受限,所以一直以来,与智能规划有
工作流成批处理,是指将同一类型活动的多个工作流活动实例进行整合处理,使得原本多个工作流活动实例的分别执行变成组合执行,从而降低活动执行成本和提高活动执行效率。然而,由于
随着我国城市化进程的加快,城市机动车数量在急剧增长,这对传统的交通管理方法提出了新的挑战。目前,交通管理问题已成为城市管理的重要问题。现代智能交通管理系统就是为应对城
随着人机交互,三维动画,游戏,体育运动分析,医疗诊断和虚拟现实等领域的迅速发展,人体运动捕获系统作为其关键技术,已成为这些领域的研究重点。目前市场上,基于带标记点的人体运动捕