论文部分内容阅读
随着人们对自身健康关注程度的日益提高,对医疗保健的观念也正逐渐发生改变,主张从过去被动的疾病治疗到积极的健康自我管理。病人要想积极的参与到自身疾病的诊疗决策以及日常的健康自我管理,没有一个良好的信息交流平台是无法实现的。近年来网络健康社区的快速发展为人们交流医疗健康信息提供了可能,大量用户参与到网络健康社区中寻求和分享个人健康保健和疾病诊疗经验、对各健康话题提出自己的观点,同时网络健康社区也为病人及其家属进行情感交流与寻求情感支持创造了良好的沟通平台。深入地了解和分析网络健康社区是一个非常有意义的研究课题,一方面可以帮助社区网站优化人机交互界面,提供更个性化的工具和功能来便于社区成员更好地参与到社区讨论中,提高其参与的积极性;另一方面对参与网络健康社区的广大用户来说,对网络健康社区的深入研究可以帮助他们更快的了解这一新兴的在线交流形式,帮助他们快速的发现其感兴趣的话题或者寻找他们希望与之交流的社区成员,使他们更好的融入到网络健康社区平台中。正因为网络健康社区在人们日常生活中发挥着越来越重要的作用,因此也成为众多研究者关注的热点。许多研究已经从不同角度和侧面展开,例如分析不同人群在社区中的参与特点,探索社区中健康相关的热点主题以及分析成员在社区中的情感表达与交流等几个方面。但目前大部分研究采用的是基于调查问卷的方法,或者依靠人工标注的内容分析方法,随着网络健康社区的快速发展,当面对日益增长的海量的社区文本时,这些传统的人工分析方法不但效率低下,而且缺乏科学性和客观性,无法对网络健康社区进行更有效的分析。因此本文探索利用机器学习和文本挖掘等智能化处理方法,对目前网络健康社区研究中的主要热点问题进行全面系统的分析,主要研究内容包括以下三个方面:健康热点主题的识别、社区成员角色的识别以及社区成员的情感表达分析等。(1)健康热点主题识别。社区成员在网络健康社区中可以对感兴趣的话题进行自由的交流,但研究发现由于社区信息组织的无序导致用户难以快速的查找到所需要的信息,社区网站和相关研究者也很难从中发现用户对各类健康主题的兴趣和需求,由此我们提出了健康热点主题的自动识别方法。通过借助于UMLS等外部医疗知识源,我们从社区论坛的发帖文本中抽取了n-gram特征、领域相关特征以及情感特征等能有效表示健康主题的特征集合,然后通过文本聚类技术对社区发帖文本按其主题划分为不同的簇,每一个结果簇代表一类健康热点主题,最后通过对簇中关键词抽取的方式实现对健康热点主题的有效识别。在实验的测试和评估中,以国际知名网络健康社区Medhelp为实验数据来源,选择其中的肺癌、乳腺癌和糖尿病三种典型疾病为研究对象搜集样本数据,在对模型的各项参数进行确定后,我们分别得到了7个结果簇,通过关键词抽取,我们最终定义了7个健康热点主题,分别是个人详细介绍、情感支持、症状、检查、并发症、用药和治疗,随后验证了方法的有效性。最后通过进一步讨论,我们发现在不同类型疾病论坛中健康热点主题的分布也有明显差异,比如肺癌论坛中的症状、乳腺癌论坛中的检查、糖尿病论坛中的用药等主题的分布都明显高于其他主题。(2)社区成员角色识别。网络健康社区中有不同类型的参与人群,他们有着不同的参与目的和需求,表现出不同的角色特征。对不同角色成员的有效识别便于网站提供差异化服务来满足不同成员的需求,也便于社区成员之间增强相互理解和信任。然而出于隐私保护等原因使得个人有效信息相对缺乏,这给有效识别社区成员的角色造成了很大困难,为此我们引入了基于文体学的文本作者角色识别理论,提出了网络健康社区中的成员角色识别方法,通过对社区成员发帖文本的文体写作特征来判断社区成员的不同角色类型,提取的文体特征包括词汇特征、句法特征和结构特征,并结合内容相关的特征构成特征集,然后采用文本聚类方法将所有发帖按其不同的文体写作特征进行划分,最终实现对社区成员角色的有效识别。在实验中我们仍然以Medhelp健康社区三种疾病论坛中的发帖文本作为实验语料,对病人、护理者和医疗专家等三类主要角色进行了有效识别,并通过进一步讨论对三类人群的差异化进行了分析。(3)社区成员的情感表达分析。网络健康社区作为一个用户广泛参与交流的平台,社区成员的发帖都包含了他们丰富的情感表达,因此我们探索建立了一套面向网络健康社区的情感分析方法来有效地识别这些包含情感表达的发帖文本,并分析其中的情感倾向性。首先,我们介绍了对网络文本的情感分析技术,并分别根据基于机器学习的情感分析方法和基于情感词典的情感分析方法来设计研究框架,对健康社区中的发帖文本进行主客观分类和情感极性分类。在基于机器学习的方法中通过选取领域特征、词性特征、文体特征等有效区分文本情感的特征构成特征集,并采用SVM分类算法实现对文本的情感分类。在基于情感词典的分析方法中,探索如何引入外部情感知识源来抽取文本中的情感词并计算其情感表达强度,设定合理的情感极性区分标准来判别文本的情感倾向性。通过实验测试,发现两种情感分析方法各有优劣,最终我们将两种方法进行有效的融合,并通过科学的度量验证了融合两种方法的情感分析综合模型的有效性。在进一步深入的分析讨论中,我们针对不同的疾病类型,不同的健康主题和不同类型的成员角色等从多个角度对社区成员的情感表达特点进行了分析和总结。本文的创新工作主要体现在以下三个方面:(1)提出了基于文本聚类的网络健康社区热点主题识别方法。由于目前对网络健康社区热点主题的研究多采用基于人工统计标注的方法,处理效率低下且缺乏科学性,本文提出将文本聚类的方法运用到网络社区的健康主题识别中,在传统的文本表示方法的基础上,本文提出引入外部医疗健康知识源从文本中抽取出区分健康主题的领域相关特征,并进一步提出加入情感特征来提高聚类效果,最后通过实验验证我们构建的健康主题识别模型的有效性。(2)提出了基于文体学的网络健康社区成员角色识别方法。有效地识别不同的社区成员角色是分析研究网络健康社区的主要基础和前提,而由于个人资料的缺乏和隐私保护的需要使得我们难以识别成员的角色,因此相关角度的研究也非常少。本文创新性的提出了基于文体学的角色识别方法,从网络文本中提取词汇特征、语法特征和结构特征等能区分不同类型社区成员的发帖风格特征来判断成员的角色,并通过实验验证了该方法的有效性。(3)提出了适用于网络健康社区中情感分析综合模型。由于基于机器学习的情感分析方法和基于情感词典的情感分析方法在应用于网络健康社区的文本情感分析中各有利弊,我们提出了将两者相结合的情感分析综合模型,首先在文本的主客观分类上,我们采用机器学习的方法,选取领域特征、词性特征、文体特征等特征集,实现对文本的主客观分类。然后在对主观性文本的情感极性分析中,我们采用基于情感词典的方法,利用外部情感词典SentiWordNet来抽取文本中的情感极性词,实现对文本整体的极性判断。实验结果也表明我们提出的模型在网络健康社区的情感分析中具有很好的效果。