基于图模型的文本内容挖掘技术

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:ttttt2046
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,人们日常所接触到的信息正爆炸式地增长,信息的体量大大超出了人的处理能力,因此需要运用文本挖掘技术以进行信息的筛选与挖掘。图模型理论作为一类重要的概率建模、推断理论,在机器学习、自然语言处理和文本挖掘领域有着广泛的应用。本文尝试运用图模型理论解决文本挖掘的具体任务。文本挖掘中有一项重要的任务是如何高效准确地对文本内容进行建模表达。在现有的向量空间模型中,常用的文本特征为TF-IDF、词性分布特征等,这些文本表层特征具有获取方便的优点,但同时也存在无法体现文本深层信息的缺陷。本文提出了一种文本的潜层结构特征的概念,利用基于概率图模型理论的潜在狄利克雷分配,从简单的表层特征之中提取出文本的潜层结构特征,在高阶层面上表达文本的结构信息。本文将所提出的潜层结构特征应用到在线评论的重要度评估中,提出了一套基于有监督式算法和基于图排序算法的在线评论重要度评估方案,并在亚马逊在线评论数据集上做了相关的实验。本文还对比了有监督式算法中的回归算法、分类算法和基于图排序的算法在进行评论重要度评估时的效果。实验结果表明,本文所提出的文本潜层结构特征能够提供更多的文本结构信息,相比仅使用表层特征的对比方案,最高能得到1.24%的效果提升。同时,有监督的回归算法在评论重要度评估中能够取得更好效果,相比有监督的分类算法与基于图的排序算法,最高分别有2.81%和10.59%的效果提升。
其他文献
从裸花紫珠(Callicarpa nudiflora Hook.ex Arn.)地上部分的乙醇提取物中分离得到了7个化合物,经波谱分析确定其结构分别为:木犀草苷(1),木犀草素-3’-O-β-D-吡喃葡萄糖苷(2
目的探讨高龄胆结石患者在接受腹腔镜胆囊切除术治疗时加以围手术期护理干预的价值。方法选取本院2016年4月至2018年4月接收的110例高龄胆结石患者,随机分为观察组与对照组,
随着科学技术不断发展,电脑、手机等电子产品逐渐普及,人们书写意识日渐薄弱,书法传承面临的挑战也越来越大。为了唤起人们对汉字书写的热爱,我们需要在教育中融入书法教育,
本文以2010年新闻传播学核心期刊为研究对象,通过文献研究对有关灾难新闻研究成果展开论述。研究发现,在新的社会环境和新的媒介环境下,灾难新闻研究有了新的角度,但在研究成
目的 :探讨用中医疗法治疗糖尿病的临床效果。方法 :对2014年4月~2015年4月期间我院收治的56例糖尿病患者的临床资料进行回顾性研究。我们将这56例患者随机分为实验组与对照
重点阐述在"教学做"一体化教学模式的特点以及日常教学活动必须的教学文件,在这一模式下如何书写好教案以及教案书写对教学的作用,"教学做"一体化教学模式是教学模式改革的一
模拟自然海水营养盐浓度状况,在N、P浓度分别为10-500μg L-1 N和0.74-74μg L-1 P时,研究N、P双因子限制(N、P浓度同时降低,N:P固定为15:1)及单因子限制(保持N或P为最高浓度
为了解土壤微生物群落的结构,采用磷脂脂肪酸方法对武夷山和建瓯的米槠(Castanopsis carlesii)天然林土壤微生物群落的结构多样性进行了研究。结果表明,两地米槠天然林的土壤
总结了果桑裸地栽培对品种和土壤的要求,阐述了果桑设施栽培与裸地栽培的异同,以及果树领域设施栽培中水肥一体化、根域限制栽培、地膜覆盖和棚架等技术的发展,展望了果桑设
目的:观察刺络拔罐配合中药面膜外敷治疗痤疮的疗效。方法:对32例患者采用刺络拔罐配合中药面膜外敷治疗。结果:痊愈24例,好转7例,无效1例。治愈率为75.0%,总有效率为96.8%。结