基于文本挖掘技术的社会热点分析

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:birdlay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网大数据时代的到来,互联网上充斥着大量信息,如何获取有效信息是一个值得研究的热点问题。有别于传统的数据挖掘技术,文本挖掘需要我们从大量的非结构或者半结构化的文本数据中发现可能存在的、可以利用的知识模式,其现有的研究技术主要包括计算机、自然语言处理、机器学习等多个学科的理论。互联网中存在的数据是典型的半结构化数据,因而利用文本挖掘技术来分析处理互联网数据对精准的捕捉社会热点问题和控制舆情具有重大的现实意义。本文研究的重点是如何利用文本挖掘理论对互联网文本进行分析研究,理论与实际相结合,将该方法用在现实社会中。外来务工人员作为一座城市不可分割的一部分,对城市的发展有重大作用。但是,大量的外来务工人员也带来了落户、住房、医疗、教育等方面的问题。因此本文将文本挖掘的技术同社会热点相结合,希望通过文本挖掘技术对当今社会存在的问题进行研究分析,从而为政府提供政策制定的思路,为城市建设和经济发展提供保障。本文基于文本挖掘技术,以进杭务工人员为例分析了社会热点问题,首先简单介绍了本文研究的背景和国内外文研究现状。其次介绍了文本挖掘模型的理论,详细介绍本文用到的文本挖掘模型、主题提取模型、聚类分析模型和关键词分析模型,并说明选取该模型的原因。再次介绍本文所用数据的来源及抓取方法和数据处理,重点介绍了网络爬虫技术,并利用该技术抓取了百度,360和必应等搜索引擎上的众多文章,对抓取的文本数据进行分词、清洗等处理,为后续的文本挖掘、数据分析做准备。接着是利用R软件通过对杭州外来务工人员的五类问题进行实证分析,得出了在杭州外来务工人员这一大背景下的社会关注焦点。最后根据前文中提取出的主题及影响因素得出相应结论,并对文章的不足提出了展望。文本挖掘技术主要是从大量的原始的未经过处理的文档中提取和挖掘出未知的信息,可以让用户在大量杂乱的信息中快速获得有效信息,针对相关问题的准确性作出判断、处理,甚至可根据挖掘的信息提前处理,防范于未然。随着文本挖掘技术的进一步成熟,文本挖掘技术的发展和广泛应用是未来的必然趋势,这项技术将越来越广泛地被运用到科研、社会、生活各个领域。
其他文献
目的探讨多条肌腱断裂术后行粘连松解术配合封闭治疗的疗效。方法2010年1月-2012年4月选择36例前臂及手部多条肌腱断裂粘连患者行二期手术松解,同时配合封闭治疗.具体方法选用
目的探讨第2趾甲皮瓣及足背皮瓣修复全指皮肤脱套伤的临床效果。方法对23例26指(食、中指)全指皮肤脱套伤,采用第2趾甲皮瓣及足背皮瓣进行修复,皮瓣切取面积最大11.5cm×12.0cm
目的报道足内侧筋膜皮瓣修复足部软组织缺损的临床疗效。方法应用足内侧筋膜皮瓣对11例足部软组织缺损包括坶甲瓣供区创面缺损进行修复,皮瓣面积:4cm×3cm×6cm×5
采用锥形量热仪(CONE)研究蒙脱土(Na—MMT)对防火涂料阻燃性能的影响。结果表明,随着Na—MMT含量增加,膨胀型防火涂料的质量损失速率峰值(pk—MLR)和总耗氧量(TOC)相对于未添加蒙脱土的
目的:观察肝酶升高的急性冠脉综合征(ACS)病人应用普伐他汀的安全性。方法:ACS病人120例,根据入院时血清丙氨酸转氨酶(ALT)的情况分为肝酶升高组(ALT〉40IU·L^-1)38例和肝酶正常
目的探讨尿肌氨酸水平对前列腺癌(PCa)的诊断和病情判断方面的应用价值。方法选取我院泌尿外科住院的经前列腺穿刺活检确诊的PCa患者16例,年龄65±89(68.4±10.2)岁。采集PC
目的:探讨托吡酯对原代培养海马神经元癫痫样放电的抑制作用及其特点.方法:分离原代培养1日龄SD大鼠海马神经元,d 9~15采用膜片钳全细胞模式记录托吡酯(20,100 μmol·L-1