论文部分内容阅读
随着互联网大数据时代的到来,互联网上充斥着大量信息,如何获取有效信息是一个值得研究的热点问题。有别于传统的数据挖掘技术,文本挖掘需要我们从大量的非结构或者半结构化的文本数据中发现可能存在的、可以利用的知识模式,其现有的研究技术主要包括计算机、自然语言处理、机器学习等多个学科的理论。互联网中存在的数据是典型的半结构化数据,因而利用文本挖掘技术来分析处理互联网数据对精准的捕捉社会热点问题和控制舆情具有重大的现实意义。本文研究的重点是如何利用文本挖掘理论对互联网文本进行分析研究,理论与实际相结合,将该方法用在现实社会中。外来务工人员作为一座城市不可分割的一部分,对城市的发展有重大作用。但是,大量的外来务工人员也带来了落户、住房、医疗、教育等方面的问题。因此本文将文本挖掘的技术同社会热点相结合,希望通过文本挖掘技术对当今社会存在的问题进行研究分析,从而为政府提供政策制定的思路,为城市建设和经济发展提供保障。本文基于文本挖掘技术,以进杭务工人员为例分析了社会热点问题,首先简单介绍了本文研究的背景和国内外文研究现状。其次介绍了文本挖掘模型的理论,详细介绍本文用到的文本挖掘模型、主题提取模型、聚类分析模型和关键词分析模型,并说明选取该模型的原因。再次介绍本文所用数据的来源及抓取方法和数据处理,重点介绍了网络爬虫技术,并利用该技术抓取了百度,360和必应等搜索引擎上的众多文章,对抓取的文本数据进行分词、清洗等处理,为后续的文本挖掘、数据分析做准备。接着是利用R软件通过对杭州外来务工人员的五类问题进行实证分析,得出了在杭州外来务工人员这一大背景下的社会关注焦点。最后根据前文中提取出的主题及影响因素得出相应结论,并对文章的不足提出了展望。文本挖掘技术主要是从大量的原始的未经过处理的文档中提取和挖掘出未知的信息,可以让用户在大量杂乱的信息中快速获得有效信息,针对相关问题的准确性作出判断、处理,甚至可根据挖掘的信息提前处理,防范于未然。随着文本挖掘技术的进一步成熟,文本挖掘技术的发展和广泛应用是未来的必然趋势,这项技术将越来越广泛地被运用到科研、社会、生活各个领域。