论文部分内容阅读
近年来,随着互联网的迅速普及,整个社会进入了一个信息爆炸的大数据时代。新疆是一个有着多个民族聚居的地区,在这里多种语言被广泛使用。随着新疆地区经济和文化的迅速发展,哈萨克语作为新疆几大主流语言之一,其使用人数也在逐年上升,哈萨克文网页数量的增长速度也越来越快。如何在海量的哈萨克文网络文本中快速准确的找到人们感兴趣的热点信息成为了关注的焦点。本文即探讨如何对互联网上的海量哈萨克文网页信息进行分析、处理,从而获取近期流行热点词的相关技术问题。结合哈萨克文语言特点,对哈萨克文热点词提取方法进行了研究。本文从人民网哈语版和天山网哈语版这两个哈萨克文网站获取新闻网页,作为本文的测试语料,经过预处理后引入词汇信息熵结合3σ准则的方法来过滤哈萨克文新闻文本中的“无关词”,后续再通过热点词提取算法得到相关热点词。本文的研究内容主要包括:(1)通过查阅文献及相关资料简要总结和分析了网络舆情及热点词提取技术的重要研究背景、意义及研究现状,对常见的词汇权值计算方法进行了相关介绍。(2)利用网络爬虫对哈萨克文新闻网站进行采集获取真实新闻语料,进行正文抽取,去除网页中的无用信息。后续对抽取的新闻文本进行分词、停用词过滤、词干提取等预处理,得到候选热点词集合。(3)在热点词提取过程中,通过分析候选词集发现,其中含有一定数量的频率很低或频率很高但与表达实际意义作用不大的词语,称之为“无关词”。本文利用词汇的信息熵结合3σ准则的方法来剔除哈萨克文新闻文本中的“无关词”。实验结果表明,此方法可有效过滤这类“无关词”。(4)结合哈萨克文研究现状,深入分析了TF-PDF算法,结合媒体关注度思想及词频位置因子加权对其进行了改进,构造了热点词热度权值公式L-HKAD(Local-Hot Keywords Attention Degree),来定量的描述候选词汇受关注的程度。在此基础上又利用了词汇共同出现的频率信息及其组配相关度对提取出的热点词汇进行了适当的组合,在一定程度上减少了词语“分离”现象。(5)使用真实网络新闻语料对本文基于改进的TF-PDF算法并结合词汇的信息熵和3σ准则进行“无关词”过滤这一方法进行了验证,分别做了两组对照实验,并进行了对比与分析,结果证明本文方法提取到的热点词汇对热点新闻话题的覆盖率要优于基准方法,对网络舆情热点话题的发现有重要的启发作用,此外,进行过热点词组合之后得到的部分热点短语能更完整表达一些热点话题的意义。