面向网络舆情的哈萨克文热点词提取方法研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:jialifish
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的迅速普及,整个社会进入了一个信息爆炸的大数据时代。新疆是一个有着多个民族聚居的地区,在这里多种语言被广泛使用。随着新疆地区经济和文化的迅速发展,哈萨克语作为新疆几大主流语言之一,其使用人数也在逐年上升,哈萨克文网页数量的增长速度也越来越快。如何在海量的哈萨克文网络文本中快速准确的找到人们感兴趣的热点信息成为了关注的焦点。本文即探讨如何对互联网上的海量哈萨克文网页信息进行分析、处理,从而获取近期流行热点词的相关技术问题。结合哈萨克文语言特点,对哈萨克文热点词提取方法进行了研究。本文从人民网哈语版和天山网哈语版这两个哈萨克文网站获取新闻网页,作为本文的测试语料,经过预处理后引入词汇信息熵结合3σ准则的方法来过滤哈萨克文新闻文本中的“无关词”,后续再通过热点词提取算法得到相关热点词。本文的研究内容主要包括:(1)通过查阅文献及相关资料简要总结和分析了网络舆情及热点词提取技术的重要研究背景、意义及研究现状,对常见的词汇权值计算方法进行了相关介绍。(2)利用网络爬虫对哈萨克文新闻网站进行采集获取真实新闻语料,进行正文抽取,去除网页中的无用信息。后续对抽取的新闻文本进行分词、停用词过滤、词干提取等预处理,得到候选热点词集合。(3)在热点词提取过程中,通过分析候选词集发现,其中含有一定数量的频率很低或频率很高但与表达实际意义作用不大的词语,称之为“无关词”。本文利用词汇的信息熵结合3σ准则的方法来剔除哈萨克文新闻文本中的“无关词”。实验结果表明,此方法可有效过滤这类“无关词”。(4)结合哈萨克文研究现状,深入分析了TF-PDF算法,结合媒体关注度思想及词频位置因子加权对其进行了改进,构造了热点词热度权值公式L-HKAD(Local-Hot Keywords Attention Degree),来定量的描述候选词汇受关注的程度。在此基础上又利用了词汇共同出现的频率信息及其组配相关度对提取出的热点词汇进行了适当的组合,在一定程度上减少了词语“分离”现象。(5)使用真实网络新闻语料对本文基于改进的TF-PDF算法并结合词汇的信息熵和3σ准则进行“无关词”过滤这一方法进行了验证,分别做了两组对照实验,并进行了对比与分析,结果证明本文方法提取到的热点词汇对热点新闻话题的覆盖率要优于基准方法,对网络舆情热点话题的发现有重要的启发作用,此外,进行过热点词组合之后得到的部分热点短语能更完整表达一些热点话题的意义。
其他文献
无线传感器网络在目前是一个十分活跃的领域,在许多方面都得到了广泛的应用,它是由许多低功率的传感器节点组成且以无线的形式收发信息,并将采集到的信息传递到远处的基站处
随着智能手机和智能终端的广泛应用,在线社交网络也开始迅猛发展,各种各样的社交活动开始产生。人们在随时随地享受在线社交网络带来的乐趣之余,也面对了一些问题,例如智能手
无线自组网络描述的是一个包含具有无线移动,并能动态地自组成网络拓扑结构的节点的系统,它允许人们和设备在不需要先前网络和通信设施的情况下,在区域内进行网络互联。本文研究
随着互联网信息的爆炸式增长,Internet已经成为世界上最大的信息发布中心。然而,信息的自由发布和随意浏览使得因特网的内容良莠不齐,使得它在给人们带来方便的同时,也产生了
随着网络攻击技术和手段的日益突出,入侵检测系统逐渐引起诸多学者的关注,成为了当前研究网络安全方面的重要课题。在众多的入侵检测方法中,研究人员发现将支持向量机SVM(Sup
从1993年中国连入Internet我国的信息化越来越快。Internet的快速发展使它成为人们获取信息的必备工具。但是随着信息化的发展Internet上的信息越来越多,需要查看成百的网页才
几十年前IT技术的出现给信息的传播方式和人与人之间、国家之间甚至整个世界的交流带来了很多变化。如今,随着密码分析方面新技术的激增,信息安全是包治百病的灵丹妙药。  
资金密集型企业对企业资产管理的状况,直接关系到企业在市场上的核心竞争力。煤矿企业作为典型的资产密集型企业,其矿用设备占到企业固定资产的60%~80%。本课题以国内某大型煤矿
随着投票活动日益频繁以及活动规模不断扩大,世界各国学者们都在积极探索和研究安全的投票方案。量子通信和量子计算机的发展为投票研究领域带来了新的挑战和机遇。量子纠缠性
随着计算机硬件水平的飞速发展,人们对于电脑游戏画面逼真度的要求越来越高。为了增加场景的逼真度,各种自然现象被加入到游戏场景中,比如:雾、雨、雪等等。虽然现在的游戏软