【摘 要】
:
随着科学技术的快速发展,互联网已在各行各业得到广泛应用。大数据时代的到来使人们在获取信息资源的过程中,也会有大量干扰、不良的危害信息,网络信息的恣意传播很容易在获取信息时出现低效率、信息误导等情况。如何对互联网新闻数据进行准确的分类、提高信息的利用率成为了众多科研人员的研究目标。随着人工智能和智能化平台的发展,SVM研究又逐渐变热,重新成为热点。SVM在文本和图像分类等领域都有着较为显著的成果。本
论文部分内容阅读
随着科学技术的快速发展,互联网已在各行各业得到广泛应用。大数据时代的到来使人们在获取信息资源的过程中,也会有大量干扰、不良的危害信息,网络信息的恣意传播很容易在获取信息时出现低效率、信息误导等情况。如何对互联网新闻数据进行准确的分类、提高信息的利用率成为了众多科研人员的研究目标。随着人工智能和智能化平台的发展,SVM研究又逐渐变热,重新成为热点。SVM在文本和图像分类等领域都有着较为显著的成果。本文在分析总结新闻自动分类过程中的分词,表示,降维,分类以及结果判定的基础上,着重对降维和分类进行了深入研究。本文主要研究内容如下:(1)针对互联网新闻文本数据量大,冗余数据资源较多不便于使用者查找有效信息等问题,做出以下改进:在数据预处理中,使用线性判别分析(LDA)可以让映射后的样本有最好的分类性能。在LDA进行特征降维之前,先使用单因素方差分析对每个属性与类别进行相关度的分析,将不相关或者相关性较低的特征剔除,再使用LDA在线性变换上将原始数据映射到能够较好区分特征与类别的低维度上,实现数据降维。(2)为提高鲸鱼优化算法的收敛速度和寻优精度,提出一种基于非线性收敛因子和局部扰动的鲸鱼优化算法。算法首先引入非线性收敛因子,提高鲸鱼种群的多样性,扩大鲸鱼搜索食物的范围。同时在鲸鱼包围捕食阶段,采用一种局部扰动策略,使算法在跳出局部极值时的能力增强,提高算法的寻优精度。实验结果表明,改进后算法和粒子群算法、蝙蝠算法、基本鲸鱼优化算法相比,寻优速度、收敛精度、算法稳定性上都要优于其他算法。(3)通过深入分析SVM的思想、原理和流程,针对基本SVM模型中存在的易发生分类准确率不高、参数优化费时等缺点,做出以下改进:在SVM参数选取中,使用鲸鱼优化算法,快速找到全局最优解,提高模型的分类准确率,改进后的鲸鱼优化算法在模型参数优化中效果更佳。并用互联网新闻自动分类系统与优化后的SVM模型结合,使互联网新闻信息更清晰直观的呈现给新闻用户,不仅可以提升用户获取有效信息的效率,也可以提高用户的使用兴趣,减少冗余数据对用户的干扰,实现本文的使用价值。
其他文献
拟以博弈论中经典的性别大战博弈为切入点,延伸思考,从完全信息静态博弈和完全信息动态博弈两个方面来具体分析情侣之间的博弈,并对可能出现的各种结果加以讨论,试图寻找出最
【正】 一《聊斋》在表现社会、人生及自我时,最常采用的方式是幻化,换句话说,幻化是《聊斋》最突出、最典型的艺术表达方式。这种方式主要有两种途径:(一)非人(花妖狐魅,神
随着一物二卖纠纷的涌现,买卖合同司法解释就交付与支付情况创设了解决机制,但违背债权平等性原则和物权变动模式。本文根据一物二卖中标的物的4种交付情况,先后买受人的5种
以福清市1961—2007年总雷暴日观测数据为样本,对福清市雷暴目的极端值和短期预测值进行研究与应用。采用频数分析的方法拟舍得到福清市年总雷暴日的概率密度、分布函数,由此计
<正>主持人:随着我国各地输油管道的增多和管线的延长,管道的事故发生率也逐渐增加。请问,输油管道事故的抢修,应该注意的安全事项有哪些?河北范庆浩范庆浩先生:发现输油管道
在学术界探讨古代东瓯国的基础上,尝试提出一些新的看法。一是在侯百朋提出的瓯与岙的关系的看法之后,继续探讨"瓯"的原始意义来自浙、闽沿海的一种地貌,很可能是岙这种地貌,
大学生心理健康教育对大学生的心理发展有积极的促进作用,大学生是一类特殊的学生群体,他们均以成年并且思想较为成熟,因此采用较为传统的心理健康教育方式不容易被他们接受,
第六次大面积提速调图后,铁路推出了更加丰富的客运产品,客车装备水平和旅客的乘车环境均有较大提升,但对照提速后旅客多样化、个性化的服务需求,目前铁路客运服务质量的总体
日本室町时期的梦窗派禅僧绝海中津被誉为"五山文学双璧"之一,他的自选诗文集《蕉坚稿》代表了五山汉诗的最高水平。《蕉坚稿》中的汉诗根据创作时期不同,体裁各有侧重。与其
目的:目前脂多糖诱导的甲型肿瘤坏死因子(lipopolyaccharide-induced tumornecrosis factor alpha factor, LITAF)与肿瘤之间的关系刚引起人们的注意,在人体内它可能发挥着肿瘤抑