面向商业舆情的网络智能分析系统研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:jweblogicdownload
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的低门槛、快速、互动量大等特点,使民意、言论自由都得到了空前展现,网络舆情成为影响着执政者的决策行为的重要因素。目前国内外商业竞争加剧、消费者的消费意识与自我保护意识逐渐成熟,而市场上商业机构危机应对能力薄弱,这就凸显了网络商业舆情引导策略的重要性。国外舆情系统体系较为完整,而目前国内网络舆情系统多偏向于政府应用、军事监管,涉及商业应用的舆情系统寥寥无几,且构建舆情系统的技术繁杂,多种算法直接影响到舆情信息提取的精确度。本课题将面对舆情分析中的几种主要技术,针对提高聚类和信息提取精度的技术进行研究分析,主要工作如下:1.结合现有的几种舆情语料库,针对商业内容进行提取,对爬取的信息采用布尔模型进行粗分,再使用向量空间模型进行表征,减小了后续聚类文本的数量,也为提高聚类精度提供了可能。2.根据TF-IDF文本表示方法的思路提出一种新的EM-NWTF算法,重点处理公式中IDF因子的计算方式、增加位置考虑和分部状况设置加权系数,结合布尔模型粗分后的结果,计算不同类别间的反文档频率,解决了原算法中生僻词影响、同类文本区分度低的问题;主要依靠增加位置权重和强调因子,在算法精度和复杂度间取得平衡,前者考虑首尾段落中特征值的重要性,后者考虑文本中间段落特征值均匀分布的状况。仿真分析影响算法精度的相关原因。3.针对K-means算法事先要求给出聚类数目K、对噪声敏感、初始中心影响大等缺点,在此基础上提出Miniter-means算法,采用相似度度量文本间距离,设定阈值过滤噪声和孤立点,增加影响系数,用已聚类的簇生成新聚类簇质心的新方法进行计算。设计仿真实验,对比两种算法的性能与鲁棒性,分析算法精度与相关参数。4.为提高海量数据并发处理效率,在Hadoop分布式平台对上述新算法及优化措施进行运行和测试,并进行效果分析。
其他文献
随着现代社会科学技术的发展,电机在工业、农业等众多领域得到了广泛应用,如何测试、分析和诊断电机故障,尤其是电机振动和噪声的测试分析受到人们的广泛关注。和传统仪器相比较
在电信网、互联网和有线电视网三网融合的趋势下,人们对Internet应用的需求越来越多样化,IPTV作为近年来最热门的多媒体应用之一应运而生。然而IPTV系统在网络性能、流媒体数
数字指纹是一种用于法庭搜集证据和追踪线索的前摄工具,是分发前嵌入在相同内容不同拷贝中的唯一标记,每个数字指纹可以被用来追踪以非授权方式使用了这些内容的用户线索。共
随着经济的发展和生活水平的提高,对中学生按期进行体检成为可能;根据体检的结果,利用计算机进行排位,排除了无法避免的人为因素,是一种非常效率、科学化的重要措施,更可以体现公平
程序分析评价技术在程序测试、程序维护以及信息领域的软件版权侵权等方面中都有着广泛的应用前景。但是目前的程序分析评价技术主要停留在比较程序输出结果的阶段,并不能发现
人脸检测的任务是对于一个输入图像,给出图像中是否存在人脸的判断,如果存在人脸,给出人脸的具体位置与范围。人脸检测是人脸识别技术的一个重要组成部分,随着时代的发展,已
Internet经过几十年的发展,已成为日常生活中一个不可或缺的基础设施,在信息交换、资源共享、可靠性、节约成本等方面发挥了巨大作用,但不断飙升的数据流量和日新月异的网络
目前中国电信行业面临着一系列的挑战,其中首要的就是面对快速变化的市场如何提高灵活应对市场的能力。四川电信渠道支撑IMS(SiChuan Telecom Integrated Marketing Support
旅行商问题(Travelling Salesman Problem)是典型的组合优化问题,可以应用在诸多领域,它的特点是问题容易描述却难于求解。随着问题规模的扩大,该问题对求解质量和求解速度都提
特征提取是机器学习、模式识别和数据挖掘等领域中的一个关键问题,它是研究如何从高维特征数据中提取出那些对分类识别最有效的特征,从而实现对特征空间的降维,进而实现更好地识