【摘 要】
:
随着信息时代的到来,信息量呈现爆炸式增长,尤其是非结构化数据充斥着人们的生活。如何从海量的非结构化文本中快速定位信息以及高效的获取信息成为人们目前急需解决的问题。
论文部分内容阅读
随着信息时代的到来,信息量呈现爆炸式增长,尤其是非结构化数据充斥着人们的生活。如何从海量的非结构化文本中快速定位信息以及高效的获取信息成为人们目前急需解决的问题。文本自动分类能够对信息进行有效的整理和分门别类,从而帮助人们更有效的检索,查询,过滤和利用信息。因此,如何实现对海量的非结构化文本数据的自动化分类成为当前研究热点。然而,非结构化文本数据结构复杂,分类规则不统一,数据更新速度快,数据规模巨大,使得传统的文本分类方法已无法满足当今非结构化数据的处理需求。针对分类方法自动分类问题,论文尝试引入了云计算平台和分布式计算架构,完成对大规模非结构化数据的分类处理及对各种分类后的信息的相关处理,为当今海量非结构化文本数据处理对于存储和计算的巨大需求提供了可靠保障。本文设计并实现了基于云计算的海量非结构化数据自动分类系统,系统实现了一个文本分类算法,并成功的运行在Hadoop分布式平台上,对网络爬虫爬取到的文本数据,完成自动分类处理操作。此外,本系统还提供便捷的可编程接口,能够方便进行二次开发,进一步提高了系统的实际应用价值。
其他文献
试论秦国历史上的三次“书同文”赵平安提起秦国历史上的"书同文",人们会不约而同地把它与秦始皇时期的"书同文"对应起来。因为在我们过去的认识中,"书同文"所表达的就是这种特定的含
随着可持续发展观念的不断深入,单纯的财务信息已经无法完整反映企业价值,企业非财务报告越来越受到重视。国际金融危机的爆发以及全球环境气候的变化进一步加剧了人们对企业
《2012年中国肿瘤登记年报》报道,根据2009年中国肿瘤登记地区人群肿瘤发病与死亡状况,我国肺癌发病及死亡均居全国恶性肿瘤的第1位。化疗是肺癌的重要治疗手段,尤其对于小细
《河南省学前三年行动计划》于2011年实施以后,河南省的学前教育事业得到了长足的发展。对幼儿受教育的整体状况、办园条件、办园经费、师资状况等的分析发现,河南省学前教育
校企合作是高职教育改革发展的必由之路,从某种意义上说,也是高职教育成败兴衰的决定性因素。本研究通过对淮安市高职院校与企业开展的校企合作工作的调查,分析了当前高职商
《职业会计师道德守则》是原则导向的道德规范,是ACCA Paper F8的重要考点。考生应熟悉掌握其基本准则的概念和独立性准则的案例分析,并关注考试技巧和答题误区。
世界进步文化名人,元代杂剧的代表作家,也是我国古代最杰出的戏剧家关汉卿一生写了六十多个剧本,就数量上说,甚为可观。但更重要的是,在其作品中充满着强烈的斗争精神,对元朝
"一点一策"源于美国GE公司。GE公司是最早发明"一企一策"的企业。GE公司最成功之处,就是经过"头脑风暴"制订了正确的"一企一策"策略。俗话说,思路决定出路。网点转型中的"一
妙玉“云空未必空”──《红楼梦》人物研究之二李令媛在金陵十二钗中,妙玉的身分是特殊的。她既不是贾府千金,也不是贾门儿媳或亲戚,而是和贾家毫无瓜葛的“带发修行”的出家人
以中椒105为对照,对来自几个科研单位及企业选育的9个辣椒品种进行生长势强、早熟、丰产、果实商品性、抗病性强等方面的比较分析,结果表明:国福406、海丰16号等综合表现较好