论文部分内容阅读
最近几年大数据技术与计算机科学技术飞速发展,在地质、生物、医药以及工业等众多领域中都开始对大数据技术进行广泛应用,这种技术已经成为人们最为熟知的技术类专业词汇。大数据的出现让人们重新认识对科学研究方法的理论,从而产生了全新的思维模式。面对海量数据,人们只需从这些数据中获取有价值的信息,进而转换为知识。地质大数据主要包括公共地质数据和核心地质数据,公共地质数据主要用于科学普及等方面,核心地质资料含有大量保密数据,不能对外公开,主要存储在局域网中,结合大数据技术方法,充分挖掘公共数据的潜在价值,是地质大数据应用的一个重要方面。对地质大数据的研究已经成为我国的国家大数据战略其中一个重要内容。在大数据的新兴时代下,有效挖掘高价值的数据与信息,合理使用地质大数据,科学分析相关数据信息,具有十分重要的意义。在地质科学领域大量数据中隐藏这非常重要的信息,通过采用大数据技术可以对数据中这些隐藏的重要信息进行发掘,从而可以促进整个学科的不断发展与深入研究。大数据技术在近几的发展中已经在很多学科与领域中都得到了广泛应用,采用大数据进行数据分析与挖掘具有重要意义,尤其是在医疗和教育领域,采用大数据技术进行分析可以给人们的生活带来更多便利。本文主要研究的是针对外文文本大数据应用的相关需求,总结大数据相关基础理论知识,从大数据发现理论模式入手结合大数据关键技术和方法,提出文本大数据发现理论模型,对体系中部分环节提出合理的解决措施、技术手段与应用。在数据发现模块依托需求结构树,从关键词与网址两个方面进行专题信息提取,以保证数据的全面性与系统性,利用在线工具,设定符合需求的规则进行网络爬虫,获取海量数据,并进行粗略清洗以获得有效的专题信息数据;在数据分析模块,利用python语言实现多篇文本文档的多国语言互译的翻译功能,以减少人为工作量,加速翻译速度。最后以探讨地质信息服务为实例应用,应用上述技术手段,结合文献研读、分析的传统方式解决国外地质信息服务产品相关数据的获取与分析问题,并进行分析成果集成。