科技情报采集系统的设计及其快速文本聚类方法研究

被引量 : 6次 | 上传用户:sisi22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技情报的采集是科技情报研究工作中的重要组成部分,也是科技情报深入分析挖掘的基础。随着信息时代的飞速发展,信息呈指数倍增长,科技情报研究人员不得不在情报采集和统计分析等基础工作上消耗过多的时间和精力,这使得科技情报研究的工作效率大幅度下降,已经难以满足情报检索和分析的实际需求。为了能准确、全面、快速地获取较为专业的科技情报,有效地辅助相关部门进行科学的决策和适时的引导,有必要对科技情报的采集和数据分析处理技术进行深入的研究和探讨。为此,本文完成了如下两方面的工作:1)本文设计并实现了一种无监督的科技情报采集系统。该系统首先利用元搜索模型和垂直搜索模型分别对网页数据和论文数据进行检索,并通过URL调度器、内存管理器、数据存储器、源码解析器、多线程控制模块对数据进行自动采集,实现了无需人工干涉、自主应对突发情况的数据采集功能;然后采用数据分析模块对论文数据进行自动地统计分析,为深层次的科技情报分析和研究提供信息支撑和引导;最后,以飞机制造领域为例对系统进行了实验测试,实验结果表明系统能够有效地对网页数据和论文数据进行采集,并能完成一些系统化的情报分析。2)针对网页数据中数据量大、重复数据多,科技情报人员难以直接对其进行处理的困难,本文提出了一种基于快速排序的文本聚类算法,以实现对大量网页数据进行去重、压缩的目的。算法首先基于文本对象间的相似性度量将文本聚类问题转换为一个数字排序问题,并利用快速排序算法实现文本的聚类;然后采用随机化基准值和递归操作的转化策略来进一步提高执行效率,以实现近线性时间复杂度的文本聚类;最后在实数据和人工数据上对算法进行了测试,并与经典CURE、BIRCH、K-means算法进行实验对比,结果表明新算法不仅能够保证聚类精度,而且具有更快的执行效率,在处理大规模网页数据时具有明显的优势。
其他文献
根据目前水泥行业能耗偏高、污染严重的特点,针对水泥厂的能耗数据及排污数据设计出一套基于KingView的水泥厂节能减排监测及预警系统。系统通过采集水泥厂生产过程中的能耗
在高速公路施工中,采用喷锚网技术可以有效解决坍塌和落石等路面病害问题,同时可以减少后期公路养护费用。结合具体的高速公路施工实例,简要探讨喷锚网技术的具体施工过程,并
随着我国社会进入深入化发展阶段,我们已经进入了贝克所预言的“风险社会”。整个社会在政治、经济、生态等方面承受着各种风险压力。而在这种高风险社会时代,各种社会矛盾也急
提高民航服务质量,不仅是旅客的要求,也是民航各家航空公司促进自身发展的必要手段。国内民航客舱服务中存在着不少问题,如服务态度不积极、缺乏安全责任意识,以至于旅客经常
我国西部山区蕴藏着丰富的水电资源,随着近年来不断开发利用,越来越多水利枢纽相继建设。枢纽建成运行后不仅可以获得水电能源,而且在其上游形成深水航道,改善了天然河道湍急
葛浩文被誉为“中国现当代文学之首席翻译家”。他在中国文学翻译方面成绩斐然,很多中国作家的作品经他翻译走向了西方读者,其中数量最多的是莫言的小说。《红高粱家族》英译本
目的探讨热毒宁注射液与炎琥宁注射液治疗上呼吸道感染的效果。方法选择2017年4月~2018年4月我院收治的100例上呼吸道感染患者作为研究对象;按照随机数字表法分成对照组(50例
目前,计算机系统的规模正日益增长,用户对计算机性能需求的不断提升也促使大量异构应用程序和线程并发执行。因此,对复杂体系结构的计算特征进行全局分析已经成为研究的焦点问题
研究首先着眼于拟态环境理论,统计了2005年至2011年七年间中国财经报纸对金融市场负面题材报道的数量,并对该理论在中国财经报纸构建的金融市场拟态负面环境和现实金融市场负面
法律规则之间的冲突,是当前立法面临的一大问题。为此,各国根据各自国情采取了相应的救济措施,通常称之为违宪审查制度。根据违宪审查的不同主体,大致可以分为议会监督模式、