论文部分内容阅读
针对传统检索模型在检索上存在的数据冗余、模糊匹配、检索结果差等缺点,结合当前研究热点,论述异构数据集成、冗余数据排除、高效数据分类、关键字检索等模型与方法,旨在大数据环境下,充分利用传统技术与虚拟化技术、MapReduce并行框架模型、改进向量空间检索模型等技术相结合优化存储模型、改进分类算法以及优化检索算法,进而提高算法运算效率,为用户提供一套集数据存储、数据分类、数据检索于一体的大数据检索基础平台。以关键字检索算法作为研究对象,主要研究内容为:首先,为了更好地对数据检索提供良好的数据存储基础,研究数据模型的设计与优化,并在云计算环境下研讨设计数据存储模型,文件块的数据更新算法设计,以及云存储的故障恢复机制等。第二,为了达到准确地对不同数据的检索要求,在原有分类算法的基础上提出了并行分类混合算法(PCHA算法),该算法利用邻近分类算法适合处理属性多、数据大的分类问题的优势,引入Map-Reduce并行框架与其融合设计,优化并提升原有分类算法的建模预测能力和分类识别率。第三,研讨传统检索算法并提出无序关键字检索算法(DKRA算法),该算法利用向量检索模型计算方便、复杂度低等优点,引入K-D矩阵构造及相似度等计算方法设计检索算法,并与计算关键字序列权重得到相关数据相似度的计算方法做比较,从而体现DKRA算法在计算效率上的优势。最后,在DKRA算法的基础上提出了有序关键字检索算法(OKRA算法),该算法利用检索关键字的有序性,给出了关键字检索步长、总体检索步长、相关数据检索步长、总体相关数据检索步长、位置匹配度的计算公式等的定义,在计算相似度中引入位置匹配度解决了由于检索关键字顺序组合造成的检索错误率问题,利用该算法可以过滤掉较差无关数据,降低数据集遍历所耗时长,提高了相关检索数据的返回质量。