论文部分内容阅读
随着大数据时代的到来,大规模生产、分析和应用数据成为了新的发展趋势。随着企业产生的半结构化和非结构化数据逐年增加,如何存储和分析数据、如何挖掘和共享知识,成为了面临的主要问题。知识管理系统有助于建立开放和协作的生态系统、利用内外部知识流,从而提高创新能力。然而,对于PB级别的非结构化数据而言,现有的知识管理系统仅靠传统的数据库技术已不能满足用户多样化的需求。解决大数据环境下的知识存储、知识共享、知识挖掘、知识检索与推荐的问题,企业需要构建一种基于大数据技术的知识管理系统,从而支持知识创新和知识应用。 在大数据技术的背景下,通过对知识管理系统架构再思考,结合Hadoop生态圈的大数据技术,本文构建了更加个性化和智能化的企业知识管理系统,并对知识文档推荐模块及算法实现、文本挖掘模块设计及算法实现等关键技术进行了研究,主要内容包括: 1.构建基于Hadoop的企业知识管理框架模型。通过研究Hadoop生态的大数据技术,分析了传统知识管理系统存在的问题,阐述了基于Hadoop的知识管理系统的优势,构建了基于Hadoop的企业知识管理框架模型,设计了基于Hadoop的知识管理系统的逻辑架构,并对知识管理模型和知识管理系统的逻辑架构进行了剖析。 2.知识管理系统的文档推荐模块仿真研究。在基于Hadoop的企业知识管理系统框架基础上,设计了文档推荐模块,并利用基于MapReduce的协同过滤算法进行了仿真实验,针对该算法的缺点,在Spark平台上实现了基于隐语义模型的推荐算法,解决了推荐的冷启动与扩展性问题,使得文档推荐更加完善。 3.知识管理系统的文本挖掘模块仿真研究。在基于Hadoop的企业知识管理系统框架基础上,设计了文本挖掘模块,利用基于Spark的LDA主题模型算法进行了仿真实验,分析文本数据集的主题-单词概率分布及文本-主题概率分布,从而估计出文本聚类中心,克服了传统K-means算法的缺陷,扩展了文本聚类的思路。 通过基于Hadoop的企业知识管理框架模型构建及文档推荐模块、文本挖掘模块等关键技术的设计与实现,有效提高企业海量数据的存储与处理的能力,加强企业内部面向管理决策的知识发现,实现知识管理的个性化和智能化,同时满足了企业知识管理系统的扩展性和经济性的需求。