论文部分内容阅读
近年来,大数据出现的频率越来越高,很多行业和领域在大数据相关技术的帮助下,取得了突破性的进展。随着大数据时代到来,由传统的信息检索衍生出的垂直搜索和个性化推荐,在很大程度上帮助了人们在海量信息中更准确地找到自己感兴趣的信息。同时数据挖掘、机器学习、分布式计算等技术的快速发展,为搜索和推荐领域进一步演化提供了更多可能。在上述背景下,知识库技术在工业界和学术界的关注度日渐上升。通过使用知识库提供的知识,能帮助垂直搜索引擎更好的理解分析用户的搜索意图,帮助提升搜索结果的全面性、准确性,以提供更好的搜索体验;知识库系统的构建可以更好的分析用户特征,结合领域知识特点,有利于对推荐系统涉及到的实体进行数据描述,提供个性化推荐系统更多的优化空间。本文以国内主要的互联网视频类网站和百科类网站的数据为基础,完成了面向互联网视频应用的知识库的设计与构建。本文首先对知识库的理论和关键技术进行了研究,介绍了视频主题知识库设计分析的思路,包括对数据源的调研,对分类树、数据获取过程、记录连接过程的分析与设计,以及对主题知识库在垂直搜索和个性化推荐中的应用研究。然后,本文通过对不同网站的动态网页技术的分析研究,开发了可以定向获取指定网站主题数据内容的主题爬虫系统,为知识库构建提供了数据基础。最后,本文详细描述了视频记录连接的实现过程和实践中遇到的问题的解决办法;同时提出了一种新的匹配分类方法,该方法结合了可控的人工审核和二次迭代训练支持向量机(Support Vector Machine,简称SVM)分类器,经过大量真实数据的实验验证,匹配结果的F值达到99%;该结果也在一定程度上证明:现有文献中在人物领域的记录连接方法,经过改造可以在其他领域取得很好效果。