基于中文自然语言查询的多媒体数据库检索系统

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:aboutt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
教育信息化对教师提出了新的要求,教师作为学习资源的管理者,要在教学过程中确定所需的媒体资源,并提供查询线索。虽然因特网蕴含了大量的多媒体信息,但现有的搜索引擎多数采用基于关键词的方法,检索多媒体的准确度比较低。对于中小学教师而言,日常教学工作繁忙,对计算机网络技术应用的熟练程度参差不齐,在多媒体资源的查找方面更需要方便快捷的系统来加以辅助。自然语言查询是指用户用自然语言在检索系统中对查询目标进行描述,系统从查询文本中自动提取查询条件、查询目标的关键特征,按一定的规则和算法在数据库中查找满足条件的记录作为查询结果反馈给用户。基于中文自然语言查询的多媒体数据库检索主要包括三个过程:从中文查询文本中提取查询目标媒体的关键特征;从数据库中查找满足查询条件并且与查询目标媒体具有较大相似度的记录;将查找到的记录数据作为检索结果按照相似度大小排序提供给用户。论文研究了中文自然语言理解的特点和分词的一般方法,建立自用的分词系统,对查询文本进行分词和词性标注。从查询文本中去除虚词、设定的缺省词汇,即可得到对目标媒体的描述,称为主题内容。根据颜色词典从主题内容中提取颜色词,与用户输入的颜色词合并后作为主色调颜色词;根据主体词词典和主体属性词典,从主题内容中进一步提取主体词和主体属性词;如果主题内容中有“背景是”或“背景为”两种句式,可以提取背景词。计算相似度之前,主题内容要依据同义词词典进行扩展。论文中采用相似度来衡量查询目标媒体和数据库媒体之间的差距。媒体的特征包括文件属性和内容特征,相似度计算主要是针对媒体的内容特征。论文中为图像、视频、动画、音频四种类型的媒体建立了内容特征表示模型,对于不同的内容特征使用不同的相似度计算方法。通过比较扩展后的主题内容与数据库中内容描述字段相同词的个数来计算主题内容相似度;主色调颜色词转换为HSI模式,与数据库中以数值方式标注的主色调字段进行色调相似度的计算;图像的主体与主体属性针对数据库中的主体字段计算相似度。所有的内容特征按照其所在
其他文献
二十世纪七十年代末期,我国国有企业开始了改制的步伐。随着改制力度的加大和改制范围的扩展,到了二十世纪九十年代,中国国有企业改制进程逐渐加快,并逐渐上升为我国市场经济体制
本文以环境学和人体健康卫生学为理论基础,采用文献法、专家调查法、问卷调查法、访谈法、测量评价法、数理统计法等,就室内健身场馆的空气污染问题及其对消费者的影响,在福建疾
加强田径课程功能的开发和利用,从功能的角度构建新的田径教学内容体系是目前体育教育专业田径课程改革的一个重要领域。本文正是以此为切入点,从课程论、教学论、系统论等多学
山西省地处中国中部,有十一个地市。各地市人们生活方式和经济条件的差异,对各地市城乡男女幼儿的体质健康具有很大的影响。幼儿是祖国的未来,是国家的希望,所以,对幼儿体质
美国作为世界上高等教育最发达的国家之一,率先进入大众化发展时期,之后经历了适龄青年入学人数稳步增长、规模调整、缓慢下降及进入现在的平稳发展的后大众化阶段。在此过程中
成就动机是个体对自已认为重要的或有价值的工作,不但愿意做,而且力求达到更高标准的内在动力。它是个体社会化的结果,其发展受到很多种因素的影响,是近代心理学研究的重要课题。
战术是比赛场上为争取胜利而采用的方法和配合的组织形式。帆船运动员运用战术的目的,是为了在复杂的海上环境和激烈的比赛中,通过个人的技术和集体的协调配合,达到扬长避短、掌
随着网络通信技术的发展,网络教育成为新兴的教育模式,学习方式更加方便、快捷,而随之引起的网络教育的质量问题日益受到人们的重视。本研究在相关理论研究的基础上提出一个以评