论文部分内容阅读
教育信息化对教师提出了新的要求,教师作为学习资源的管理者,要在教学过程中确定所需的媒体资源,并提供查询线索。虽然因特网蕴含了大量的多媒体信息,但现有的搜索引擎多数采用基于关键词的方法,检索多媒体的准确度比较低。对于中小学教师而言,日常教学工作繁忙,对计算机网络技术应用的熟练程度参差不齐,在多媒体资源的查找方面更需要方便快捷的系统来加以辅助。自然语言查询是指用户用自然语言在检索系统中对查询目标进行描述,系统从查询文本中自动提取查询条件、查询目标的关键特征,按一定的规则和算法在数据库中查找满足条件的记录作为查询结果反馈给用户。基于中文自然语言查询的多媒体数据库检索主要包括三个过程:从中文查询文本中提取查询目标媒体的关键特征;从数据库中查找满足查询条件并且与查询目标媒体具有较大相似度的记录;将查找到的记录数据作为检索结果按照相似度大小排序提供给用户。论文研究了中文自然语言理解的特点和分词的一般方法,建立自用的分词系统,对查询文本进行分词和词性标注。从查询文本中去除虚词、设定的缺省词汇,即可得到对目标媒体的描述,称为主题内容。根据颜色词典从主题内容中提取颜色词,与用户输入的颜色词合并后作为主色调颜色词;根据主体词词典和主体属性词典,从主题内容中进一步提取主体词和主体属性词;如果主题内容中有“背景是”或“背景为”两种句式,可以提取背景词。计算相似度之前,主题内容要依据同义词词典进行扩展。论文中采用相似度来衡量查询目标媒体和数据库媒体之间的差距。媒体的特征包括文件属性和内容特征,相似度计算主要是针对媒体的内容特征。论文中为图像、视频、动画、音频四种类型的媒体建立了内容特征表示模型,对于不同的内容特征使用不同的相似度计算方法。通过比较扩展后的主题内容与数据库中内容描述字段相同词的个数来计算主题内容相似度;主色调颜色词转换为HSI模式,与数据库中以数值方式标注的主色调字段进行色调相似度的计算;图像的主体与主体属性针对数据库中的主体字段计算相似度。所有的内容特征按照其所在