【摘 要】
:
科技领域视频是创新技术和科普知识的产生和传播的重要载体之一,但是绝大部分视频数据都需要进行处理,才能形成可传播的知识。科技领域视频文本的自动标注并分类对检索科技领
论文部分内容阅读
科技领域视频是创新技术和科普知识的产生和传播的重要载体之一,但是绝大部分视频数据都需要进行处理,才能形成可传播的知识。科技领域视频文本的自动标注并分类对检索科技领域最新技术,传播技术新动态和普及科普知识具有重要的作用。对海量科技视频文本分类成为自然语言处理研究的热点。当前视频文本分类方法主要有基于向量空间模型,基于关键字抽取和基于标签三种。由于科技视频文本长度有限,向量空间模型容易造成高稀疏性,从而影响分类效果;视频文本复杂的语义会降低关键字的抽取质量;标签是视频内容的高度归纳,被广泛应用于分类中。主题模型能够有效挖掘文本隐藏主题,但是应用于科技领域视频文本效果不理想,有很大的提升空间。因此本文将类别标签和视频文本相结合,根据科技领域视频文本特点改进主题模型。本文的主要研究内容基于领域术语库的构建和标签LDA模型,主要研究内容包括:(1)领域术语作为科技视频文本的基本元素,由于其出现频率较低,在分类过程中容易被忽略,但是领域术语对突出视频主题作用重大,本文提出构建领域术语库。术语库构建主要分为两部分:第一,通过分析专利、咨询专家和爬虫技术建立基础术语库;第二,训练条件随机场模型,识别新领域术语,通过审核后加入术语库中。(2)文本预处理是分类的重要准备工作,但是传统方法会造成领域术语被切分,破坏视频文本的语义,因此本文将术语库应用于分词阶段,提出适用于科技领域视频文本的预处理方法。(3)传统Labeled LDA模型存在偏向高频词问题,而且无法对领域术语进行处理。针对于此,将卡方统计量、文本位置加权算法和领域术语库相结合改进Labeled LDA模型和分类过程,提高主题词质量。在训练阶段对领域术语进行处理,按照对主题的贡献程度分为两个级别;在分类阶段,根据待分类文本中领域术语所属级别,对标签进行映射。本文对领域术语标识和改进主题模型进行了试验验证,结果表明,在对科技领域视频文本进行分类时,本文提出的改进Labeled LDA模型与传统模型相比,在大多数类别上,分类准确率得到了一定的提升。
其他文献
迁移学习或域适应学习是目前机器学习中一个热点研究领域,利用与目标域相关的源域知识辅助目标域的学习。异构域适应学习(Heterogeneous Domain Adaptation,HDA)是域适应学习的重要分支,由于源域和目标域间的特征空间不同,域间的知识迁移更具有挑战性。如何对齐不同的特征空间,自适应地迁移相关知识对于HDA而言至关重要。目前已出现很多HDA方法,但仍存在以下不足:1)只注重对齐源
在应对不同容量规模的文件存储的场景里,现有分布式存储系统采用的存储策略是固定文件分块大小的方式,如GFS和HDFS等,固定分块目的是为了提高服务器并行写入数据的性能和减少
非均衡数据场景在现在的大数据处理,机器学习任务中十分常见。标准的机器学习算法一般都是以样本数据分布大致均匀为前提建立的,然而当样本数据分布不均衡时,算法的准确度会
当今计算机软件面临的安全防护挑战主要集中在内存相关的溢出攻击上,为了绕过“数据段不可执行”等经典防御机制,入侵者往往会选择代码复用的方式实现攻击意图。面向返回编程
近几年来,随着全球经济形势的日益严峻,企业在劳动力和资源方面的竞争逐步升级,越来越多的企业向着科技进步,创新型管理的低成本、高效率、高质量、注重环保的精益发展模式转变。生产线优化逐步成为制造企业转变的主要方法,具有投资少、效果好的特点。A公司作为电流互感器制造企业,处于产业链的中间环节,不仅受到上游成本和下游价格的双重压力,还面临市场反应慢、生产周期长、交货不及时等问题。因此对A公司生产线进行优化
人脸识别技术是指利用计算机分析人脸图像,提取有效的人脸描述特征进行身份鉴定的技术。人脸图像受到表情、光照、姿势、遮挡等因素的影响时,传统的人脸识别技术不能快速有效地对人脸图像进行识别。稀疏表示是近年来人脸识别中一种备受关注的主流理论,该理论在样本数量较多的情况下对光照、噪声、遮挡具有一定的鲁棒性。为了在训练样本不足的情况下提高稀疏表示理论的鲁棒性,本文对基于稀疏表示理论的人脸识别算法加以改进,主要
卟啉和席夫碱都是功能性含氮有机配体,在材料、医学、催化等领域应用广泛。通过配体的结构修饰调控其金属配合物的结构和性质,进而扩展其应用是合成化学的重要课题。本论文分
消费电子设备的逐渐普及与日常生活的各种需求都给视频压缩技术不断提出新的挑战。可视电话、远程教育、远程医疗、视频直播、数字图书馆、交互式视频游戏等等都已经十分常见
信息素养是科学研究和知识创新的基础,是高素质和创新型人才的必备素养。信息素养教育在高校人才培养中发挥着重要作用。高校图书馆是学校的文献信息资源中心,是为人才培养和科学研究服务的学术性机构,拥有丰富的文献信息资源和专业的馆员队伍,承担了信息素养教育的主要职责。信息素养教育在新的信息环境下有了新的要求,信息素养教育内容由信息的获取和利用向“数据素养”、“科研素养”和“创新素养”拓展。高校图书馆通过信息
互联网经济一直是推动经济增长的重要动力,国家一直鼓励支持互联网企业的创新与发展,可以说互联网企业不但能够成为国家重要战略的一部分,而且可以为普通百姓提供更加便捷的