论文部分内容阅读
人工智能是长久以来人类不断探索的一个重要方向,如何让计算机学会人类的能力有着非常重要的意义。得益于计算机并行计算能力的提高和数据爆炸式的增长,产生了大量神经网络类的算法,这类神经网络算法通常网络层数更多,因此又叫做深度神经网络或者深度学习算法。深度学习算法对于复杂的人工智能任务有着惊人的有效性,在多个领域都有所应用。本文的主要研究内容是图像标题生成算法和应用,由于该任务是计算机视觉与自然语言处理两个领域交叉产生的,因此更加复杂,本文将使用深度学习算法对图像标题生成任务中的不同部分进行设计和建模,并且将图像标题生成算法的思想应用在验证码图像识别任务中。对于图像标题生成任务,本文提出了past-feeding和past-attention两种算法,分别对不同的网络结构进行改进。第一种past-feeding算法,通过加入已输出的词向量的信息作为辅助,联合预测当前时刻的输出词。第二种past-attention算法,将多个时刻的注意力向量信息通过LSTM建立联系,让注意力向量的生成更加合理,并且将整个模型分为语言信息和图像信息两个部分,使模型更加清晰。本文不仅对模型的大体框架进行详细的阐述,还对相关的公式进行了推导,最后将模型生成标题句子的过程进行可视化,从可视化的图片中可以清晰的看到,算法是如何提取图像特征的,预测标题句子中每一个单词时,注意力是如何变化的。最终实验表明,两种算法在多个指标下均有不同程度的提升。对于验证码图像标题生成任务,本文提出了OCR-IC算法,从图像标题生成算法的角度解决验证码识别问题,并且根据验证码图像的特点对网络结构进行调整。OCR-IC算法相比于传统算法有着诸多的优势,例如不需要图像分割等人工操作、支持验证码字符变长和模型准确率高等。最终实验表明,OCR-IC在验证码字符定长和变长两种场景下均有不错的准确率。