论文部分内容阅读
随着社交媒体的发展,越来越多的群体加入到了图片创作的行列,文字替换在敏感词处理,字幕生成、表情包制作等方面有着广泛的应用。对于该任务而言,目前针对自然场景的单词层面整体文字替换所做研究较少,主流的研究方案存在着对于扭曲文字替换效果欠佳,文字细节纹理上有些粗糙的问题。为解决上述两方面不足,本文提出了基于区域变化的文字替换网络ACNet(Area Change Network)和基于风格分解融合的文字替换网络 DINet(Decoupling Integration Network),本文主要贡献如下:第一,提出基于区域变化的文字替换网络ACNet,该网络使用关键点检测模块检测关键点位置,并通过薄板样条插值网络对文字区域扭曲,减少风格变化难度,同时提出前后景解耦模块分离文字与背景区域,使得模型更关注与文字区域,提高文字替换效果。第二,提出基于文字风格特征分解融合的文字替换网络DINet,该网络通过局部全局注意力模块有针对性的提取局部和全局文字特征,提出残差全连接层进行特征的分解,使用残差AdaIN模块将分解后的特征融合,同时使用区域平滑模块,提升边缘区域替换效果。在本文提出的数据集上,DINet获得了比SRNet更好的效果。第三,设计实现了文字替换平台,方便用户进行文字替换,通过实验与测试验证了平台的可用性。