1.基于深度网络的图像标注方法概述
图像标注是由计算机以说明或关键词的形式分配语言数据给一张图像的过程。
2.视觉语义对齐
视觉和语义的对齐模型主要由三个部分组成
视觉表示:构造卷积神经网路(Convolution Neural Network,CNN),用于表示图像区域
语义表示:构造双向循环神经网络(Bidirectional Recurrent Neural Networks),用于表示语句
视觉语义对齐:构造结构化的目标函数,使用多模态嵌入方法将图像区域与语义进行对齐
3.为新图像生成对应文本描述
假定我们有一些图像和相关语句描述的集合,这些集合可以是整幅的图像和相关的语句描述,也可以是图像区域和相关的语句片段。主要的挑战是设计一个模型,使之可以根据给定的新图像预测相对应的文本描述。