本文共 1098 字,大约阅读时间需要 3 分钟。
首先先了解一些知识和概念
什么是 encoder和decoder方法这里是对这个解释的最全面的网站链接:
对于encoder-decoder的理解:首先他不是一个具体的模型,而是一类框架。他的部分可以是任意的文字,语音等等,而模型也可以是CNN,RNN等等。而其中对于编码的定义就是:将输入序列转化为一个固定长度的向量,同理,解码的定义就是:将之前生成的固定的向量转化为输出序列。
什么是CNN,RNN,LSTM
首先是RNN(循环神经网络):
特点是比较适合用于序列数据的处理。比如文本和视频,因为这类样本是存在着顺序关系的,也就是一个样本和之前的样本之间有联系。
结构展示:
其次是CNN(卷积神经网络)特点:他是一种前馈神经网络,不会和RNN一样形成一个环,而是每个神经元只和前一层的神经元相连,数据从前向后传播,不会产生环
一般是由卷积层,池化层和全连接层组成,一般是用作在图像处理中。这个文章有告诉,为什么适合图像 https://blog.csdn.net/zandaoguang/article/details/104871924 (总的来说就是数据太多,可以有个映射)
结构展示:
最后是LSTM(长短时记忆)特点:可以简单理解为一种更加复杂的RNN,在处理时间序列当中间隔和延迟较长时,LSTM比RNN效果更好。 结构展示:
(下面那个是RNN)
而针对这篇文章,在了解了上面这些知识之后,就可以对于模型有了一个比较基本的了解,那就是使用了encoder-decoder模型,并且在于encoder部分使用的是CNN,而decoder部分使用的是LSTM 还有些很细节的东西:通过看左边这个image,可以看到,他使用的是GoogLeNet其次是训练:
细节在于如何消除过拟合化,做一个初始训练模型,例如在ImageNet上等等操作。 再是结果判断 作者采用了数据集的训练评估和基于人手动的评估。 迁移学习,数据大小和标签质量 最明显的是再Flick30k和Flickr8k之间,Flick30k会比另一个好4个BLUE点,所以作者得出在那种情况下,可以通过添加数据来获得收益,但与这个结果相违背的是MSCOCO,因为他有着更多的训练数据,但是由于很多其他因素的干扰,BLUE反而下降。 Generation Diversity Discussion 也就是判断是否可以能产生新颖的描述,captions是否多样性和高质量。 质量高是体系潜在,如果选择最佳的候选,其中80%都是训练集里面的,而只分析产生的前十五的句子的话,有一半是产生新的描述,这也能说明多样性的存在。