博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
小白读论文之. Show and Tell Lessons learned from the 2015 MSCOCO Image Captioning Challenge
阅读量:3897 次
发布时间:2019-05-23

本文共 1098 字,大约阅读时间需要 3 分钟。

首先先了解一些知识和概念

什么是 encoder和decoder方法

这里是对这个解释的最全面的网站链接:

对于encoder-decoder的理解:首先他不是一个具体的模型,而是一类框架。他的部分可以是任意的文字,语音等等,而模型也可以是CNN,RNN等等。而其中对于编码的定义就是:将输入序列转化为一个固定长度的向量,同理,解码的定义就是:将之前生成的固定的向量转化为输出序列。

什么是CNN,RNN,LSTM

首先是RNN(循环神经网络):

特点是比较适合用于序列数据的处理。比如文本和视频,因为这类样本是存在着顺序关系的,也就是一个样本和之前的样本之间有联系。

结构展示:

在这里插入图片描述
其次是CNN(卷积神经网络)

特点:他是一种前馈神经网络,不会和RNN一样形成一个环,而是每个神经元只和前一层的神经元相连,数据从前向后传播,不会产生环

一般是由卷积层,池化层和全连接层组成,一般是用作在图像处理中。这个文章有告诉,为什么适合图像
https://blog.csdn.net/zandaoguang/article/details/104871924
(总的来说就是数据太多,可以有个映射)

结构展示:

在这里插入图片描述
最后是LSTM(长短时记忆)

特点:可以简单理解为一种更加复杂的RNN,在处理时间序列当中间隔和延迟较长时,LSTM比RNN效果更好。 结构展示:

(下面那个是RNN)

在这里插入图片描述
而针对这篇文章,在了解了上面这些知识之后,就可以对于模型有了一个比较基本的了解,那就是使用了encoder-decoder模型,并且在于encoder部分使用的是CNN,而decoder部分使用的是LSTM

在这里插入图片描述

还有些很细节的东西:通过看左边这个image,可以看到,他使用的是GoogLeNet

其次是训练:

细节在于如何消除过拟合化,做一个初始训练模型,例如在ImageNet上等等操作。
再是结果判断
作者采用了数据集的训练评估和基于人手动的评估。
迁移学习,数据大小和标签质量
最明显的是再Flick30k和Flickr8k之间,Flick30k会比另一个好4个BLUE点,所以作者得出在那种情况下,可以通过添加数据来获得收益,但与这个结果相违背的是MSCOCO,因为他有着更多的训练数据,但是由于很多其他因素的干扰,BLUE反而下降。
Generation Diversity Discussion
也就是判断是否可以能产生新颖的描述,captions是否多样性和高质量。
质量高是体系潜在,如果选择最佳的候选,其中80%都是训练集里面的,而只分析产生的前十五的句子的话,有一半是产生新的描述,这也能说明多样性的存在。

你可能感兴趣的文章
【C++基础】重载overload、重写(覆盖)override、隐藏hide的区别
查看>>
【算法详解】洗牌算法
查看>>
【设计模式基础】行为模式 - 1 - 观察者(Observer)
查看>>
从关系型数据库到非关系型数据库
查看>>
【数据库基础】数据库事务 - Transaction
查看>>
【设计模式基础】行为模式 - 3 - 职责链(Chain of responsibility)
查看>>
【Java基础】反射 - Reflection
查看>>
【C++基础】const成员函数
查看>>
【设计模式基础】行为模式 - 5 - 策略(Strategy)
查看>>
【Maven】Archetype
查看>>
【Java.Web】Cookie —— 基础
查看>>
【Tools.Eclipse】代码自动提示
查看>>
【Java.Web】MVC —— Model1 V.S. Model2
查看>>
【Java.Web】MVC —— 基于Servlet Controller的Model2 —— 示例
查看>>
【Java.Web】MVC —— 基于Filter Dispatcher的Model2 —— 示例
查看>>
【Java.Web】MVC —— Action的验证器 —— Validator
查看>>
【Java.Spring.MVC】使用Spring MVC构建Web应用程序
查看>>
【DB.PL/SQL】程序流程控制 —— 异常处理
查看>>
【Java.IO】I/O 【字节】【处理流】 - 之 - 【压缩流】 - ZipInputStream,ZipOutputStream
查看>>
【Java.JDBC/ORM】纯JDBC系统的开发随想
查看>>