小白读论文之. Show and Tell Lessons learned from the 2015 MSCOCO Image Captioning Challenge-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

小白读论文之. Show and Tell Lessons learned from the 2015 MSCOCO Image Captioning Challenge

阅读量：3897 次

发布时间：2019-05-23

本文共 1098 字，大约阅读时间需要 3 分钟。

首先先了解一些知识和概念

什么是 encoder和decoder方法

这里是对这个解释的最全面的网站链接：
对于encoder-decoder的理解：首先他不是一个具体的模型，而是一类框架。他的部分可以是任意的文字，语音等等，而模型也可以是CNN,RNN等等。而其中对于编码的定义就是：将输入序列转化为一个固定长度的向量，同理，解码的定义就是：将之前生成的固定的向量转化为输出序列。

什么是CNN,RNN,LSTM

首先是RNN(循环神经网络)：
特点是比较适合用于序列数据的处理。比如文本和视频，因为这类样本是存在着顺序关系的，也就是一个样本和之前的样本之间有联系。

结构展示：

在这里插入图片描述

其次是CNN（卷积神经网络）

特点：他是一种前馈神经网络，不会和RNN一样形成一个环，而是每个神经元只和前一层的神经元相连，数据从前向后传播，不会产生环
一般是由卷积层，池化层和全连接层组成，一般是用作在图像处理中。这个文章有告诉，为什么适合图像
https://blog.csdn.net/zandaoguang/article/details/104871924
（总的来说就是数据太多，可以有个映射）

结构展示：

在这里插入图片描述

最后是LSTM（长短时记忆）

特点：可以简单理解为一种更加复杂的RNN，在处理时间序列当中间隔和延迟较长时，LSTM比RNN效果更好。结构展示：

（下面那个是RNN）

在这里插入图片描述

而针对这篇文章，在了解了上面这些知识之后，就可以对于模型有了一个比较基本的了解，那就是使用了encoder-decoder模型，并且在于encoder部分使用的是CNN，而decoder部分使用的是LSTM

在这里插入图片描述

还有些很细节的东西：通过看左边这个image,可以看到，他使用的是GoogLeNet

其次是训练：

细节在于如何消除过拟合化，做一个初始训练模型，例如在ImageNet上等等操作。

再是结果判断

作者采用了数据集的训练评估和基于人手动的评估。

迁移学习，数据大小和标签质量

最明显的是再Flick30k和Flickr8k之间，Flick30k会比另一个好4个BLUE点，所以作者得出在那种情况下，可以通过添加数据来获得收益，但与这个结果相违背的是MSCOCO，因为他有着更多的训练数据，但是由于很多其他因素的干扰，BLUE反而下降。

Generation Diversity Discussion

也就是判断是否可以能产生新颖的描述，captions是否多样性和高质量。

质量高是体系潜在，如果选择最佳的候选，其中80%都是训练集里面的，而只分析产生的前十五的句子的话，有一半是产生新的描述，这也能说明多样性的存在。

你可能感兴趣的文章

【C++基础】重载overload、重写(覆盖)override、隐藏hide的区别

【算法详解】洗牌算法

【设计模式基础】行为模式 - 1 - 观察者(Observer)

从关系型数据库到非关系型数据库

【数据库基础】数据库事务 - Transaction

【设计模式基础】行为模式 - 3 - 职责链(Chain of responsibility)

【Java基础】反射 - Reflection

【C++基础】const成员函数

【设计模式基础】行为模式 - 5 - 策略(Strategy）

【Maven】Archetype

【Java.Web】Cookie —— 基础

【Tools.Eclipse】代码自动提示

【Java.Web】MVC —— Model1 V.S. Model2

【Java.Web】MVC —— 基于Servlet Controller的Model2 —— 示例

【Java.Web】MVC —— 基于Filter Dispatcher的Model2 —— 示例

【Java.Web】MVC —— Action的验证器 —— Validator

【Java.Spring.MVC】使用Spring MVC构建Web应用程序

【DB.PL/SQL】程序流程控制 —— 异常处理

【Java.IO】I/O 【字节】【处理流】 - 之 - 【压缩流】 - ZipInputStream，ZipOutputStream

【Java.JDBC/ORM】纯JDBC系统的开发随想

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-09-18 05:25:09 当前IP: 3.147.59.219 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我