The Annotated Transformer学习笔记(Transformer的pytorch实现)(下) 前言 上篇已经模型架构的代码都学习了,本章学习一下如何训练。 Batches and Masking 文章中的很多模块功能都是定义一个类,首先是batch和mask…
|
38
|
|
3498 字
|
16 分钟
The Annotated Transformer学习笔记(Transformer的pytorch实现)(上) 前言 本文章为《The Annotated Transformer》的学习笔记。文章名为:带有注释版的Transformer,实际上就是用代码实现了一下《attention is all your need》中的各个章节模块。原文地址:https://nlp.…
|
65
|
|
5493 字
|
26 分钟
Transformer小结 前言 终于!!前面学了那么多,终于轮到主角登场了:大名鼎鼎的Transformer。理所当然的,就要去读一下原论文:《attention is all your need》 论文地址:https://arxiv.org/pdf/1706.03762 论文摘要介…
|
82
|
|
9308 字
|
39 分钟
基于encoder-decoder架构的注意力机制 前言 本篇文章是读完《Neural Machine Translation by Jointly Learning to Align and Translate》(Bahdanau et al., 2014)之后…
|
108
|
|
3921 字
|
16 分钟
Seq2Seq模型与encoder-decoder架构(附代码实现一个小小demo) 前言 学习解码器与编码器架构以及注意力机制是为了后边更好的学习Transformer架构。本文为作者学习encoder-decoder架构的学习笔记。 encoder-decoder架构 诞生背景 &…
|
122
|
|
4313 字
|
22 分钟
LSTM小结 LSTM所解决的问题(LSTM解决了RNN的什么缺陷?) LSTM的全名是:Long Short-term Memory(LSTM),即长 短时记忆神经网络。我们知道LSTM是一种特殊的RNN,那他相较于RNN改…
|
133
|
|
3815 字
|
15 分钟
循环神经网络小结 RNN所解决的问题 RNN是专门处理具有序列关系的输入数据而诞生的网络,它能挖掘数据中的时序信息以及语义信息 序列关系数据 什么是具有序列关系的数据呢? 主要就是符…
|
365
|
|
3997 字
|
16 分钟
反向传播小结 前言 之前也学习过反向传播,大概知道反向传播是为了更新权重,但是从来没想过一个问题,这个更新权重的行为的对象是什么?是一个样本?还是一批样本?这些都没想过,还有就是反向传播算法优化的是什么?在反向传播出现之前,都…
|
377
|
|
2215 字
|
9 分钟
卷积神经网络小结(CNN) 1.从全连接层到卷积 我们都知道CNN擅长的是处理图片,但是传统的神经网络肯定也是可以处理图片的,那么CNN的优势在哪呢? 对于一张彩色RGB图像,他有三个颜色通道,传统的神经网络的做法就是将三个通道的颜色强度分别作为输入。如下图所示。…
|
2,235
|
|
2176 字
|
9 分钟
初识深度学习—MLP 1.MLP与FNN的关系 在邱锡鹏老师的教材《神经网络与深度学习》中,介绍的第一个网络就是前馈神经网络(Feedforward Neural Network),接着是CNN(卷积神经网络),而在李沐老师的《动手学习深度学习》中,CNN的前一章节讲的是多层感知机…
|
2,424
|
|
2003 字
|
8 分钟