The Annotated Transformer学习笔记(Transformer的pytorch实现)(上) 前言 本文章为《The Annotated Transformer》的学习笔记。文章名为:带有注释版的Transformer,实际上就是用代码实现了一下《attention is all your need》中的各个章节模块。原文地址:https://nlp.…
|
14
|
|
5493 字
|
26 分钟
Transformer小结 前言 终于!!前面学了那么多,终于轮到主角登场了:大名鼎鼎的Transformer。理所当然的,就要去读一下原论文:《attention is all your need》 论文地址:https://arxiv.org/pdf/1706.03762 论文摘要介…
|
57
|
|
9308 字
|
39 分钟
基于encoder-decoder架构的注意力机制 前言 本篇文章是读完《Neural Machine Translation by Jointly Learning to Align and Translate》(Bahdanau et al., 2014)之后…
|
86
|
|
3921 字
|
16 分钟
第一次CDN被盗刷。。。我的博客只有图片挂了CDN,我这小破博客的访问量,一个月也就花个几毛钱,我也一直一块一块的续,直到前几天,我刚充了一块钱, 过了一天就欠费了。。。本来早上都不想来工位的,奈何电脑在工位,我还跑到工位看了半天。

四张图片刷了我8个G,一张图片的大小也就是几MB,
而且还不是来自同一个IP。。。

我这小破博客也没个什么,纯个人维护,别盯着我整了。。。
Seq2Seq模型与encoder-decoder架构(附代码实现一个小小demo) 前言 学习解码器与编码器架构以及注意力机制是为了后边更好的学习Transformer架构。本文为作者学习encoder-decoder架构的学习笔记。 encoder-decoder架构 诞生背景 &…
|
99
|
|
4313 字
|
22 分钟
LSTM小结 LSTM所解决的问题(LSTM解决了RNN的什么缺陷?) LSTM的全名是:Long Short-term Memory(LSTM),即长 短时记忆神经网络。我们知道LSTM是一种特殊的RNN,那他相较于RNN改…
|
109
|
|
3815 字
|
15 分钟
循环神经网络小结 RNN所解决的问题 RNN是专门处理具有序列关系的输入数据而诞生的网络,它能挖掘数据中的时序信息以及语义信息 序列关系数据 什么是具有序列关系的数据呢? 主要就是符…
|
330
|
|
3997 字
|
16 分钟
竟然有通过GPT来访问我的,哈哈哈 何德何能也是污染上GPT的信息源了。

有没有不存在bug的支持wordpress渲染latex数学公式的工具或插件啊!试了一堆插件,‘要么渲染不全 ,要么跟本不渲染,不能每次都一个一个检查,渲染不到的放图片吧。。。
两年前就因为这个问题困扰过,两年过去了还没解决┭┮﹏┭┮
反向传播小结 前言 之前也学习过反向传播,大概知道反向传播是为了更新权重,但是从来没想过一个问题,这个更新权重的行为的对象是什么?是一个样本?还是一批样本?这些都没想过,还有就是反向传播算法优化的是什么?在反向传播出现之前,都…
|
348
|
|
2215 字
|
9 分钟