69 BERT预训练_by《李沐:动手学深度学习v2》pytorch版

news/2024/10/4 1:52:38 标签: 深度学习, bert, pytorch

系列文章目录


文章目录

  • 系列文章目录
  • NLP里的迁移学习
  • Bert的动机
  • Bert架构
  • 对输入的修改
  • 五、预训练任务
    • 1、
    • 2、
    • 3、
  • 六、
    • 1、
    • 2、
    • 3、
  • 七、
    • 1、
    • 2、
    • 3、
  • 八、
    • 1、
    • 2、
    • 3、


NLP里的迁移学习

  1. 之前是使用预训练好的模型来抽取词、句子的特征,例如 word2vec 或语言模型这种非深度学习的模型
  2. 一般抽完特征后,在做迁移学习时不更新预训练好的模型
  3. 迁移学习前做好的工作所抽取的特征是个比较底层的特征,一般当作embedding用,做自己的工作时需要构建新的网络来抓取新任务需要的信息。之前的工作,比如Word2vec忽略了时序信息,语言模型只看了一个方向,RNN不好处理特别长的序列,所以他也就看了很短的一段东西而已。

Bert的动机

在这里插入图片描述

想研发相似于CV方面的,基于微调的NLP模型,除了输出层,其他层的参数我是可以复用的,我可以挪到其他任务中去。
预训练的模型抽取了足够多的信息
新的任务只需要增加一个简单的输出层

Bert架构

Bert从结构上来讲就是一个只保留了编码器的Transformer,创新很简单,后面在输入和 L o s s Loss Loss上还有创新。
两个版本

  1. Base:#blocks=12,hidden size=768,#heads = 12
    #parameters=110M 参数相比较Transformer大很多,模型深很多。
  2. Large:#blocks=24, hidden size= 1024,#heads = 16
    #parameter=340M

在大规模数据上训练>3B 词

对输入的修改

之前Transformer是比如说把一个句子和他的翻译当作数据和标签进行训练,在encoder中放入数据,decoder中放入标签。现在bert只有encoder,怎么办?
在这里插入图片描述

这个<CLS>用来表示句子开头,<sep>表示这个句子结束,后面是下一个句子,所以可以输入多个句子。但只是这样对Transformer不太好区分哪几个词是一个句子,所以加了Segment Embeddings,通过不同标志来标记句子。最上面是一个可以学的Position Embedddings。

五、预训练任务

1、

2、

3、

六、

1、

2、

3、

七、

1、

2、

3、

八、

1、

2、

3、


http://www.niftyadmin.cn/n/5689281.html

相关文章

C++《string》

在之前的C语言学习当中我们已经了解了一系列的字符以及字符串函数&#xff0c;虽然这些函数也能实现对字符串进行求长度、拷贝、追加等操作&#xff0c;但是C语言当中的这些函数是与字符串分离的&#xff0c;并且最主要的是在使用这些函数时原字符串的底层空间是需要我们自己来…

代码随想录:105、有向图的完全可达性

105. 有向图的完全可达性 这道题属于简单搜索题&#xff0c;采用bfs即可&#xff0c;也可用dfs但注意要回溯 1、条件准备 graph数组存图&#xff0c;visit数组判断结点是否走过。 #include <bits/stdc.h> #define rep(i, l, r) for (int i l; i < r; i) using na…

leetcode35--搜索插入位置--二分查找刷题

搜索插入位置 一共会出现下面四种情况&#xff1a; 目标值在数组所有元素之前 目标值等于数组中某一个元素 目标值插入数组中的位置 目标值在数组所有元素之后 首先在二分查找的代码之前处理掉目标值在数组所有元素之前和之后的情况如果目标值在数组中的某个位置&#xff0c…

25货拉拉校园招聘面试经验 面试最常见问题总结

货拉拉校园招聘面试经验 目录 【面试经历】 问题+详细答案 面试全流程 【面试经历】 发面经,攒人品。 项目问题: 1.AOP日志落库到数据库,为什么不用一些现成的方案? 2.邀请链接的id怎么用redis生成的? 3.乐观锁保证了奖励的正确发放,请你说说乐观锁的原理。 4.奖…

【BUUCTF N1BOOK】[第一章 web入门]

常见的搜集 这里提示敏感文件 可以想到敏感文件的类型 1.gedit备份文件 格式&#xff1a;filename~ ex.index.php~ 2.vim备份文件 格式&#xff1a;.filename.swap *.swo *.swn ex.index.php.swp 3.robots.txt 可以通过访问每个目录得到flag 也可以使用扫描软件 扫描目录 …

Linux查看触摸坐标点的方法,触觉智能RK3562开发板,瑞芯微、全志等通用

平时遇到键盘、鼠标、触摸板等输入设备无响应等异常情况时&#xff0c;一般通过更换设备判断异常。但在遇到更换正常设备后&#xff0c;输入仍然异常的情况下&#xff0c;可以借助evtest工具查看内核的上报事件信息&#xff0c;协助定位问题所在。 本次使用的是触觉智能EVB356…

win10装机 vs+qt+cuda

1.QT QT插件 Index of /official_releases/vsaddin QT软件 Index of /archive/qt 2. vs vs2019 Visual Studio 2019 生成号和发布日期 | Microsoft Learn vs2022 Visual Studio 2022 IDE - 适用于软件开发人员的编程工具 3.cuda https://developer.nvidia.com/cuda-1…

【ShuQiHere】 从零开始掌握随机森林与极端随机森林:原理、推导与实战

&#x1f31f; 【ShuQiHere】 Mastering Random Forests and Extremely Randomized Trees from Scratch: Theory, Derivations, and Practice 目录 引言背景与基本概念 2.1 机器学习与集成学习概述2.2 弱学习器与强学习器 决策树基础 3.1 决策树的构建原理3.2 信息熵与信息增…