1、损失函数就是预测下一个词
2、所有下游任务都需要微调(再训练)
3、gpt1是decoder,解码器
二、gpt-2(开源)
1、zero-shot(不做任何训练)在这开始耍起来了,下游任务不训练,不微调
2、下游任务很多种,不训练怎样让模型知道你要干什么呢?
3、暗示,通过提示告诉模型需要完成什么任务
4、总的来说就是更大了,而且下游任务不需要微调
半监督
(二)采样策略相关
1、子湖规模性要进行预测,但会不会进入一个死循环?
2、成语接龙:一一得一,一一得一……
3、我们希望模型有点多样性,就像写作文似的,不能光用然后
(三)Temperature
1、温度就是说对预测结果进行概率重新设计
2、默认温度为1,就相当于还是softmax,(进行归一化处理,使得参数都在0-1这个范围)
3、温度越高相当于多样性越丰富
4、温度越低相当于越希望得到最准的那个
(四)——top K与 Top p
1、模型在采样的时候能不能采样到贼离谱的结果?
2、送一TOP K与Top P 都是要剔除掉哪些特别离谱的结果
3、Top K比如概率排序后选前10个,那之后的值就全部为0了
4、Top P就跟那个CUMSUM似的算累加,一般累加到0.9或者0.95
三、GPT-3
不做微调,
1、zero-shot 啥也不提示
2、one-shot。有提示,给例子、打个样(给个例子,然后预测的时候参考上边的答案)
3、few-shot 输入几个例子 (没有记住这些例子,朱模型参数并没有基于学习进行改变)
(二)3种方式的对比
1、这三种都没有更新模型
2、肯定是few的效果更好一些
3、api太贵了
4、输入序列长度更长了
(三)网络结构
3.2M的Batch
(四)准本数据的事
1、数据集得大还得干净才行,需要做的工作还挺多
2、质量判断,对爬取的网页进行分类,进行分类任务看其质量OK不?
3、对网页进行筛选
原文链接:https://blog.csdn.net/m0_64745075/article/details/129801755