当前位置：首页 » AI资讯

什么是GPT

2023-07-10

AI资讯

214

1、损失函数就是预测下一个词

2、所有下游任务都需要微调（再训练）

3、gpt1是decoder，解码器

二、gpt-2（开源）

1、zero-shot（不做任何训练）在这开始耍起来了，下游任务不训练，不微调

2、下游任务很多种，不训练怎样让模型知道你要干什么呢？

3、暗示，通过提示告诉模型需要完成什么任务

4、总的来说就是更大了，而且下游任务不需要微调

半监督

（二）采样策略相关

1、子湖规模性要进行预测，但会不会进入一个死循环？

2、成语接龙：一一得一，一一得一……

3、我们希望模型有点多样性，就像写作文似的，不能光用然后

（三）Temperature

1、温度就是说对预测结果进行概率重新设计

2、默认温度为1，就相当于还是softmax，（进行归一化处理，使得参数都在0-1这个范围）

3、温度越高相当于多样性越丰富

4、温度越低相当于越希望得到最准的那个

（四）——top K与 Top p

1、模型在采样的时候能不能采样到贼离谱的结果？

2、送一TOP K与Top P 都是要剔除掉哪些特别离谱的结果

3、Top K比如概率排序后选前10个，那之后的值就全部为0了

4、Top P就跟那个CUMSUM似的算累加，一般累加到0.9或者0.95

三、GPT-3

不做微调，

1、zero-shot 啥也不提示

2、one-shot。有提示，给例子、打个样（给个例子，然后预测的时候参考上边的答案）

3、few-shot 输入几个例子（没有记住这些例子，朱模型参数并没有基于学习进行改变）

（二）3种方式的对比

1、这三种都没有更新模型

2、肯定是few的效果更好一些

3、api太贵了

4、输入序列长度更长了

（三）网络结构

3.2M的Batch

（四）准本数据的事

1、数据集得大还得干净才行，需要做的工作还挺多

2、质量判断，对爬取的网页进行分类，进行分类任务看其质量OK不？

3、对网页进行筛选

原文链接：https://blog.csdn.net/m0_64745075/article/details/129801755

声明：本站内容均来自互联网，归原创作者所有，如有侵权必删除。本站文章皆由CC-4.0协议发布，如无来源则为原创，转载请注明出处。
小默AI工具导航网 » 什么是GPT

什么是GPT

相关推荐

评论 ( 0 )

取消回复

AIGC

AI聊天

AI文章工具

实用工具

阅读榜

点击榜

热门标签

什么是GPT

相关推荐

评论 ( 0 )

取消回复

AIGC

AI聊天

AI文章工具

实用工具

阅读榜

点击榜

小默AI工具导航网-1000+AI工具导航