大模型面试高频问题整理
原创 互联网持续学习圈 互联网持续学习圈 2023-08-27 13:03 发表于上海
最近大模型相关的招聘非常多,大模型相关的面试也初步完善,小编整理了一些大模型面试常见问题,供大家参考。问题不多,但绝对高频。希望在找相关机会的同学能有好的收获。同时也欢迎大家关注公众号,在后台留言讨论!
互联网持续学习圈
清华大学计算机系校友创办。70% 985高校及海外硕博,30% 互联网精英及自主创业者,持续学习者的专属圈。专注互联网资讯、科研、求职等。器识其先,文艺其从,陪你进化二十年。
31篇原创内容
公众号
-
GPT和Bert的区别?
-
NLP哪些场景不适用大模型?
-
ChatGPT的优缺点?
-
GPT系列的演进?
-
为什么现在的大模型大多是decoder-only的架构?
-
LLaMA的主要结构?
-
旋转位置编码的原理?
-
RMSNorm和LayerNorm的区别?
-
GLM是如何结合三种架构的?
-
encoder的attention和decoder的attention的区别?
-
常见的大模型finetune方法?
-
LoRA的原理,一般用在什么层?
-
低秩矩阵为什么表达能力弱?
-
ChatGPT的训练步骤?
-
RLHF分为几个阶段?
-
PPO的原理?
-
为什么in-context learning有效?
-
ChatGPT思维链能力是如何获取的?
-
ChatGPT和 instructGPT的区别?
-
BPE、wordpiece、sentencepiece的区别?
-
attention的复杂度?attention的优化?
-
Multihead self-attention代码实现?
-
self-attention参数量计算?
-
attention中QKV的含义和作用?
-
attention mask是如何实现的?
-
layer normalization的优化?
-
layer normalization和batch normalization的区别?
-
位置编码的方式对比?
-
Decoding方式对比?
-
Bert的优缺点?MLM和NSP两个任务后续的改进?
-
国内做自研大模型的意义?
原文链接:https://blog.csdn.net/sinat_37574187/article/details/132524774?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171851498816800225527443%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=171851498816800225527443&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-11-132524774-null-null.nonecase&utm_term=AI%E9%9D%A2%E8%AF%95