离散、连续特征一般怎么处理(onehot、归一化、why、方法 等);
特征变换、构造/衍生新特征(woe、iv、统计量 等);
特征筛选(离散、连续、多重共线性 等);
采样(除了随机呢?);
缺失值处理(离散、连续)…
常用loss、正则、sgd、l-bfgs、auc公式及优缺点、数据不平衡时的调参…
booting:gbdt的loss、分裂节点依据、防过拟合;
xgb的loss选择、泰勒展开、正则(gbdt能加么)、并行、vs lightGBM;
lambdaMart的loss–如何直接优化metric(如NDCG)–学习/train过程;
svm的优化目标、软间隔、调参;
lr;rf;
dnn为什么要“deep”、deep后带来的信息传递/梯度传递问题及其优化策略(可以从网络结构、activation、normalization等方面阐述);
卷积层学习过程(前后向)及参数数量估计;
polling作用、优缺点、why用的越来越少;
rnn长依赖问题、梯度问题;
lstm的input output forget gate作用于哪、gru的update gate呢?
常用loss(分类、回归)、activation、optimizer(从一阶矩估计到二阶)、加了BN后做predict均值方差从哪来、常用的attention举例
什么问题适合RL/MLE的缺陷、trail-and-error search、policy-based vs value-based、on-policy vs off-policy等
q learning中q值得更新(其实很好记:当前q值 += 学习率*(环境reward+ 新状态下最大的q值*衰减值)、为什么要乘衰减值);
DQN使用network代替q_table的初衷、两个network(结构一致、参数交替更新)、存储记忆 off-policy;
policy gradients如何学习/拟合目标( -log(prob)*vt 像不像交叉熵…)、按概率选action vs epsilon-greedy;
Actor-Critic中的actor与critic、优缺点、收敛问题、DDPG、
以上这些都是考察基本功的、基本都是书上的知识点
词法/序列标注相关:hmm、crf、lstm、lstm+crf(细节:对于转移特征、转移概率 hmm crf lstm+crf分别是怎么学的?)
句法:有了依存关系 如何确定主谓宾、举几个例子
word2vector:层次softmax、负采样、 vs GloVe
topic相关:lsa(可以引到svd、基于mse的fm);lda why引入共轭先验分布、调参(针对两个先验);
+DL:cnn filter的设计、seq2seq+attention的padding问题(对padding的字符如何做attention、如何忽略、用tensorflow/pytorch大致写一下)、tree lstm…
任务相关:beam search做生成、dialog中对回复做lable smooth 提高回复多样性…
原文链接:https://blog.csdn.net/haimianjie2012/article/details/87826717?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171851498716800186542559%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=171851498716800186542559&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-27-87826717-null-null.nonecase&utm_term=AI%E9%9D%A2%E8%AF%95