Large model age way-out

#machine-learning/large-model

Friday, March 24, 2023 6:12:55 PM UTC

Thursday, April 13, 2023 3:24:24 PM UTC

Note

Efficient modeling

parameter efficient fine tuning. freeze 原有模型。

使用 adapter/prompt fine tuning 而不是重新训练大模型。03:28
手动 prompt 即 hard prompt(fixed) 需要先验知识，learnable soft prompt 更为 promising。16:34
hugging face PEFT: Parameter-Efficient Fine-Tuning of Billion-Scale Models on Low-Resource Hardware。这里给出了一篇不错的 PEFT 综述。24:13
加 Adapter 的方式一般是在 Spatial, Temporal, and Joint 上做文章。25:54
Pre-training is almost impossible nowadays. 38:18
Plug-and-Play A adapter modular working on many tasks. 48:50

以下摘录自笔记：

思考：已经训练好的图像模型是否需要继续微调？

clip 已经证明了即使 ZeroShot(模型不变，直接在各个数据集上进行推理)，它的效果也很好。即一个训练很好的图片模型从中提取视觉特征是有泛化性、有效的。
继续微调会导致灾难性遗忘。如果使用少量数据在大模型上微调，可能会直接过拟合，或者大模型的很多特征丢失。

结论：预训练的图像模型不需要继续微调。

传统模型和论文改进的微调方法对比图：

因此，论文的做法是，尝试将模型参数锁住，在上面加一些时序处理模块、目标函数等修改周边的方式(即 PEFT)让图片模型能够做视频理解的任务，不需要重新训练视频模型，省时省力。