Large model age way-out
Large model age way-out
Efficient modeling
parameter efficient fine tuning. freeze 原有模型。
- 使用 adapter/prompt fine tuning 而不是重新训练大模型。03:28
- 手动 prompt 即 hard prompt(fixed) 需要先验知识,learnable soft prompt 更为 promising。16:34
- hugging face PEFT: Parameter-Efficient Fine-Tuning of Billion-Scale Models on Low-Resource Hardware。这里给出了一篇不错的 PEFT 综述。24:13
- 加 Adapter 的方式一般是在 Spatial, Temporal, and Joint 上做文章。25:54
- Pre-training is almost impossible nowadays. 38:18
- Plug-and-Play A adapter modular working on many tasks. 48:50
以下摘录自笔记:
思考:已经训练好的图像模型是否需要继续微调?
- clip 已经证明了即使 ZeroShot(模型不变,直接在各个数据集上进行推理),它的效果也很好。即一个训练很好的图片模型从中提取视觉特征是有泛化性、有效的。
- 继续微调会导致灾难性遗忘。如果使用少量数据在大模型上微调,可能会直接过拟合,或者大模型的很多特征丢失。
结论:预训练的图像模型不需要继续微调。
传统模型和论文改进的微调方法对比图:
因此,论文的做法是,尝试将模型参数锁住,在上面加一些时序处理模块、目标函数等修改周边的方式(即 PEFT)让图片模型能够做视频理解的任务,不需要重新训练视频模型,省时省力。