Minimind
从0开始训练一个超小的语言模型 Minimind,Minimind
不仅是大语言模型的全阶段开源复现,也是一个入门LLM
的教程。
Quick Start(从零开始自己训练)
软硬件配置
租用了AutoDl
的GPU云服务器,配置如下:
- CPU: 28 vCPU Intel(R) Xeon(R) Platinum 8362 CPU @ 2.80GHz
- GPU: RTX 3090(24GB) * 2
- RAM: 90GB
- Python: 3.10.12
- CUDA: 11.8
环境准备以及数据下载
1
| pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
|
1 2 3 4
| pip install modelscope
modelscope download --dataset gongjy/minimind_dataset
|
开始训练(2张卡)
目录位于trainer
预训练
1
| torchrun --nproc_per_node 2 train_pretrain.py
|
监督微调
1
| torchrun --nproc_per_node 2 train_full_sft.py
|