如果你也用揽睿,别忘了持久化的问题,可以查看揽睿持久化的避坑策略
数据集
首先需要下载数据集。
minimind数据集还是相对丰富的。
minimind数据集
pip install modelscope
官方推荐下载以下2个文件
modelscope download --dataset gongjy/minimind_dataset pretrain_hq.jsonl --local_dir ./dataset
modelscope download --dataset gongjy/minimind_dataset sft_mini_512.jsonl --local_dir ./dataset
想了解dataset什么内容的话,魔搭网站不提供预览,只能下载到本地去查看。
搂一眼都是什么内容吧:
预训练数据
预训练数据