一个简易的llm试用

之前在bilibili看到一个简易的llm:

虽然没完全看懂,不过还是先试着运行一下。

不过问题来了,我没有显卡,用cpu训练又太慢。
于是就打算在coloab平台上训练。

将文件夹上传到谷歌硬盘,再在coloab中装载。
不知为何相对路径没有用,就用绝对路径了。(估计是我填错了)

先准备数据集,用了自带的.

运行train.py

这里已经训练过两轮了
大小居然要1.7G…

运行sample.py

效果还不错。

之后:学习一下架构,继续削减参数,魔改网络。