智东西7月24日消息,据机器之心今日报道,特斯拉前AI总监、年初重回OpenAI的Andrej Karpathy利用周末时间,做了一个关于Llama 2的有趣项目llama2.c,其灵感来自能在MacBook上使用4-bit量化运行LLama模型的llama.cpp。llama2.c可以让用户在PyTorch中训练一个baby Llama 2模型,然后使用近500行纯C、无任何依赖性的文件进行推理。该项目已在GitHub上获得超过2k的Stars。
目前,Karpathy在M1 MacBook Air上能够以fp32的浮点精度、100tok/s的速度对15M参数的288 6层6头的模型进行推理。之后他对项目进行更新,使用-O3进行编译可将tok/s从18增加到98,使用-funsafe-math-optimizations进行编译更是将tok/s增加到315。他表示,只要在gcc命令中包含更多字符,速度就能提升17.5倍。
代码地址:https://github.com/karpathy/llama2.c



15


