智源推出开源CLIP视觉大模型EVA-CLIP-18B

智东西2月7日消息，根据智源研究院公众号，2月6日，智源视觉团队成功训练并发布对比式语言-图像预训练（CLIP模型）EVA-CLIP-18B，拥有180亿参数。EVA-CLIP-18B大幅突破了图像、视频和3D上的零样本识别能力，在27个图像分类基准测试上取得了80.7%的零样本准确率，这一成绩显著优于其前代模型EVA-CLIP-5B和谷歌、苹果等公司取得SOTA的其他开源CLIP模型。团队将公开EVA-CLIP 18B模型的权重和训练代码，为未来的计算机视觉和视觉-语言多模态研究提供强大的视觉基础模型。

论文链接：

https://arxiv.org/abs/2402.04252

模型和代码链接：

https://github.com/baaivision/EVA/tree/master/EVA-CLIP-18B