智东西2月7日消息,根据智源研究院公众号,2月6日,智源视觉团队成功训练并发布对比式语言-图像预训练(CLIP模型)EVA-CLIP-18B,拥有180亿参数。EVA-CLIP-18B大幅突破了图像、视频和3D上的零样本识别能力,在27个图像分类基准测试上取得了80.7%的零样本准确率,这一成绩显著优于其前代模型EVA-CLIP-5B和谷歌、苹果等公司取得SOTA的其他开源CLIP模型。团队将公开EVA-CLIP 18B模型的权重和训练代码,为未来的计算机视觉和视觉-语言多模态研究提供强大的视觉基础模型。

论文链接:
https://arxiv.org/abs/2402.04252
模型和代码链接:
https://github.com/baaivision/EVA/tree/master/EVA-CLIP-18B