日前,一个来自斯坦福的研究团队发布了一款名为Llama3-V的多模态大模型,声称只要500美元(约合3650元)训练,就能在多个基准测试中实现与GPT4-V、Gemini Ultra、Claude Opus一较高下的性能。
Llama3-V团队中的两位作者Siddharth Sharma与Aksh Garg是斯坦福大学计算机系的本科生,曾发表过数篇机器学习相关的论文。因两人具备名校背景,且曾在特斯拉、SpaceX等大厂任职,Llama3-V一经发布迅速蹿红网络,还冲上了HuggingFace趋势榜首页(机器学习领域影响力平台)。
然而,有人指出,该模型跟“清华系”大模型创业企业面壁智能5月发布的MiniCPM-Llama3-V 2.5模型有不少相似处,模型结构、代码、配置文件堪称雷同,只是变量名称做了更改。
具体来看,Llama3-V的代码是对MiniCPM-Llama3-V 2.5的重新格式化,其模型行为检查点的噪声版本相似;Llama3-V使用了MiniCPM-Llama3-V 2.5的分词器(tokenizer),并且MiniCPM-Llama3-V 2.5定义的特殊符号也出现在了Llama3-V中;Llama3-V提供的代码无法与Hugging Face的检查点兼容,而将从HuggingFace下载的Llama3-V模型权重中的变量名改成MiniCPM-Llama3-V 2.5的,模型可以用MiniCPM-V代码成功运行。
此外,在未公开的实验性特征上,Llama3-V与MiniCPM-Llama3-V 2.5显示出了相似的推理结果。
2024年6月3日,Aksh Garg和Siddharth Sharma在X上联合署名回应。他们首先向MiniCPM原作者诚挚道歉,表示原本希望另一位作者Mustafa Aljadery发布原始声明,“但自昨天以来一直无法联系到他”。
Llama3-V虽是三人共同发布,但代码部分都是Mustafa一人编写的。“Sid和我都对多模态模型非常感兴趣,并喜欢他向我们描述的基于Idefics、SigLip和UHD的架构扩展。因此,我们的角色是帮助他在Medium和X上推广该模型。Sid和我查看了最近的论文以验证这项工作的创新性,但我们并不知道也未被告知有关OpenBMB的任何先前工作。”
二人称对自己没有做好尽职调查以验证原创性感到非常抱歉。“我们有责任将我们的工作与以往研究进行对比验证,却未能做到这一点,我们对此负全部责任。今后,@siddrrsh和我将更加谨慎和勤奋,衷心感谢社区提醒。我们已尊重原始工作,删除了所有对Llama-3V的引用,再次表示歉意。”