模型合并就进化，直接拿下SOTA！Transformer作者创业新成果火了

QbitAI

2024-03-25

阅读数：

丰色发自凹非寺
量子位 | 公众号 QbitAI

把Huggingface上的 现成模型 拿来“攒一攒”——

直接就能组合出新的强大模型？！

日本大模型公司sakana.ai脑洞大开（正是“Transformer八子”之一所创办的公司），想出了这么一个进化合并模型的妙招。

该方法不仅能自动生成新的基础模型，而且 性能绝不赖 ：

他们得到的一个70亿参数的日语数学大模型，直接在相关基准测试上取得了SOTA，打败了700亿参数的Llama-2等前辈。

最重要的是，得出这样的模型 不需要任何梯度训练 ，因此需要的计算资源大大减少。

英伟达科学家Jim Fan看完大赞：

这是我最近读过的最有想象力的论文之一。

合并进化，自动生成新基础模型

从开源大模型排行榜上表现最好的模型，大多不再是LLaMA或Mistral这种“原始”模型，而是一些微调或合并模型之后，我们就能看出：

一种新的趋势出现了。

Sakana.ai介绍，开源基础模型很容易在数百个不同的方向上进行扩展和微调，然后产生在新的领域表现出色的新模型。

而在这之中， 模型合并 显现出了巨大前景。

但，它可能是一种“黑魔法”，严重依赖直觉和专业知识。

因此，我们需要更为 系统性 的方法。

受自然界的自然选择启发，Sakana.ai盯上了进化算法，引入 “进化模型合并” （Evolutionary Model Merge）的概念，提出一种可以发现最佳模型组合的通用方法。

该方法结合了两种不同的思路：

（1）合并数据流空间（层）中的模型，以及（2）合并参数空间（权重）中的模型。

具体而言，第一种数据流空间方法是通过进化来发现不同模型层的最佳组合，以此形成新模型。

在社区以往的做法中，都是靠直觉来确定如何以及模型哪些层可以与另一个模型的层结合。

但其实，Sakana.ai介绍，这个问题有一个组合数量巨大的搜索空间，最适合由优化算法如进化算法来搜索。

其操作示例如下：

至于第二个参数空间方法则混合多个模型权重来形成新模型。

这种方法其实很无数种实现，再加上混合的每一层原则上可以使用不同的混合比例，就更多了。

而这，利用进化方法就可以有效地找出更为新颖的混合策略。

以下是将两个不同模型的权重进行混合得到新模型的操作示例：

将以上这两种方法合并，就是这样的：

作者介绍，他们希望在相距较远的领域，例如数学和非英语语言、视觉和非英语语言，来组成之前大家不曾探索过的新兴组合。

结果，还真有点让人惊喜。

新模型轻松拿下SOTA

用以上进化合并方法，团队得到了3个基础模型：

大语言模型EvoLLM-JP

由日语大模型Shisa-Gamma和数学大模型WizardMath/Abel合并而成，擅长解决日语数学问题，进化了100-150代。

视觉语言模型EvoVLM-JP

日语大模型Shisa Gamma 7B v1+LLaVa-1.6-Mistral-7B，是具有日语能力的VLM。

图像生成模型EvoSDXL-JP

支持日语的SDXL扩散模型。

前两个已在Hugging Face和GitHub上发布，最后一个也即将推出。

具体来看。

1、EvoLLM-JP

它在GSM8K数据集的多语言版本——MGSM的日语评估集上取得成绩如下：

可以看到，EvoLLM-JP用日语解决数学问题的表现超过了它们的原始模型，也超过了Llama-2、GPT-3.5等高性能模型。

其中模型4是仅在参数空间进行了优化，模型6是使用模型4在数据流空间中进一步优化的结果。

在既评估数据能力也评估一般日语能力的日语lm-evaluation-harness基准上，EvoLLM-JP则在9个任务上的平均得分最高达到了70.5——只用70亿参数，它就打败了700亿的Llama-2等模型。

团队表示，EvoLLM-JP已经足够优秀，可以作为通用日语大模型，并解决一些有趣的例子：

比如需要特定日本文化知识的数学问题，或者用关西方言讲日本笑话。

2、EvoVLM-JP

在以下两个图像问答的基准数据集上，分数越高，代表模型用日语回答的描述越准确。

结果，它不仅比其所基于的英语VLM LLaVa-1.6-Mistral-7B更出色，也比现有的日语VLM更厉害。

如下图所示，在回答图中的信号灯为什么颜色之时，只有EvoVLM-JP答对：蓝色。（日本的习俗就是把红绿灯称为红蓝灯）

3、EvoSDXL-JP

这个支持日语的SDXL模型只需4个扩散模型即可执行推理，生成速度相当快。

具体跑分还没出来，但团队透露也是“相当有希望的”。

可以欣赏一些示例：

提示词包括：味噌ラーメン、最高品質の浮世絵、葛飾北斎、江戸時代。

对于以上3个新模型，团队指出：

原则上，我们可以采用基于梯度的反向传播来进一步提高以上这些模型的性能。

但我们不用 ，因为现在的目的就是表明，即使没有反向传播，我们仍然可以得到足够先进的基础模型，挑战当前的“昂贵范式”。

对此，网友们纷纷点赞。

Jim Fan也补充：

在基础模型领域， 目前社区几乎完全专注于让模型去学习，而不太重视搜索 ，但后者在训练（也就是本文提出的进化算法）和推理阶段其实都有巨大的潜力。

△ 马斯克点赞

所以，如网友所说：

我们现在已经处于模型的寒武纪大爆发时代了吗？

论文地址：
https://arxiv.org/abs/2403.13187
参考链接：
[1] https://sakana.ai/evolutionary-model-merge/
[2] https://twitter.com/DrJimFan/status/1771927650883522899?s=20
[3] https://twitter.com/SakanaAILabs/status/1770613032198279663

— 完 —

评选报名即将截止！

2024年值得关注的AIGC企业&产品

量子位正在评选 2024年最值得关注的AIGC企业 、 2024年最值得期待的AIGC产品 两类奖项，欢迎报名评选！

评选报名 截至2024年3月31日

中国AIGC产业峰会 同步火热筹备中，了解更多请戳： Sora时代，我们该如何关注新应用？一切尽在中国AIGC产业峰会

商务合作请联络微信：18600164356 徐峰

活动合作请联络微信：18801103170 王琳玉

点这里 ???? 关注我，记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

最新有关QbitAI量子位的文章

■最后一周！2024人工智能年度评选，AI时代的行业先锋就等你来

■多模态模型免微调接入互联网，即插即用新框架，效果超闭源商用方案

■空间智能版ImageNet来了！李飞飞吴佳俊团队出品

■AI毒液刷屏抖音小红书！闲鱼10元代生成一次，但官网其实免费

■清华厦大等提出“无限长上下文”技术，100万大海捞针全绿，Llama\Qwen\MiniCPM都能上分

■全球首个法律o1大模型发布，System2范式下慢思考法律专家｜港科大&北大

■最后两周！2024人工智能年度评选，AI时代的行业先锋就等你来

■评估大模型不看输出看「内在」，上交大新测试指标入选NeurIPS 2024

■一个弹窗整懵Claude，瞬间玩不转电脑了 | 斯坦福&港大新研究

■AI蛋白质诺奖后再登Nature，第一性原理级精度，微软亚研院4年之作

展开↓

模型合并就进化，直接拿下SOTA！Transformer作者创业新成果火了

丰色 发自 凹非寺 量子位 | 公众号 QbitAI

合并进化，自动生成新基础模型

新模型轻松拿下SOTA

△ 马斯克点赞

丰色发自凹非寺
量子位 | 公众号 QbitAI