新闻动态

联系我们

地址：完美体育·(中国)官方网站（广东省广州市天河区完美体育工业园86号）

咨询热线：

+86 0000 66365

13988866365

完美体育官方网站8x7B开源MoE击败Llama 2逼近GPT-4！欧版OpenAI震惊AI界22人公司半年估值20亿

发布时间：2024-01-21 11:01:48人气：

　　完美体育官方网站8x7B开源MoE击败Llama 2逼近GPT-4！欧版OpenAI震惊AI界22人公司半年估值20亿前几日，一条MoE的磁力链接引爆AI圈。刚刚出炉的基准测试中，8*7B的小模型直接碾压了Llama 2 70B！网友直呼这是初创公司版的超级英雄故事，要赶超GPT-4只是时间问题了。有趣的是，创始人姓氏的首字母恰好组成了「L.L.M.」。

　　12月，类GPT-4架构的开源版本Mistral 8x7B发布。几天后，外媒金融时报公布Mistral AI最新一轮融资4.15亿美元，估值高达20亿美元，翻了8倍。

　　可以看到，这8个70亿参数的小模型组合起来，直接在多个跑分上超过了多达700亿参数的Llama 2。

　　英伟达高级研究科学家Jim Fan推测，Mistral可能已经在开发34Bx8E，甚至100B+x8E的模型了。而它们的性能，或许已经达到了GPT-3.5/3.7的水平。

　　这里简单介绍一下，所谓专家混合模型（MoE），就是把复杂的任务分割成一系列更小、更容易处理的子任务，每个子任务由一个特定领域的「专家」负责。

　　2. 门控网络：这是MoE架构中的决策核心。它负责判断哪个专家最适合处理某个特定的输入数据。门控网络会计算输入数据与每个专家的兼容性得分，然后依据这些得分决定每个专家在处理任务中的作用。

　　这些组件共同作用，确保适合的任务由合适的专家来处理。门控网络有效地将输入数据引导至最合适的专家，而专家们则专注于自己擅长的领域。这种合作性训练使得整体模型变得更加多功能和强大。

　　无论是Mistral和Midjourney，显然已经破解了密码，接下来，要超越GPT-4只是问题。

　　Raschka回答说，没错，但这仍然可以看作是一种健全性检测，因为指令微调经常会损害模型的知识，以及基于QA的性能。

　　并且，Raschka也强调，自己只是假设Mistral MoE没有经过指令微调，现在急需一份paper。

　　几个月前就有传言，说原始的Mistra 7B模型可能在基准数据集上进行了训练，那么这次的Mistral 8x7B是否也是如此？

　　软件工程师Anton回答说，我们也并不能确定GPT-4没有在基准测试上训练。考虑到Mistral团队是前Llama的作者，希望他们能避免污染的问题。

　　Raschka表示，非常希望研究界为这些LLM组织一场Kaggle竞赛，其中一定要有包含尚未使用数据的全新基准数据集。

　　也有人讨论到，所以现在大模型的瓶颈究竟是什么？是数据，计算，还是一些神奇的Transformer微调？

　　这些模型之间最大的区别，似乎只是数据集。OpenAI有人提到过，他们训练了大量的类GPT模型，与训练数据相比，架构更改对性能的影响不大。

　　有人表示，对「7Bx8E=50B」的说法很感兴趣。是否是因为此处的「集成」是基于LoRa方法，从而节省了很多参数？

　　有人已经期待，有望替代Transformer的全新Mamba架构能够完成这项工作，这样Mistral-MoE就可以更快、更便宜地扩展。

　　OpenAI科学家Karpathy的言语中，还暗戳戳嘲讽了一把谷歌Gemini的虚假视频演示。

　　在Mistral放出这个开源的7B×8E的MoE之前，英伟达和谷歌也放出过其他完全开源的MoE。

　　曾在英伟达实习的新加坡国立大学博士生Fuzhao Xue表示，他们的团队在4个月前也开源了一个80亿参数的MoE模型。

　　由前Meta和谷歌研究人员创立，这家总部位于巴黎的初创公司Mistral AI，仅凭6个月的时间逆袭成功。

　　值得一提的是，Mistral AI已在最新一轮融资中筹集3.85亿欧元（约合4.15亿美元）。

　　6个月前，该公司刚刚成立仅几周，员工仅6人，还未做出任何产品，却拿着7页的PPT斩获了1.13亿美元巨额融资。

　　说来这家公司的名头，可能并不像OpenAI名满天下，但是它的技术能够与ChatGPT相匹敌，算得上是OpenAI劲敌之一。

　　Mistral AI坚信其技术以开源软件的形式共享，让任何人都可以自由地复制、修改和再利用这些计算机代码。

　　然而，在OpenAI、谷歌等竞争对手看来，开源会带来风险，原始技术可能被用于传播假信息和其他有害内容。

　　人人皆知，Meta一直是推崇开源公司中的佼佼者。回顾2023年，这家科技巨头已经开源了诸多大模型，包括LLaMA 2、Code LLaMA等等。

　　这不仅是姓名首字母简写，也恰好是团队正在开发的大语言模型（Large Language Model）的缩写。

　　这场人工智能竞赛中，OpenAI、微软、谷歌等科技公司早已成为行业的佼佼者，并在LLM研发上上斥资数千亿美元。

　　凭借充足的互联网数据养料，使得大模型能自主生成文本，从而回答问题、创作诗歌甚至写代码，让全球所有公司看到了这项技术的巨大潜力。

　　因此OpenAI、谷歌在发布新AI系统前，都将花费数月时间，做好LLM的安全措施，防止这项技术散播虚假信息、仇恨言论及其他有害内容。

　　Mistral AI的首席执行官Mensch表示，团队为LLM设计了一种更高效、更具成本效益的训练方法。而且模型的运行成本不到他们的一半。

　　有人粗略估计，每月大约300万美元的Mistral 7B可以满足全球免费ChatGPT用户100%的使用量。

　　然而，很多AI研究者、科技公司高、还有风险投资家认为，真正赢得AI竞赛的将是——那些构建同样技术并免费提供给大众的公司，且不设任何安全限制。

　　自互联网时启以来，欧洲鲜有在全球影响重大的科技公司，但在AI领域，Mistral AI让欧洲看到了取得进展的可能。

　　去年12月，曾在OpenAI和DeepMind担任研究科学家创立了Perplexity AI，在最近完成了一轮7000万美元的融资，公司估值达到了5亿美元。

　　我们坚信 AI 应该是开放源代码的。推动现代计算的许多主要技术都是开源的，包括计算机操作系统、编程语言和数据库。广泛分享人工智能底层代码是最安全的途径，因为这样可以有更多人参与审查这项技术，发现并解决潜在的缺陷。

　　没有任何一个工程团队能够发现所有问题完美体育。大型社区在构建更便宜、更快、更优、更安全的软件方面更有优势。

上一篇 : 完美体育官方app史上最强中国16座世界级体育馆全介绍

下一篇 : 完美体育官网中国最好的篮球馆排名

优质环保原料

施工保障

使用年限

+86 0000 66365

新闻动态

推荐产品

联系我们

完美体育官方网站8x7B开源MoE击败Llama 2逼近GPT-4！欧版OpenAI震惊AI界22人公司半年估值20亿

推荐资讯