您好,欢迎访问完美体育·(中国)官方网站-365WM SPORTS!

优质环保原料

更环保更安全

施工保障

流程严谨、匠心工艺

使用年限

高出平均寿命30%

全国咨询热线

+86 0000 66365

行业新闻

新闻动态

联系我们

地址:完美体育·(中国)官方网站(广东省广州市天河区完美体育工业园86号)

咨询热线:

+86 0000 66365

13988866365

完美体育官方网站8x7B开源MoE击败Llama 2逼近GPT-4!欧版OpenAI震惊AI界22人公司半年估值20亿

发布时间:2024-01-21 11:01:48人气:

  完美体育官方网站8x7B开源MoE击败Llama 2逼近GPT-4!欧版OpenAI震惊AI界22人公司半年估值20亿前几日,一条MoE的磁力链接引爆AI圈。刚刚出炉的基准测试中,8*7B的小模型直接碾压了Llama 2 70B!网友直呼这是初创公司版的超级英雄故事,要赶超GPT-4只是时间问题了。有趣的是,创始人姓氏的首字母恰好组成了「L.L.M.」。

  12月,类GPT-4架构的开源版本Mistral 8x7B发布。几天后,外媒金融时报公布Mistral AI最新一轮融资4.15亿美元,估值高达20亿美元,翻了8倍。

  可以看到,这8个70亿参数的小模型组合起来,直接在多个跑分上超过了多达700亿参数的Llama 2。

  英伟达高级研究科学家Jim Fan推测,Mistral可能已经在开发34Bx8E,甚至100B+x8E的模型了。而它们的性能,或许已经达到了GPT-3.5/3.7的水平。

  这里简单介绍一下,所谓专家混合模型(MoE),就是把复杂的任务分割成一系列更小、更容易处理的子任务,每个子任务由一个特定领域的「专家」负责。

  2. 门控网络:这是MoE架构中的决策核心。它负责判断哪个专家最适合处理某个特定的输入数据。门控网络会计算输入数据与每个专家的兼容性得分,然后依据这些得分决定每个专家在处理任务中的作用。

  这些组件共同作用,确保适合的任务由合适的专家来处理。门控网络有效地将输入数据引导至最合适的专家,而专家们则专注于自己擅长的领域。这种合作性训练使得整体模型变得更加多功能和强大。

  无论是Mistral和Midjourney,显然已经破解了密码,接下来,要超越GPT-4只是问题。

  Raschka回答说,没错,但这仍然可以看作是一种健全性检测,因为指令微调经常会损害模型的知识,以及基于QA的性能。

  并且,Raschka也强调,自己只是假设Mistral MoE没有经过指令微调,现在急需一份paper。

  几个月前就有传言,说原始的Mistra 7B模型可能在基准数据集上进行了训练,那么这次的Mistral 8x7B是否也是如此?

  软件工程师Anton回答说,我们也并不能确定GPT-4没有在基准测试上训练。考虑到Mistral团队是前Llama的作者,希望他们能避免污染的问题。

  Raschka表示,非常希望研究界为这些LLM组织一场Kaggle竞赛,其中一定要有包含尚未使用数据的全新基准数据集。

  也有人讨论到,所以现在大模型的瓶颈究竟是什么?是数据,计算,还是一些神奇的Transformer微调?

  这些模型之间最大的区别,似乎只是数据集。OpenAI有人提到过,他们训练了大量的类GPT模型,与训练数据相比,架构更改对性能的影响不大。

  有人表示,对「7Bx8E=50B」的说法很感兴趣。是否是因为此处的「集成」是基于LoRa方法,从而节省了很多参数?

  有人已经期待,有望替代Transformer的全新Mamba架构能够完成这项工作,这样Mistral-MoE就可以更快、更便宜地扩展。

  OpenAI科学家Karpathy的言语中,还暗戳戳嘲讽了一把谷歌Gemini的虚假视频演示。

  在Mistral放出这个开源的7B×8E的MoE之前,英伟达和谷歌也放出过其他完全开源的MoE。

  曾在英伟达实习的新加坡国立大学博士生Fuzhao Xue表示,他们的团队在4个月前也开源了一个80亿参数的MoE模型。

  由前Meta和谷歌研究人员创立,这家总部位于巴黎的初创公司Mistral AI,仅凭6个月的时间逆袭成功。

  值得一提的是,Mistral AI已在最新一轮融资中筹集3.85亿欧元(约合4.15亿美元)。

  6个月前,该公司刚刚成立仅几周,员工仅6人,还未做出任何产品,却拿着7页的PPT斩获了1.13亿美元巨额融资。

  说来这家公司的名头,可能并不像OpenAI名满天下,但是它的技术能够与ChatGPT相匹敌,算得上是OpenAI劲敌之一。

  Mistral AI坚信其技术以开源软件的形式共享,让任何人都可以自由地复制、修改和再利用这些计算机代码。

  然而,在OpenAI、谷歌等竞争对手看来,开源会带来风险,原始技术可能被用于传播假信息和其他有害内容。

  人人皆知,Meta一直是推崇开源公司中的佼佼者。回顾2023年,这家科技巨头已经开源了诸多大模型,包括LLaMA 2、Code LLaMA等等。

  这不仅是姓名首字母简写,也恰好是团队正在开发的大语言模型(Large Language Model)的缩写。

  这场人工智能竞赛中,OpenAI、微软、谷歌等科技公司早已成为行业的佼佼者,并在LLM研发上上斥资数千亿美元。

  凭借充足的互联网数据养料,使得大模型能自主生成文本,从而回答问题、创作诗歌甚至写代码,让全球所有公司看到了这项技术的巨大潜力。

  因此OpenAI、谷歌在发布新AI系统前,都将花费数月时间,做好LLM的安全措施,防止这项技术散播虚假信息、仇恨言论及其他有害内容。

  Mistral AI的首席执行官Mensch表示,团队为LLM设计了一种更高效、更具成本效益的训练方法。而且模型的运行成本不到他们的一半。

  有人粗略估计,每月大约300万美元的Mistral 7B可以满足全球免费ChatGPT用户100%的使用量。

  然而,很多AI研究者、科技公司高、还有风险投资家认为,真正赢得AI竞赛的将是——那些构建同样技术并免费提供给大众的公司,且不设任何安全限制。

  自互联网时启以来,欧洲鲜有在全球影响重大的科技公司,但在AI领域,Mistral AI让欧洲看到了取得进展的可能。

  去年12月,曾在OpenAI和DeepMind担任研究科学家创立了Perplexity AI,在最近完成了一轮7000万美元的融资,公司估值达到了5亿美元。

  我们坚信 AI 应该是开放源代码的。推动现代计算的许多主要技术都是开源的,包括计算机操作系统、编程语言和数据库。广泛分享人工智能底层代码是最安全的途径,因为这样可以有更多人参与审查这项技术,发现并解决潜在的缺陷。

  没有任何一个工程团队能够发现所有问题完美体育。大型社区在构建更便宜、更快、更优、更安全的软件方面更有优势。

推荐资讯