1998年,Christine Peterson首次提出“开源软件”(Open Source Software)概念,自此,开源在全球蓬勃发展。二十多年过去,曾经口口声声喊着“开源软件是毒瘤”的微软成为了“开源”的拥趸,Red Hat、SUSE等企业大力开发“开源”的乐土也由此获得巨大的成功。
直至今日,我们看到开源技术愈发成熟,开源理念深入人心,越来越多的人投身于开源生态的建设当中。与此同时,关于“开源”与“闭源”之争在各个领域也都轮番上演,永不停歇。
当下,在全球的大模型竞赛中,也迎来了开、闭源的一次“交锋”。
(相关资料图)
上个星期,在微软的Inspire 合作伙伴大会上,Meta宣布和微软深化合作,正式推出新一代开源大型语言模型Llama 2,并宣称这一模型将免费开放给商业和研究使用。
Meta创始人扎克伯格在Facebook上发帖表示:“Meta有着悠久的开源历史,开源推动创新,它让更多开发人员能够使用新技术进行开发,同时提高了技术的安全性。我们相信如果生态系统更加开放,将会带来更多进步,这就是我们开源 Llama 2 的原因。”
显而易见,Meta正在致力于打破OpenAI和谷歌正在构建的技术高墙,力图通过生态的开放打造一个真正“open”的AI产业。由此,大模型的竞逐,也再次迎来了新的发展局面。
01
Llama 2:能力超越 GPT-3,不及
什么是 Llama 2?
Llama 2是Meta今年3月初发布的 Llama 大模型的“升级”版本,相较于Llama 1,新版Llama 2 在模型规模、训练数据量、数据质量、训练技术、模型结构、安全训练等多个方面进行了全面提升。
(Llama 2与Llama 1对比)
首先在模型规模上,据扎克伯格介绍,Llama 2的参数分别为70亿,130亿和700亿三个版本。Llama 2 预训练模型接受了2万亿个 tokens 的训练,上下文长度是 Llama 1 的两倍,其微调模型已经接受了超过 100 万个人类注释的训练。此外,其还将单条文本的最大长度从2048个token 提升至4096 个token,更长的文本输入这也就意味着可以包含更多上下文信息,从而提升模型的理解能力。
在训练数据量上,官方数据显示,Llama 2比Llama 1预训练的数据多40%,并对其架构进行了改进。据悉,Llama 2 采用了分组查询注意力机制(grouped-query attention),可以显著降低计算和内存需求,提高大型模型推理的可扩展性及速度。
在安全性和质量方面,Meta研究人员在一篇概述Llama 2的论文中表示:“我们已经采取措施提高这些模型的安全性,使用特定于安全性的数据注释和调整,以及进行使用迭代评估。”据介绍,Llama 2应用了有监督的微调和RLHF。
Meta声称,Llama 2 在许多外部基准测试中都优于Llama 1和其他开源大语言模型,包括推理、编码、熟练程度和知识测试。
来自伯克利大学的人工智能专业博士Nathan Lambert在自己的博客中对Meta发表的Llama 2的论文发表了自己的看法。他表示,Llama 2模型评估结果令人兴奋不已,在经过基准测试后,Llama 2已经超越 GPT-3,在推理任务上,Llama 2 接近,确定是第一个能达到ChatGPT水平的开源模型。
Nvidia高级AI科学家Jim Fan估测Llama-2的训练费用可能超过 2000 万美元,他表示,在“HumanEval”(标准编码基准)上,Llama-2 还与存在显著差距,它还不如 StarCoder 或其他许多专门为编码而设计的模型。
尽管在能力方面,Llama-2还不及,但它的意义不止于此,最令业内激动的地方,在于它免费开放给商业和研究使用。
当下, Meta已开源了Llama 2预训练模型的代码和参数,并开放了商业使用许可。值得注意的是,月活量超过7亿的产品需要另外申请商用许可。
作为Llama 2的首选合作伙伴微软,Meta 表示,Llama 2 可在 Azure AI 模型目录中使用,当然,也可通过Amazon Web Services(AWS)、Hugging Face和其他提供商获取使用。
02
格局打开?大模型竞逐新局面到来
对于此次Meta将免费将 Llama 2开放给商业和研究使用,不少人评论道:“格局打开了”,相较于走闭源路线的OpenAI,Meta真正做到了“Open”。
对于愈发激烈的大模型竞赛而言,这又意味着什么?
用图灵奖得主、Meta 首席人工智能科学家 Yann LeCun的话来说,Meta此举或将改变大模型行业的竞争格局。
如果说 OpenAI发起了大模型的竞赛开始,那么,Meta则打开了大模型竞逐的新局面,开源大模型的新路由此开辟。
开源的意义在哪里?小米副总裁崔宝秋曾指出,开源的本质是协同和创新,协同是全世界所有人各方开源力量的协同,创新是一个技术的创新。
简单来说,开源大模型将能汇聚更多的技术创新力量,在这里,全球开发者、研究机构、科技企业将一同协同共建,大家一块让模型的数据更加丰富、模型更加优化、工具更加完善、应用更加全面...可以说是“众人拾柴火焰高”,从而加速大模型技术的迭代升级、应用的丰富发展,为大模型的发展方向打开更多的可能性,同时也惠及更多的人群。
此外,开源也就意味着个人开发者和中小型企业能够以最低的成本调用Llama 2大模型,而不是花费高昂的成本采购闭源大模型,这也有利于开源大模型用户的吸纳与培养以及大模型开源生态的构建。
据悉,当下开源社区Hugging Face已成为“顶流中的顶流”,其上面有超 25 万个模型,包括 Meta 的Llama 2、国内搜狐创始人王小川创立的百川智能的大语言模型“百川”。
可以说,开源是吸纳、培养用户、确定行业标准的重要途经,也是避免当下AI大模型企业一轮又一轮重复造轮子、低成本试错的理想商业化手段。
03
开源vs 闭源:两者并非选择题
开源大模型出现后,随之而来的便是一道选择题:模型的底座选择到底是开源还是闭源?
尽管开源“免费的饭很香”,但也并非不存在问题,或者说,在很多层面,闭源大模型仍保持着领先优势。
一方面,在模型质量上,闭源大模型的质量更高,比如说最前沿的GPT-4便是闭源大模型,正如前文所言,哪怕是当下可以说是最强势的Llama-2 还与存在显著差距。
数据显示,在学术界广为引用的、由斯坦福大学计算机系研究团队发表的《Holistic Evaluation of Language Models》论文中,对国外30个主流语言模型在准确率、鲁棒性、公平性、推理等主要指标进行评测,便发现:开源(Open)模型在大多数指标上表现弱于闭源(Close)或部分开源(Limited)的模型。
另一方面,大模型最终指向的还是产业落地,在商业化落地上,闭源大模型的能力更强。大模型要想落地就必须与企业业务相结合,这需要专业的人提供专业的服务能力,让大模型的能力与业务场景完美融合,并非一朝一夕的事情,需要长期赋能,这不是免费的开源大模型能做到的事情。
此外,大多数的开源大模型是“站在巨人肩膀上”推出的,也就是说处于领先水平的开源模型都是由大企业开发,话语权也都掌握在他们手中,繁荣的背后也存在着一丝不确定性。
换言之,着眼当下,闭源大模型是大模型落地商业化更优的选择,但这不代表,只能选择闭源大模型,放眼未来,开源大模型是让AI普惠化实现的重要方向。
俗话说,小孩子才做选择,大人的世界是全都要,开源与闭源并非选择题,也正如百川智能创始人王小川所言:“今天不能简单的说我们未来大模型就是走向OpenAI——闭源的中心化的模型。开源实际上是具备着很大的可能性,有可能蕴含着极大商业模式和价值。”
总言之,在大模型这场竞赛中,我们期待看到闭源大模型深扎产业,让AI的智能力量真正飞入“千万家”,也期待着开源大模型根深叶茂,肆意生长为大模型的迭代、AI产业的发展开拓更多的想象空间。