大模型格局又变了?
刚刚,国内AI领域传来一则重要消息。
头部大模型创业公司阶跃星辰,凭借万亿参数大语言模型Step-2,在业内权威大模型基准LiveBenchAI上获得了第五名的好成绩,成为了前十名之内唯一的国产大模型。
排在阶跃星辰Step-2身前的,只剩下OpenAI和Anthropic两家公司。
榜单地址:https://livebench.ai/#
LiveBench是当前生成式AI领域最权威、客观的模型能力评测榜单之一。它是由图灵奖得主、Meta首席AI科学家YannLeCun联合Abacus.AI、纽约大学等机构推出的,今年六月才首次上线。
它旨在消除现有LLM基准的局限性,被称作是「世界上第一个无法被操纵的大语言模型基准测试」。
LiveBench提出了一种创新的基准测试方法,其中包含6大类18项任务。
为了避免大模型「作弊」,LiveBench每月发布新问题,并根据最近发布的数据集、arXiv论文、新闻文章和IMDb电影简介设计问题,以限制潜在的数据污染。每个问题都有可验证的、客观的基本真实答案,这样就可以在不使用LLM评审员的情况下,对难题进行准确的自动评分。
通过定期更新的问题集和客观的自动化评分方法,LiveBench提供了一个公平、准确的评估平台,还同时推动了LLM的持续改进和社区参与。
此次杀入榜单前十的step-2-16k-202411模型的「GlobalAverage」得分位列第五,已经非常接近第三名和第四名的claude-3-5-sonnet-20240620和o1-mini-2024-09-12。
值得注意的是,在这次提交的成绩中,Step-2的指令跟随(IFAverage)得分全榜排名第一,展示了对语言生成细节的强大控制力。具体来说,该任务是对《卫报》最近的新文章进行转述、简化、概括或编写故事,但须遵守一项或多项指令,例如字数限制或在答辩中纳入特定元素。
不断进化的Step-2万亿参数大模型
自从最初的预览版发布以来,Step-2一直在经历快速的技术迭代,迅速缩短与国际最顶级大模型的差距。
今年3月,阶跃星辰发布了Step-2语言大模型预览版,这是国内首个由创业公司发布的万亿参数模型。WAIC2024期间,阶跃星辰发布了Step-2万亿参数语言大模型正式版,在数理逻辑、编程、中文知识、英文知识、指令跟随等方面的体感都非常接近全球顶尖模型。
细看下来,Step-2万亿参数语言大模型有两大亮点:采用MoE架构,万亿参数。
训练MoE模型主要有两种方式:基于已有模型通过upcycle(向上复用)开始训练,或者从头开始训练。upcycle方式对算力的需求低、训练效率高,但上限低(比如基于拷贝复制得到的MoE模型容易造成专家同质化严重)。如果选择从头开始训练MoE模型,虽然训练难度高,但能获得更高的模型上限。
阶跃星辰团队在设计Step-2MoE架构时选择完全自主研发从头开始训练,通过部分专家共享参数、异构化专家设计等创新MoE架构设计,让Step-2中的每个「专家模型」都得到充分训练,不仅总参数量达到了万亿级别,每次训练或推理所激活的参数量也超过了市面上的大部分Dense模型。
此外,从头训练这样一个万亿参数模型对于系统团队是很大的考验。在Step-2训练过程中,阶跃星辰系统团队突破了6D并行、极致显存管理、完全自动化运维等关键技术,成功完成了Step-2的每一次升级。
基于ScalingLaw,在模型参数达到万亿规模之后,数学、编程等涉及推理的能力都会显著提升。这也最终推动了Step-2今天能够取得媲美OpenAIo1、Claude3.5Sonnet等模型的好成绩。
不断进化的Step-2万亿参数语言大模型,已经接入了阶跃星辰C端智能助手「跃问」,在跃问App和跃问网页端(https://yuewen.cn)都可以使用。
阶跃星辰的大模型矩阵打造之路
相比国内大模型领域的几家知名公司,阶跃星辰可谓是后来者。它由微软前全球副总裁姜大昕创办,于去年4月成立,今年3月才开始崭露头角。
阶跃星辰创始人、CEO姜大昕,曾任职微软全球副总裁、微软亚洲互联网工程院首席科学家。
但这家公司却在短短几个月时间站稳了国内AI创业公司的第一梯队,并在一年内快速发布了包括万亿MoE语言大模型Step-2、多模态理解大模型Step-1.5V、图像生成模型Step-1X在内的Step系列模型“全家桶”。
从AGI技术路线上看,阶跃星辰的选择是:单模态-多模态-统一多模态理解和生成-世界模型-通用人工智能(AGI)。
在快速迭代模型的同时,这家公司也将模型接入了两款C端产品智能生活助手跃问和AI开放世界冒泡鸭。目前,阶跃星辰已经完成了自身的大模型+产品矩阵,呈现出强势崛起的姿态。
网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图