关闭 x
IT技术网
    技 采 号
    ITJS.cn - 技术改变世界
    • 实用工具
    • 菜鸟教程
    IT采购网 中国存储网 科技号 CIO智库

    IT技术网

    IT采购网
    • 首页
    • 行业资讯
    • 系统运维
      • 操作系统
        • Windows
        • Linux
        • Mac OS
      • 数据库
        • MySQL
        • Oracle
        • SQL Server
      • 网站建设
    • 人工智能
    • 半导体芯片
    • 笔记本电脑
    • 智能手机
    • 智能汽车
    • 编程语言
    IT技术网 - ITJS.CN
    首页 » 人工智能 »Cerebras 以最快的 Llama 4 Maverick 性能引领 LLM 推理竞赛

    Cerebras 以最快的 Llama 4 Maverick 性能引领 LLM 推理竞赛

    2025-05-29 20:51:34 出处:IT技术网
    分享

    上周,Nvidia 宣布 DGX B200 中的 8 个 Blackwell GPU 可以在 Meta 的 Llama 4 Maverick 上展示每个用户每秒 1,000 个代币 (TPS)。今天,同一家独立基准测试公司 Artificial Analysis 测得的 Cerebras 速度超过 2,500 TPS/用户,是 Nvidia 旗舰解决方案性能的两倍多。

    “Cerebras 打破了 NVIDIA 上周创下的 Llama 4 Maverick 推理速度记录,”Artificial Analysis 联合创始人兼首席执行官 Micah Hill-Smith 说。“人工分析以每秒 2522 个令牌的速度对 Cerebras 的 Llama 4 Maverick 终端节点进行了基准测试,而同一型号的 NVIDIA Blackwell 每秒 1038 个令牌。我们已经测试了数十家供应商,Cerebras 是唯一优于 Blackwell 的 Meta 旗舰模型的推理解决方案。

    凭借今天的结果,Cerebras 在 400B 参数 Llama 4 Maverick 模型上创下了 LLM 推理速度的世界纪录,该模型是 Llama 4 系列中最大、功能最强大的模型。人工分析测试了其他多家供应商,结果如下:SambaNova 794 t/s、Amazon 290 t/s、Groq 549 t/s、Google 125 t/s 和 Microsoft Azure 54 t/s。

    Cerebras Systems 首席执行官 Andrew Feldman 表示:“当今企业中部署的最重要的 AI 应用程序(代理、代码生成和复杂推理)都受到推理延迟的瓶颈。这些使用案例通常涉及多步骤思维链或大规模检索和规划,GPU 上的生成速度低至每秒 100 个令牌,导致等待时间长达几分钟,使生产部署不切实际。Cerebras 率先重新定义了 Llama、DeepSeek 和 Qwen 等模型的推理性能,经常提供超过 2500 TPS/用户。

    凭借其创世界纪录的性能,Cerebras 是 Llama 4 在任何部署场景中的最佳解决方案。Cerebras Inference 不仅是第一个也是唯一一个在该模型上打破 2,500 TPS/用户里程碑的 API,而且与人工分析基准测试中使用的 Nvidia Blackwell 不同,Cerebras 硬件和 API 现已推出。Nvidia 使用了大多数用户无法使用的自定义软件优化。有趣的是,Nvidia 的推理提供商都没有提供 Nvidia 公布的性能的服务。这表明,为了实现 1000 TPS/用户,Nvidia 被迫通过批处理大小 1 或 2 来降低吞吐量,使 GPU 的利用率低于 1%。另一方面,Cerebras 在没有任何特殊内核优化的情况下实现了这一破纪录的性能,并且即将通过 Meta 即将推出的 API 服务提供给所有人。

    对于推理、语音和代理工作流等尖端 AI 应用程序,速度至关重要。这些 AI 应用程序通过在推理过程中处理更多令牌来获得智能。这也会使他们变慢并迫使客户等待。当客户被迫等待时,他们会离开并转向提供更快答案的竞争对手——这是 Google 十多年前在搜索中展示的发现。

    凭借创纪录的性能,Cerebras 硬件和由此产生的 API 服务是全球开发人员和企业 AI 用户的最佳选择。

    上一篇 Cerebras LLM 下一篇

    声明: 此文观点不代表本站立场;转载务必保留本文链接;版权疑问请联系我们。

    别人在看

    ATTO360 Storage 软件通过单一智能平台重新定义存储管理

    DigitalOcean 推出 DigitalOcean Gradient AI 平台

    网传华为盘古大模型疑似抄袭通义千问,盘古团队否认

    IDC预测:2028年中国安全智能体相关应用市场的规模将激增至16亿美元,年复合增长率230%

    近9000人受影响,微软全球大裁员是AI转型下的组织变革

    马斯克宣布Grok 4大模型即将面世,或专为编程打造

    一加新机爆料:第四季度推至少3款骁龙旗舰,一加15配置引关注

    华为Pura 80系列:鸿蒙5.1系统创新功能,让用户体验再升级

    破局“不可能三角”:Data Warebase如何终结30年数据库割据时代?

    铜仁市大数据发展管理局:精兵下沉基层 实干促推振兴

    IT头条

    智能手机市场风云:iPhone领跑销量榜,华为缺席引争议

    15:43

    大数据算法和“老师傅”经验叠加 智慧化收储粮食尽显“科技范”

    15:17

    严重缩水!NVIDIA将推中国特供RTX 5090 DD:只剩24GB显存

    00:17

    无线路由大厂 TP-Link突然大裁员:补偿N+3

    02:39

    Meta 千万美金招募AI高级人才

    00:22

    技术分享

    Spring基础知识汇总 Java开发必看

    SQL Server索引与其性能的描述

    SQL Server 2008数据格式修改时应注意什么?

    如何禁止windows 7网络搜索驱动?windows 7禁止网络搜索驱动的方

    SQL Server系统表中的sysconfigures表

    如何恢复windows 7、windows 8图片预览功能详细图解

      友情链接:
    • IT采购网
    • 科技号
    • 中国存储网
    • 存储网
    • 半导体联盟
    • 医疗软件网
    • 软件中国
    • ITbrand
    • 采购中国
    • CIO智库
    • 考研题库
    • 法务网
    • AI工具网
    • 电子芯片网
    • 安全库
    • 隐私保护
    • 版权申明
    • 联系我们
    IT技术网 版权所有 © 2020-2025,京ICP备14047533号-20,Power by OK设计网

    在上方输入关键词后,回车键 开始搜索。Esc键 取消该搜索窗口。