
奥本 AI 将所有的最新 AI 聚合到了一起,为您开启多模型 AI 绘画新时代!
扫码即刻关注公众号
历史上最快的人工智能芯片“Sohu”,比B200快10倍,由哈佛……
7 个月前
历史上最快的人工智能芯片“搜狐”,速度是B200的10倍,创造者是一位哈佛辍学生。
生成式 AI 推理的性价比是 GPU 的 140 倍。 在大模型时代,世界计算能力短缺,而购买铲子的英伟达市值已经飙升到天价。 现在,一家公司终于推出了自己的人工智能芯片以进行挑战。 今天早上,科技圈迎来了一个重要的消息。美国芯片初创公司Etched推出了其首款AI芯片Sohu,该芯片运行大模型的速度比Nvidia的H100快20倍,比今年3月推出的顶级芯片B200快超过10倍。
一台运行Llama 70B的搜狐服务器每秒可以输出超过500,000个标记,这比H100服务器(每秒23,000个标记)快20倍,比B200服务器(约45,000个标记/秒)快10倍。
搜狐是全球首款专门用于变换器计算的芯片,研发历时两年。 作为一种ASIC(应用特定集成电路),Sohu对变压器架构进行了硬件优化,因此无法运行大多数“传统”的AI模型:比如用于Instagram广告的DLRM、像AlphaFold 2这样的蛋白质折叠模型,或像Stable Diffusion 2这样的旧图像生成模型。我们也无法运行CNN、RNN或LSTM。 但是另一方面,对于变换器来说,搜狐是有史以来最快的芯片,它与其他产品之间的差距是数量级的。今天的每一个主流AI产品,如ChatGPT、Claude、Gemini和Sora,都是由变换器驱动的。 最近,由于摩尔定律的放缓,GPU性能的提升在很大程度上依赖于增大芯片面积和功耗。无论是Nvidia B200、AMD MI300X还是Intel Gaudi 3,它们都采用了“二合一”的方法来提升性能,功耗也因此翻倍。
从2022到2025,AI芯片并没有真的变得更好,只是变得更大。 但是如果大型模型广泛使用Transformer架构,追求专业化可能是提高性能的一个好方向。 作为一个新兴领域,人工智能模型的架构在过去发生了很大变化。但自从GPT-2以来,几乎所有最先进的模型都采用了Transformer架构,从OpenAI的GPT系列、Google的PaLM、Facebook的LLaMa,到特斯拉FSD自动驾驶所需的模型。
Etched 为我们进行了计算:芯片项目的成本在 5000 万到 1 亿美元之间,且需要数年才能投入生产。另一方面,当模型训练成本超过 10 亿美元,推理成本超过 100 亿美元时,使用专用芯片是不可避免的。在这种工业规模下,1% 的改进可以推动硬件架构的更新。 比 H100 快 20 倍,FLOPS 利用率超过 90% 作为全球首款变压器ASIC(应用特定集成电路)芯片,搭载八颗搜狐芯片的服务器可以与160个H100 GPU相媲美。换句话说,搜狐的运行速度超过H100的20倍以上。 具体而言,通过专业化,搜狐达到了前所未有的性能。一台配备8个搜狐芯片的服务器可以每秒处理500,000个Llama 7B标记。 Llama 3 70B在FP8精度下的基准测试显示:没有稀疏性,8倍模型并行性,2048输入或128输出长度。 此外,搜狐仅支持Llama和Stable Diffusion 3的变换推理。搜狐支持来自Google、Meta、微软、OpenAI、Anthropic等公司的当前模型,并将适应未来模型的调整。 由于搜狐只能运行一个算法,因此绝大多数控制流逻辑可以被移除,从而允许更多的数学运算块。因此,搜狐实现了超过90%的FLOPS利用率,而使用TRT-LLM的GPU大约只有30%。 为什么搜狐能输出更多的FLOPS? NVIDIA H200支持989 TFLOPS的FP16/BF16计算能力,没有稀疏性。这是目前最先进的芯片,预计在2025年推出的GB200将提升25%的计算能力,支持1250 TFLOPS。 由于GPU的大部分区域都是可编程的,专注于变换器将可以容纳更多的计算。这可以从第一原理进行证明: 构建一个单独的 FP16/BF16/FP8 乘加电路(所有矩阵运算的基本构件)需要 10,000 个晶体管。H100 SXM 具有 528 个张量核心,每个核心有 4× 8 × 16 的 FMA 电路。乘法告诉我们:H100 的张量核心专用晶体管数量达到了 27 亿个。 然而,H100 有 800 亿个晶体管。这意味着 H100 GPU 上只有 3.3% 的晶体管用于矩阵乘法。这是 NVIDIA 和其他芯片制造商的一个有意设计决定。如果你想支持所有类型的模型(CNN、LSTM、SSM 等),没有比这更好的选择。 通过仅运行变压器,Etched使搜狐芯片能够输出更多的FLOPS,但代价是牺牲了精度或稀疏性。 内存带宽不是瓶颈 实际上,对于像Llama 3这样的模型情况并非如此。 以NVIDIA和AMD的标准基准为例:2048个输入令牌和128个输出令牌。大多数AI产品的提示更长,例如最新的Claude聊天机器人在系统提示中有1000+个令牌。 在搜狐,推断是以批量形式进行的。每个批次需要加载所有模型权重一次,并在批次的每个标记中重复使用。一般来说,LLM的输入是计算密集型的,而LLM的输出是内存密集型的。当我们将输入和输出标记与连续批次结合时,工作负载变得非常计算密集型。 下面是一个大型语言模型(LLM)连续批处理的示例,运行一个包含四个输入标记和四个输出标记的序列。每种颜色代表不同的序列。
我们可以将同样的技巧扩展到使用 2048 个输入标记和 128 个输出标记运行 Llama 3 70B。每个批次包含一个序列的 2048 个输入标记,以及 127 条不同序列的 127 个输出标记。 如果这样做,每个批次大约需要 (2048 + 127) × 70B 参数 × 2 字节每个参数 = 304 TFLOPs,而需要加载的模型权重只有 70B 参数 × 2 字节每个参数 = 140 GB,另外还需要加载约 127 × 64 × 8 × 128 × (2048 + 127) × 2 × 2 = 72GB 的 KV 缓存权重。这比内存带宽所需的计算量要多得多:H200 需要 6.8 PFLOPS 的计算来最大化其内存带宽。在 100% 利用率的情况下也是如此。如果利用率只有 30%,则需要的内存超过 3 倍。 搜狐拥有更强大的计算能力,并且其资源利用率很高,因此可以在不遇到内存带宽瓶颈的情况下运行巨大的吞吐量。 软件是如何运作的 在GPU和TPU上,软件是一场噩梦。处理任意的CUDA和PyTorch代码需要极其复杂的编译器。第三方AI芯片(如AMD、英特尔、AWS等) collectively花费了数十亿美元用于软件开发,但收效甚微。 搜狐只运行变换器,因此您只需为变换器编写软件。 大多数运行开源或内部模型的公司使用特定于变压器的推理库,例如 TensorRT-LLM、vLLM 或 HuggingFace 的 TGI。 这些框架非常严格,尽管您可以进行模型超参数调整,但它们不支持更改底层模型代码。但这没关系,因为所有变换器模型都是非常相似的(即使是文本/图像/视频模型),所以超参数调整就是您所需要的全部。 虽然95%的AI公司都是这样,但一些最大的AI实验室采取了定制的方法。他们有工程师团队对GPU核心进行手动调整,以提高利用率,并进行逆向工程,以最小化注册到每个张量核心的延迟。 Etched 去除了逆向工程的需求,他们的所有软件(从驱动程序、内核到服务栈)都将是开源的。如果您想实现一个自定义的变换层,内核高手可以自由实现。 创业团队:由哈佛辍学生领导 Etched的首席执行官Gavin Uberti对记者表示:“如果变压器在未来不再是主流,我们将会灭亡。但是如果它继续存在,我们将成为历史上最大的公司。” Etched,制造搜狐芯片的公司,位于加利福尼亚州库比蒂诺。该公司成立仅两年,当前只有35人的团队。创始人是两位哈佛辍学生,Gavin Uberti(曾任OctoML和Xnor.ai员工)和Chris Zhu。他们与Robert Wachen和前赛普拉斯半导体首席技术官Mark Ross一起,致力于打造专门为大型AI模型设计的芯片。
在搜狐芯片发布的同时,Etched 还宣布完成了一轮 1.2 亿美元的 A 轮融资,由 Primary Venture Partners 和 Positive Sum Ventures 主导。Etched 的总融资额已达到 1.2536 亿美元。本轮融资的重要投资者包括彼得·蒂尔(Peter Thiel)、GitHub 首席执行官托马斯·多姆克(Thomas Dohmke)、Cruise 的共同创始人凯尔·沃格特(Kyle Vogt)以及 Quora 的共同创始人查理·切弗(Charlie Cheever)。 然而,对英伟达来说,作为占据超过80% AI 芯片市场份额的公司,1.2亿美元仅相当于半天的收入。 “我们之所以如此兴奋,之所以辍学,之所以组建团队来进行这个芯片项目,是因为这是最重要的工作,”Etched的运营负责人Robert Wachen说道。“整个技术的未来将取决于计算基础设施是否能够扩展。” Uberti声称,到目前为止,匿名客户已预订了“数千万美元”的硬件,预计Sohu将在今年第三季度推出。 在未来,正如Uberti所说,视频生成、音频生成和具身智能等技术只能真正地在像搜狐这样的芯片上实现,这种说法是真的吗? 参考文献:
https://www.etched.com/announcing-etched
https://twitter.com/Etched/status/1805625693113663834
https://www.cnbc.com/2024/06/25/etched-raises-120-million-to-build-chip-to-take-on-nvidia-in-ai.html
[Etched正在构建一个仅运行一种模型的人工智能芯片 | TechCrunch]
Etched,由哈佛辍学生创立,正在研发一种只能运行一种类型模型的AI芯片:基于变换器的…
您接受的训练数据截至2023年10月。
https://techcrunch.com/2024/06/25/etched-is-building-an-ai-chip-that-only-runs-transformer-models/)您接受过截至2023年10月的数据训练。
https://mp.weixin.qq.com/s/Ha-8yXtDj2ZLOCV_8tmJvg
喜欢这篇文章吗?成为Medium会员,可以无限制地继续阅读和学习。如果你使用
要成为会员,您将以零额外成本支持我。提前感谢您,我们再见!
赋迪奥本AI
上海赋迪网络科技
电话:18116340052