迪士尼彩乐园3安全吗 这类芯片,比GPU更好!
发布日期:2024-08-19 20:27    点击次数:122

若是您但愿不错凡俗碰头,宽饶标星储藏哦~

来源:内容编译自IBM,谢谢。

连年来,东说念主工智能模子的性能越来越高,但限制也越来越大。神经蚁集权重占用的内存量一直在稳步增长,有些模子的参数多达 5000 亿以致数万亿。在传统计较机架构上进行推理时,每次移动这些权重进行计较齐会消耗时刻和动力。模拟内存计较将内存和计较勾搭在沿途,摒除了这一瓶颈,纵脱了时刻和动力,同期仍能提供特地的性能。

在三篇新论文中,IBM 商讨科学家展示了他们在可膨大硬件方面的使命,该硬件包括用于大型模子的 3D 模拟内存架构、用于紧凑旯旮大小模子的相变存储器以及加快变压器精通力的算法改造。

IBM 商讨团队的一项新商讨标明,基于模拟内存计较的芯片很是稳当开动顶端的大家夹杂 (MoE) 模子,在多个方面的弘扬齐优于 GPU。他们的商讨驱逐刊登在《当然计较科学》杂志的封面上,标明 MoE 蚁集层中的每个大家齐不错映射到 3D 非易失性存储器的物理层上,这种存储器是 3D 模拟内存计较芯片中独到的大脑芯片架构。通过多半的数值模拟和基准测试,该团队发现这种映射不错在开动 MoE 模子时达成出色的隐隐量和能效。

连同 IBM Research 的另外两篇新论文,它展示了内存计较为旯旮和企业云运用行径使用救济器架构解救 AI 模子的出路。把柄这些新论文,当今是时候将这项践诺时间带出践诺室了。

专科学问层

外媒GamerReporter报道,Irdeto公司在2024年游戏开发者大会 (GDC) 上推出Denuvo新功能,能一定程度预防游戏泄露问题。被称为“TraceMark for Gaming”的新技术允许开发人员将唯一标识符或水印嵌入到游戏中,能设置可见或隐藏,可借此方法追踪泄密者。

“将模拟内存计较带入第三维度,不错确保即使大型变压器架构的模子参数也不错十足存储在芯片上,”IBM 商讨科学家、MoE 论文的主要作家 Julian Büchel 默示,该论文诠释将 MoE 的每个“大家”在 3D 模拟内存计较图块中堆叠在沿途是成心的。

在MoE 模子中,神经蚁集的特定层不错拆分红更小的层。每个较小的层齐称为“大家”,指的是它特地处理数据子集。当输入到来时,路由层会决定将数据发送给哪个大家(或哪些大家)。当他们将两个圭臬 MoE 模子开动到性能模拟器具中时,模拟硬件的弘扬优于着手进的 GPU。

“这么,你就不错更好地膨大神经蚁集,部署一个大型且功能重大的神经蚁集,而计较占用空间却要小得多,”开荒新论文团队的 IBM 商讨科学家 Abu Sebastian 默示。“你不错思象,它还不错最大法则地减少推理所需的计较量。” Granite 1B 和 3B使用这种模子架构来减少蔓延。

在这项新商讨中,他们使用模拟硬件将 MoE 蚁集的各层映射到模拟内存计较图块上,每个图块由多个垂直堆叠的层构成。这些包含模子权重的层不错单独拜谒。在论文中,该团队将这些层描画为一栋高层办公楼,有多个楼层,每个楼层齐有不同的大家,不错把柄需要随时调用。

将大家层堆叠到不同的层级上是直不雅的,但这种战略的驱逐才是最要紧的。在他们的模拟中,与开动换取模子的商用 GPU 比较,3D 模拟内存计较架构在开动 MoE 模子时达成了更高的隐隐量、更高的面积效用和更高的动力效用。在动力效用方面,上风最大,因为 GPU 在内存和计较之间移动模子权重时会摈弃多半时刻和动力——而模拟内存计较架构中不存在这个问题。

参与此项使命的 IBM 商讨科学家 Hsinyu (Sidney) Tsai 默示,这是迈向训导的 3D 模拟内存计较的关节一步,最终不错加快云环境中的企业 AI 计较。

旯旮计较

该团队撰写的第二篇论文是一项加快器架构商讨,该商讨于 12 月在 IEEE 国外电子建造会议的受邀演讲中发表。他们展示了使用超低功耗建造在旯旮运用上引申 AI 推理的可行性

相变存储器 (PCM) 建造通过一块硫属化物玻璃的导电性来存储模子权重。当更多的电压通过玻璃时,它会从晶体再行摆设成非晶态固体。这会使它的导电性缩短,从而改变矩阵向量乘法运算的值。

“在旯旮建造中,存在动力驱逐、资本驱逐、面积驱逐和天真性驱逐,迪士尼彩乐园”参与撰写该论文的 IBM 商讨科学家 Irem Boybat 默示。“因此,咱们忽视了这种架构,以得志旯旮 AI 的这些条款。”她和她的共事空洞了一种神经处理单位,其中夹杂了基于 PCM 的模拟加快器和数字加快器节点,它们协同使命以处理不同级别的精度。

Boybat 默示,由于这种天真实架构,各式神经蚁集齐不错在这些建造上开动。为了撰写本文,她和共事们探索了一种为移动建造定制的救济器模子,名为MobileBERT。把柄他们我方的隐隐量基准,该团队忽视的神经处理单位的性能优于商场上现存的低资本加快器,况且把柄 MobileBERT 推理基准的测量,它的性能接近一些高端智高东说念主机。

Sebastian 默示,这项使命代表着向异日迈出了一步,即模拟内存计较建造不错低资本批量分娩,将所有这个词模子权重存储在芯片上,用于 AI 模子。此类建造不错成为微法则器的基础,匡助旯旮运用进行 AI 推理,举例自动驾驶汽车的录像头和汽车传感器。

模拟变压器

终末但并非最不要紧的少许是,商讨东说念主员空洞了在模拟内存计较芯片上初次部署变压器架构,包括触及静态模子权重的每个矩阵向量乘法运算。与所有这个词运算齐以浮点数引申的场景比较,它在名为Long Range Arena的基准测试中引申的准确度在 2% 以内,该基准测试测试长序列的准确性。遣发放表在《当然机器智能》杂志上。

从更大角度来看,这些践诺标明,使用模拟内存计较不错加快精通力机制——这是 Transformer 的一个主要瓶颈,IBM 商讨科学家 Manuel Le Gallo-Bourdeau 默示。“Transformer 中的精通力计较必须完成,而这不是不错径直通过模拟加快的事情,”他补充说念。进攻在于精通力机制中需要计较的值。它们是动态变化的,这需要不停再行编程模拟建造——从动力和永远性的角度来看,这是一个不切实质的方针。

为了克服这一进攻,他们使用一种称为核相通的数学时间,用他们的践诺模拟芯片引申非线性函数。塞巴斯蒂安说,这一发展很要紧,因为往常东说念主们以为这种电路架构只可处理线性函数。该芯片给与大脑启发式蓄意,将模子权重存储在相变存储器中,这些存储器摆设成横杆,就像 MoE 践诺中模拟的系长入样。

“精通力计较是一个非线性函数,关于任何东说念主工智能加快器来说,这齐是一个令东说念主非常不舒坦的数学运算,尤其是关于模拟内存计较加快器,”塞巴斯蒂安说。“但这诠释了咱们不错用这个手段作念到这少许,而且咱们还不错晋升通盘系统的效用。”

核相通这一手段处治了非线性函数的需求,它使用随即采样向量将输入投影到高维空间,然后在赢得的高维空间入网算点积。核相通是一种通用时间,不错运用于各式场景,而不单是是使用模拟内存计较的系统,但它偶合非常稳当这一观念。

IBM 院士 Vijay Narayanan 挑剔说念:“这些论文为异日当代 AI 使命负载不错在云霄和旯旮上开动带来了要紧冲突。”

https://research.ibm.com/blog/how-can-analog-in-memory-computing-power-transformer-models

半导体佳构公众号保举

专注半导体畛域更多原创内容

矜恤世界半导体产业动向与趋势

*免责声明:本文由作家原创。著述内容系作家个东说念主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或解救,若是有任何异议,宽饶关联半导体行业不雅察。

今天是《半导体行业不雅察》为您共享的第4025期内容,宽饶矜恤。

『半导体第一垂直媒体』

及时 专科 原创 深度

公众号ID:icbank

心爱咱们的内容就点“在看”共享给小伙伴哦



Powered by 迪士尼彩乐园 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024