提升AI模型计算能效3个数量级 科学家提出存内计算全新技术路径

随着大数据时代 AI 模型参数量激增,AI 模型推理和训练的成本日益增高,使得 AI 模型难以有效地被布署到边缘计算设备中。

存内计算技术是加速 AI 模型的主流路径,它通过在存储器内部原位计算减少数据的搬运,来提高芯片算力与能效。

但是,需要了解的是,传统存内计算(single-IMC,single-in-memory computing)架构仍然需要在存储器和处理器之间进行数据传输,仅部分地解决了数据搬运的问题,限制了 AI 模型加速器的进一步发展。

为了解决上述问题,北京大学孙仲研究员团队设计了一种全新技术路径的存内计算架构,称为“双存内计算”(dual-IMC,dual in-memory computing)。

该架构能够最大程度地加速 AI 模型中的矩阵-向量乘法(MVM,matrix-vector multiplication)计算,如卷积神经网络、二值神经网络、Transformer 模型等,从而实现高速、高能效的 AI 模型推理和训练。

该架构基于非易失性存储器阵列设计,使 MVM 的矩阵、向量元素均存储在内存阵列中并参与原位 MVM 运算。

“这种独特的设计可完全消除数据的搬运,最大程度地发挥存内计算的优势,从而实现真正意义上的存储器内计算。”孙仲表示。

与传统的存内计算架构相比,dual-IMC 架构使 MVM 的能效提高了 3 到 4 个数量级,有望应用于边缘计算系统和终端设备部署中,以构建先进的神经网络加速器。

图丨孙仲课题组(来源:该团队)

北京航空航天大学康旺教授对该研究评价称,该团队提出并展示了一种用于矩阵向量乘法的全存内计算新方法,使得参与运算的权重矩阵和向量都可以存储在阵列中并参与原位计算,从而有望完全消除数据移动,提高存内计算的能效。

他指出,“该工作虽然目前仅展示了较小规模的展示,但理论上可以扩展到更大规模阵列。这是一个很新颖的想法,相信未来它会对存内计算领域(学术界和业界)产生实际的影响。”

近日,相关论文以《用于加速神经网络的矩阵-向量乘法的双存内计算》(Dual in-memory computing of matrix-vector multiplication for accelerating neural networks)为题发表在Cell子刊Device上 [1]。

北京大学博士研究生王识清是论文第一,孙仲研究员担任通讯。

图丨相关论文(来源:Device)

目前,神经网络计算加速是发展计算范式和架构的主要驱动力。在神经网络的推理和训练过程中,计算量最大的操作为 MVM。因此,利用非易失性存储器加速 MVM 成为当下学术界和工业界关注的热点方向。

图丨存内计算技术全谱(来源:Nature Electronics)

但是,在加速 MVM 的传统存内计算架构中,只有一个输入操作数,即权重矩阵存储在内存阵列中,而另一个输入操作数,即输入向量仍然要在传统的冯·诺依曼架构中流动。

这需要通过访存片外主存和片上缓存,再经过数模转换之后作为模拟电压向量输入到阵列中进行 MVM 计算。

也就是说,传统的 single-IMC 仅部分地解决了冯·诺伊曼瓶颈问题,其仍然会带来数据搬运和数模转换的沉重负担,这从根本上限制了计算性能的提高。

此外,为了保证高计算并行度,计算时要同时开启多行字线,这会导致阵列中产生较大的电流,这是 single-IMC 架构的另一个缺点。

图丨传统的单存内计算(single-IMC)架构(来源:Device)

2023 年,孙仲课题组与合在Nature Electronics上发表论文,提出存内计算技术全谱的概念,并对所有类型的存内计算技术进行了原理性的分类 [2]。

此外,该团队还在Science Advances报道了一种基于阻变存储器阵列的新型模拟计算电路,使微秒级一步求解复杂的压缩感知还原成为可能 [3]。

受存内计算技术全谱概念的启发,研究人员设计了将两个输入操作数都存储在内存中的 dual-IMC 架构,其中矩阵(神经网络权重)和向量(神经网络输入)都存储在同一阵列中,以参与加速 MVM 的原位计算。

双存内计算架构基于团队在压缩感知还原电路设计中原创的电导补偿原理设计,仅需要施加极为简单的独热编码的数字电压,就可以完成 MVM 计算。

计算过程中无需数模转换器,从而进一步节省芯片面积,优化了计算的延时和功耗。此外,每次 MVM 计算仅激活存储器阵列的一行字线,这能够减少阵列中累积的电流。

因此,dual-CIM 架构完全消除了片外动态随机存取存储器(DRAM,Dynamic Random Access Memory)和片上静态随机存取存储器(SRAM,Static Random-Access Memory)访存造成的额外延时和功耗,同时也避免了这些易失性存储器的静态功耗。

王识清表示:“这一创新的技术路径不仅简化了硬件结构,而且在性能上也取得了显著的提升。即便在最坏情况,在需要对特殊介质进行写入时,双层存内计算架构仍能提供数倍的性能提升。”

图丨双存内计算(dual-IMC)架构(来源:Device)

基于制备的阻变存储器阵列,该团队对 dual-IMC 架构进行了概念性的实验验证,并展示了该架构在压缩信号还原、卷积神经网络和二值神经网络中的应用。

总的来说,该研究为后摩尔时代的计算性能提升提供了一种全新的技术方案,通过完全在存储器内部进行的矩阵-向量乘法操作,实现了显著的加速和能效优化,为神经网络和其他重要算法的硬件实现提供了新的可能性。

参考资料:

1.Wang,S.,Sun,Z. Dual in-memory computing of matrix-vector multiplication for accelerating neural networks.Device(2024). https://doi.org/10.1016/j.device.2024.100546

2.Sun, Z., Kvatinsky, S., Si, X. et al. A full spectrum of computing-in-memory technologies.Nature Electronics6, 823–835 (2023). https://doi.org/10.1038/s41928-023-01053-4

3.Wang,S. et al. In-memory analog solution of compressed sensing recovery in one step.Science Advances9,50(2023). https://www.science.org/doi/10.1126/sciadv.adj2908

排版:刘雅坤


ai运行会产生缓存占有电脑内存吗ai运行会产生缓存占有电脑内存吗

是的,当使用AI运行模型时,它通常会产生缓存并占用电脑的内存空间。 这是因为AI模型需要在内存中存储权重参数、计算图等数据结构,以及中间计算结果。 这些缓存数据有助于提高AI模型的推理速度。 在训练和推理过程中,模型的每个层或节点都会生成中间结果,并在内存中暂时存储这些结果以供后续计算使用。 这些缓存数据的大小取决于模型的复杂性以及输入数据的大小。 如果模型较大或输入数据较多,缓存的占用量可能会较大,并且可能会使电脑的内存使用量增加。 这可能会导致较低的程序性能或导致电脑内存不足的情况,从而影响系统的运行稳定性。 为了管理和控制缓存及内存使用,您可以考虑以下几点:1. 确保您的电脑内存足够大,以处理模型的运行需求。 2. 对于特别大的模型或数据集,可以考虑分批处理或使用更高性能的计算设备。 3. 可以尝试使用内存优化的技术或框架,如网络模型压缩、低精度计算等。 总之,根据AI模型的复杂性和输入数据的大小,运行AI模型可能会占用一定的内存空间。 理解和管理内存使用量是保证良好性能的重要一环。 AI运行时可能会产生缓存,这些缓存可能会占用电脑内存。 AI运行通常需要大量的计算资源和存储空间,包括CPU、内存、硬盘等等。 在AI模型训练和推理过程中,计算机会根据需要进行数据和模型的缓存,以便更快地访问和处理这些数据。 做禅这些缓存可以帮助提高AI模型的性能,但同时也会占用计算机的内存空间。 缓存占用的内存大小取决于AI模型的大小、数据量以及计算机的性能等因素。 在一些大型的AI模型和复杂的计算任务中,缓存占用的内存可能会非常大,因此在配置计算机时需要考虑到这些需求,以确保计算机能够满足AI应用的需求。 需要注意的是,缓存是临时存储,其大小会根据需要进行调整和优化。 因此,在使用AI时,需要根据实际情况进行合理的配置和管理,以最大化计算机资源的利用效率。 是的,AI运行时会产生缓存以提高运行效率。 缓存占用会占据一定的电脑内存空间,并在运碧橘行过程中逐渐增加。 缓存可以包括预训练模型权重、中间计算结果、临时存储等。 通常情况下,AI框架和库会自动管理缓存的分配和释放,以平衡性能和内存的使用。 一般情况下,缓存会在运行结束后自动释放,但有时也需要手动清理缓存。 如果您发现AI运行过程中内存占用过高,可能需要考虑以下几种解决方法:1. 确认系统和AI框架的最新版本,更新软件以获得性能优化和内存管理的改进。 2. 调整AI模型的输入大小或批处理大小,以减少内存占用纯慧尘。 3. 使用更高性能的硬件资源,如GPU或TPU,以提高运算速度和减少内存占用。 4. 调整算法或模型结构,以减少内存使用量。 总之,AI运行时会产生一定的缓存占用,但可以通过优化和合理调整来控制内存的使用。 肯定会的,只要产生缓存,肯定要占内存

gpu服务器是什么?有什么作用?

GPU服务器是基于GPU的应用于视频编解码、深度学习、科学计算等多种场景的快速、稳定、弹性的计算服务。

作用是:出色的图形处理能力和高性能计算能力提供极致计算性能,有效解放计算压力,提升产品的计算处理效率与竞争力。

采用2颗至强E5-2600V3系列处理器,内存采用128GB/256GBDDR/2400MHZ,系统硬盘采用2块512GSSD固态硬盘,数据硬盘采用3块25寸2T企业级硬盘,或者3块35寸4T企业级硬盘,平台采用支持两GPU服务器(LZ-743GR),四GPU服务器(LZ-748GT),八GPU服务器(LZ-4028GR)。

rx470显卡挖矿算力215mh/s,那么换算成一天算力是多少T?

算力是指计算设备通过处理数据,实现特定结果输出的计算能力。

算力广泛存在于手机、PC、超级计算机等各种硬件设备中,没有算力,这些软、硬件就不能正常使用。 而玩虚拟货币的投资者,都听过算力这个词,在区块链中,算力通常是指挖矿机挖出比特币的能力,算力占全网算力的比例越高,算力产出的比特币就越多。

算力可分为三类:第一类,就是高性能计算,即“超算”。 第二类算力,为人工智能计算机,主要用于处理人工智能应用问题;第三类就是数据中心,它更多是通过云计算的方式给大家提供算力的公共服务。 这三种计算中心,合起来就反映出一个国家的算力。

2023年算力龙头上市公司:

1、拓维信息:公司依托兆瀚服务器和兆瀚AI推理服务器提供的通用和A算力支持,在云边端的升携技术框架内,重点发展鸿蒙行歼笑耐业专属操作系统、鸿蒙行业专属终端、拓维元操作系统、行业边缘一体机,“软+硬”深度融合,实现云边端协同,以边端促云。

2、科大讯飞:讯飞的算力完全满足AI算法模型训练,可面向开放平台数百万开发者和其他行业伙伴提供相关AI服务的需求,公司持续打造人工智能核心技术的领先引擎,通过无监督训练、小数据学习算法的突破,用更少的标记数据实现更好的效果,从而降低人工智能在各个领域推广落地的成本。

3、首都在线:公司的CDS首云异构算力平台,主要面向以GPU算力为主的业务场景,既包括了以深度学习、AI计算、超算为主的算力业务,也覆盖了以影视渲染、实时渲染、云游戏、XR等视觉计算需求。

算盘和计算机

显卡现在挖不出来比特币的。 你这个算力是以太坊的算力。 计算方法也不对

具体步骤如下:

一天有秒,而你提供的单位mh/s并不是容量单位,所以请自行计算。

ETH ETC ZEC SC 等才是显卡挖矿的。

最近因为挖矿火爆,部分显卡型号供货紧张,A卡就有好几款基本断货了,价格也上涨了不氏春少。 英伟达专业矿卡可能就在本月10号左右出货,而A卡这边有RX470、RX560两款专业矿卡,后续是否还会有其它型号的专业矿卡型号推出,那就得看挖矿还是否能稳定下去了。 本次我们要对比的是RX460和GTX1060两款显卡的挖矿算力,下面的测试数据是以太币挖矿算力。

英伟达发布史上最强计算平台,黄教主:自动驾驶不再担心算力问题

硅谷的计算机博物馆认为中国的算盘是最早的计算机之一。 算盘具备了计算机的基本特点,软件就是口诀,输入、输出、计算、存储就靠算珠和算盘的框架。 仔细想想,这还真是一台极简主义的发明。

算盘非常好用,在中国,直到90年代随着计算机的普及,算盘才被彻底取代掉。 80年代计算器发明以后,在很多专业的财会领域,并没有取代算盘,很多老师傅还是觉得算盘更快。

在电视剧《暗算》里,我们甚至看到一堆人使用算盘计算来破解密码。

算盘在中国的出现,最早可以追溯到东汉,最晚也基本是宋元时代了。 可以想象在那个年代,有了算盘的中国人,在算力上绝对碾压全球。

西方世界开始钻研用机械来做计算大约要到17世纪了,也就是我们的晚明时期。 帕斯卡发明了机械计算器,使用齿轮等复杂机械装置来做加减法。 虽然它的计算速度还是不如算盘,但它的好处是完全自动的,我们只管输入,具体计算完全靠机械装置来完成,不需要我们背诵乘法口诀了。

巴贝奇后来发明了差分机和分析机,可以进行加减乘除以外的更加复杂的计算,如对数、三角函数、平方、微积分计算等。

当然,机械计算机过于复杂,并没有真正流行开,但是从机械计算机和算盘的区别,我们已经开出东西方思维的不同,甚至文明的不同走向。

1、在制造和使用工具上,中国在明末之前并不落后。

2、但是,中国的工具相对简单,要进一步提高效率,需要的不是进一步升级工具,而是很多人一起使用工具,比如100个人一起用算盘。 但是西方对工具赋予了几乎无限的能力预期,使得他们发明了只需要极少数人操作,但可以完成巨大工作量的工具。 机械计算器是一种,其它还有很多,比如纺织机、蒸汽机等。

3、中国文化自己对于工具的进一步发展几乎停滞了,而西方是日新月异。

西方学者有个观点,说中国在明朝和清朝时期,农业和人口政策都发展的太好了,人口规模达到了数亿,这样造成了一种内卷化效应,也就是说中国的廉价劳动力太多了,对任何提升劳动效率的发明创造都没有需求。 所以,中华文明自己把自己锁死了,只能靠西方文明的强势入侵才能走出死循环。

李约瑟也有著名一问,为什么古代科技那么发达的中国没有诞生科学。

其实科学是一整套思维和认知体系,包括形而上学、逻辑、数学、怀疑精神、独立思想等等。 这些其实在中国古代的皇权社会都不具备。 所以,也不仅仅是内卷化的问题。

我们再回头看看题目里说的,算盘也使计算机的问题。

我们发明了算盘,但是直到90年代,我们还在使用算盘。 但是西方社会已经从机械计算器发展到了今天的各种电子计算机。

我们的文明在工具的进化上停止了,但是西方文明却在一直不断的进步。 这其实像极了,人和动物的区别,不管是使用工具还是群体协作,动物一直停留在一个水平不再发展了,但是人却一直发展,其速度远超生物基因的变异速度。 所以很多学者认为,智人的思维升级以后,人类的发展速度已经摆脱了生物基因,我们超越了进化论。 道金斯提出了文化基因的概念,meme,他认为文化基因自己也在变异和复制。

从这个意义上说,应该是某种文化基因,比如科技基因,在东西方文明中有着巨大区别,这种区别在晚明以后发生了质变。 科技基因自己在全世界繁殖、变异、进化。 而我们中国人,自己并没有演化出科技基因。

凯文凯利在他的书《科技究竟想要什么》里,也提出,科技也是一种生命,它有自己的生存和发展动力。

显卡怎么计算挖矿算力

原本应该在今年 3 月份于加州圣何塞举办的英伟达 GTC 2020 大会,因为全球性新冠病毒肺炎的爆发而不得不推迟举行。

比原计划晚了将近 2 个月,英伟达 GTC 2020 终于在 5 月 14 日回归。

不过这一次开发者们没办法在线下集会,只能通过线上直播观看「皮衣教主」黄仁勋的主题演讲。 老黄此次是在他硅谷的家中完成了这场别开生面的「Kitchen Keynote」。

虽然是厨房举行,英伟达依然爆出「核弹」,发布了全新一代的 GPU 架构 Ampere(安培)。

在自动驾驶方向上,英伟达通过两块 Orin SoC 和两块基于安培架构的 GPU 组合,实现了前所未有的2000 TOPS算力的 Robotaxi 计算平台,整体功耗为800W。

有业界观点认为,实现 L2 自动驾驶需要的计算力小于 10 TOPS,L3 需要的计算力为 30 - 60 TOPS,L4 需要的计算力大于 100 TOPS,L5 需要的计算力至少为 1000 TOPS。

现在的英伟达自动驾驶计算平台已经建立起了从10TOPS/5W,200TOPS/45W到2000 TOPS/800W的完整产品线,分别对应前视模块、L2+ADAS以及Robotaxi的各级应用。

从产品线看,英伟达Drive AGX将全面对标 MobileyeEyeQ系列,希望成为量产供应链中的关键厂商。

1、全新 GPU 架构:Ampere(安培)

2 个月的等待是值得的,本次 GTC 上,黄仁勋重磅发布了英伟达全新一代 GPU 架构 Ampere(安培)以及基于这一架构的首款 GPU NVIDIA A100。

A100 在整体性能上相比于前代基于 Volta 架构的产品有 20 倍的提升,这颗 GPU 将主要用于数据分析、专业计算以及图形处理。

在安培架构之前,英伟达已经研发了多代 GPU 架构,它们都是以科学发展史上的伟人来命名的。

比如 Tesla(特斯拉)、Fermi(费米)、Kepler(开普勒)、Maxwell(麦克斯维尔)、Pascal(帕斯卡)、Volta(伏特)以及 Turing(图灵)。

这些核心架构的升级正是推动英伟达各类 GPU 产品整体性能提升的关键。

针对基于安培架构的首款 GPU A100,黄仁勋细数了它的五大核心特点:

集成了超过 540 亿个晶体管,是全球规模最大的 7nm 处理器;引入第三代张量运算指令 Tensor Core 核心,这一代 Tensor Core 更加灵活、速度更快,同时更易于使用;采用了结构化稀疏加速技术,性能得以大幅提升;支持单一 A100 GPU 被分割为多达 7 块独立的 GPU,而且每一块 GPU 都有自己的资源,为不同规模的工作提供不同的计算力;集成了第三代 NVLink 技术,使 GPU 之间高速连接速度翻倍,多颗 A100 可组成一个巨型 GPU,性能可扩展。

这些优势累加起来,最终让 A100 相较于前代基于 Volta 架构的 GPU 在训练性能上提升了6 倍,在推理性能上提升了7 倍。

最重要的是,A100 现在就可以向用户供货,采用的是台积电的 7nm 工艺制程生产。

阿里云、网络云、腾讯云这些国内企业正在计划提供基于 A100 GPU 的服务。

2、Orin+安培架构 GPU:实现 2000TOPS 算力

随着英伟达全新 GPU 架构安培的推出,英伟达的自动驾驶平台(NVIDIA Drive)也迎来了一次性能的飞跃。

大家知道,英伟达此前已经推出了多代 Drive AGX 自动驾驶平台以及 SoC,包括Drive AGX Xavier、Drive AGX Pegasus以及Drive AGX Orin。

其中,Drive AGX Xavier 平台包含了两颗 Xavier SoC,算力可以达到 30TOPS,功耗为 30W。

最近上市的小鹏 P7 上就量产搭载了这一计算平台,用于实现一系列 L2 级自动辅助驾驶功能。

Drive AGX Pegasus 平台则包括了两颗 Xavier SoC 和两颗基于图灵架构的 GPU,算力能做到 320TOPS,功耗为 500W。

目前有文远知行这样的自动驾驶公司在使用这一计算平台。

在 2019 年 12 月的 GTC 中国大会上,英伟达又发布了最新一代的自动驾驶计算 SoC Orin。

这颗芯片由 170 亿个晶体管组成,集成了英伟达新一代 GPU 架构和 Arm Hercules CPU 内核以及全新深度学习和计算机视觉加速器,最高每秒可运行 200 万亿次计算。

相较于上一代 Xavier 的性能,提升了 7 倍。

如今,英伟达进一步将自动驾驶计算平台的算力往前推进,通过将两颗 Orin SoC 和两块基于安培架构的 GPU 集成起来,达到惊人的 2000TOPS 算力。

相较于 Drive AGX Pegasus 的性能又提升了 6 倍多,相应地,其功耗为 800W。

按一颗 Orin SoC 200TOPS 算力来计算,一块基于安培架构的 GPU 的算力达到了 800TOPS。

正因为高算力,这个平台能够处理全自动驾驶出租车运行所需的更高分辨率传感器输入和更先进的自动驾驶深度神经网络。

对于高阶自动驾驶技术的发展而言,英伟达正在依靠 Orin SoC 和安培 GPU 架构在计算平台方面引领整个行业。

当然,作为一个软件定义的平台,英伟达 Drive AGX 具备很好的可扩展性。

特别是随着安培 GPU 架构的推出,该平台已经可以实现从入门级 ADAS 解决方案到 L5 级自动驾驶出租车系统的全方位覆盖。

比如英伟达的 Orin 处理器系列中,有一款低成本的产品可以提供 10TOPS 的算力,功耗仅为 5W,可用作车辆前视 ADAS 的计算平台。

换句话说,采用英伟达 Drive AGX 平台的开发者在单一平台上仅基于一种架构便能开发出适应不同细分市场的自动驾驶系统,省去了单独开发多个子系统(ADAS、L2+ 等系统)的高昂成本。

不过,想采用 Orin 处理器的厂商还得等一段时间,因为这款芯片会从 2021 年开始提供样品,到2022 年下半年才会投入生产并开始供货。

3、英伟达自动驾驶「朋友圈」再扩大

本届 GTC 上,英伟达的自动驾驶「朋友圈」继续扩大。

中国自动驾驶公司小马智行(Ponyai)、美国电动车创业公司Canoo和法拉第未来(Faraday Future)加入到英伟达的自动驾驶生态圈,将采用英伟达的 Drive AGX 计算平台以及相应的配套软件。

小马智行将会基于 Drive AGX Pegasus 计算平台打造全新一代 Robotaxi 车型。

此前,小马智行已经拿到了丰田的 4 亿美金投资,不知道其全新一代 Robotaxi 会不会基于丰田旗下车型打造。

美国的电动汽车初创公司 Canoo 推出了一款专门用于共享出行服务的电动迷你巴士,计划在 2021 年下半年投入生产。

为了实现辅助驾驶的系列功能,这款车型会搭载英伟达 Drive AGX Xavier 计算平台。 前不久,Canoo 还和现代汽车达成合作,要携手开发电动汽车平台。

作为全球新造车圈内比较特殊存在的法拉第未来,这一次也加入到了英伟达的自动驾驶生态圈。

FF 首款量产车 FF91 上的自动驾驶系统将基于 Drive AGX Xavier 计算平台打造,全车搭载了多达 36 颗各类传感器。

法拉第未来官方称 FF91 有望在今年年底开始交付,不知道届时会不会再一次跳票。

作为 GPU 领域绝对霸主的英伟达,在高算力的数据中心 GPU 以及高性能、可扩展的自动驾驶计算平台的加持下,已经建起了一个完整的集数据收集、模型训练、仿真测试、远程控制和实车应用的软件定义的自动驾驶平台,实现了端到端的完整闭环。

同时,其自动驾驶生态圈也在不断扩大,包括汽车制造商、一级供应商、传感器供应商、Robotaxi 研发公司和软件初创公司在内的数百家自动驾驶产业链上的企业已经在基于英伟达的计算硬件和配套软件开发、测试和应用自动驾驶车辆。

未来,在整个自动驾驶产业里,以计算芯片为核心优势,英伟达的触角将更加深入,有机会成为产业链条上不可或缺的供应商。

基于架构创新,业内首款存算一体大算力AI芯片点亮

可以参考下面,根据一些网吧市场常用的显卡,整理的一份相关显卡的价格和算力以及预计回本期,大概可以做个参考:

Radeon RX 580显卡

整机功耗:243W

计算力:224M

显卡售价:1999元

每24小时挖ETH数量:0015

每24小时产生收益:2448元

预计回本时间:8166天

Radeon RX 470显卡

整机功耗:159W

计算力:243M

显卡售价:1599元

每24小时挖ETH数量:0017

每24小时产生收益:279元

预计回本时间:5731天

Radeon RX 480显卡

整机功耗:171W

计算力:244M

显卡售价:1999元

每24小时挖ETH数量:0017

每24小时产生收益:2787元

预计回本时间:7173天

扩展资料:

显卡(Video card,Graphics card)全称显示接口卡,又称显示适配器,是计算机最基本配置、最重要的配件之一。 显卡作为电脑主机里的一个重要组成部分,是电脑进行数模信号转换的设备,承担输出显示图形的任务。

显卡接在电脑主板上,它将电脑的数字信号转换成模拟信号让显示器显示出来,同时显卡还是有图像处理能力,可协助CPU工作,提高整体的运行速度。 对于从事专业图形设计的人来说显卡非常重要。 民用和军用显卡图形芯片供应商主要包括AMD(超微半导体)和Nvidia(英伟达)2家。 现在的top500计算机,都包含显卡计算核心。 在科学计算中,显卡被称为显示加速卡。

参考资料:

显卡 网络百科

5月23日,AI芯片公司后摩智能宣布,其自主研发的业内首款存算一体大算力AI芯片成功点亮,并成功跑通智能驾驶算法模型。 芯片“点亮”指电流顺利通过芯片,通常意味着芯片可用,后续测试修正后即可量产。

基于架构创新,该款芯片采用SRAM(静态随机存取存储器)作为存算一体介质,通过存储单元和计算单元的深度融合,实现了高性能和低功耗,样片算力达20TOPS(TOPS是处理器运算能力单位),可扩展至200TOPS,计算单元能效比高达20TOPS/W(TOPS/W是评价处理器运算能力的性能指标,用于度量在1W功耗的情况下处理器能进行多少万亿次操作)。 这是业内首款基于严格存内计算架构、AI算力达到数十TOPS或者更高、可支持大规模视觉计算模型的AI芯片(存内计算,顾名思义就是把计算单元嵌入到内存当中,是一种跳出传统计算机结构体系的技术)。 与传统架构下的大算力芯片相比,该款芯片在算力、能效比等方面都具有显著的优势。

据悉,该款芯片采用22nm成熟工艺制程,在提升能效比的同时,还能有效把控制造成本。 此外,在灵活性方面,该款芯片不但支持市面上的主流算法,还可以支持不同客户定制自己的算子,更加适配于算法的高速迭代。

在智能驾驶等边缘端高并发计算场景中,除了对算力需求高外,对芯片的功耗和散热也有很高的要求。 目前,常规架构芯片设计中内存系统的性能提升速度大幅落后于处理器的性能提升速度,有限的内存带宽无法保证数据高速传输,无法满足高级别智能驾驶的计算需求。 其次,数据来回传输又会产生巨大的功耗。 后摩智能基于该款芯片,首次在存内计算架构上跑通了智能驾驶场景下多场景、多任务算法模型,为高级别智能驾驶提供了一条全新的技术路径,未来有望更好地满足高级别智能驾驶时代的需求。

后摩智能是国内率先通过底层架构创新,进行大算力AI芯片设计的初创企业。 任何颠覆式创新都会面对极高的技术挑战,研发人员需要根据传统存储器件重新设计电路、单元阵列、工具链等,同时必须突破各种物理和结构上的技术难题。 此次芯片点亮成功,标志着其在大算力存算一体技术的工程化落地取得了关键性的突破。

后摩智能创立于2020年底,总部位于南京,在北京、上海、深圳均拥有技术团队。 截至目前,后摩智能已完成3轮融资,投资方涵盖红杉中国、经纬创投、启明创投、联想创投等头部机构,以及金浦悦达 汽车 、中关村启航等国资基金。

知存科技:深植存内计算市场蓬勃发展,开启更广泛的应用“芯”旅程

在AI时代的浪潮中,存内计算技术因其突破传统架构的限制,正日益成为智能计算的关键路径,备受业界瞩目。 知存科技作为这一领域中的先驱者,自2017年成立段唯以来,已经在存算一体市场崭露头角,其创新使用Flash存储器解决了AI领域的“存储墙”问题,显著提升了运算效率并降低成本。 2022年,知存科技推出了全球首款大规模量产的存内计算芯片WTM2101,成功应用于智能语音、AI健康监测等场景,相比于传统芯片,它在算力和功耗方面展现出显著优势,推动了行业用户在端侧AI能力的提升和应用的广泛应用。 接下来,知存科技的边缘侧算力芯片WTM-8系列即将投入量产,将助力移动设备在图像处理和空间计算方面实现性能提升。 2023年,知存科技在存内计算领域持续蓬勃发展。 凭借WTM2101的耐燃掘成功,公司在市场拓展、技术研发及行业认可上取得了显著成果,包括百万级的出货量、自主研发软件工具链的升级以及团队规模的扩大。 知存科技不仅关注市场需求,也积极应对挑战,如自主可控性与竞争加剧,致力于提供更高能效的AI算力,开发新一代昌核视觉芯片WTM-8系列,以适应端侧AI的严苛要求。 知存科技坚信,2023年是他们扩展应用范围、深化技术革新的一年。 在技术层面,他们将持续优化软件工具链并探索存储与计算的新突破;在市场领域,WTM2101将拓展至更多健康与医疗设备,同时推动WTM-8系列在图像处理和空间计算领域的广泛应用,并积极布局端侧大模型推理场景。 作为AI芯片行业的领导者,知存科技将不断推动存内计算技术的发展,为人工智能的广泛应用贡献力量。

公募三季报提供哪些线索 电风扇行情下
SE 4完整规格表和定价已泄露 像是一部简化的iPhone