M40机器学习装机记录 废品佬的Tesla

感谢这位大佬,他的文章详尽的列出了各种改造散热方法,帮我节省了散热试错成本: 里先森:Tesla M40 训练机组装与散热改造装机的来由是10月初的NovelAI热潮,当时我正在用的是一台性能平庸的机械革命笔记本,搭载的GTX1650跑NAIFU版本的NovelAI不免吃力,只好使用stable-diffusion的webui版本。

即便如此出图的大小和速度还是不尽人意,正好看到有公益哥自掏腰包拿几十张高性能A100建站给大家玩,因此萌生了自己组装一台电脑跑模型的想法。

在网上找了几圈后,最终选定了Tesla M40 24GB这张计算卡作为装机的核心。

这张卡单精度下计算速度达到了7TFlops,比我的3TFlops GTX1650要快不少,同时还有吃到撑的24GB显存,最主要的是它很便宜,很符合我这个穷大学生对赛博朋克的幻想。

在pdd上光速下单M40之后,我开始物色其他电脑配件,本着能用就行的废品佬准则,我最后折腾出了如下配置:很显然,这套配置其实并不便宜了,不过一开始并没有要打算上双路CPU,后面会讲我买双路的原因。

如果你想要抄我的配置,请仔细阅读后面的文字,避免像我这样踩坑多花钱。

另外整个配置都可以缩水,但我仍然建议你看看我的踩坑经历。

无数の坑1.主板主板很多时候总是被人无视重要性,即便是现在,我也认为它不过是各种电脑配件的载体,虽然花了不少代价。

让我说说这张浪潮M2220服务器主板的特点吧:内存槽,很多内存槽,20条内存槽;还有3PCIE16.0+3PCIE8.0。

不过买到手后发现一个巨大的问题:那就是显卡太长,被内存槽挡住了。

按照卡巴和图吧经典来,应该是锯显卡环节了,但是奈何我没有锯也没有技术,只能买了一条延长线。

因此,选择你的主板时留心内存槽是不是太多而出现在PCIE槽前方。

在诸多事宜之后发现主板不能认出M40,只能认出亮机卡,于是去问了主板商家:我:老板你好,这个主板好像只认插第一个PCIE槽的显卡,是什么情况? 老板:你有几个CPU? 我:1个呀。

老板:你看一下PCIE槽旁边有写CPU的,不同PCIE槽对应不同CPU的。

由于单个CPU必须在CPU0槽里,所以这就是我下单又买了块2680的原因。

因此,当你买双路主板却不打算买两个U时,仔细调查PCIE槽的玄机。

2.散热器一开始我忙着等各种配件到货,因此真正上电开机的时间是亮机卡送到后。

细节就不说了,当时用的还不是热管,是铝材散热片+服务器暴力风扇,我当时还不知道什么叫暴力风扇,总之最后风扇转速锁在了9000RPM,声音我估计大概有90分贝,反正也不想再去量了。

根据老板说法这种风扇压这个CPU还不能上减速线,主板也不带风扇调速功能,为了人身安全和听力买了两个塔式散热器,噪音总算是勉强过得去了。

因此,只要电脑是在有人的地方附近,不要配暴力风扇。

3.亮机卡这里是比较抽象的环节,先说重点,请确认亮机卡的VBIOS支持UEFI,如果你打算用核显输出那可以略过此节。

Tesla M40作为数据中心计算卡,它是没有显示输出的。

因此要么用亮机卡输出,要么用核显输出(如果你的U带核显的话)。

用核显输出的话能节省不少精力。

一开始我从闲鱼随便找了个带HDMI和VGA接口的亮机卡,Radeon HD 6570。

问题就在这里,为了正常使用Tesla M40,我们需要打开主板上的Above 4G Decoding选项以支持更宽的PCIE寻址,同时禁用CSM。

这样的教程挺多,但是我很不幸,踩到了一个他们很多人没说的坑,那就是我的亮机卡在关了CSM后嗝屁了。

严格来说是同时插着亮机卡和M40后嗝屁了,如果不插M40还能进入系统后加载AMD驱动正常输出,但插了M40后会直接进不去系统。

根据我搜到的内容,禁用CSM后加载Win驱动之前都会用VBIOS的UEFI驱动输出图像,然而HD 6570是没有支持UEFI的vbios的。

我猜测进不去系统是因为Above 4G Decoding和禁用CSM后会对所有PCIE设备都执行严格UEFI检查,在插了M40后Above 4G Decoding被隐式的真正启用了,因而无法进入系统。

至于怎么确认亮机卡是否支持UEFI,有的卖家会贴出GPU-Z的截图,看UEFI左边有没有打勾就行:或者上TechPowerup的VBIOS数据库: TechPowerUp,筛选到你要的亮机卡,点开会有一行UEFI Supported:这样即便你发现到手的亮机卡没有vbios,也可以自己刷一个,当然让商家给你刷更好。

4.机箱与改造散热尽管本文开头大佬的散热测试路程已经强调了,我还是需要指出,购买M40改造散热和机箱时,一定要计算好显卡最后长度是否超出机箱设计规格。

我的显卡最后超出了限长将近5mm,好在接触的地方是软壳,能够轻微变形而不产生很大的应力。

你需要什么卡?不止有Tesla M40 24GB这一张卡,其他的卡也可以是你的选择: NVIDIA CUDA GPUs - Compute Capability。

甚至你可以直接上Colab白嫖P100和V100,你都不用花钱,也不用踩坑,计算速度还比老旧的麦克斯韦架构M40快。

弄清你的需求是第一位的,这篇文章不能当正儿八经的装机指南看。

附赠:用M40渲染3D需求的指南(驱动直接从NVIDIA官网下载即可,但是需要另外下载PhysX)可以直接看这个,这里仅稍加补充:如果你电脑上除了插着的卡还有之前其他显卡的驱动,出现了奇奇怪怪的问题,并且用下面的方法还无法解决,最好直接用DDU彻底清除所有驱动再装一次。

我按照上面贴吧教程操作一通之后,Win10图形设置的高性能和节能选项依然只有R7 240这张亮机卡,即便在NVIDIA控制面板里设置对某个程序使用M40显卡依然不起效果,负载仍在亮机卡上。

最后我将亮机卡和Tesla计算卡两个项下面的AdapterType设为1,EnableMsHybrid亮机卡设为1,计算卡设为2。

重启后虽然节能选项显示的是M40,但指定后负载成功移交给了M40,至少能用了。

目前认为大家这块的差异可能是受显卡插槽位置和驱动安装先后顺序影响的,另外外网论坛上,有的建议是把计算卡下AdapterType的值从0到4都试一下,对此我认为也许可能有人用得着: /t...

暖气散热片用什么材料

暖气散热片常用材料包括钢、铝、铜以及复合材料。

1. 钢制散热片:具有良好的热传导性能和抗压性能。

它通常是通过钢管焊接而成,表面进行喷涂处理以提高防腐性能和使用寿命。

此外,钢制散热片成本相对较低,广泛应用于各种供暖系统。

2. 铝制散热片:以其轻巧、美观和良好的热传导性能受到青睐。

铝制散热片通常是通过压铸或铝型材加工而成,其表面经过特殊处理以提高耐腐蚀性和抗氧化性。

铝制散热片适合在小型供暖系统中使用,例如家庭暖气系统。

3. 铜制散热片:铜作为一种优质金属,具有出色的热传导性能和耐久性。

铜制散热片往往与高端供暖系统相关联,适合在大型建筑和商业场所中使用。

然而,铜的价格相对较高,使得铜制散热片成本较高。

4. 复合材料散热片:随着技术的发展,越来越多的暖气散热片采用复合材料制造。

这些散热片通常由钢和铝等不同材料组合而成,以提高热传导性能、降低成本并增强耐用性。

复合材料散热片在市场上越来越受欢迎,因为它们结合了不同材料的优点。

总的来说,暖气散热片的材料选择取决于应用场合、预算以及所需的性能。

在选择散热片时,应考虑其热传导性能、耐久性、成本以及防腐性能等因素。

此外,不同材料的散热片在外观上也存在差异,因此还需考虑与室内环境的协调性。

能用铝型材做散热器吗?

能,肯定能。

如果留意,会会发现,现在很多空调的室外机柜就是用的铝散热片。

如果没有注意过,下次有机会可以仔细看看。

很多收旧空调的人对空调的室外机散热很关注的。

如果是铜散热片,价格高不少,如果是铝散热片,价格就比较低。

LED散热器上喷漆影不影响散热功能
屏蔽罩产品单重计算公式