文章目录
到货验收先盯电源端子温度
电源端子温度、进风口温度、出风口温差、单板算力波动、风扇转速、电源输入电压、网口掉包、螺丝松动痕迹、包装受潮、SN 与采购单是否一致,这些变量在矿机到货后的前两小时就要看完。我的习惯是,机器还没上架之前,先把能在地面解决的问题解决掉。因为一旦进了机架,线缆绑好、风道封好、批量开跑,很多小问题就会变成停机工单,维修成本也会被放大。
矿机硬件验收不是拆箱拍照,也不是点亮就算通过。尤其是现在新旧批次、返修机、翻新电源、混装风扇都可能混在一批货里,真正考验矿场的地方,是能不能在上架前把风险拦住,在上架后把异常尽快定位,在巡检时把易损件提前换掉。
下面这套流程,是站在硬件验收工程师的角度写的。它不追求花哨,但适合今天就拿去给到货、上架、巡检和备件管理用。
准备:货车到门口之前,验收区要先空出来
很多矿场的验收问题,不是出在工程师不会看机器,而是现场没准备好。货车到了,托盘一卸,叉车、搬运、仓库、机房值班都挤在一起,最后只能边拆边上架。这样最容易漏掉运输损伤和批次差异。
到货前,验收区至少要有三样东西:临时通电位置、扫码记录工具、待检与已检分区。临时通电不是随便找个插排,而是要有能承受矿机启动电流的电源回路,电压也要提前测过。很多电源问题在启动瞬间才暴露,如果验收区供电本身就不稳,后面判断会很混乱。
扫码记录也不要只拍箱号。每台机器的机身 SN、电源 SN、控制板信息、运输箱标签都要对应上。遇到整批机器外观一致但内部批次不同的情况,后续一旦出现同一批电源发热、同一批风扇异响,靠这个记录才能快速圈定范围。
备件也要提前摆在验收区边上。常用风扇、电源线、网线、控制板、电源模块、螺丝、扎带、标签纸、酒精棉、压缩空气罐或气枪,都别等机器出问题再去仓库找。验收现场最怕“先放一边”,放着放着就忘了,最后混入正常机器上架。
如果是二手机或返修机,还要提前定好更严格的标准。比如散热片积灰是否明显、外壳是否变形、螺丝孔是否滑牙、接口是否有烧蚀痕迹、风扇叶片是否有裂纹。二手机最不能只看开机算力,很多问题会在运行两三小时后才露出来。
执行:拆箱时先看运输伤,再看通电表现
拆箱第一眼,不看算力,看包装。外箱有没有压塌、泡水、重新封箱痕迹,内衬泡棉有没有碎裂,机器四角有没有撞击印。矿机在运输中受力后,外壳可能只是轻微变形,但内部散热片、风扇轴承、电源插头已经吃过一次冲击。
机器拿出来后,先做外观检查。风扇护网是否凹陷,风扇转动是否刮擦,算力板插接处有没有松动,电源端口有没有发黑、变色、异味。尤其是电源端子,哪怕只有一点轻微发黄,也要单独标记。高负载运行后,这类位置最容易发热,严重时会烧线、烧座,甚至带来整排停机风险。
通电测试不要一上来就满负载长期跑。先短时间点亮,看控制板能否正常识别,风扇是否同步起转,网口灯是否稳定,后台是否能读到板卡。确认基础状态正常,再进入测试池或低风险矿池跑一段时间。
这里建议把首轮测试分成冷机启动和热机稳定两段。冷机启动看的是启动过程有没有报错,风扇、电源、控制板是否配合正常;热机稳定看的是温度爬升后,算力是否掉板、芯片温度是否分散异常、电源端子和线缆是否过热。
我在现场会用测温枪或热成像重点扫几个位置:电源输入端、矿机电源输出线束、算力板供电连接处、风扇电机位置、机身两侧出风位置。不要只看系统显示温度,系统温度反映的是芯片和板卡,线缆、端子、插头的发热,很多时候面板不会替你报警。
有些机器算力正常,但出风温差明显偏低,说明风道可能有问题;有些机器芯片温度不高,但电源端子温度高,说明接触或线径可能有隐患;还有些机器风扇转速一直拉满,却压不住温度,要怀疑风扇型号、方向、灰尘或散热片贴合问题。
检查:上架之后,别把“能跑”当成“验收完成”
机器通过地面测试后,上架不是结束,而是第二轮验收开始。机架环境和验收区不一样,风压、电压、线缆走向、相邻机器热风回流,都会改变机器表现。
上架时第一件事是核对供电。每条 PDU、每个空开、每组线缆承载多少台机器,要按实际功率算,不能按“以前这样接没事”来处理。新机功率、旧机老化、电源效率、环境温度变化,都会让原本刚好够用的供电变得危险。
电源线插好后,要检查插头是否完全插入,线缆有没有被机架边缘压住,线束有没有贴近出风口。很多烧线事故不是电工不会接,而是线缆在高温区长期受热,外皮老化后接触变差,最后电阻升高继续发热。
上架点亮后的前 30 分钟很关键。不要批量开机后就去看总算力,而要抽样看单机表现。关注每台机器的板卡识别数量、芯片温度差、风扇转速差、拒绝率、掉线记录。新到的一批机器,如果同型号中有几台温度明显偏高,要先查位置,再查机器。位置不变、换机后问题跟着机器走,才说明是硬件本身问题。
巡检不能只靠系统告警。现场听声音也很重要。风扇轴承异响、叶片擦网、机身共振、电源啸叫,很多都能在故障前被听出来。老工程师巡机时常说“这台声音不对”,其实背后是经验判断:同一排机器,正常噪声应该接近,突然冒出尖锐声、断续声,就值得停下来查。
灰尘也是验收后的重点。到货新机如果运行几天就发现进风面灰尘堆积异常,不一定是机器问题,可能是机房过滤、负压或风道设计不合理。验收工程师要把这类情况写进记录,因为它会直接影响后续维修周期和备件消耗。
备件:别等坏了再决定买什么
备件管理是矿机硬件验收的一部分。很多矿场平时舍不得备件,结果一坏就是整台停机等配件。以现在的收益波动看,少停一天往往比压低备件库存更划算。
风扇是最典型的易损件。验收时如果发现同一批机器风扇品牌、转速、噪声差异较大,要提前按比例备货。风扇坏了不只是降温问题,还可能引发芯片高温保护、算力板降频甚至长期热损伤。
电源和电源线也要单独管理。电源模块不要随意混用,尤其是不同批次、不同功率等级、不同接口形式的电源。换电源时要记录原电源 SN、故障表现、替换时间、替换后温度和功率表现。只换不记,后面根本判断不出是机器吃电异常,还是电源批次有问题。
控制板、网线、PDU 端口、风扇线、螺丝这些小件也别忽视。现场维修最浪费时间的,经常不是大件没有,而是缺一根合适的线、少一个固定螺丝、找不到标签。验收区和机房维修车上,应该各有一套常用备件,不要所有东西都锁在远处仓库。
备件还要有“可用性检查”。放了半年的风扇,拿出来可能轴承已经干涩;备用电源长期不用,也要定期通电测试;网线、水晶头、转接线要避免受潮和被压折。备件不能只是账面有,要现场拿起来就能用。
回滚与复盘:异常机器不要硬扛到自然坏
验收工程师最容易被催的一句话是:“先上架跑着吧。”但有些机器不能带病上架。比如电源端子温度异常、风扇异响明显、板卡反复识别失败、机身有撞击变形、接口有烧蚀味,这些问题一旦进机架,后面处理成本更高。
回滚流程要简单明确。哪类问题直接退回待检区,哪类问题允许更换备件后复测,哪类问题要隔离等待供应商确认,都要提前写清楚。不要让现场临时争论“这台算不算合格”。
复测也要留时间。换风扇后至少要观察温度和转速;换电源后要测输入端和输出线束温度;换控制板后要看一段时间掉线和板卡识别情况。维修完成后立刻判定合格,很容易把间歇性问题放过去。
每批机器验收完,还要做一次复盘。不是写几句“整体正常”,而是把问题按类型统计出来:运输损伤多少台、风扇异常多少台、电源发热多少台、板卡识别异常多少台、现场换件多少台、退回多少台。这个记录会影响下一批采购、物流要求、供应商扣款、备件比例和机房巡检重点。
如果一批机器里同一种故障集中出现,不要只处理单台。比如同批电源端子温度普遍偏高,就要扩大抽检;同批风扇噪声偏大,就要增加运行观察;同批包装有受潮痕迹,就要检查仓储和运输链路。验收不是为了抓几台坏机,而是为了判断整批货能不能放心投入运行。
今天如果你负责一批矿机到货,建议先做一个很具体的动作:在验收区准备测温工具和标签纸,把每台机器电源端子温度、风扇状态、上架位置、替换备件记录写到同一张验收单里。机器能不能长期稳跑,很多答案不在算力面板上,而在这些到货当天就能看见的小细节里。
