矿机到货当天先留足验收余量

文章目录

矿机到货当天先留足验收余量

风道方向、进风温度、三相电压、PDU 负载、网口灯状态、固件版本、算力板温差、风扇转速、外壳磕碰、SN 码、包装封签、随机线材、备件批次,这些变量如果等机器已经上架跑起来再补查,现场通常会乱成一团。作为硬件验收工程师,我最怕的不是某一台矿机开不了机,而是一批机器在没有留痕、没有分区、没有备件预案的情况下被匆忙推进机架,等到第二天掉板、过温、重启,才发现连问题属于运输、供电、散热还是原厂品控都说不清。

矿机硬件验收不是简单点数,也不是插上电看算力。到货、上架、巡检、维修、备件,每一步都要给后面的运维留证据。尤其现在很多矿场追求快速投产,物流一到就想当天满架开跑,但矿机是高功耗设备,散热和供电一旦没有在验收时压住,后面每一次停机都会变成收益损失、人工损失和责任扯皮。

下面这套流程,是我在现场更愿意执行的做法。它不追求好看,追求的是出问题时能快速定位、能换件、能回滚、能复盘。

准备:机器还没拆箱,验收边界要先定清楚

到货前一天,验收工程师要先把三个范围确认好:这批机器归哪个区域上架,现场电力容量能不能接住,备件和维修工位是否已经准备好。

很多问题不是出在矿机本身,而是出在“临时决定”。比如一批机器原计划放在 A 区,结果当天因为机架空位变化,被临时挪到 B 区。A 区是冷风直送,B 区靠近回风口,进风温度高了几度;A 区 PDU 负载还有余量,B 区某一相已经偏高。机器本身没坏,但跑两小时后温度报警、风扇拉满、算力波动,现场就会误以为是硬件批次问题。

验收前要把机架位置、电源回路、网络端口、IP 分配、矿池配置和管理系统分组提前写清楚。不是为了做文档而做文档,而是为了避免后面排查时所有人只会问一句:“这台机器原来应该在哪?”

拆箱工具也要提前准备。拍照用的手机或相机、电笔、万用表、红外测温仪、标签纸、扫码枪、备用网线、备用电源线、风扇、控制板、常用螺丝、扎带、防静电手环,都应放在固定位置。验收现场最浪费时间的动作,往往不是检测,而是找工具。

还有一个容易被忽略的准备项:坏件暂存区。到货发现外壳变形、风扇裂角、接口松动、包装进水,不能随手堆在通道边,要有单独位置,贴上编号,写明问题和发现时间。否则等供应商来核对时,现场已经分不清这是到货损伤,还是搬运过程造成的二次损伤。

执行:拆箱不是开盲盒,要一台一台留下证据

真正拆箱时,我建议按照“外观、编号、配件、接口、内部可见部位”的顺序走,不要一上来就通电。

外观先看包装是否变形、封签是否异常、泡棉是否破损。矿机运输中最怕的是重摔和受潮,前者可能导致散热片松动、算力板变形,后者可能给电源和接口埋下隐患。包装有问题的机器不要和正常机器混在一起,应先拍照,再开箱,再单独记录。

编号要核对 SN 码、箱标、机身标、系统识别信息是否一致。很多矿场后期维修混乱,根源就是验收时没有把机器编号和机架位置绑定。建议每台机器从拆箱开始就形成一条记录:箱号、机身 SN、上架位置、PDU 端口、网口、初始固件版本、首次通电时间。以后这台机器掉板、换风扇、返修,都能顺着这条记录查。

配件检查别嫌琐碎。电源线规格是否匹配,插头有没有松动或烧蚀痕迹,随机配件是否齐全,这些都要看。尤其是高功耗矿机,不合规格的线材可能短时间能用,长时间跑满就会发热,轻则跳闸,重则烧接口。

接口和可见部位要重点看电源接口、网口、风扇线、控制板排线、散热片固定状态。验收不是拆机维修,不建议随意打开不该打开的封条,但可见范围内的松动、歪斜、异物、裂纹一定要记录。现场经验里,很多“上架后无算力”的机器,其实在拆箱时就已经能看到排线没插牢、风扇线卡得不对。

通电测试要分批,不要整排同时开。新到机器第一轮通电,我更愿意每组少量机器先跑起来,确认电压、电流、风扇转速、温度曲线正常,再扩大范围。全场一起开,看似省时间,实际上如果某一路供电有问题,你会得到一堆同时报警的机器,排查难度会翻倍。

上架:散热和供电要按现场条件验,不要只信标称参数

矿机参数表里的功耗和风量,只是参考。验收工程师要看的,是机器在现场环境里能不能稳定工作。

上架前先确认风向。进风侧和出风侧不能混,冷热通道不能被纸箱、线缆、挡板堵住。很多新机刚上架时温度不高,但运行几小时后热风回流,进风温度逐渐爬升,算力板温差变大,风扇开始长时间高转。这个问题如果在验收当天没发现,后面会被误判成机器质量差。

供电要看三件具体事:电压是否稳定,PDU 和线缆是否发热,三相负载是否偏得太明显。矿机不是普通办公设备,几台机器叠加后电流很快上来。验收时不要只看“能开机”,还要在运行一段时间后摸线缆温升、测接口温度、看空开状态。遇到插头偏热、PDU 某一段温度异常、机器偶发重启,不要急着换矿机,先查供电。

上架布线也影响维修效率。电源线和网线不要乱缠,机器编号标签要露在外面,风扇位不要被线压住。维修时最怕拔错线,尤其夜班处理故障,如果标签混乱,原本一台机器的问题可能变成一排机器掉线。

网络验收同样要做。网口灯亮不代表网络稳定,管理系统能看到机器也不代表配置没问题。新机上架后要确认 IP、矿池地址、工人名、固件版本、时区时间是否正确。工人名错了,机器照样跑,但收益可能挂到错误账户;固件版本混杂,后面批量调整时可能出现不同反应。

巡检:新机前几天别只盯总算力,要看异常的形状

新到矿机最关键的观察期,不是开机那十分钟,而是上架后的前几天。硬件隐患往往要在温度变化、长时间负载、夜间低人手情况下才露出来。

巡检时不要只看总算力是否达标。总算力正常,不代表每台机器都健康。要看单台机器的算力波动、算力板温差、芯片温度、风扇转速、电源状态和重启记录。一台机器如果总算力还行,但某块板温度明显高、某个风扇长期满速,就应该提前标记。它可能不是今天坏,但很可能在下一次高温或灰尘积累后先掉队。

散热巡检要结合现场走一遍。站在进风侧看是否有热风回灌,走到出风侧看热量是否排得出去,用红外测温仪扫 PDU、插头、线缆、机身出风口。不要只坐在电脑前看面板。面板告诉你机器报没报错,现场温度告诉你为什么会报错。

供电巡检要特别关注“偶发”。比如某几台机器每天凌晨重启一次,或者行情波动时矿池切换后掉线,表面看像软件问题,实际可能是电源余量不足、线路接触不稳或某一相负载过高。硬件验收工程师要把这类问题从一开始就记录下来,不然维修人员只会反复刷固件、换网线,真正的问题还在电柜里。

维修记录要和巡检记录连起来。换过风扇的机器、重插过排线的机器、清过灰的机器、调过位置的机器,都要标注。没有维修记录,后面判断批次质量就没有依据。比如同一批机器里连续出现同型号风扇异响,就不是单台偶发,而是备件采购和供应商反馈都要跟上。

备件:别等机器停了才发现少一个风扇

矿场备件不是越多越好,而是要和机器型号、故障频率、维修能力匹配。验收新机时,就要同步确认备件是否到位。

常见备件至少包括风扇、电源、控制板、网线、电源线、接口件、螺丝和少量常用线束。不同型号的风扇、电源不一定通用,不能只写“风扇若干”。备件箱里要按型号分格,贴清楚适配机型和入库时间。现场最耽误事的情况,是大家都以为有备件,打开箱子才发现接口不对。

备件也要验收。新风扇要试转,新电源要做基本通电检查,控制板要确认版本和适配关系。坏备件混进好备件区,是维修现场的大坑。维修人员换上去发现问题还在,可能会误判算力板损坏,进一步扩大排查范围。

还有一点很现实:备件要放在维修人员拿得到的地方。锁在办公室、钥匙不在夜班手里,等于没有备件。可以设定领用记录,但不要把流程设计得太死。矿机夜间停机一小时就是一小时损失,备件管理要兼顾可追踪和可使用。

回滚和复盘:验收没通过的机器,不要硬塞进生产区

如果一批机器里出现异常,不要为了完成上架数量硬推。验收工程师要有权把问题机器拉出生产队列。

回滚动作要简单明确:标记异常机器,断电下架,移到待检区,保留原始照片和日志,记录上架位置、供电端口、故障表现和处理动作。如果只是轻微问题,比如风扇线松动,处理后可以重新跑压力测试;如果涉及电源异味、接口发热、外壳严重变形、反复掉板,就不要继续赌,直接进入返修或供应商确认流程。

复盘时不要只问“坏了几台”。更有价值的问题是:异常集中在哪个机架、哪一路供电、哪个温区、哪个运输箱号、哪个固件版本、哪个配件批次。这样才能判断是单机故障,还是现场条件、物流损伤、备件问题或批量品控问题。

对矿场来说,验收工程师不是给机器盖章的人,而是帮生产区挡风险的人。今天能多花半小时核对线缆温度、风扇状态和备件型号,后面可能少一次半夜停机、少一次返修争议、少一排机器误停。

今天如果有新矿机到场,建议现场立刻做一个动作:随机抽几台已经上架的机器,重新核对 SN、机架位置、PDU 端口、进风温度、风扇转速和备件适配情况。只要其中有一项对不上,就先别急着继续上架,把验收记录补齐,再让机器进生产区。

矿机到货当天先留足验收余量

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

微信扫一扫,分享到朋友圈

矿机到货当天先留足验收余量
返回顶部

显示

忘记密码?

显示

显示

获取验证码

Close