文章目录

挖矿软件的日常运维正在从会自动跑，转向每一次配置变更都有账可查

挖矿软件的日常运维正在从会自动跑，转向每一次配置变更都有账可查

凌晨 2 点 17 分，我被值班群里一条截图叫醒：同一排 36 台机器的算力曲线同时下坠，矿池端显示离线，现场电工说配电柜没有跳闸，交换机灯也在闪。最开始大家都以为是网络抖了一下，直到我登录运维面板，才发现半小时前有人把一组矿机的挖矿软件配置模板改了，矿池地址末尾少了一段参数，自动下发又刚好覆盖了整排机器。

这不是特别大的事故。没有烧板，没有丢钱包，也没有造成长时间停机。真正麻烦的是，第二天复盘时我们花了很久才确认三个问题：谁改的配置、改了哪一项、为什么自动化任务会把错误扩散到 36 台机器。

对矿场来说，挖矿软件越来越自动化本来是好事。批量配置、自动切矿池、异常重启、定时升级，确实省了不少人力。可从运维工具管理员的角度看，自动化越多，越不能只盯“有没有跑起来”。现在更重要的是：配置有没有账本，版本能不能退回去，账号权限有没有边界。

这次事故并不是软件坏了，而是配置被当成了临时笔记

当天的问题很小：一个配置模板被手工修改，少填了一段矿池连接参数。按理说，这类错误只会影响测试机器。但我们的自动化任务设置得太顺手了，模板一保存，就触发了“同步到绑定分组”的任务。

问题出在两个地方。

第一，配置模板没有版本备注。面板里能看到最后修改时间，却看不到修改原因。那个人原本只是想给两台测试机换一个备用矿池，图省事直接改了现有模板，没有新建测试模板。

第二，绑定关系太宽。这个模板不仅绑定测试机，还绑定了一个生产分组。以前为了方便批量维护，大家把相似型号、相似算法的机器都挂在同一个模板下面。平时省事，出错时就变成放大器。

第三，自动化任务没有二次确认。保存配置后，系统直接下发，没有提示“将影响 36 台设备”。值班人员看到任务执行成功，还以为这次修改已经完成，直到矿池端掉线才发现不对。

很多矿场现在都会用挖矿软件管理工具，但配置管理还停留在“谁熟谁改、谁方便谁发”的状态。小场景里没事，一旦机器数量上来，配置就不再是几行参数，而是一套会影响收益的生产资料。

最容易误判的是把自动化成功当成运维成功

这类事故复盘时，大家第一反应通常是追问软件为什么没有拦住错误。这个问题当然要问，但更常见的误判是：任务执行成功，就等于运维动作成功。

挖矿软件里的自动化，大多只能证明一件事：命令已经下发，脚本已经执行，进程已经重启。它不能替你判断这次改动是不是合理，也不能保证被影响的范围就是你想要的范围。

比如配置矿池地址，工具可以检查字段不为空，却很难知道这个地址是不是应该给这批机器用。比如调整抽水设置、显卡参数、算法优先级，系统能保存，却未必知道这是不是经过审批的生产配置。再比如升级挖矿软件版本，面板显示版本一致，不代表新版本在当前驱动、内核、矿池协议下都稳定。

所以运维管理员看自动化，不能只看“成功率”，还要看三个具体口径。

一是影响范围。这个任务到底打到几台机器、几个机架、几个矿池账户？如果看不到数量，就不能直接执行。

二是变更内容。修改前后差异是什么？是换地址、换钱包、调参数，还是升级二进制文件？如果只有“已保存”，没有差异对比，复盘时一定会浪费时间。

三是验证结果。配置下发后，至少要看连接矿池是否恢复、拒绝率有没有异常、算力曲线是否在合理区间，而不是只看进程是否启动。

自动化不是为了让人少负责，而是让重复动作少出错。责任链如果不清楚，自动化只会让错误跑得更快。

配置账本要记的不是流水账，而是能还原现场的证据

后来我们给挖矿软件管理面板加了一套配置账本。名字听起来有点重，其实核心很简单：每一次生产配置变更，都必须能回答五个问题。

谁改的？

什么时候改的？

改了哪几项？

为什么改？

影响哪些机器？

这五项缺一项，事故复盘就会变成猜谜。

很多人做配置记录，只是把操作日志打开。比如“用户 A 修改配置”“用户 B 执行任务”。这类日志有用，但不够。真正能救命的是差异记录。比如矿池地址从哪个值变成哪个值，钱包字段有没有变化，软件启动参数新增了什么，版本号从多少变到多少。

对挖矿软件来说，配置账本至少应该分三层记。

第一层是模板账。所有矿池地址、钱包地址、算法参数、启动参数，都不要只保存在最终文本里，而要有模板版本。模板名也不要随便叫“新配置”“测试 1”“备用”，而要写清楚用途，例如“L7-莱特币主池-生产”“GPU-ETC-小规模测试”。

第二层是机器账。同一台机器现在使用哪个模板、上一次使用哪个模板、从哪一天开始切换，都要能查。否则一台机器跑偏了，你不知道它是被主动改过，还是被批量任务误带过去的。

第三层是任务账。哪一次批量下发涉及多少台设备，成功多少台，失败多少台，失败原因是什么，执行人是谁。这部分不能只留在聊天记录里，更不能靠值班人员记忆。

账本不是为了追责吓人，而是为了减少争吵。矿场现场最怕出事后每个人都说“我只是改了一点点”。有了账本，问题能从“谁觉得”回到“记录显示”。

版本管理不能只留最新版，稳定版和可退版都要保留

挖矿软件升级也是同样道理。很多团队喜欢追最新版，看到某个版本提升算力、降低拒绝率，马上批量推。可从运维角度看，最新版不等于生产可用版。

我现在更愿意把挖矿软件版本分成三类。

一类是生产稳定版。它未必最新，但在当前机器型号、驱动版本、矿池协议下跑过足够长时间，问题可控。大部分机器应该留在这一类。

一类是小范围验证版。新版本先放到少量机器上，最好覆盖不同机架、不同温度区间、不同网络条件。验证周期不要只看一两个小时，至少要跨过一个完整结算周期，观察拒绝率、掉线次数、进程重启次数。

一类是回退保留版。这个版本的意义不是继续推广，而是在新版本出问题时能立刻退回来。很多事故里，真正拖时间的不是发现新版本有问题，而是找不到之前能跑的包、找不到对应配置、找不到旧启动参数。

版本管理最忌讳“覆盖安装”。今天上一个新包，明天再改一个脚本，后天又调整矿池参数，最后出了问题，谁也说不清到底是哪一项引起的。

更稳妥的做法是把软件包、配置模板、启动脚本和驱动依赖一起绑定成一条版本记录。比如某批机器当前运行的是某个挖矿软件版本、某个配置模板、某个驱动版本、某个内核环境。这样回退时不是只退一个程序，而是退回一组已经验证过的组合。

权限边界要按动作拆，不要按人情给

事故复盘里还有一个问题比较尴尬：为什么一个值班账号能改生产模板，还能直接触发批量下发？

答案很现实：以前人少，大家都要能救火。账号权限给得宽，确实方便。可机器多了、软件多了、模板多了，权限继续按“信任谁”来给，就会出事。

挖矿软件运维里的权限，最好按动作拆开。

能查看算力的人，不一定能改配置。

能改测试模板的人，不一定能改生产模板。

能保存配置的人，不一定能批量下发。

能执行重启的人，不一定能升级软件版本。

能新增矿池地址的人，不一定能修改钱包字段。

尤其是钱包地址、矿池账户、抽水相关参数，应该单独加一道限制。不是每个值班人员都需要碰这些字段。很多风险不是黑客进来才发生，内部误操作同样会造成收益偏移。

还有一点容易被忽略：机器人账号、脚本账号、API Key 也要有边界。很多自动化任务为了省事，直接使用管理员权限。平时看不出问题，一旦脚本写错，影响范围比人工操作更大。自动化账号应该只拥有完成任务所需的最小权限，能重启就不要给它改钱包，能读取状态就不要给它下发配置。

权限不是越收越好，而是要让每个账号的能力和职责匹配。真正紧急时，可以有临时授权，但临时授权必须有时间限制和操作记录。

下一步怎么做：先把三件小事落地

如果矿场已经在用挖矿软件管理工具，今天不一定要马上换系统，也不必一下子做很重的流程。更实际的做法，是先把三件小事做起来。

第一，给所有生产模板建一份配置账本。哪怕先用文档或表单，也要把模板名称、用途、绑定机器、矿池地址、钱包字段、启动参数、最近修改人记录下来。重点不是形式漂亮，而是出事时能查到前后差异。

第二，设一个小规模验证分组。以后任何挖矿软件升级、矿池切换、参数调整，都先打到这个分组。验证指标要写清楚：算力波动、拒绝率、掉线次数、温度变化、进程重启次数。没过验证，不允许推到整排机器。

第三，把生产配置下发权限拆出来。值班账号可以处理常规重启和查看状态，但生产模板修改、钱包字段变更、批量下发，至少要由不同权限确认。脚本账号也要单独检查一次，取消不需要的管理员能力。

挖矿软件以后还会继续变得更自动，矿池策略、算法切换、收益调度也会越来越依赖工具。但对运维管理员来说，真正能减少事故的不是多一个自动按钮，而是每一次配置变化都能查、每一个版本都能退、每一个账号都知道自己不能做什么。

今天发布前，建议矿场先做一个最简单的自查：随机挑 10 台机器，查清它们当前使用的配置模板、软件版本、最近一次变更记录和可用回退版本。如果这四项有一项说不清，就先别急着上新功能，把账补上。

Post Views: 5

挖矿软件的日常运维正在从会自动跑，转向每一次配置变更都有账可查

挖矿软件的日常运维正在从会自动跑，转向每一次配置变更都有账可查

这次事故并不是软件坏了，而是配置被当成了临时笔记

最容易误判的是把自动化成功当成运维成功

配置账本要记的不是流水账，而是能还原现场的证据

版本管理不能只留最新版，稳定版和可退版都要保留

权限边界要按动作拆，不要按人情给

下一步怎么做：先把三件小事落地

今天追多前，先看永续费率是不是已经把回撤写在盘面上

验收第一台矿机时，别急着看收益，先把七天排障表填完整

发表回复取消回复

挖矿软件的日常运维正在从会自动跑，转向每一次配置变更都有账可查

这次事故并不是软件坏了，而是配置被当成了临时笔记

最容易误判的是把自动化成功当成运维成功

配置账本要记的不是流水账，而是能还原现场的证据

版本管理不能只留最新版，稳定版和可退版都要保留

权限边界要按动作拆，不要按人情给

下一步怎么做：先把三件小事落地

今天追多前，先看永续费率是不是已经把回撤写在盘面上

验收第一台矿机时，别急着看收益，先把七天排障表填完整

相关推荐

发表回复 取消回复

发表回复取消回复