如何让 AI 成为 24 小时牛马：我的个人项目实践

本文为人工制造，绝对是人类智慧的结晶，没有 AI 成分，请放心阅读。

本文将包括「如何注册账号」「如何报销」「Vibe Coding」「模型选择」「免费模型哪里找」「如何全自动 CI CD」「如何废物 Mac 再利用」「Codex + Hermes」「如何组网让你随时验收和控制」等大量经验包。

脱敏拖更了好几周……然后就凑合看吧，AI 时代真的好难，拖更 = 过期……

引言

在公司提供报销手段之后我就一直想着怎么样把 100 美刀的套餐薅出最大价值，结合自己最近做的完整个人项目实践给大家从头到尾把有的没得全分享一遍。

账号篇

注册账号最好的时间是三年前，其次是现在。

我们这里只以顶级互卷的 Claude 和 GPT 两个作为选项，剩下的没啥好看的。

账号注册

无论是 GPT 还是 Claude，我都有在公司登录使用然后被封号的经验，加上原则上报销本身是用于大家学习和个人项目使用的，所以不建议直接登录，从公司的 IP 出口注册。

查看 IP 风险性可以参考：https://ip.net.coffee/claude/，这里同时也能看出一些 Claude 的探测规则：

当然，实在想用公司的电脑，虽然 ClashX 是被 ban 的，但是 Clash Verge 没有，所以原则上可以使用 Clash Verge 代理 Claude / OpenAI 的流量，其他都 bypass 来用。

如果不纯净的 IP 还会遇到需要接收短信验证码的情况（OpenAI 没触发这个情况，没有总结），此时有两个方案：

使用接码平台，比如：https://hero-sms.com/cn，但是最低充值比你要用的多，有点浪费（封号了之后可能就又有用了）
尝试进：https://claude.ai/settings/account销号后换纯净 IP 重新注册，我之前成功过，要求你收验证码等于账号已注册但又不能访问其他内容的状态，完整销号等于删库跑路。

要防止封号，还有两点可以注意，当然不是说用了就 100% 会封号：

不要使用 sub2api
Claude Code 不接入小龙虾或类似工具

当然，Claude 已经开始逆天的加入了身份证验证了：https://support.claude.com/en/articles/14328960-identity-verification-on-claude——见过灰产群，没加……可以找找。

付费与报销

免费的套餐基本上就是在页面上简单体验一下功能，此时人类容易陷入两类错觉，因为没法充分体验完全体而陷入脑补和认知错位：

哇好牛逼
就这？

通常会符合达克效应中的两个主要位置

因此建议大家付费体验，Claude 由于砍了 Pro 用户对于 Claude Code 的体验权（说是灰度），加上本身 Token 实在太贵了 20 美刀对话两次就没了，推荐 100 美刀版本；GPT 老板比较大气，可以先选择 20 美刀体验完整功能后发现自己老是被额度限制再升级。

付费这一块如果你没有海外信用卡（不是指国内银行开通的双币或者外币卡，而是外国银行开通的），那么最佳的选择其实是 Google 或者 Apple Store，通过移动设备支付完了之后全平台体验。

中区账号在商城是下不到 Claude/ChatGPT 的，所以需要一个海外账号。

海外账号最轻松的注册方式是全程连着海外节点不断开，此时出生就是海外账号，转区手续就复杂了。

个人推荐所有家里有安卓手机的同学使用 Google Play 而不是苹果，因为 Google Play 可以使用礼品卡以外的渠道（比如绑你的信用卡）支付，而 Apple 现在绑不上国内银行卡了，需要礼品卡支付。另外据说 Google 封号就退款没有限制（我确实被退过），而苹果有退款次数上限。

而在付钱这块，如果你想先进模型二选一，推荐先 GPT 体验 Codex 全家桶，以精神日本人为例，日元结算 20 美刀套餐的价格 < 美元结算，100 美刀略贵；而 Claude 则因为把苹果税+日本人税都算在用户头上贵得离谱。（付完钱后我自闭了一晚上）

从零开始的项目实践

要想让 AI 成为 24 小时牛马，auto 模式是个必须品。

在付费开通 Claude 100 美刀套餐的一个月里我并行了三个项目，两个是 Web，一个是安卓，100% AI 编写，我甚至连 IDE 都没有打开过。

整体实践后我的结论是：人，还是得懂点继续，PUA AI 写代码，也得讲究方式方法，具体踩的坑包括：

我无脑的把我想要的效果一股脑的全塞给 AI，自以为是的给了他一堆参考链接和我想要的效果，然后成功的翻车了。
我在没有任何安卓基础的情况下让他写游戏辅助，在我当人肉测试几个小时后结论是：由于游戏屏蔽了上层模拟事件，所以得有 root 权限使用底层事件——浪费了几个小时和很多 token。

项目 1：游戏编队自动生成

开局：一个不靠谱的老板

一个毫无游戏性的手游伤害计算公式却异常复杂，编队探索更是难如登天。

这里就不介绍具体的伤害计算公式是怎么样的，总是就是一个异常复杂拥有超多变量+随机数的伤害计算，加上一些调度策略 = 结果。

但是刚开始的时候我给的需求大概是：

我什么都不知道，但你可以去网站 A 学习伤害是怎么计算的，开源项目 B 有战斗模拟器，开源项目 C 有角色和关卡数据，我的要求是（下略）

原句是：我不知道用什么方式好，所以你得自己参考内容想出一个方案，包括但不限于解读参考资料后基于规则计算、或者告诉我需要建立知识库然后走大模型动态的去给我出编队。涉及到数据爬取、前端、后端你都可以自由发挥。

AI：我怀疑我遇到了不靠谱的老板。

首先，我建了一个 spec 文件，把一堆参考资料和我的预期丢给他，让他自己努力一下。

我：根据这个 spec 实现需求

但当 AI 真的吭哧吭哧做完之后，我发现他甚至连伤害计算公式都没抄对，给出的编队更是千奇百怪，完全不对。然后疯狂 PUA，我不清楚哪里不对，毕竟我自己都不知道该怎么做，但反正就是不对，PUA 到最后，这个项目正式成为了一坨屎山，而无限堆积的上下文即使缓存非常省钱也已经完全爆炸，还因为总结丢失了一些信息。

搞到最后我都自闭了，我已经用了全宇宙最先进的模型，尽管这个项目确实很复杂，我自己都整不明白，但伤害计算公式和战斗模拟这块已经有现成的开源项目了，抄都抄不对吗？

此时已经有了上万行的错误屎山，即使是 AI 也积重难返，也可能是有一部分是因为我这个不靠谱的老板给他的指令也是反复无常的，毕竟我自己也没想明白自己要的东西，我只知道这个我要，那个我也要——所以我的选择是：痛定思痛，新开一个项目。

重启人生

在新开一个项目的时候我吸取了一些经验，过去我从没有当过这么没良心的老板，科技果然还是不能取代我的：

第一版先做一个 MVP，把核心战斗引擎和模拟器抄对，再考虑我真正想要的功能
从零开始的编队太难了，我自己都说不明白，但是网上已经有的作业修改却相对比较容易，可以先从这里入手
整个项目前后端和爬虫加起来可能会有十万行代码，即使是 MVP 版本，为了可靠的结果和已有的开源项目结果进行比对，没有几万也下不来，因此上下文需要进一步隔离。

于是第一版变成了抄作业：

Task 1. Fork Laplace

我想要实现一个自己的 Web 前端、服务端的 FGO 战斗模块，支持 PC / 移动端。

现在我准备好了一些前置知识：

Laplace 代码：~/Develop/chaldea （具体什么位置需要你自己探索一下）

deepwiki: https://deepwiki.com/chaldea-center/chaldea 可以方便你定位

用户数据可以用根目录里的 JSON

语言方面我接受 Go / Python / Typescript。

由于项目比较大，建议你拆成多个 SubAgent 执行，执行过程中不用通知我。

验证：

Laplace 中的关卡选择、角色数据、敌人数据、羁绊、玩家数据都能完美复刻（功能模块的 1:1 复刻）

战斗运行结果需要一致

能够获得共享队列数据

为了避免重复回源，记得缓存一下。

任务开始前，请先向我确认 Claude Team 的 SubAgent 分工和任务理解

和原来不同的是，我还给他抄开源项目的时候提供了 deepwiki 的地址，安装了对应的 skill 一步到位。并且参与了他任务拆分的过程，确定没问题之后再开始干活——我这个老板开始到岗了。

deepwiki 可以方便人类或者 Agent 快速定位作业的位置，毕竟原始仓库也是个大仓，不一定能找对位置。

在这里我给他提供了：

选型
作业在哪里抄
我的预期和怎么测试
提前预判项目会很大，需要他使用 Claude Agent Team 协同

Agent Team 在我看来和三省六部这种固定的多 Agent 架构最大的区别是不会出现旱的旱死涝的涝死，充分的利用了每一个临时工精准的隔离上下文。

当然，后续的对话中我也告诉了他工作留痕，得记下来，所以：

这是为了避免前车之鉴，同一个对话一直滚动，几百万 token 即使 90% 都是 cache，一轮对话也太贵了，5 小时稍纵即逝，不经用，所以在完成一个 milestone 后我会让他留文档和当前工作进度，我会「交接」给下一个对话。

因为开启了 auto mode，加上任务本身很大，所以 Claude Code 能没日没夜的一直干活，直到五小时过后又会自动恢复继续干活。因此只要定期监工看他还活着就行。

auto mode 会另起一个 agent 去判断命令是不是安全的，能否自动执行，还有一个 permission bypass 是全部放行，前者相对更安全一点，避免 rm -rf / 的悲剧。

开启 remote control 后可以在手机 Claude App 上直接看到运行过程远程对话，类似于小龙虾那种感觉，因此随时随地都可以 PUA。

精细化迭代

在经过了一周的努力过后（由于 Token 燃尽问题他甚至还罢了一天工，竟然不是 724小时），抄作业的部分总算没什么问题了，我人工验收通过，进入下一阶段。此时核心使用了 frontend-design 这个 SKILL 加上一些审美（本来想体验 Claude Design，但好像那个偏 Pro 了，成形不如直接用这个 SKILL）。

现在我总算可以告诉 AI 我做这个项目的核心目的和我的完整规划了，AI 再根据这个框框一顿输出。

后续我还安装了 superpowers 的 brainstorming 想要试试效果——刚试完我就后悔了，他竟然开始让我做决策了，我本来只想当一个没有良心的老板：「这个不对，你再改改」「你是不是傻逼，你再想想」。结果他竟然给我出了方案 A or 方案 B，我只想说 or。

不过也是有好处的，现在不仅会生成工作的 Progressing 了，连 specs 都留档了……

最终这个 10w+ 行，借鉴了好几个开源项目的全栈项目总算达到了部分预期。（CLAUDE.md 也是他自己生成和维护的），commit 也是他提交的。

期间并没有用到 worktree 去进一步提速，因为 AI 现在的瓶颈点其实在 5 小时只能干这点活，而不是写得慢。

测试和验收

在整个迭代过程中测试分成了几种：

单元测试：顺手写的 test file
集成测试：我已经提前准备好了 agent-browser，Claude App 本身也有浏览器相关能力
对比验证：主要在抄作业的期间会编译开源项目对结果进行一些比较

但尽管如此，他觉得 OK 并不等于真的 OK，永远会有没有覆盖的 case，而这个时候仍然需要人工验证，也就是我不堪其扰的部分——corner case 层出不穷，人工验证花了比较大的心力，而这部分人工成本没有办法缩减。

包括但不限于：

伤害和编队计算的变量太多，很容易遗漏
我脑补的功能和他自以为的功能并不一样
前端的花式兼容性问题，尤其是 PWA + iOS（PWA 是一种把页面发到手机主屏幕冒充 App 的能力）

番外：有趣的插曲

由于战斗模拟过于复杂，为了避免翻车，我在第一版完成后让 gemini cli 参考开源项目 Review 一下代码，看看是否有问题，没想到还真的检查出问题来了，然后我再丢给 Claude 修复，Claude 表示确有其事。

预览图

项目 2：游戏数据标记与检索

Intro

和第一个新项目类似的部分姑且不谈，这个项目的主要区别是：

没有作业可抄，只有数据源，而且数据源是 HTML 站点
因为发到微博后有网友也想用，所以做了多账号体系+有了开源预期
做了一个简单的大模型问答

这个项目本身的复杂度并没有上一个高，所以更适合做一些功能的 Playground，实践方案成熟后再给第一个项目用，避免又改成屎山了（已经吸取了足够的经验教训）。

我评估这是一个功能简单，且我自己人肉都能 carry 的项目，直接说就行——

大模型问答

虽然我是赛博菩萨，但毕竟不是赛博财神爷，所以绝不多出一分钱——

这里推荐几个免费大模型的获取途径，我目前主要使用的是：

https://openrouter.ai/ 免费的稳定性可以用看命来说
https://build.nvidia.com/models 还不错，虽然有点慢（谢谢赛博菩萨）

考虑到免费模型稳定性确实堪忧，所以我让他加上了模型 fallback，保底的解决方案是规则匹配。

比对模型可以在：https://artificialanalysis.ai/，或者直接把上面两个网址和你的用户 token 告诉它，让他自己根据场景选选。

开源改造

开源前我要求他把所有 commit 都检查一遍（避免历史记录导致的泄漏），并且补充上对应的文档。

即便如此建议此时需要人工复核，因此截至目前还没有开源……

预览图

最终实现了一个简单的记录、查询和问答（问答和我们的 Rena 一样能够装模作样的渲染自定义组件以及二次确认写操作）：

全自动 CICD

这一部分在公司完全实践不了，卡点太多，自己的项目就能玩的很 6。

预览环境（自己玩玩）

前置依赖：

我已经有了一台 NAS + Docker is ready
我有外网 IP（取决于项目，非必要）
成熟的 gitea + gitea action（GitHub+GitHub Action 也是一样的，不用纠结，只是我有完整的内网环境）
一个现成的域名

这里主要可以分享的是：

把你的 Token + DNS 解析注册平台告诉它，它就可以自动挂载上子域名
Nginx 配置全自动生成（另一个 Nginx 容器全自动发布 or 更新配置）
更新完成后可以使用 ntfy 给你发通知：https://ntfy.sh/，这样就更像是没良心的老板了，甚至我连收到都不会回复

生产环境

我的 2C2G 的阿里云在跑了一个正经博客和小项目后刚开始的时候其实没有多余的内存用，毕竟我的正经博客是有固定流量的，需要严肃对待（虽然挂了半天其实也不一定有人发现），因此需要保留一些内存冗余，和上班做性能优化一样，先找到瓶颈点——这里我做了一个违背祖宗的决定：让他直接登上机器自己处理。

在他一顿操作猛如虎之后，我一看阿里云手机 App monitor，内存降了，确实优秀（没错，已经全程托管了……），然后过了半天在 city walk 回来的路上才发现，窝草博客打不开了。进去查日志发现服务连不上 MySQL……还好他一顿操作猛如虎又给我修好了。

现在我信了，生产环境是真有可能给你干出删库跑路的事情。

生产环境的 CICD 类似于前面所说的，只是我新切出来一个分支 release，这个分支不允许他直接推，只能用合并的方式合入代码（属于土法软件工程了）。

Nginx 和域名新增还是全托管给了它。

24 小时 AI 牛马

远程工作台：远程控制方案

我有 NAS 并不能完全取代开发环境：做梦都想要一台 Mac Mini——但我不想掏钱，更不想当大怨种。

最开始我选择了用我家的 Windows 台式机，虽然好像能用，但这电费不太一般（这个可以用智能插座监控一下），也就是说牛马是 24 小时了，我为了我的自 High 项目一个月连续开机也太亏了……而且实际我实践了一下 computer use / WSL + Claude App，Windows 上感觉像是拉了坨大的，所以灵机一动，我决定——掏出 Macbook Pro 2019(Intel 版本)。Intel 版本其实也挺省电的，然后再下载应用控制风扇转速，关闭自动锁屏，关闭键盘灯，把屏幕亮度调到最低。——现在你有了一台工作机，丐中丐的 Mac Mini。

唯一的区别是只有我和 AI 只有一个人能用电脑，我验收的时候卡的要死……

此时可能会引申出另一个问题，一般云服务器与我们总能以某种形式进行通信，避免凉透了没办法抢救，Claude 的 Remote Control 也没法启远程新对话。

这里我的几种方案是：

Windows
- Windows 远程桌面
- Sunshine + Moonlight
- RustDesk
Mac
- Jump Desktop（要钱）
- 自带的远程屏幕镜像
- Sunshine + Moonlight
- Rust Desk

Sunshine + Moonlight 本来是一个游戏串流方案……但惊人的好用；RustDesk 个人推荐自己部署 Server 端，但是公司的电脑装不上 RustDesk，其他几种都可以。（PS：利用 RustDesk 你可以找一台自己的手机实现云手机的效果）

如果不以某些云服务供应商作为中继节点做内网穿透的话，可能就需要自己有外网 IP 或者自己做内网穿透，这里有两个比较便捷的解决方案：

（如果是中国电信的话）告诉他你需要外网 IP，理由是比如要装摄像头，游戏机联机，然后就会给你一个，但是 IP 是动态的，此时你还需要 DDNS 和一个域名……（这里不再展开）
https://tailscale.com/，赛博菩萨的一员，免费版也有几台设备的额度，缺点是得安装他们的软件才能访问成功，有设备数限制

私人助手：Macbook + Codex + Hermes

之前小龙虾热的时候就有很多人部署在自己的电脑上了，之前我在公司的开发机上部署过一个版本，然后用方舟申请的那点小额度用不了一点，感觉也不是很聪明的样子，还不能生图。而且 Linux SSH 很多功能你是不好体验的，开发机还有网通不通的问题，非常不爽。

换成 Codex + Hermes，享受 GPT Image 2，人生就都不一样了，举个栗子，我的每日日常包括了「刷微博，看看我关注的博主们都发了啥，微博热搜都有啥」「刷 B 站，我关注的博主都更新了啥」。

而微博的 Feed 流我可能刷到半个月前的事情；而 B 站的 Feed 流，要是我的博主更新的少，我正好没看到没点击，之后这个我关注的博主就跟路人差不多了，这辈子给不给我推送就随缘了。

但是其实「我关注的」这个 SKILL 无论是微博还是 B 站都没有现成的，因此我的思路是：

让他先自己努力找找，有没有类似的可以改改
没有现成的，那算了我们干脆走浏览器，扒接口，如果检测到需要登录再把二维码推给我。

然后他真的自己通过抓包现编了俩 SKILL 出来，并且如果抓不到包了感觉 cookie 失效了会把二维码发给我让我扫。

效果：

但是 20 美刀如果是用来做这些计划任务的话绰绰有余，拿来真的对话的话额度仍然是不够用的。

CodeSky 代码之空