CodeSky 代码之空

随手记录自己的学习过程

AI 浪潮下真实诉求的想象空间—同志仍需努力

2026-04-05 23:21分类: Other评论: 1

第一篇讲讲 AI Coding,也就是上班场景;而第二篇讲的是日用篇,也就是个人生活中的一些场景的展望。

在这方面我是实用主义者,看官的大饼不要马上堵我嘴里,谢谢。

上一篇讲到在 AI Coding 领域的发展迅猛,这一篇讲讲 AI Coding 以外的场景,AI 的现状和想象空间到底是怎么样的。

预期 summary

先说说我对 AI 的预期场景:

  1. 休闲娱乐
    1. 类似于《刀剑神域》的 VRMMO,再更进一步脑机接口的就是《加速世界》
    2. 解决游戏手残和刷刷刷的过程游戏体力活代工,FGO 自动编队
  2. 生产力场景
    1. 小说续写
    2. 能够把我写的小说转成漫画,或者 Gal 的立绘插图
    3. 能够把我写的小说或者剧本转成动画
    4. 给上面的做 OP / ED,或者 Gal 的 BGM
    5. AI 配音
    6. 生成 VTuber 建模
    7. 跨平台软件/游戏的机翻能力以及线下实时翻译对话
  3. 便民场景
    1. AI 换装试衣
    2. AI 护工和全屋智能

经过去年一年对大家吹爆了的各种方向的体验来看总体还没有达到一个自媒体觉得某个行业药丸的高度,当然也包括程序员这个行业。

休闲娱乐

先说说我对休闲娱乐这两个场景的预期和个人对于科技底力的拆解:

  1. 刀剑神域 / 加速世界 like 的 MMO RPG:
    1. NPC 高度拟人化,表面上现在是可以做到的,实际上如果要做到小说里所描绘的那样,对 AI 实时流就有要求了,现在我们还能忍受 thinking 过程,但是比如「结衣」这种 NPC,完全区分不了人类,目前所有 AI 的快速模式还是差了一点的。
    2. 另一方面,对话成本需要下降,这里如果是在线模型的话就是价格下调;如果是离线模型的话就是端设备配置的提高,两个发展方向——看目前电子设备的行情还差点意思。
  2. 解决游戏手残和刷刷刷过程的代工与 FGO 编队:
    1. 代打:本质上是 Computer Use,但是此时高度依赖于多模态能力的准度,现在回合制 RPG 其实少了很多,刷刷刷觉得无聊的场景大多还对响应速度有要求,那么就又回到第一章了。
    2. FGO 编队:讲道理一个 AI 要完整掌握 FGO 编队还真不容易,如果不依赖人工写 Tool 去辅助,那么就需要依赖超长上下文,原因是 FGO 决定最终输出的变量其实相当多,而每个人角色的练度还千变万化。

当然这些场景只是一些美好的幻想,我毫不怀疑 1 我可能还得再等十几二十年,当然,脑机接口、脑机芯片不止可以用在游戏场景,更可以用在医疗领域,因此我还是非常期待发展的。

对话类的现在更多的在回合制 AI / 文字类游戏中落地,而且整体效果其实一般,并达不到同品类人类制品的高度,还差点意思。如果要做成 MMO RPG 就更难了。

而对于 Computer Use 的场景,随着小龙虾崛起,我确实也看到了一些视频,但是大部分声称自动化成功的场景,小龙虾主要承担的职责是唤起——APP 启动,然后交给已经成熟的脚本解决最后那么十几二十公里的问题。这样本质上还是依赖于人所研发的脚本,也很难具有泛用性,我也写过基于图像识别+辅助执行的脚本,调的我痛不欲生。

再泛化一点,我玩的 Switch 游戏是不是也可以拥有这个能力,此时是不是需要配合硬件执行?

而 FGO 编队的问题相对简单很多,需要一个勤劳勇敢又会玩 FGO 的 master 为 AI 写个 SKILL,反正我每次都是抄作业的,我不理解游戏。

这几个点至少去年一年到今年夸了半天小龙虾,目前都是差点意思的,当然,文字类游戏可能随着发展,这两年就能有一定收获,这个在下面一个模块我在解释。

生产力场景

为什么《我》开头的业余爱好会教生产力场景——因为这其实代表了艺术类、文字类职业的现状,每每有什么新的产品发布,总会被说:XX 职业药丸,AI 做的也很好,AI 已经能干嘛干嘛了,甚至在网上我们确实能看到一些以假乱真牛逼哄哄的 AI 视频。

但切到个人的表现来看,现阶段还完全无法替代专业人士,以我举的例子来说:

  1. 小说续写
    1. 照理说文本已经是很容易的了,但是这仍然取决于你给的输入是怎么样的,比如我现在太监中的小说,世界观设定、角色设定、场景设定、后续章节发展都是有的,但是实际让他续写的时候,他会目的性极强的直奔大结局,甚至会造成人设 OOC,非常不符合预期。当然在短篇、润色这个赛道表现的还是可以的,实际上在之前我就曾经让他帮我补充一下环境描写和外貌描写了(本人菜得很)。
    2. 浅层的文本内容和深层的情感、寓意传递之间存在的天然 gap,就以本人为例,我写小说全靠托梦,当梦里的(视觉)冲击要表现为文本时,因为我文笔有限本来已经打折扣了 50%,而我一直都喜欢给小说夹杂点意识输出,简单的来说就是文字全是情绪,乱七八糟,而 AI 更多的忠实于这个故事,更容易偏离我本身故事背后想要表达的意义。
  2. 能够把我写的小说转成漫画,或者 Gal 的立绘插图
    1. 首先,吹爆 Nano Banana,早在去年 Nano Banana 刚推出的时候我本来就想写一篇文章吹她,但由于种种原因懒得更新,所以跳票了,现在再来吹一个,断崖吊打。甚至工作中有的内容需要 icon 也是他生成的,我再去掉 AI 的水印就完事儿了。
    2. 然而生图和生成漫画,尤其是长篇漫画还是有很大区别的,由于这篇要讲的东西比较多,不能向之前介绍 AI 翻译一样跟大家讲得特别细致,但总体上需要保证「人物」「画风」「分镜」「台词」几块输出是稳定的,而目前大家做的那种小四格只要保证「人物」在几格里是同一个,表达内容大差不差就行了,和其他品种的漫画差别还是很大的。关于生成结果我会放在本段末尾,目前如果给他一个章节的小说文本,其实经过他的解读压缩其实会删掉一些我觉得很重要的部分,而分镜的切割也和我想的不一样,导致实际的表现力和传达的意义就差了十万八千里,尽管他确实解决了我不会画画的问题。
    3. 立绘插图相对的要简单一点,这个主要要求多个人物画风的高度一致性,一般这种角色都是表情差分+关键 CG,需要保证人物输出的稳定性就行了,这一方面保证起来相对更容易一些。
  3. 能够把我写的小说或者剧本转成动画
    1. 转视频比上面生图技术更不成熟,即使是现在吹得最牛逼的 Seedance 也不达预期(来自小云雀用户的血泪哭诉),但大致的问题和生图是一样的。
    2. 动画制作本身就比图像要更难,首先小说文本是不能直接转换成视频的,小说首先需要转成台本(脚本/剧本),确认人物设定,确认场景和故事梗概。然后再确定每一个片段的关键内容(因为一个片段要控制在 15s 内再去组装),最后在拼装。
    3. 生成视频本身的成本是非常高昂的,上面每个环节都是付费点,爆完金币发现共计只生成了一集一分钟,还把我的人物都砍没了——这就是小云雀。
  4. 给上面的做 OP / ED,或者 Gal 的 BGM
    1. 音乐我就不能跟前面那样说的头头是道了,就算你让我点评 Ave Mujica 的音乐性,我也只能说这就是一见钟情的感觉吧。通常我会更关注词曲适配度和音乐的场景感(关于某人在 KTV 为什么喜欢点《向天再借五百年》《好春光》和《我欲成仙》),以及作词是否押韵上,除了押韵以外,AI 生成的音乐下限算是保住了,目前看来作为配乐违和感不强,但上限并不高,至少本人讲都讲不明白,更别说要直击我灵魂的音乐了。
  5. AI 配音
    1. 前年我就写过关注这个的文章,效果非常好,主要是版权问题是个绕不开的坎,技巧上缺乏极致的情感投入(比如【日常系的异能战斗】早见沙织连续2分16秒的宣泄怒吼,但考虑到国配市场的基本盘(如果现在变好了勿喷),总体算是合格而成熟的产品了,反正 CV 也不见得有多少技巧,你说对吧羊宫妃那。
  6. 生成 VTuber 建模
    1. 这里分成两步,首先我有了一个本人自设的头像,需要给他补全身体。
    2. 其次得能动起来。
    3. 得益于 NanoBanana,1 搞定了,而 2 也有成熟的项目和教程了(https://github.com/yuyuyzl/EasyVtuber),所以原则上兄弟们我已经可以 VTuber 直播了!
  7. 跨平台软件/游戏的机翻能力以及线下实时翻译对话
    1. 首先 Gal 的机翻 / RPGMaker 制品的机翻已经是流水线工程了,不多说。
    2. 这里更多的想要解决的场景是:掌机和主机游戏、线下交流问题——具体来说也可以叫做《我花了十年时间等 Fate Extra CCC 汉化》《我又花了十年时间等换装迷宫 X 汉化》以及《为了月姬 R 翻译所以破解了 Switch》,随着机翻水平的提高,我的外语水平每况愈下,所以我提议所有内容应该配合我每况愈下的外语水平进行机翻的适配。然而很明显的对于这类游戏的解决思路有两种,一类是 AI 眼镜,相当于物理外挂,可以用来打游戏或者旅游上,甚至有的都已经做了外置音响,在 AI 克隆你的音色后就能同传了,虽然效果我没体验过。另一类就是当前汉化方案的:解包-提取文本-汉化-塞回去。因为这个流程,所以汉化组其实兼带需要破解、测试,也因此有些汉化后会出现 Bug。
    3. 从上面的介绍中也能看出 Gal 和 RPGMaker 为什么流水线化了,因为如果大家用的同一套模板引擎的话理论上就是通用的解包和打包方案,回归成本相对的也较低。

上面我哐哐分析了一堆,大家应该也发现了,技术上,AI 确实具备了替代人的能力,因为图像、视频甚至音乐,本质上我根本不具有基本概念,啥都不会,现在他能让我支棱一点了。

但是我要的又不仅仅是他能动,由于我脑内本身对于自己创作的文本是又大体的分镜或者关键帧的(甚至 OP 我都脑补好了),所以要求会更高,而这一要求也就是某一个行业真正的商业价值。或许可以说现在达到了大一新生的水平,但是绝达不到某行业药丸的水平。

而对于这种 AI 艺术创作类内容,尽管现在网上确实铺天盖地的,但是我还是更喜欢人工产出的内容,一是确实画风过于固定了,看多了想吐,第二是往往人在创作时会有一个立意在,也就是这个东西创作者想表达什么,而 AI 就是纯内容了,缺乏艺术性,如果从业者真的连这个水平也打不过那只是以前的钱有点太好挣了。

在这些创作者生产力的场景,和 AI Coding 一样,目前不同的人用在手里差距是极大的,可以说他给专业的确实节约了经济成本和时间成本;而对于我们这种人来说保住了基本的下限,做不到足以追平业界的能力,还是图一乐的程度(还很费钱)。通常大家看到比较惊艳的作品,调教者本身就是能表达清楚自己想要的东西,有相关知识背景在的。

所有生成内容示例我统一贴在文末。

便民场景

便民场景我重点提到的两个是因为我长期以来都有的痛点和愿景说白了就这几个。

  1. AI 换装试衣
    1. 这里不是说简单的就捏个类似于游戏的模型,然后接下来把衣服贴上去,而是针对你本人进行扫描和录入,然后衣服同样的进行扫描和录入,甚至可以扫描你现在有的衣服,然后进行线上试衣和搭配推荐,这方面我的脑洞比较大,但没有了解过最新技术发展到什么程度了,至少淘宝都没有。
  2. AI 护工和全屋智能
    1. (脑补可参考《心理测量者》)
    2. 应对人口老龄化和结婚率连年下降,AI 护工这块我觉得是个非常重要的命题,实际上现在就有非常现实的问题——保姆行业本身不靠谱,老人有亟待人照顾,尤其是如果是有阿尔兹海默症的老人,本身对每个家庭来说都是一种痛苦,只有 AI 才能有稳定性和耐心去做好陪伴和护理工作。目前机器人的成本还是太高了,而且更多的还是类似于玩具,护工这一块还没有看到过落地的商业化产品。

这一块更多的是软硬结合来解决一些真实场景的痛点,而在软硬结合上,整个发展还是比较初级的,而这些,包括前面提到的脑机接口我觉得反而比现在各种 AI Coding / AI 创作更应该收到关注和投资。(换言之谨代表个人还是很看好 AI + 医疗这个赛道的甚至感觉这是蓝海的)

总结

这篇文章比上一篇更长,这应该算是充斥着个人大饼的个人观点没啥客观角度的一集,但归根结底,和上一篇一样,总结起来我对于 AI 热的观点是:

  1. 专业程度较高的人群仍然不会被替代,AI 反倒会成为很好的提效工具
  2. 专业程度不高但之前在业界混口饭吃的人会被取代
  3. 创作类行业 HC 同程序员一样会精品化,资本家不需要这么多员工
  4. 普通民众可以用它来满足自己的一些简单的创作欲,但无法创作出非常专业的作品,大部分还是纯走量
  5. 目前创作作品的成本依然偏高,仍然受到算力资源的掣肘
  6. AI + 医疗(不是指替代人类去看病)是本人非常期待、非常看好的方向

仅现在来说,如果我真的要去把我的小说转成漫画或者动画,成本上来说其实在闲鱼找个大学生仍然是更便宜的(因为一轮一轮靠生成去调整实在是费时费力,不如 PUA 真人)。而替代员工/工种本身是个非常商业的命题,在成本足够低,效果足够好之前其实是暂无后顾之忧的,大家也不必太过焦虑,和 AI 和谐共存。

当然这里说的更多的是我们这种职场老油条,对于应届生来说,面试肯定会越来越难,毋庸置疑,因为本来简单打杂的活可能会派给应届生,现在派给 AI 了。

然后同样附赠给老板们一句话:目前商业上觉得 AI 好聪明我们把专业的都开除了吧的还没有成功的案例,往往是产能上去了,用户也流失了,望周知

附录:上文提到的 AI 创作内容

再次声明,本人不会用 AI 来进行文字创作,最多进行少许润色。

自设人物全身图

Seedance唱歌视频生成

点击进入单独播放页面

小云雀生成作品,《舞与爱丽丝》第一章

↑小说原作连载在 B 站目前无限拖更中,尽管大纲已经完结了,细节一点没有。

(这画风都不统一啊,但是生成完一章我冲的 40 就全用完了):

点击查看视频

NanoBanana《舞与爱丽丝》

第一话节选两张(字生成还有问题,最有意思的是他把腾讯视频的水印也给生成了)

Gemini 生成的音乐

给我一首中国古风歌曲,要求包含悠扬的古筝与空灵的笛声,呈现典雅的宫廷音色。

本来填词想用《破阵子》,然后翻车了

点击收听

歌词:

《宫墙柳》

(第一段) 破阵子 金戈影从龙 玉帐梦惊风 万里山河入画中 旧时月色今何在 歌舞散,冷宫东

(副歌) 铁马冰河,破阵子 龙城飞将,意气终 百年功名尘与土 只剩笛中哀 泪沾红

(第二段) 宫墙柳,年年绿 君恩重,妾心苦 不见沙场旧战袍 但看菱花镜里容

(尾声) 破阵子 一曲终,万事空 塞外回响声 冷月葬战魂

评论 (1)

Mowtwo2026年4月8日 14:04

朋友推荐了博客,因此打算留言。文中提到的虚拟试衣其实在欧美地区早就做烂了,我司在这方面虽然不是最top,也是前五了,但是实际上这个领域就是多个大模型套壳,其实依然没有想象中那么复杂,现在几乎全场景都是可以用nano2复刻一个工作流,用webui无非就是调试稳定的prompt然后帮忙在后台处理。 这块做到尽头不太适合做成独立产品,或者说成本有点太高了,愿意买单的个人用户太少了,目前能接受的其实也还是SMB跟大型公司。这块最大的问题就是商业化无法落地外加没有国产大模型能做出好效果,所以淘宝这些都没有直接实现,我司老板都出差过阿里宣传(被邀请),但是最终都没有任何后续,说白了还是因为成本问题吧。