Skip to content

AI 很会写代码,但游戏不是代码堆出来的

6/11/2026

AI 的代码能力已经很强了。

强到很多时候,你只要把需求讲清楚,它就能自己读项目、改代码、跑测试,最后交出一个基本能用的结果。

所以我就忍不住想试一个更复杂的方向:让 AI 做一款游戏。

这次我用的是 GPT-5.5。我想看的不是它能不能写出几个页面、几个动画,而是它能不能真的做出一个“像游戏”的东西:好看、能玩、有反馈、有刺激感。

1.1 第一次实验:做一款 3D 弹珠游戏

做什么游戏呢?最近在商场里经常看到一种弹珠游戏机,看起来挺适合拿来做实验。

我给它的需求大概是:

用纯 Web 原生技术实现并持续打磨 3D 弹珠游戏,重点让发射、穿越障碍、碰撞和入槽效果在真实试玩中可信、好看、刺激。参考实物图。

为了省心,我还给它开了目标模式,希望它能持续推进,不用我一直盯着。

一天后,我发现 AI 还在做,不过已经有了一个半成品。

它确实能玩。

但也只是“能玩”。

画面很粗糙,观感也不太对。弹珠游戏最重要的那种碰撞感、爽感、期待感,没有出来。

我看了一会儿,就赶紧让它停下来了。

第一次实验基本失败。

1.2 问题不只是“代码没写好”

这次失败让我意识到,游戏和普通软件不一样。

普通软件只要逻辑对、页面能用、流程跑通,基本就能交差。但游戏不是这样。

游戏需要的是一种综合体验。它不仅要能运行,还要好看、好玩、反馈清楚、节奏舒服。一个按钮点下去,动画差 0.2 秒,可能就不爽;一个碰撞效果不够干脆,整个游戏就会显得廉价。

这些东西很难只靠“需求描述”一次性讲清楚。

AI 可以写代码,但它没有真正的审美直觉,也没有玩家体验里的那种身体感。它能按照文字去实现一个“弹珠游戏”,但不一定知道什么叫“这个弹珠弹得很爽”。

1.3 第二次实验:让它复刻一款自走棋

第一次失败后,我想,也许是因为没有足够明确的参考。

所以第二次,我换了一个方法。

我直接在手机上安装了一款自走棋手游,然后告诉 AI:你可以通过 ADB 命令自己操作手机,去玩这款游戏,分析它的玩法和画面,然后尽量 1:1 复刻。

这次同样使用目标模式。

执行过程中,它还会自己调用 GPT-image 来生成素材。

这张图已经有一点游戏风格了。

我原本还挺期待,觉得这次至少方向会更稳。毕竟它有真实游戏可以参考,也能自己操作、自己观察、自己生成素材。

结果等了两天,我实在等不下去了,就打开看了一下半成品。

还是失望。

它能做出一个形似的东西,但离真正的游戏差得很远。

1.4 游戏制作难在“判断力”

这两次实验之后,我感觉目前 AI 做游戏最大的瓶颈,不是不会写代码,而是缺少判断力。

它可以持续工作,可以拆任务,可以生成素材,可以写出交互逻辑。但游戏制作里最关键的,往往不是“有没有实现”,而是“这个实现对不对”。

画面是不是有质感?

操作是不是舒服?

节奏是不是让人愿意继续玩?

反馈是不是足够清楚?

这些都不是编译器能告诉你的,也不是跑一遍测试就能验证的。

普通项目里,AI 很擅长靠代码结构和测试反馈自我修正。但游戏不一样,游戏的反馈很大一部分来自人的感受。感受不对,代码再多也没用。

AI 现在很会写代码,但游戏不是代码堆出来的。游戏更像是代码、审美、手感和取舍一起磨出来的东西。

1.5 目标模式也不是万能的

这次还有一个很明显的感受:目标模式能让 AI 持续工作,但不代表它一定会持续变好。

如果方向是对的,目标模式很省心;但如果一开始审美和玩法判断就偏了,它只会在错误方向上越走越远。

它会不断补功能、加细节、修 bug,但未必会停下来问一句:这个游戏现在真的好玩吗?

这也是游戏制作和普通软件开发很不一样的地方。游戏需要非常高频的试玩、否定、重做和微调。很多时候,不是把功能做完就结束,而是把不好玩的东西删掉,重新找感觉。

1.6 总结

所以这次实验,我的结论有点冷静:

目前我用的 GPT-5.5,在游戏制作上还没有表现出特别强的能力。它可以做原型,可以搭框架,可以生成一些素材,也可以完成很多工程化工作。

但如果目标是做出一款真正好玩、好看、有完整体验的游戏,它还差一口气。

这口气不是代码能力,而是更接近创作者的综合判断:知道什么好玩,知道哪里别扭,知道什么时候该推翻重来。

最近听说 Anthropic 的 Fable 模型在游戏制作上很厉害,甚至可以完整复刻一些市面上的大型游戏,而且效果很不错。有机会我也想试试。