2025年12月18日星期四

和AI讨论了下,如何做一个游戏Agent|想认识一些正在做agent的朋友

都是创意

这是熊猫的第302篇原创



关注比较久的朋友,会发现我这两年一直在研究AI,学着用AI工具编程,做了一些各种各样的产品。


9月份以来一直在研究怎么用AI做游戏,用不同的工具做图,用不同的IDE编程,用canvas实现H5的游戏。


这周看到了一款agent制作视频的产品,很好玩,在视频号也发了一些尝试。

然后我研究了下他们的视频生成流程,是这样的todo

撰写完整的视频脚本(概念、风格、配音文案、分镜设计)生成所有配音内容根据配音实际时长完善分镜并生成所有图片素材将图片转换为视频片段组装时间线并添加背景音乐


看着这个流程,我就在想有没有可能开发一款能通过聊天开发休闲游戏的agent产品。

作为一个游戏行业的从业者,首先这个agent产品开发出来的游戏,肯定精细度不高,初期生成的游戏肯定也不够丰富,甚至都不考虑广告点和商业化。(agent还需要迭代)

但是有个优点,就是极大的降低了开发的门槛,有个创意,通过自然语言就能实现Demo。

于是我跟Gemini、Chatgpt聊了聊。

熊猫:
我准备搭建一个web上的ai agent,实现游戏开发工作流。用户可以通过聊天做游戏,也可以通过游戏截图来生成游戏demo。输出的内容,是一个基于canvas实现的html文件,可以在线预览。给我一些技术实现上的建议。

GPT

你这个形态其实很清晰:"聊天/截图 → 结构化设计稿(spec)→ 生成可运行的 Canvas HTML Demo → 在线预览 + 迭代"。技术上我建议你把它拆成 4 层,做成一个稳定可扩展的工作流,而不是"一次性大模型吐代码"。1) 核心架构:Chat → Spec → Code → PreviewA. 输入层(Chat / ImageChat:用户描述玩法、目标平台、时长、操作、UI风格。截图:用户给参考图(别人的游戏/你自己旧版本),你做"逆向提炼":UI结构(HUD、按钮、面板、字体、配色)交互(点击/拖拽/计时/反馈)核心 loop(开始→进行→结束→结算)B. 规范层(Game Spec,强烈建议)不要直接让模型吐最终 HTML。先让模型生成可校验的 JSON spec,再由生成器把 spec 编译成 Canvas demo。一个最小 spec 大概包括:meta: 标题、分辨率、帧率、输入方式(mouse/touch)scenes: scene 列表(boot/menu/game/result)entities: 玩家/敌人/方块/牌面等(位置、尺寸、渲染、碰撞)systems: 规则系统(计时、分数、生成、胜负判定)ui: 按钮、弹窗、toast、HUDassets: 图片/音效(先支持占位符,后续再接真资源)C. 生成层(Spec → Code)模板化生成:index.html + game.js + styles.css(也可以先单文件,后续再拆)Canvas 引擎层固定:主循环、输入、布局、自适应、资源加载、调试面板游戏逻辑层由 spec 驱动:生成 entity、绑定系统、组织 sceneD. 预览层(在线运行沙盒)前端:代码编辑器 + iframe 预览(或直接运行 WebContainer / Service Worker 沙盒)后端:保存版本、生成 zip、回滚、diff安全:一定要隔离运行环境(下面会讲)

Gemini

你好!你提出的这个想法非常酷,将大语言模型(LLM)的能力与游戏开发工作流结合,是一个非常有前景和趣味性的方向。通过聊天或图片来快速生成可玩的游戏原型(Demo),可以极大地提升创意验证的速度。根据你的描述,我为你梳理了一套技术实现上的建议,涵盖了从前端到后端的整个架构和关键技术点。核心架构思路你需要一个经典的前端-后端架构。前端 (Client-Side): 负责用户交互。提供一个聊天界面、一个用于上传图片的按钮,以及一个用于实时预览生成结果的canvas区域(通常会内嵌在一个iframe中)。后端 (Server-Side): 负责处理核心逻辑。接收前端的请求,调用AI模型进行理解和分析,然后根据AI的输出生成相应的HTML和JavaScript代码,最后返回给前端。

然后我把他们的回复都丢给对方,让他们去理解,再回复对方说得如何。

....

经过多轮对话,我们三方达成了共识。
1. 达成终极共识:我们正在构建一个"游戏生成管线"我们三方现在完全同频了。你产品的核心不是"AI写代码",而是:一个高度约束、分工明确、可稳定复现的"游戏生成管线"。输入: 人类模糊的想法 (Chat) 或参考 (Screenshot)。处理: AI Agent 工作流(目前是一个Agent扮演多角色)将输入翻译成一份严格的 Game Spec。输出: 一个"代码编译器"(你的后端)读取 Game Spec,并将其"填充"到一个固定不变的"游戏引擎模板"中,生成最终的 index.html。这个管线的每一步都可控、可测、可回滚。这才是产品的价值所在。

得到了一个v1版本的项目结构。

my-ai-game-agent/├── backend/                  # 后端服务 (FastAPI)│   ├── main.py               # FastAPI 应用的入口文件│   ├── requirements.txt      # Python 依赖库│   ├── .env                  # 存放API密钥等环境变量 (重要:此文件不应提交到git)│   ││   ├── api/                  # 存放 API 路由/端点│   │   └── v1/│   │       └── routes.py     # 定义 /api/v1/generate 等路由│   ││   ├── agent/                # 核心 AI Agent 模块│   │   ├── agent_service.py  # 封装调用 LLM、解析 JSON 的核心逻辑│   │   └── prompts/          # 存放所有 Prompt 文件 (让 Prompt 与代码分离!)│   │       ├── system_prompt.txt│   │       └── game_spec_schema_prompt_v0.1.txt│   ││   ├── compiler/             # "游戏编译器" 模块│   │   └── generator.py      # 负责将 Game Spec 注入到 HTML 模板中│   ││   └── core/                 # 存放项目的核心资产和配置│       ├── templates/│       │   └── engine_v1.html  # 你的"固定引擎模板"│       └── schemas/│           └── game_spec_v0.1.json # Game Spec 的 JSON Schema 校验文件├── frontend/                 # 前端应用 (Vanilla JS 或 React/Vue)│   ├── index.html            # 应用主页面,包含聊天界面和 iframe│   ├── css/│   │   └── style.css│   └── js/│       └── main.js           # 处理用户输入、API 请求和 iframe 更新├── docs/                     # 项目文档│   └── GAME_SPEC_DRAFTING_NOTES.md # 你的"圣经"文件├── .gitignore                # Git 忽略配置└── README.md                 # 项目介绍和启动说明

想到这一步,已经有点兴奋了,但是我还没做,这个事情我准备认真探索下,于是先写出来。

如果你看到这,那么我的问题来了。
这个通过AI搭建的框架,逻辑上是不是对的。

如果读者里面有正在做agent的朋友,欢迎私信我说一声,请教一些问题,可以付费。

如果正好在南山科技园片区,也可以请你喝咖啡或者吃饭聊聊。

这个事情准备作为2026年的重点,有点兴奋,于是拉个agent交流群,后续做出来,大家也可以玩一下。

图片


今天就先写到这。
我是研究休闲游戏的熊猫,持续分享游戏行业思考,欢迎大家留言交流。


近期top5
用了三天Gemini3之后的感悟
关于Meshy AI的一些信息|如果你也对3D建模感兴趣
围观了哥飞的Hackathon活动
如果你想免费尝试下Gemini 3 Pro
如果你认定了要出海,想找一套更好的AI SaaS模板


欢迎交流可行的项目,也欢迎加入付费社群一起探索。
有兴趣的朋友可以加我微信。
图片

没有评论:

发表评论

2026年的赚钱机会

好久没写这类文章了,好多人看了我小号后,还以为我转型做财经博主了,其实小号就是闲着没事的时候写着玩,将学习投资每天产生的思考顺手输出一下。 大号的话,还是主要来写赚钱有关的东西。 每年的这个时候,我都会写一篇文章,都会对明年的情况做一些简单判断,对过去一年做个复盘。 今年也不...