AV

AIGC Video Studio

AI 3D DRAMA AGENT

About the product

我们把 AI 短剧从“生成视频”推进到“生成可导演、可复用的短剧世界”。

当前版本聚焦第一条生产链路:剧本解析、资产确认、角色/空间/道具主图、分镜图、场次关联和 3D 运镜预览。 后续再把这些结构化资产接入更高阶 Seedance 视频模型、角色语音包和更完整的空间导演能力。

空间优先

先拆出房间、人物、道具和空间关系,再让镜头在同一个世界里移动。

资产复用

角色、场景和道具不是一次性提示词,而是带主图、描述和关系的素材,后续分镜图和视频生成都能复用。

导演可控

把机位、焦段、注视点和运动路径显式化,让短剧生成从黑盒变成可调度流程。

返回首页

Stack

技术栈

前端与交互

  • Next.js 16 App Router
  • React 19
  • TypeScript
  • Tailwind CSS
  • Three.js

后端与数据

  • Next Route Handler
  • Prisma 7
  • MySQL
  • Google OAuth
  • Cookie Session

AI 与部署

  • Doubao Seedream
  • Qwen3.5/3.6
  • DashScope
  • Docker
  • GitLab CI/CD
  • Nginx

Features

核心功能

剧本世界解析

把短剧文案拆成故事设定、人物关系、冲突、空间、道具和场次结构。

资产提示词管理

角色、空间、道具都有可编辑提示词,并支持 Agent 自动生成主图、多候选图和手动上传。

Agent 自动出图

资产确认后自动生成角色、空间、道具主图,并为每个场次生成主视觉分镜图和视频任务。

场次空间关联

每个场次可以关联角色、空间和道具,为后续 3D 运镜预览提供结构化输入。

3D 运镜预览

根据场次地点、人物、道具、分镜和空间关系生成基础站位与摄像机路径。

图片生成工作台

支持风格、画幅、模型、单图/四图候选、资产主图选择和图片下载。

个人模型配置

Google 登录即注册,用户在 Profile 配置自己的文本、图片、视频模型 API Key 和模型列表,系统不使用作者 Key。

Agent

为什么这是一个 Agent 项目

这个项目不是单次调用大模型的图片生成工具,而是一个工作流型 AI Agent。LLM 负责理解、结构化和生成内容, Next.js 后端负责计划、状态机、工具调度、数据库持久化、人工确认、失败重试和最终资产落地。

任务意图

用户先选择小说转视频、剧本转视频、资产生成、分镜生成或视频生成,后端把意图归一化为 AgentRunType。

计划生成

buildInitialAgentPlan 根据意图生成 AgentPlan,再创建 AgentRun 和 AgentStep,把复杂任务拆成可追踪步骤。

工具调用

每个 Step 调用不同工具:Qwen 文本模型、Doubao 图片模型、Seedance 视频模型、Prisma/MySQL、资产转存和 3D 方案生成。

状态与记忆

每一步 output 写入数据库并合并到 ExecutionContext,后续步骤可以复用前面生成的剧本、资产、分镜和图片。

人工确认

confirm_world_assets 会让 Agent 暂停,用户确认角色、空间、道具后再继续执行,避免无效生成。

失败恢复

失败步骤可以重试,系统从当前 AgentStep 重新排队,保留已成功的中间产物。

Flow

从文本到结果的 Agent 链路

  1. STEP 01输入小说章节或剧本文本,创建 AgentRun。
  2. STEP 02根据任务类型生成 AgentPlan 和 AgentStep。
  3. STEP 03Qwen 进行小说精简、小说转剧本或剧本结构化解析。
  4. STEP 04解析结果沉淀为 ScriptAnalysis、WorldAsset、WorldScene。
  5. STEP 05用户确认世界资产后,Doubao Seedream 生成角色、空间、道具主图。
  6. STEP 06Qwen 按场次生成结构化分镜,Doubao Seedream 生成分镜主视觉图。
  7. STEP 07系统生成 3D 运镜方案,保存镜头路径、焦段和站位参数。
  8. STEP 08Seedance 创建图生视频任务,完成后同步视频并转存为本地资产。

Intent / Tools

意图识别与工具数量

5 类意图

小说转视频预视觉、剧本转视频预视觉、资产生成、分镜生成、视频生成。

8 个核心工具

小说精简、小说转剧本、剧本解析、资产确认、资产主图生成、分镜生成、3D 运镜方案、图生视频任务。

外围工程工具

视频同步落地、失败重试、资产本地化、历史任务恢复。

Architecture

架构设计

  1. 01公开首页/关于页负责引流与项目说明,登录后进入剧本解析主流程。
  2. 02AgentRun 负责串联小说/剧本解析、资产确认、资产主图生成、分镜生成、3D 方案和图生视频任务。
  3. 03剧本解析产出 ScriptAnalysis,再沉淀 WorldAsset、WorldScene、WorldAssetImage 和 SceneStoryboard。
  4. 04资产生成、分镜图生成与上传统一落库,页面只读取 MySQL 中的结构化资产关系。
  5. 053D 页面消费场次、角色、空间、道具和分镜关系,生成站位与摄像机路径。
  6. 06Docker + GitLab CI/CD 部署到服务器,Nginx 统一代理 Next 应用。

Contact

联系方式

地区:杭州

岗位:前端开发工程师

博客:https://sugar-mm.github.io/

邮箱:2670644996@qq.com

Highlights

项目亮点

Highlight 1

不是文本到视频黑盒,而是文本到世界、世界到镜头、镜头到视频。

Highlight 2

参考案例与用户历史隔离,新用户可以直接查看完整样例。

Highlight 3

图片资产、分镜图与场次关系可复用,当前已接入 Seedance 图生视频任务,并为后续更高阶视频模型和 3D 工具预留空间。

Highlight 4

产品信息架构以剧本解析为主入口,运镜和生图作为延伸工具,降低用户选择成本。