AIOM 系统架构 - 桌面渲染节点

架构总览

商家只需准备两样素材：一段录音（用于声音克隆）+ 一段真人出镜视频（用于对口型）。

整个视频生成管线分为两个阶段：

① 商家录音
声音克隆

→

② 云端 TTS
语音合成

→

③ 云端对口型
唇形同步

→

④ 桌面渲染
字幕+动画

→

⑤ 成品 MP4
口播视频

阶段	职责	部署位置
AI 合成层	语音克隆、TTS、对口型	云端服务器
渲染层	字幕对齐、模板注入、动画渲染	桌面渲染节点

一、云端 API（AI 合成层）

基础 URL：https://www.aiom.com.cn/php

认证方式：Authorization: Bearer <token>（商家登录后获取）

1.1 登录获取 Token

POST /php/login.php

{
    "identifier": "商家手机号",
    "password": "商家密码"
}

1.2 获取声音列表

GET /php/agent_api.php/voices

1.3 语音合成（TTS）

POST /php/agent_api.php/tts

{
    "voice_id": "v_abc123",
    "text": "大家好，欢迎来到我们的店铺...",
    "speed": 1.0,
    "pitch": 1.0
}

1.4 查询 TTS 状态

GET /php/agent_api.php/tts/status?task_id=xxx

轮询建议：每 3~5 秒一次，通常 10~30 秒完成

1.5 对口型

POST /php/agent_api.php/lip-sync

{
    "audio_url": "https://oss.aliyuncs.com/voice_synthesis/xxx.mp3",
    "video_id": 123,
    "high_quality": true
}

1.6 查询对口型状态

GET /php/agent_api.php/lip-sync/status?task_id=xxx

轮询建议：每 10 秒一次，通常 1~5 分钟完成

1.7 费用

功能	价格
对口型	1.2 元/分钟（高清，按秒计费）
视频字幕动画	由桌面端完成
语音合成(TTS)	按第三方 API 消耗

二、桌面渲染节点

对口型视频到手后，桌面渲染节点做三件事：

字幕对齐：基于音频自动对齐文案，生成逐字时间戳
模板注入：对口型视频 + 文案 + 品牌信息 + 字幕时序 → 注入 7 场景口播模板
动画渲染：浏览器引擎渲染 → 最终 MP4（1080×1920，25fps）

注意：不做画中画，不需要商家提供产品图片或视频素材。对口型视频本身已在底部/全屏展示，上层叠加字幕动画和场景卖点展示。

2.1 提交渲染任务参数

参数	类型	必填	说明
`copy`	string	是	完整营销文案
`audio_url`	string	是	TTS 生成的音频文件 URL
`video_url`	string	是	对口型完成的视频文件 URL
`brand_name`	string	否	商家名称（默认：品质优选）
`keywords`	object	否	关键词 → emoji 映射
`notify_url`	string	否	渲染完成后的回调地址

2.2 场景模板结构

场景	内容	权重
scene1-intro	开场介绍 + 价格展示	12%
scene2-rejection	痛点拒绝 + 标签展示	10%
scene3-pointless	传统方式无效对比	13%
scene4-six	六大优势展示（全屏人脸）	13%
scene5-benefits	核心卖点卡片	18%
scene6-only-ones	品牌独占（全屏人脸）	8%
scene7-cta	行动号召	21%

三、桌面渲染节点部署与连接

桌面渲染节点通过 SSH 反向隧道暴露给云服务器，让 AI Agent 可直接调用。

3.1 网络架构

AI Agent

→

云服务器
47.94.137.152:8088

→

SSH 隧道

→

桌面渲染
localhost:3000

3.2 桌面启动流程

第一步：启动渲染 API

node render-server.js --port 3000

第二步：启动 SSH 隧道

node tunnel.js

3.3 Agent 调用桌面渲染

POST http://47.94.137.152:8088/render

{
    "copy": "大家好，欢迎来到品质优选...",
    "audio_url": "https://oss.aliyuncs.com/voice_synthesis/xxx.mp3",
    "video_url": "https://oss.aliyuncs.com/video_synthesis/xxx.mp4",
    "brand_name": "品质优选",
    "notify_url": "http://.../render_callback"
}

返回：

{
    "success": true,
    "data": {
        "task_id": "task_xxx",
        "status": "queued",
        "status_url": "/status/task_xxx"
    }
}

查询状态：

GET http://47.94.137.152:8088/status/task_xxx

下载成品：

GET http://47.94.137.152:8088/output/task_xxx

四、完整工作流示例

Agent 生成文案 — 大模型生成营销文案
云端语音合成 — POST /tts → 轮询至 completed → 得到 audio_url
云端对口型 — POST /lip-sync → 轮询至 completed → 得到 video_url
提交桌面渲染 — POST /render { copy, audio_url, video_url, brand_name }
获取成品 — GET /output/task_xxx → 下载 MP4

五、商家准备素材

素材	要求	用途
录音	手机录制，5~30 秒，清晰人声	声音克隆 → 生成 voice_id
真人出镜视频	5~10 秒，正面拍摄，面部清晰	对口型 → 作为口播人物

不需要提供产品图片、产品视频、Logo 等额外素材。