商家口播视频全流程架构

云端 AI 合成 + 桌面渲染动画 — 完整管线说明

架构总览

商家只需准备两样素材:一段录音(用于声音克隆)+ 一段真人出镜视频(用于对口型)。

整个视频生成管线分为两个阶段:

① 商家录音
声音克隆
② 云端 TTS
语音合成
③ 云端对口型
唇形同步
④ 桌面渲染
字幕+动画
⑤ 成品 MP4
口播视频
阶段职责部署位置
AI 合成层语音克隆、TTS、对口型云端服务器
渲染层字幕对齐、模板注入、动画渲染桌面渲染节点

一、云端 API(AI 合成层)

基础 URL:https://www.aiom.com.cn/php

认证方式:Authorization: Bearer <token>(商家登录后获取)

1.1 登录获取 Token

POST /php/login.php
{ "identifier": "商家手机号", "password": "商家密码" }

1.2 获取声音列表

GET /php/agent_api.php/voices

1.3 语音合成(TTS)

POST /php/agent_api.php/tts
{ "voice_id": "v_abc123", "text": "大家好,欢迎来到我们的店铺...", "speed": 1.0, "pitch": 1.0 }

1.4 查询 TTS 状态

GET /php/agent_api.php/tts/status?task_id=xxx
轮询建议:每 3~5 秒一次,通常 10~30 秒完成

1.5 对口型

POST /php/agent_api.php/lip-sync
{ "audio_url": "https://oss.aliyuncs.com/voice_synthesis/xxx.mp3", "video_id": 123, "high_quality": true }

1.6 查询对口型状态

GET /php/agent_api.php/lip-sync/status?task_id=xxx
轮询建议:每 10 秒一次,通常 1~5 分钟完成

1.7 费用

功能价格
对口型1.2 元/分钟(高清,按秒计费)
视频字幕动画由桌面端完成
语音合成(TTS)按第三方 API 消耗

二、桌面渲染节点

对口型视频到手后,桌面渲染节点做三件事:

  1. 字幕对齐:基于音频自动对齐文案,生成逐字时间戳
  2. 模板注入:对口型视频 + 文案 + 品牌信息 + 字幕时序 → 注入 7 场景口播模板
  3. 动画渲染:浏览器引擎渲染 → 最终 MP4(1080×1920,25fps)
注意:不做画中画,不需要商家提供产品图片或视频素材。对口型视频本身已在底部/全屏展示,上层叠加字幕动画和场景卖点展示。

2.1 提交渲染任务参数

参数类型必填说明
copystring完整营销文案
audio_urlstringTTS 生成的音频文件 URL
video_urlstring对口型完成的视频文件 URL
brand_namestring商家名称(默认:品质优选)
keywordsobject关键词 → emoji 映射
notify_urlstring渲染完成后的回调地址

2.2 场景模板结构

场景内容权重
scene1-intro开场介绍 + 价格展示12%
scene2-rejection痛点拒绝 + 标签展示10%
scene3-pointless传统方式无效对比13%
scene4-six六大优势展示(全屏人脸)13%
scene5-benefits核心卖点卡片18%
scene6-only-ones品牌独占(全屏人脸)8%
scene7-cta行动号召21%

三、桌面渲染节点部署与连接

桌面渲染节点通过 SSH 反向隧道暴露给云服务器,让 AI Agent 可直接调用。

3.1 网络架构

AI Agent
云服务器
47.94.137.152:8088
SSH 隧道
桌面渲染
localhost:3000

3.2 桌面启动流程

第一步:启动渲染 API

node render-server.js --port 3000

第二步:启动 SSH 隧道

node tunnel.js

3.3 Agent 调用桌面渲染

POST http://47.94.137.152:8088/render
{ "copy": "大家好,欢迎来到品质优选...", "audio_url": "https://oss.aliyuncs.com/voice_synthesis/xxx.mp3", "video_url": "https://oss.aliyuncs.com/video_synthesis/xxx.mp4", "brand_name": "品质优选", "notify_url": "http://.../render_callback" }

返回:

{ "success": true, "data": { "task_id": "task_xxx", "status": "queued", "status_url": "/status/task_xxx" } }

查询状态:

GET http://47.94.137.152:8088/status/task_xxx

下载成品:

GET http://47.94.137.152:8088/output/task_xxx

四、完整工作流示例

  1. Agent 生成文案 — 大模型生成营销文案
  2. 云端语音合成 — POST /tts → 轮询至 completed → 得到 audio_url
  3. 云端对口型 — POST /lip-sync → 轮询至 completed → 得到 video_url
  4. 提交桌面渲染 — POST /render { copy, audio_url, video_url, brand_name }
  5. 获取成品 — GET /output/task_xxx → 下载 MP4

五、商家准备素材

素材要求用途
录音手机录制,5~30 秒,清晰人声声音克隆 → 生成 voice_id
真人出镜视频5~10 秒,正面拍摄,面部清晰对口型 → 作为口播人物
不需要提供产品图片、产品视频、Logo 等额外素材。