🤖 AIOM 智能体 API 文档

让任意智能体通过API完成语音合成 → 对口型 → 视频字幕动画全流程

适用于 Coze / Dify / 自定义 Agent

📖 概览

AIOM 智能体API让任何AI Agent(Coze、Dify、自定义Agent等)能够调用AIOM平台的完整视频创作能力。

所有API统一通过 php/agent_api.php 入口,支持 RESTful 风格调用。

基础信息

项目
API基础URLhttps://www.aiom.com.cn/php/agent_api.php
认证方式Authorization: Bearer <token>X-API-Key: ak_xxx
请求格式JSON
响应格式JSON

🔐 认证方式

智能体API支持两种认证方式:

方式一:商户登录Token(推荐)

智能体先用商户账号密码登录,获取 Bearer token,之后所有请求携带此token。

# 第一步:登录获取token POST /php/login.php Content-Type: application/json {"identifier": "13800138000", "password": "123456"} # 第二步:后续请求携带 token Authorization: Bearer <返回的token>

方式二:API Key

适合长期运行的无交互智能体,需在后台创建API Key。

X-API-Key: ak_xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
💡 建议:用方式一获取登录token即可调用所有API,无需额外申请API Key。

🔄 完整工作流

典型的智能体调用流程如下:

1️⃣ 登录
获取token
2️⃣ 文案
自行生成
3️⃣ 查音色
GET /voices
4️⃣ 语音合成
POST /tts
5️⃣ 对口型
POST /lip-sync
6️⃣ 动态效果
POST /effects

也可一步到位使用 完整工作流 接口,自动完成所有步骤。

1️⃣ 智能体登录 POST

智能体使用商户账号密码登录,获取后续API调用所需的token。

POST /php/login.php

请求参数

参数类型必填说明
identifierstring手机号或邮箱
passwordstring登录密码

请求示例

curl -X POST "https://www.aiom.com.cn/php/login.php" \
-H "Content-Type: application/json" \
-d '{"identifier": "13800138000", "password": "123456"}'
import requests

url = "https://www.aiom.com.cn/php/login.php"
resp = requests.post(url, json={"identifier": "13800138000", "password": "123456"})
result = resp.json()
token = result["data"]["token"] # 保存此token
const resp = await fetch("https://www.aiom.com.cn/php/login.php", {
method: "POST",
headers: { "Content-Type": "application/json" },
body: JSON.stringify({ identifier: "13800138000", password: "123456" })
});
const result = await resp.json();
const token = result.data.token; // 保存此token

响应示例

{ "code": 200, "message": "登录成功", "data": { "token": "a1b2c3d4e5f6...", "userId": 1, "phone": "13800138000", "shopName": "我的店铺", "industry": "餐饮", "tags": "火锅" } }

2️⃣ 文案说明

AIOM平台不提供API文案生成,智能体应自行调用大模型(如Coze、OpenAI等)为商户生成营销文案。

平台自带「人工操作台」可手动编辑和管理文案,也提供抖音文案提取功能(见下方)。

💡 建议:智能体使用自己的大模型能力生成文案,更灵活可控。平台只负责语音合成 → 对口型 → 视频处理。

🎯 抖音文案提取(免费)

支持通过抖音分享链接提取视频中的文案内容,2分钟以内视频免费使用。

POST /php/agent_api.php(WebSocket)

请求参数

参数类型必填说明
dy_urlstring抖音视频分享链接
contentstring补充说明(可选)

使用方式

在网站「对口型工作台」中粘贴抖音链接,点击「提取文案」即可自动获取视频文案内容。

3️⃣ 获取音色ID列表 GET

查询当前商户已克隆的声音列表,获取 voice_id 用于后续语音合成。

GET /php/agent_api.php/voices

请求头

Authorization: Bearer <token>

请求示例

curl -X GET "https://www.aiom.com.cn/php/agent_api.php/voices" \
-H "Authorization: Bearer <token>"

响应示例

{ "success": true, "data": { "voices": [ { "id": 1, "voice_id": "v_abc123", "api_type": "chuangke", "created_at": "2026-05-01 12:00:00" } ], "total": 1 }, "timestamp": "2026-05-15 10:30:00" }
💡 说明:voice_id 即音色ID,商户在网站上完成声音克隆后自动生成。 如果没有音色记录,需先在网站上克隆声音。

4️⃣ 语音合成(TTS) POST

用文案 + 音色ID 合成音频。异步任务,创建后需轮询查询状态。

POST /php/agent_api.php/tts

请求头

Authorization: Bearer <token>
Content-Type: application/json

请求参数

参数类型必填说明
voice_idstring音色ID,从 /voices 接口获取
textstring要合成的文案内容
speedfloat语速,0.5~2.0,默认1.0
pitchfloat音调,0.5~2.0,默认1.0

请求示例

curl -X POST "https://www.aiom.com.cn/php/agent_api.php/tts" \
-H "Authorization: Bearer <token>" \
-H "Content-Type: application/json" \
-d '{"voice_id": "v_abc123", "text": "欢迎光临我们的店铺...", "speed": 1.0, "pitch": 1.0}'

响应示例

{ "success": true, "data": { "task_id": "20260515103000_xxx", "status": "processing", "message": "TTS task created, use GET /tts/status?task_id=... to poll" }, "timestamp": "2026-05-15 10:30:00" }

5️⃣ 查询语音合成状态 GET

轮询查询TTS任务是否完成,完成后获取音频URL。

GET /php/agent_api.php/tts/status?task_id=xxx
curl -X GET "https://www.aiom.com.cn/php/agent_api.php/tts/status?task_id=20260515103000_xxx" \
-H "Authorization: Bearer <token>"

响应示例 (处理中)

{ "success": true, "data": { "task_id": "20260515103000_xxx", "status": "processing", "status_code": 0, "audio_url": "" } }

响应示例 (完成)

{ "success": true, "data": { "task_id": "20260515103000_xxx", "status": "completed", "status_code": 1, "audio_url": "https://oss.aliyuncs.com/voice_synthesis/xxx.mp3" } }
⏱ 轮询建议:每 3~5 秒查询一次,直到 status 变为 "completed" 或 "failed"。通常 10~30 秒完成。

6️⃣ 对口型 POST

音频 + 真人视频 → 对口型视频。异步任务,创建后轮询查询状态。

POST /php/agent_api.php/lip-sync

请求参数

参数类型必填说明
audio_urlstringTTS合成的音频URL
video_idint二选一商户已有的视频素材ID
video_urlstring二选一直接传入视频URL
high_qualitybool高清模式,默认true

请求示例

curl -X POST "https://www.aiom.com.cn/php/agent_api.php/lip-sync" \
-H "Authorization: Bearer <token>" \
-H "Content-Type: application/json" \
-d '{"audio_url": "https://.../audio.mp3", "video_id": 123, "high_quality": true}'

响应示例

{ "success": true, "data": { "synthesis_id": 456, "task_id": "lip_xxx", "status": "processing", "message": "Lip-sync task created" }, "timestamp": "2026-05-15 10:30:00" }

7️⃣ 查询对口型状态 GET

GET /php/agent_api.php/lip-sync/status?task_id=xxx
curl -X GET "https://www.aiom.com.cn/php/agent_api.php/lip-sync/status?task_id=lip_xxx" \
-H "Authorization: Bearer <token>"

响应示例 (完成)

{ "success": true, "data": { "synthesis_id": 456, "task_id": "lip_xxx", "status": "completed", "video_url": "https://oss.aliyuncs.com/video_synthesis/xxx.mp4", "error_message": "", "created_at": "2026-05-15 10:30:00", "updated_at": "2026-05-15 10:35:00" } }
⏱ 轮询建议:对口型通常需要 1~5 分钟,每 10 秒查询一次。

9️⃣ 完整工作流 POST

智能体提供文案内容,一键完成语音合成 → 对口型 → 视频处理的完整流程。

文案由智能体自行生成(建议使用大模型能力),平台负责后续视频制作。

POST /php/agent_api.php/full-workflow

请求参数

参数类型必填说明
textstring文案内容(智能体自行提供)
voice_idstring音色ID,不填自动使用第一个
video_idint视频素材ID
video_urlstring直接传视频URL
speedfloat语速,默认1.0
pitchfloat音调,默认1.0
high_qualitybool高清模式,默认true
bgm_urlstring背景音乐URL

请求示例

curl -X POST "https://www.aiom.com.cn/php/agent_api.php/full-workflow" \
-H "Authorization: Bearer <token>" \
-H "Content-Type: application/json" \
-d '{"text": "欢迎光临我们的火锅店...", "video_id": 123, "voice_id": "xxx"}'

响应示例

{ "success": true, "data": { "task_id": "wf_20260515_xxx", "status": "pending", "tts_task_id": "20260515103000_xxx", "video_url": "https://.../video.mp4", "steps": [ { "step": 1, "name": "tts", "status": "processing" }, { "step": 2, "name": "lip_sync", "status": "pending" } ] }, "message": "Full workflow created...", "timestamp": "2026-05-15 10:30:00" }

🔟 查询素材 GET

查看商户已有的录音和视频素材列表。

GET /php/agent_api.php/resources
curl -X GET "https://www.aiom.com.cn/php/agent_api.php/resources" \
-H "Authorization: Bearer <token>"

响应示例

{ "success": true, "data": { "recordings": [ { "id": 1, "title": "欢迎词", "audio_url": "https://...", "tags": "男声,温和" } ], "videos": [ { "id": 1, "title": "正面拍摄", "video_url": "https://...", "tags": "正面,微笑" } ] } }

📁 素材管理

除了通过 /resources 批量查询,也可直接调用以下独立素材API。

获取录音列表

GET /php/get_recordings.php
curl -X GET "https://www.aiom.com.cn/php/get_recordings.php" \
-H "Authorization: Bearer <token>"
{ "recordings": [ { "id": 1, "title": "男声-客服", "tags": "男声,客服,正式", "audio_url": "https://www.aiom.com.cn/uploads/audio/xxx.mp3" } ] }

获取视频列表

GET /php/get_videos.php
curl -X GET "https://www.aiom.com.cn/php/get_videos.php" \
-H "Authorization: Bearer <token>"
{ "videos": [ { "id": 1, "title": "正面半身-西装", "tags": "正面,半身,西装,正式", "video_url": "https://www.aiom.com.cn/uploads/video/xxx.mp4" } ] }
💡 使用建议:智能体根据 tags 字段匹配用户需要的风格。 如用户需要"男声客服"风格,查找 tags 包含"男声,客服"的录音。

🎨 AI图像生成

支持文生图和图生图,可用于生成视频封面或配图。

创建生图任务

POST /php/api_image_gen.php?action=generate

文生图

curl -X POST "https://www.aiom.com.cn/php/api_image_gen.php?action=generate" \
-H "Authorization: Bearer <token>" \
-H "Content-Type: application/json" \
-d '{"mode": "text2img", "prompt": "一只可爱的橘猫,卡通风格", "size": "auto", "quantity": 1}'

图生图

curl -X POST "https://www.aiom.com.cn/php/api_image_gen.php?action=generate" \
-H "Authorization: Bearer <token>" \
-H "Content-Type: application/json" \
-d '{"mode": "img2img", "prompt": "改成水彩画风格", "images": ["https://...ref.jpg"]}'

查询生图状态

GET /php/api_image_gen.php?action=query&task_id=xxx
curl -X GET "https://www.aiom.com.cn/php/api_image_gen.php?action=query&task_id=260342195" \
-H "Authorization: Bearer <token>"

参数说明

参数类型必填说明
modestringtext2imgimg2img
promptstring图像描述文本
sizestringauto/square/landscape/portrait
quantityint生成数量 1-4,默认 1
imagesarray图生图的参考图URL数组
💰 计费:会员 0.28元/张,游客 0.5元/张。生成失败自动退款。

🔌 MCP服务接入

AIOM 提供 MCP (Model Context Protocol) 服务,支持智能体通过标准MCP协议连接。

MCP端点

端点URL说明
SSE连接https://www.aiom.com.cn/mcp/sseMCP客户端通过SSE连接
消息处理https://www.aiom.com.cn/mcp/messages处理MCP协议消息
健康检查https://www.aiom.com.cn/mcp/health服务状态检查

MCP 工具列表

工具名说明
get_voices获取用户音色列表
synthesize_speech语音合成(TTS)
create_lip_sync创建对口型任务
query_task_status查询任务状态
get_resources获取素材列表
apply_effects应用动态效果
# MCP客户端配置示例(Claude Code / Cline 等) { "mcpServers": { "aiom": { "url": "https://www.aiom.com.cn/mcp/sse", "headers": { "Authorization": "Bearer <token>" } } } }

🎬 视频字幕动画 POST

📝 待完善:此功能的详细文档和接口实现将由桌面端完成,敬请期待。
POST /php/agent_api.php/effects

🤖 Coze/Dify 智能体配置

将AIOM的能力接入Coze或Dify智能体,实现自动化的视频创作。

系统提示词模板

复制以下内容到智能体的系统提示词中:

你是AIOM视频创作助手,帮助用户生成对口型营销视频。 ## 核心能力 - 对口型视频生成:让视频中的人物按文案说话 - 语音合成(TTS):文字转语音 - 素材管理:管理用户的录音和视频素材 ## 认证方式 Authorization: Bearer <商户登录token> ## 调用流程 1. 询问商户的产品卖点和宣传需求 2. 智能体自行生成营销文案(使用自身大模型能力) 3. 调用 voices 接口获取用户的音色ID 4. 调用 tts 接口合成音频(轮询等待完成) 5. 调用 lip-sync 接口生成对口型视频(轮询等待完成) 6. 调用 effects 添加视频字幕动画效果 7. 返回最终的视频URL给用户 ## 计费 - 对口型:1.2元/分钟(高清,按秒计费) - 视频字幕动画:待定 - 生图:0.28~0.5元/张

完整对话流程示例

👤 用户:"帮我生成一段火锅店的带货视频"
🤖 智能体:"好的!请问您的店铺是做什么类型的火锅?有什么特色菜品想重点推荐吗?"
👤 用户:"我们主打麻辣锅底,毛肚和鸭肠是招牌"
🤖 智能体:(自行生成文案)→(调用 /voices 查音色)→(调用 /tts 合成语音)→(调用 /lip-sync 对口型)→(调用 /effects 添加效果)
🤖 智能体:"视频已经生成好了!点击这里查看:https://..."

💰 计费说明

功能计费方式价格
对口型按视频时长(秒)1.2元/分钟(高清,按秒计费)
视频字幕动画按视频数待定
语音合成(TTS)按次数按第三方API消耗
AI生图按张0.28元/张(image2中等质量)

对口型费用计算

# 公式 费用 = (视频秒数 ÷ 60) × 1.2 # 示例 30秒视频:30 ÷ 60 × 1.2 = 0.60元 60秒视频:60 ÷ 60 × 1.2 = 1.20元 120秒视频:120 ÷ 60 × 1.2 = 2.40元

⚠️ 错误码参考

HTTP状态码含义处理建议
200请求成功正常处理
201任务创建成功保存task_id,开始轮询
400参数错误检查请求参数是否完整
401未授权检查Authorization头或token是否有效
402余额不足提示用户充值
403权限不足API Key过期或禁用
404资源不存在检查ID是否正确
500服务器错误稍后重试

错误响应格式

{ "success": false, "data": null, "message": "错误描述信息", "timestamp": "2026-05-15 10:30:00" }

🚀 完整代码示例

以下是智能体调用完整工作流的 Python 和 JavaScript 示例。

import requests import time import json BASE_URL = "https://www.aiom.com.cn/php" # 1. 登录获取token login_resp = requests.post(f"{BASE_URL}/login.php", json={ "identifier": "13800138000", "password": "123456" }) token = login_resp.json()["data"]["token"] headers = {"Authorization": f"Bearer {token}", "Content-Type": "application/json"} print(f"登录成功, token: {token[:20]}...") # 2. 文案(智能体自行生成,或使用抖音文案提取) content = "🔥 各位吃货朋友们,今天给大家推荐一家..." # 示例文案,实际由智能体生成 # 3. 查询音色 voices_resp = requests.get(f"{BASE_URL}/agent_api.php/voices", headers=headers) voices = voices_resp.json()["data"]["voices"] voice_id = voices[0]["voice_id"] if voices else None print(f"音色ID: {voice_id}") # 4. 语音合成(TTS) tts_resp = requests.post(f"{BASE_URL}/agent_api.php/tts", headers=headers, json={"voice_id": voice_id, "text": content}) tts_task_id = tts_resp.json()["data"]["task_id"] # 5. 轮询TTS状态 while True: status_resp = requests.get(f"{BASE_URL}/agent_api.php/tts/status", headers=headers, params={"task_id": tts_task_id}) status = status_resp.json()["data"] if status["status"] == "completed": audio_url = status["audio_url"] print(f"TTS完成: {audio_url}") break elif status["status"] == "failed": print("TTS失败") break time.sleep(3) # 6. 对口型 lip_resp = requests.post(f"{BASE_URL}/agent_api.php/lip-sync", headers=headers, json={"audio_url": audio_url, "video_id": 123}) lip_task_id = lip_resp.json()["data"]["task_id"] # 7. 轮询对口型状态 while True: lip_status = requests.get(f"{BASE_URL}/agent_api.php/lip-sync/status", headers=headers, params={"task_id": lip_task_id}) data = lip_status.json()["data"] if data["status"] == "completed": print(f"对口型完成: {data['video_url']}") break elif data["status"] == "failed": print("对口型失败") break time.sleep(10)
const BASE_URL = "https://www.aiom.com.cn/php"; // 1. 登录 const loginResp = await fetch(`${BASE_URL}/login.php`, { method: "POST", headers: { "Content-Type": "application/json" }, body: JSON.stringify({ identifier: "13800138000", password: "123456" }) }); const { data: { token } } = await loginResp.json(); const headers = { "Authorization": `Bearer ${token}`, "Content-Type": "application/json" }; // 2. 文案(智能体自行生成,或使用抖音文案提取) const content = "🔥 各位吃货朋友们,今天给大家推荐一家..."; // 示例文案,实际由智能体生成 // 3. 查音色 const voicesResp = await fetch(`${BASE_URL}/agent_api.php/voices`, { headers }); const voices = (await voicesResp.json()).data.voices; const voiceId = voices[0]?.voice_id; // 4. TTS + 轮询 + 对口型 ... (与Python逻辑相同)
🤖 Coze智能体配置指引:

在Coze中创建API插件

{ "name": "AIOM Video Creator", "description": "AIOM视频创作API,支持语音合成/对口型/视频处理", "api": { "baseUrl": "https://www.aiom.com.cn/php/agent_api.php", "auth": { "type": "bearer", "token": "{{商户登录后获取的token}}" } }, "operations": [ { "name": "get_voices", "method": "GET", "path": "/voices" }, { "name": "create_tts", "method": "POST", "path": "/tts", "parameters": { "voice_id": "{{voice_id}}", "text": "{{text}}" } }, { "name": "query_tts_status", "method": "GET", "path": "/tts/status", "parameters": { "task_id": "{{task_id}}" } }, { "name": "create_lip_sync", "method": "POST", "path": "/lip-sync", "parameters": { "audio_url": "{{audio_url}}", "video_id": "{{video_id}}" } }, { "name": "query_lip_sync_status", "method": "GET", "path": "/lip-sync/status", "parameters": { "task_id": "{{task_id}}" } } ] }

Coze智能体提示词模板

将以下内容添加到Coze智能体的系统提示词中:

你是AIOM视频创作助手,帮助用户生成对口型营销视频。 工作流程: 1. 询问商户的产品卖点和宣传需求 2. 智能体自行生成营销文案 3. 调用 voices 接口获取用户的音色ID 4. 调用 tts 接口合成音频(轮询等待完成) 5. 调用 lip-sync 接口生成对口型视频(轮询等待完成) 6. 返回最终的视频URL给用户 API地址: POST /php/login.php - 登录获取token GET /php/agent_api.php/voices - 查音色 POST /php/agent_api.php/tts - 语音合成 GET /php/agent_api.php/tts/status - 查TTS状态 POST /php/agent_api.php/lip-sync - 对口型 GET /php/agent_api.php/lip-sync/status - 查对口型状态 认证方式: Authorization: Bearer <商户token>

❓ 常见问题

Q: 智能体如何获取token?

调用 POST /php/login.php 用商户账号密码登录即可获取token。也可在后台创建API Key通过 X-API-Key 头认证。

Q: 音色ID从哪里来?

商户需要在AIOM网站上先完成声音克隆(上传录音),系统会自动生成音色ID。之后可通过 GET /voices 查询。

Q: 需要先上传视频素材吗?

是的,商户需先在网站上上传真人视频素材(仅支持 5~10秒 的产品展示视频),对口型接口需要 video_idvideo_url 参数。图片类素材后续将不再支持。

Q: TTS和对口型需要等多久?

TTS通常 10~30 秒完成,对口型通常 1~5 分钟完成。建议使用轮询方式查询状态。

Q: 如何在Coze中配置这些API?

参考上方的"代码示例 → Coze配置"标签页,按JSON格式创建API插件即可。

Q: 生成失败会扣费吗?

不会。对口型任务失败不会扣费,余额自动退还。