工具功能详解¶
MiniMax-MCP 服务器提供了一系列工具,将 MiniMax 的多模态 AI 功能通过 MCP 协议暴露给客户端。
⚠️ 重要提示: 使用这些工具调用 MiniMax API 可能会产生费用。请参考 MiniMax 官方定价策略。
文本转语音 (text_to_audio)¶
- 功能: 将输入的文本合成为自然流畅的语音。
- 核心参数:
text: 需要转换为语音的文本内容。voice_id: 指定使用的语音模型 ID。可以通过list_voices工具获取可用 ID。
- 可选参数: (具体参数需查阅 API 文档或代码)
speed: 语音播放速度。volume: 音量大小。pitch: 音调高低。emotion: 情感色彩 (如果模型支持)。
- 输出: 根据
MINIMAX_API_RESOURCE_MODE配置,返回生成的音频文件的 URL 或本地路径。
来源:server.py, README.md
语音列表 (list_voices)¶
- 功能: 获取当前可用的所有语音模型列表及其信息。
- 可选参数:
voice_type(用于按类型过滤语音,例如 '标准', '克隆')。 - 输出: 一个包含可用语音信息的列表,通常包括
voice_id和描述。
来源:server.py, README.md
语音克隆 (voice_clone)¶
- 功能: 使用用户提供的一个或多个音频样本,克隆一个新的自定义语音模型。
- 数据要求: 需要提供包含清晰目标语音的音频文件 (本地路径或 URL)。
- 计费: 克隆的语音在首次使用时可能产生额外费用。
- 输出: 返回克隆任务的信息,成功后可能返回新的
voice_id。
来源:server.py, README.md
视频生成 (generate_video)¶
- 功能: 根据文本提示或输入图像生成一段视频。
- 模式:
- 文本到视频 (Text-to-Video): 输入文本提示。
- 图像到视频 (Image-to-Video): 输入图像文件或 URL 及可选文本提示。
- 高级功能: 对于某些模型 (如 Director 模型),可能支持通过提示词控制镜头运动。
- 异步处理: 视频生成通常是耗时操作,此工具采用异步模式。
- 调用: 调用后立即返回一个
task_id。 - 获取结果: 需要使用
query_video_generation工具并提供task_id来查询任务状态和获取最终视频。
- 调用: 调用后立即返回一个
- 输出: 返回视频生成任务的
task_id。
来源:server.py, README.md
文本生成图像 (text_to_image)¶
- 功能: 根据用户提供的文本描述生成图像。
- 核心参数:
prompt(描述想要生成的图像内容)。 - 可选参数: (具体参数需查阅 API 文档或代码)
aspect_ratio: 生成图像的宽高比 (如1:1,16:9)。num_images: 一次生成的图像数量。- 可能包含否定提示、风格控制等参数。
- 输出: 根据
MINIMAX_API_RESOURCE_MODE配置,返回生成的图像文件的 URL 或本地路径。
来源:server.py, README.md
视频生成状态查询 (query_video_generation)¶
- 功能: 查询先前通过
generate_video提交的视频生成任务的当前状态和结果。 - 核心参数:
task_id(由generate_video工具调用返回的任务 ID)。 - 输出: 返回任务的当前状态(例如:
pending,processing,completed,failed)。如果任务已完成,将包含最终视频的 URL 或本地路径。
来源:server.py, README.md
播放音频 (play_audio)¶
- 功能: 在服务器端(如果配置允许且环境支持)或指示客户端播放指定的音频文件。
- 支持格式: WAV, MP3。
- 核心参数: 需要播放的音频文件的 URL 或本地路径。
- 注意: 此功能在标准 MCP 客户端中的具体行为可能有所不同。
来源:server.py