跳转至

MiniMax-MCP Wiki

工具

MiniMax-AI/MiniMax-MCP

工具功能详解¶

MiniMax-MCP 服务器提供了一系列工具，将 MiniMax 的多模态 AI 功能通过 MCP 协议暴露给客户端。

⚠️ 重要提示: 使用这些工具调用 MiniMax API 可能会产生费用。请参考 MiniMax 官方定价策略。

文本转语音 (text_to_audio)¶

功能: 将输入的文本合成为自然流畅的语音。
核心参数:
- text: 需要转换为语音的文本内容。
- voice_id: 指定使用的语音模型 ID。可以通过 list_voices 工具获取可用 ID。
可选参数: (具体参数需查阅 API 文档或代码)
- speed: 语音播放速度。
- volume: 音量大小。
- pitch: 音调高低。
- emotion: 情感色彩 (如果模型支持)。
输出: 根据 MINIMAX_API_RESOURCE_MODE 配置，返回生成的音频文件的 URL 或本地路径。

来源：server.py, README.md

语音列表 (list_voices)¶

功能: 获取当前可用的所有语音模型列表及其信息。
可选参数: voice_type (用于按类型过滤语音，例如 '标准', '克隆')。
输出: 一个包含可用语音信息的列表，通常包括 voice_id 和描述。

来源：server.py, README.md

语音克隆 (voice_clone)¶

功能: 使用用户提供的一个或多个音频样本，克隆一个新的自定义语音模型。
数据要求: 需要提供包含清晰目标语音的音频文件 (本地路径或 URL)。
计费: 克隆的语音在首次使用时可能产生额外费用。
输出: 返回克隆任务的信息，成功后可能返回新的 voice_id。

来源：server.py, README.md

视频生成 (generate_video)¶

功能: 根据文本提示或输入图像生成一段视频。
模式:
- 文本到视频 (Text-to-Video): 输入文本提示。
- 图像到视频 (Image-to-Video): 输入图像文件或 URL 及可选文本提示。
高级功能: 对于某些模型 (如 Director 模型)，可能支持通过提示词控制镜头运动。
异步处理: 视频生成通常是耗时操作，此工具采用异步模式。
- 调用: 调用后立即返回一个 task_id。
- 获取结果: 需要使用 query_video_generation 工具并提供 task_id 来查询任务状态和获取最终视频。
输出: 返回视频生成任务的 task_id。

来源：server.py, README.md

文本生成图像 (text_to_image)¶

功能: 根据用户提供的文本描述生成图像。
核心参数: prompt (描述想要生成的图像内容)。
可选参数: (具体参数需查阅 API 文档或代码)
- aspect_ratio: 生成图像的宽高比 (如 1:1, 16:9)。
- num_images: 一次生成的图像数量。
- 可能包含否定提示、风格控制等参数。
输出: 根据 MINIMAX_API_RESOURCE_MODE 配置，返回生成的图像文件的 URL 或本地路径。

来源：server.py, README.md

视频生成状态查询 (query_video_generation)¶

功能: 查询先前通过 generate_video 提交的视频生成任务的当前状态和结果。
核心参数: task_id (由 generate_video 工具调用返回的任务 ID)。
输出: 返回任务的当前状态（例如：pending, processing, completed, failed）。如果任务已完成，将包含最终视频的 URL 或本地路径。

来源：server.py, README.md

播放音频 (play_audio)¶

功能: 在服务器端（如果配置允许且环境支持）或指示客户端播放指定的音频文件。
支持格式: WAV, MP3。
核心参数: 需要播放的音频文件的 URL 或本地路径。
注意: 此功能在标准 MCP 客户端中的具体行为可能有所不同。

来源：server.py