跳转至

工具功能详解

MiniMax-MCP 服务器提供了一系列工具,将 MiniMax 的多模态 AI 功能通过 MCP 协议暴露给客户端。

⚠️ 重要提示: 使用这些工具调用 MiniMax API 可能会产生费用。请参考 MiniMax 官方定价策略。

文本转语音 (text_to_audio)

  • 功能: 将输入的文本合成为自然流畅的语音。
  • 核心参数:
    • text: 需要转换为语音的文本内容。
    • voice_id: 指定使用的语音模型 ID。可以通过 list_voices 工具获取可用 ID。
  • 可选参数: (具体参数需查阅 API 文档或代码)
    • speed: 语音播放速度。
    • volume: 音量大小。
    • pitch: 音调高低。
    • emotion: 情感色彩 (如果模型支持)。
  • 输出: 根据 MINIMAX_API_RESOURCE_MODE 配置,返回生成的音频文件的 URL 或本地路径。

来源:server.py, README.md

语音列表 (list_voices)

  • 功能: 获取当前可用的所有语音模型列表及其信息。
  • 可选参数: voice_type (用于按类型过滤语音,例如 '标准', '克隆')。
  • 输出: 一个包含可用语音信息的列表,通常包括 voice_id 和描述。

来源:server.py, README.md

语音克隆 (voice_clone)

  • 功能: 使用用户提供的一个或多个音频样本,克隆一个新的自定义语音模型。
  • 数据要求: 需要提供包含清晰目标语音的音频文件 (本地路径或 URL)。
  • 计费: 克隆的语音在首次使用时可能产生额外费用。
  • 输出: 返回克隆任务的信息,成功后可能返回新的 voice_id

来源:server.py, README.md

视频生成 (generate_video)

  • 功能: 根据文本提示或输入图像生成一段视频。
  • 模式:
    • 文本到视频 (Text-to-Video): 输入文本提示。
    • 图像到视频 (Image-to-Video): 输入图像文件或 URL 及可选文本提示。
  • 高级功能: 对于某些模型 (如 Director 模型),可能支持通过提示词控制镜头运动。
  • 异步处理: 视频生成通常是耗时操作,此工具采用异步模式。
    • 调用: 调用后立即返回一个 task_id
    • 获取结果: 需要使用 query_video_generation 工具并提供 task_id 来查询任务状态和获取最终视频。
  • 输出: 返回视频生成任务的 task_id

来源:server.py, README.md

文本生成图像 (text_to_image)

  • 功能: 根据用户提供的文本描述生成图像。
  • 核心参数: prompt (描述想要生成的图像内容)。
  • 可选参数: (具体参数需查阅 API 文档或代码)
    • aspect_ratio: 生成图像的宽高比 (如 1:1, 16:9)。
    • num_images: 一次生成的图像数量。
    • 可能包含否定提示、风格控制等参数。
  • 输出: 根据 MINIMAX_API_RESOURCE_MODE 配置,返回生成的图像文件的 URL 或本地路径。

来源:server.py, README.md

视频生成状态查询 (query_video_generation)

  • 功能: 查询先前通过 generate_video 提交的视频生成任务的当前状态和结果。
  • 核心参数: task_id (由 generate_video 工具调用返回的任务 ID)。
  • 输出: 返回任务的当前状态(例如:pending, processing, completed, failed)。如果任务已完成,将包含最终视频的 URL 或本地路径。

来源:server.py, README.md

播放音频 (play_audio)

  • 功能: 在服务器端(如果配置允许且环境支持)或指示客户端播放指定的音频文件。
  • 支持格式: WAV, MP3。
  • 核心参数: 需要播放的音频文件的 URL 或本地路径。
  • 注意: 此功能在标准 MCP 客户端中的具体行为可能有所不同。

来源:server.py