Skip to content
广告 · 本站推荐广告

图片与媒体

OpenClaw 支持丰富的图片和媒体处理能力,包括图片分析、图片生成以及多种媒体格式的处理。

支持的图片格式

格式MIME 类型分析支持备注
JPEGimage/jpeg最通用,推荐
PNGimage/png无损,适合截图
WebPimage/webp体积最小
GIFimage/gif仅分析首帧
BMPimage/bmp体积大,不推荐
SVGimage/svg+xml⚠️部分模型支持

图片分析

通过多模态模型(Multimodal Model),Agent 可以理解图片内容。

基本用法

用户发送图片后,Agent 自动调用视觉模型进行分析:

用户:[发送一张菜品照片]
用户:这道菜叫什么?热量大概多少?

Agent:这是一份宫保鸡丁,主要由鸡胸肉、花生和干辣椒制成。
       一份约 300g 的宫保鸡丁热量约为 350-400 千卡。

支持的视觉模型

模型提供商中文图片理解
GPT-4oOpenAI✅ 优秀
Claude 3.5 SonnetAnthropic✅ 优秀
Qwen-VL-Max通义千问✅ 优秀
GLM-4V智谱 AI✅ 良好
Gemini Pro VisionGoogle✅ 良好

中文场景推荐

对于中文文档识别、中文场景理解,推荐使用 Qwen-VL-Max 或 GLM-4V,对中文内容的理解更准确。

配置视觉模型

yaml
models:
  vision:
    provider: openai
    model: gpt-4o
    max_tokens: 1024
    detail: auto           # auto / low / high

detail 参数说明:

  • auto:自动选择分辨率(推荐)
  • low:低分辨率,速度快,成本低
  • high:高分辨率,细节多,成本高

图片生成

Agent 可以调用图片生成模型创建图片。

支持的生成模型

模型提供商特点
DALL·E 3OpenAI高质量,理解语义准确
Stable Diffusion开源/本地可本地部署,免费
通义万相阿里云中文 Prompt 支持好

配置图片生成

yaml
models:
  image_generation:
    provider: openai
    model: dall-e-3
    size: 1024x1024        # 生成尺寸
    quality: standard       # standard / hd

媒体大小限制

大小限制

不同传输方式对媒体文件大小有不同限制,超出限制会自动压缩或拒绝。

传输方式最大大小备注
WebSocket 节点上传25 MB单次传输
渠道消息(WhatsApp)16 MB受平台限制
渠道消息(Telegram)20 MB受平台限制
渠道消息(飞书)30 MB受平台限制
API 上传50 MBHTTP multipart

压缩与优化

OpenClaw 内置图片预处理管线(Pipeline),可自动优化图片:

yaml
media:
  preprocessing:
    auto_resize: true
    max_dimension: 2048     # 最大边长(像素)
    quality: 85             # JPEG 压缩质量
    strip_exif: true        # 移除 EXIF 信息(保护隐私)
    convert_to: jpeg        # 统一转换为 JPEG

处理流程

原始图片 → 格式检查 → 尺寸调整 → 压缩 → EXIF 清理 → 发送到模型

性能提示

对于视觉分析任务,图片分辨率超过 2048px 通常不会提升识别精度,但会显著增加处理时间和 Token(令牌)消耗。建议开启 auto_resize

批量图片处理

Agent 支持一次接收多张图片:

yaml
media:
  batch:
    max_images: 10         # 单次最多处理图片数
    parallel: true         # 是否并行分析

图片存储

yaml
media:
  storage:
    path: ./data/media      # 本地存储路径
    retention: 7d           # 保留天数
    max_total_size: 10GB    # 最大总存储
    auto_cleanup: true      # 自动清理过期文件

常用场景

场景推荐配置
文档/发票识别detail: high + Qwen-VL
日常聊天图片detail: auto + 默认模型
监控截图分析detail: low + 快速模型
图片生成DALL·E 3 或通义万相

🇨🇳 中国用户须知

  • 图片分析:推荐使用 Qwen-VL-Max 或 GLM-4V,国内访问速度快,中文理解能力强
  • 图片生成:推荐使用通义万相,支持中文 Prompt,无需代理
  • EXIF 清理:建议开启 strip_exif,避免位置等隐私信息泄露

基于MIT协议开源 | 内容翻译自 官方文档,同步更新