图片与媒体

OpenClaw 支持丰富的图片和媒体处理能力，包括图片分析、图片生成以及多种媒体格式的处理。

支持的图片格式

格式	MIME 类型	分析支持	备注
JPEG	image/jpeg	✅	最通用，推荐
PNG	image/png	✅	无损，适合截图
WebP	image/webp	✅	体积最小
GIF	image/gif	✅	仅分析首帧
BMP	image/bmp	✅	体积大，不推荐
SVG	image/svg+xml	⚠️	部分模型支持

图片分析

通过多模态模型（Multimodal Model），Agent 可以理解图片内容。

基本用法

用户发送图片后，Agent 自动调用视觉模型进行分析：

用户：[发送一张菜品照片]
用户：这道菜叫什么？热量大概多少？

Agent：这是一份宫保鸡丁，主要由鸡胸肉、花生和干辣椒制成。
       一份约 300g 的宫保鸡丁热量约为 350-400 千卡。

支持的视觉模型

模型	提供商	中文图片理解
GPT-4o	OpenAI	✅ 优秀
Claude 3.5 Sonnet	Anthropic	✅ 优秀
Qwen-VL-Max	通义千问	✅ 优秀
GLM-4V	智谱 AI	✅ 良好
Gemini Pro Vision	Google	✅ 良好

中文场景推荐

对于中文文档识别、中文场景理解，推荐使用 Qwen-VL-Max 或 GLM-4V，对中文内容的理解更准确。

配置视觉模型

yaml

models:
  vision:
    provider: openai
    model: gpt-4o
    max_tokens: 1024
    detail: auto           # auto / low / high

detail 参数说明：

auto：自动选择分辨率（推荐）
low：低分辨率，速度快，成本低
high：高分辨率，细节多，成本高

图片生成

Agent 可以调用图片生成模型创建图片。

支持的生成模型

模型	提供商	特点
DALL·E 3	OpenAI	高质量，理解语义准确
Stable Diffusion	开源/本地	可本地部署，免费
通义万相	阿里云	中文 Prompt 支持好

配置图片生成

yaml

models:
  image_generation:
    provider: openai
    model: dall-e-3
    size: 1024x1024        # 生成尺寸
    quality: standard       # standard / hd

媒体大小限制

大小限制

不同传输方式对媒体文件大小有不同限制，超出限制会自动压缩或拒绝。

传输方式	最大大小	备注
WebSocket 节点上传	25 MB	单次传输
渠道消息（WhatsApp）	16 MB	受平台限制
渠道消息（Telegram）	20 MB	受平台限制
渠道消息（飞书）	30 MB	受平台限制
API 上传	50 MB	HTTP multipart

压缩与优化

OpenClaw 内置图片预处理管线（Pipeline），可自动优化图片：

yaml

media:
  preprocessing:
    auto_resize: true
    max_dimension: 2048     # 最大边长（像素）
    quality: 85             # JPEG 压缩质量
    strip_exif: true        # 移除 EXIF 信息（保护隐私）
    convert_to: jpeg        # 统一转换为 JPEG

处理流程

原始图片 → 格式检查 → 尺寸调整 → 压缩 → EXIF 清理 → 发送到模型

性能提示

对于视觉分析任务，图片分辨率超过 2048px 通常不会提升识别精度，但会显著增加处理时间和 Token（令牌）消耗。建议开启 auto_resize。

批量图片处理

Agent 支持一次接收多张图片：

yaml

media:
  batch:
    max_images: 10         # 单次最多处理图片数
    parallel: true         # 是否并行分析

图片存储

yaml

media:
  storage:
    path: ./data/media      # 本地存储路径
    retention: 7d           # 保留天数
    max_total_size: 10GB    # 最大总存储
    auto_cleanup: true      # 自动清理过期文件

常用场景

场景	推荐配置
文档/发票识别	detail: high + Qwen-VL
日常聊天图片	detail: auto + 默认模型
监控截图分析	detail: low + 快速模型
图片生成	DALL·E 3 或通义万相

🇨🇳 中国用户须知

图片分析：推荐使用 Qwen-VL-Max 或 GLM-4V，国内访问速度快，中文理解能力强
图片生成：推荐使用通义万相，支持中文 Prompt，无需代理
EXIF 清理：建议开启 strip_exif，避免位置等隐私信息泄露

图片与媒体 ​

支持的图片格式 ​

图片分析 ​

基本用法 ​

支持的视觉模型 ​

配置视觉模型 ​

图片生成 ​

支持的生成模型 ​

配置图片生成 ​

媒体大小限制 ​

压缩与优化 ​

处理流程 ​

批量图片处理 ​

图片存储 ​

常用场景 ​

🇨🇳 中国用户须知 ​

图片与媒体

支持的图片格式

图片分析

基本用法

支持的视觉模型

配置视觉模型

图片生成

支持的生成模型

配置图片生成

媒体大小限制

压缩与优化

处理流程

批量图片处理

图片存储

常用场景

🇨🇳 中国用户须知