图片与媒体
OpenClaw 支持丰富的图片和媒体处理能力,包括图片分析、图片生成以及多种媒体格式的处理。
支持的图片格式
| 格式 | MIME 类型 | 分析支持 | 备注 |
|---|---|---|---|
| JPEG | image/jpeg | ✅ | 最通用,推荐 |
| PNG | image/png | ✅ | 无损,适合截图 |
| WebP | image/webp | ✅ | 体积最小 |
| GIF | image/gif | ✅ | 仅分析首帧 |
| BMP | image/bmp | ✅ | 体积大,不推荐 |
| SVG | image/svg+xml | ⚠️ | 部分模型支持 |
图片分析
通过多模态模型(Multimodal Model),Agent 可以理解图片内容。
基本用法
用户发送图片后,Agent 自动调用视觉模型进行分析:
用户:[发送一张菜品照片]
用户:这道菜叫什么?热量大概多少?
Agent:这是一份宫保鸡丁,主要由鸡胸肉、花生和干辣椒制成。
一份约 300g 的宫保鸡丁热量约为 350-400 千卡。支持的视觉模型
| 模型 | 提供商 | 中文图片理解 |
|---|---|---|
| GPT-4o | OpenAI | ✅ 优秀 |
| Claude 3.5 Sonnet | Anthropic | ✅ 优秀 |
| Qwen-VL-Max | 通义千问 | ✅ 优秀 |
| GLM-4V | 智谱 AI | ✅ 良好 |
| Gemini Pro Vision | ✅ 良好 |
中文场景推荐
对于中文文档识别、中文场景理解,推荐使用 Qwen-VL-Max 或 GLM-4V,对中文内容的理解更准确。
配置视觉模型
yaml
models:
vision:
provider: openai
model: gpt-4o
max_tokens: 1024
detail: auto # auto / low / highdetail 参数说明:
- auto:自动选择分辨率(推荐)
- low:低分辨率,速度快,成本低
- high:高分辨率,细节多,成本高
图片生成
Agent 可以调用图片生成模型创建图片。
支持的生成模型
| 模型 | 提供商 | 特点 |
|---|---|---|
| DALL·E 3 | OpenAI | 高质量,理解语义准确 |
| Stable Diffusion | 开源/本地 | 可本地部署,免费 |
| 通义万相 | 阿里云 | 中文 Prompt 支持好 |
配置图片生成
yaml
models:
image_generation:
provider: openai
model: dall-e-3
size: 1024x1024 # 生成尺寸
quality: standard # standard / hd媒体大小限制
大小限制
不同传输方式对媒体文件大小有不同限制,超出限制会自动压缩或拒绝。
| 传输方式 | 最大大小 | 备注 |
|---|---|---|
| WebSocket 节点上传 | 25 MB | 单次传输 |
| 渠道消息(WhatsApp) | 16 MB | 受平台限制 |
| 渠道消息(Telegram) | 20 MB | 受平台限制 |
| 渠道消息(飞书) | 30 MB | 受平台限制 |
| API 上传 | 50 MB | HTTP multipart |
压缩与优化
OpenClaw 内置图片预处理管线(Pipeline),可自动优化图片:
yaml
media:
preprocessing:
auto_resize: true
max_dimension: 2048 # 最大边长(像素)
quality: 85 # JPEG 压缩质量
strip_exif: true # 移除 EXIF 信息(保护隐私)
convert_to: jpeg # 统一转换为 JPEG处理流程
原始图片 → 格式检查 → 尺寸调整 → 压缩 → EXIF 清理 → 发送到模型性能提示
对于视觉分析任务,图片分辨率超过 2048px 通常不会提升识别精度,但会显著增加处理时间和 Token(令牌)消耗。建议开启 auto_resize。
批量图片处理
Agent 支持一次接收多张图片:
yaml
media:
batch:
max_images: 10 # 单次最多处理图片数
parallel: true # 是否并行分析图片存储
yaml
media:
storage:
path: ./data/media # 本地存储路径
retention: 7d # 保留天数
max_total_size: 10GB # 最大总存储
auto_cleanup: true # 自动清理过期文件常用场景
| 场景 | 推荐配置 |
|---|---|
| 文档/发票识别 | detail: high + Qwen-VL |
| 日常聊天图片 | detail: auto + 默认模型 |
| 监控截图分析 | detail: low + 快速模型 |
| 图片生成 | DALL·E 3 或通义万相 |
🇨🇳 中国用户须知
- 图片分析:推荐使用 Qwen-VL-Max 或 GLM-4V,国内访问速度快,中文理解能力强
- 图片生成:推荐使用通义万相,支持中文 Prompt,无需代理
- EXIF 清理:建议开启
strip_exif,避免位置等隐私信息泄露
