Skill Image — Análise e Geração de Imagens
Skill de análise e geração de imagens para OpenClaw. Vision AI e geração com DALL-E/Midjourney.
⏱️ 2 min de leitura
Skill: Image
Analise e gere imagens diretamente no chat.
O Que Faz
Análise (Vision)
- Descrever imagens
- Extrair texto (OCR)
- 🏷 Identificar objetos, pessoas, lugares
- ❓ Responder perguntas sobre imagens
Geração
- Criar imagens a partir de texto
- 🔄 Variações de imagens existentes
- ✏ Editar partes de imagens
Instalação
clawdhub install image
Análise de Imagens
Enviar e Analisar
[Anexa imagem]
"O que tem nessa imagem?"
Perguntas Específicas
[Anexa imagem de código]
"O que esse código faz?"
[Anexa foto de planta]
"Que planta é essa? Está saudável?"
[Anexa print de erro]
"Como resolver esse erro?"
Extrair Texto (OCR)
[Anexa foto de documento]
"Transcreva o texto dessa imagem"
Comparar Imagens
[Anexa 2 imagens]
"Qual a diferença entre essas duas imagens?"
Geração de Imagens
DALL-E (OpenAI)
"Gere imagem: Um gato programando em um laptop, estilo cartoon"
Configuração
# skills/image.yaml
generation:
provider: openai # ou midjourney
model: "dall-e-3"
size: "1024x1024"
quality: "standard" # ou "hd"
Estilos
"Gere imagem estilo foto realista: [descrição]"
"Gere imagem estilo pintura a óleo: [descrição]"
"Gere imagem estilo pixel art: [descrição]"
"Gere imagem estilo anime: [descrição]"
Casos de Uso
Desenvolvimento
[Screenshot de bug]
"O que está errado nessa tela?"
[Diagrama de arquitetura]
"Analise essa arquitetura"
Produtividade
[Foto de whiteboard]
"Transcreva as notas dessa reunião"
[Foto de cartão de visita]
"Salve os dados desse contato"
Criativo
"Crie logo para empresa de tecnologia chamada Nova"
"Gere thumbnail para vídeo sobre produtividade"
E-commerce
[Foto de produto]
"Escreva descrição para esse produto"
"Sugira preço baseado em produtos similares"
Providers
Para Análise (Vision)
| Provider | Modelo | Qualidade |
|---|---|---|
| Anthropic | Claude Vision | |
| OpenAI | GPT-4 Vision | |
| Gemini Pro Vision |
Para Geração
| Provider | Modelo | Qualidade |
|---|---|---|
| OpenAI | DALL-E 3 | |
| Midjourney | v6 | |
| Stability | SDXL |
Custo
Análise
- Incluído nos tokens do modelo de chat
- ~100-300 tokens por imagem
Geração (DALL-E 3)
- Standard 1024x1024: $0.04/imagem
- HD 1024x1024: $0.08/imagem
Configuração Completa
# skills/image.yaml
vision:
enabled: true
auto_analyze: false # Analisar automaticamente
generation:
provider: openai
model: "dall-e-3"
defaults:
size: "1024x1024"
quality: "standard"
style: "vivid" # ou "natural"
Limitações
- Imagens muito grandes são redimensionadas
- Algumas imagens podem ser rejeitadas (política de conteúdo)
- Geração leva alguns segundos