Skill Image — Análise e Geração de Imagens

Skill de análise e geração de imagens para OpenClaw. Vision AI e geração com DALL-E/Midjourney.

Skill: Image

Analise e gere imagens diretamente no chat.

O Que FazAnálise (Vision)
  • Descrever imagens
  • Extrair texto (OCR)
  • 🏷 Identificar objetos, pessoas, lugares
  • Responder perguntas sobre imagens
Geração
  • Criar imagens a partir de texto
  • 🔄 Variações de imagens existentes
  • Editar partes de imagens
Instalação
clawdhub install image
Análise de ImagensEnviar e Analisar
[Anexa imagem]
"O que tem nessa imagem?"
Perguntas Específicas
[Anexa imagem de código]
"O que esse código faz?"

[Anexa foto de planta]
"Que planta é essa? Está saudável?"

[Anexa print de erro]
"Como resolver esse erro?"
Extrair Texto (OCR)
[Anexa foto de documento]
"Transcreva o texto dessa imagem"
Comparar Imagens
[Anexa 2 imagens]
"Qual a diferença entre essas duas imagens?"
Geração de ImagensDALL-E (OpenAI)
"Gere imagem: Um gato programando em um laptop, estilo cartoon"
Configuração
# skills/image.yaml
generation:
  provider: openai  # ou midjourney
  model: "dall-e-3"
  size: "1024x1024"
  quality: "standard"  # ou "hd"
Estilos
"Gere imagem estilo foto realista: [descrição]"
"Gere imagem estilo pintura a óleo: [descrição]"
"Gere imagem estilo pixel art: [descrição]"
"Gere imagem estilo anime: [descrição]"
Casos de UsoDesenvolvimento
[Screenshot de bug]
"O que está errado nessa tela?"

[Diagrama de arquitetura]
"Analise essa arquitetura"
Produtividade
[Foto de whiteboard]
"Transcreva as notas dessa reunião"

[Foto de cartão de visita]
"Salve os dados desse contato"
Criativo
"Crie logo para empresa de tecnologia chamada Nova"
"Gere thumbnail para vídeo sobre produtividade"
E-commerce
[Foto de produto]
"Escreva descrição para esse produto"
"Sugira preço baseado em produtos similares"
ProvidersPara Análise (Vision)
ProviderModeloQualidade
AnthropicClaude Vision
OpenAIGPT-4 Vision
GoogleGemini Pro Vision
Para Geração
ProviderModeloQualidade
OpenAIDALL-E 3
Midjourneyv6
StabilitySDXL
CustoAnálise
  • Incluído nos tokens do modelo de chat
  • ~100-300 tokens por imagem
Geração (DALL-E 3)
  • Standard 1024x1024: $0.04/imagem
  • HD 1024x1024: $0.08/imagem
Configuração Completa
# skills/image.yaml
vision:
  enabled: true
  auto_analyze: false  # Analisar automaticamente
  
generation:
  provider: openai
  model: "dall-e-3"
  defaults:
    size: "1024x1024"
    quality: "standard"
    style: "vivid"  # ou "natural"
Limitações
  • Imagens muito grandes são redimensionadas
  • Algumas imagens podem ser rejeitadas (política de conteúdo)
  • Geração leva alguns segundos
Próximos Passos