Skill Image — Análise e Geração de Imagens

Skill: Image

Analise e gere imagens diretamente no chat.

O Que Faz

Análise (Vision)

  • Descrever imagens
  • Extrair texto (OCR)
  • Identificar objetos, pessoas, lugares
  • Responder perguntas sobre imagens

Geração

  • Criar imagens a partir de texto
  • Variações de imagens existentes
  • Editar partes de imagens

Instalação

clawdhub install image

Análise de Imagens

Enviar e Analisar

[Anexa imagem]
"O que tem nessa imagem?"

Perguntas Específicas

[Anexa imagem de código]
"O que esse código faz?"

[Anexa foto de planta]
"Que planta é essa? Está saudável?"

[Anexa print de erro]
"Como resolver esse erro?"

Extrair Texto (OCR)

[Anexa foto de documento]
"Transcreva o texto dessa imagem"

Comparar Imagens

[Anexa 2 imagens]
"Qual a diferença entre essas duas imagens?"

Geração de Imagens

DALL-E (OpenAI)

"Gere imagem: Um gato programando em um laptop, estilo cartoon"

Configuração

# skills/image.yaml
generation:
  provider: openai  # ou midjourney
  model: "dall-e-3"
  size: "1024x1024"
  quality: "standard"  # ou "hd"

Estilos

"Gere imagem estilo foto realista: [descrição]"
"Gere imagem estilo pintura a óleo: [descrição]"
"Gere imagem estilo pixel art: [descrição]"
"Gere imagem estilo anime: [descrição]"

Casos de Uso

Desenvolvimento

[Screenshot de bug]
"O que está errado nessa tela?"

[Diagrama de arquitetura]
"Analise essa arquitetura"

Produtividade

[Foto de whiteboard]
"Transcreva as notas dessa reunião"

[Foto de cartão de visita]
"Salve os dados desse contato"

Criativo

"Crie logo para empresa de tecnologia chamada Nova"
"Gere thumbnail para vídeo sobre produtividade"

E-commerce

[Foto de produto]
"Escreva descrição para esse produto"
"Sugira preço baseado em produtos similares"

Providers

Para Análise (Vision)

ProviderModeloQualidade
AnthropicClaude Vision
OpenAIGPT-4 Vision
GoogleGemini Pro Vision

Para Geração

ProviderModeloQualidade
OpenAIDALL-E 3
Midjourneyv6
StabilitySDXL

Custo

Análise

  • Incluído nos tokens do modelo de chat
  • ~100-300 tokens por imagem

Geração (DALL-E 3)

  • Standard 1024x1024: $0.04/imagem
  • HD 1024x1024: $0.08/imagem

Configuração Completa

# skills/image.yaml
vision:
  enabled: true
  auto_analyze: false  # Analisar automaticamente
  
generation:
  provider: openai
  model: "dall-e-3"
  defaults:
    size: "1024x1024"
    quality: "standard"
    style: "vivid"  # ou "natural"

Limitações

  • Imagens muito grandes são redimensionadas
  • Algumas imagens podem ser rejeitadas (política de conteúdo)
  • Geração leva alguns segundos

Próximos Passos