Top-P (Nucleus Sampling)

O Que É Top-P

Top-P, também chamado de Nucleus Sampling, é um método de amostragem usado em modelos de linguagem para controlar a diversidade das respostas geradas. O parâmetro P define um limiar de probabilidade acumulada: o modelo considera apenas os tokens cuja probabilidade somada atinge esse limiar antes de fazer uma escolha aleatória entre eles. Com Top-P = 0.9, por exemplo, o modelo restringe sua seleção ao conjunto mínimo de tokens que juntos representam 90% da probabilidade total.

A intuição por trás do Top-P é elegante: em vez de cortar a lista de tokens possíveis em um número fixo (como faz o Top-K, que considera apenas os K tokens mais prováveis), o Nucleus Sampling adapta dinamicamente o tamanho do conjunto considerado baseado na distribuição de probabilidades. Quando o modelo está muito seguro sobre a próxima palavra, esse conjunto é pequeno; quando há muitas opções plausíveis, o conjunto se expande automaticamente para incluir mais diversidade.

Essa abordagem foi proposta em um artigo de 2019 (“The Curious Case of Neural Text Degeneration”) como solução para um problema dos métodos anteriores: Top-K com K fixo poderia incluir tokens de probabilidade ínfima quando a distribuição era plana, ou excluir opções razoáveis quando a distribuição era concentrada. O Nucleus Sampling resolve isso adaptando o corte à realidade probabilística de cada momento.

Como Funciona

Para entender Top-P em detalhes, imagine que o modelo está prestes a gerar a próxima palavra em “A melhor forma de aprender programação é…”. O modelo calcula probabilidades para todos os tokens do vocabulário (dezenas de milhares). As mais altas podem ser algo como:

  • “praticar” — 35%
  • “estudar” — 25%
  • “fazer” — 15%
  • “tentar” — 10%
  • “construir” — 7%
  • outros — 8% combinados

Com Top-P = 0.9, o modelo soma as probabilidades de cima para baixo: 35% + 25% + 15% = 75%, ainda não chegamos a 90%. Adicionamos “tentar” → 85%, ainda não. Adicionamos “construir” → 92%, passamos de 90%. Então o conjunto nucleus inclui as primeiras cinco opções, e o modelo escolhe aleatoriamente entre elas — dando mais peso às de maior probabilidade.

Com Top-P = 0.5, apenas “praticar” e “estudar” seriam incluídas (60% combinados excede 50%), resultando em respostas mais focadas. Com Top-P = 0.99, quase todos os tokens com probabilidade não negligenciável entram no conjunto, gerando maior variedade.

Exemplo Prático

Uma agência de publicidade em São Paulo usa o OpenClaw para geração de taglines para campanhas. Precisam de variedade real nas sugestões, não apenas variações ligeiras do mesmo conceito. Com temperatura alta e Top-P = 0.95, o sistema gera 10 taglines genuinamente distintas para cada briefing — algumas conservadoras, outras ousadas.

Por outro lado, o assistente de atendimento ao cliente da mesma agência usa Top-P = 0.7 e temperatura baixa — as respostas são naturais e variadas o suficiente para não parecerem robóticas, mas focadas e consistentes o suficiente para não sair do roteiro de atendimento.

Essa capacidade de calibrar o comportamento do modelo para diferentes casos de uso dentro da mesma plataforma é um dos valores centrais de entender parâmetros como Top-P.

Importância para Empresas

Para times que trabalham com IA generativa, Top-P é uma ferramenta de ajuste fino que complementa a temperatura. Enquanto temperatura escala toda a distribuição de probabilidades, Top-P atua como um filtro de qualidade — garantindo que tokens de probabilidade muito baixa (aqueles que provavelmente seriam erros ou incoerências) nunca sejam escolhidos, independente da temperatura configurada.

Na prática, muitos profissionais ajustam apenas a temperatura e deixam o Top-P no padrão (normalmente 0.9 a 1.0). Porém, para aplicações onde a qualidade das respostas é crítica — como sistemas jurídicos, médicos ou financeiros — reduzir o Top-P para 0.7 ou 0.8 pode ser uma camada adicional de segurança contra respostas bizarras ou incorretas.

É importante notar que combinar temperatura baixa com Top-P baixo é geralmente redundante: se a temperatura já faz o modelo converger para os tokens mais prováveis, o Top-P não terá muito efeito pois os tokens de baixa probabilidade já têm probabilidade ínfima após o ajuste de temperatura. Os parâmetros se tornam mais complementares quando temperatura está em valores médios (0.5 a 0.8).

Top-P no OpenClaw

O OpenClaw expõe os parâmetros de Top-P e temperatura na configuração de cada skill e canal, permitindo que diferentes fluxos tenham comportamentos distintos. A interface de configuração inclui explicações em português sobre o efeito esperado de cada valor, facilitando o uso por equipes não técnicas.

Para quem prefere não se preocupar com esses detalhes, o OpenClaw oferece presets de comportamento (“Conservador”, “Equilibrado”, “Criativo”) que configuram automaticamente temperatura, Top-P e outros parâmetros de sampling para casos de uso típicos. Esses presets são baseados em meses de testes práticos com automações de empresas brasileiras.

Termos Relacionados

Perguntas Frequentes

Devo usar Top-P ou temperatura? Posso usar os dois? Tecnicamente pode usar os dois simultaneamente, mas a maioria dos especialistas recomenda ajustar um ou o outro. Combinar temperatura e Top-P cria interações complexas que são difíceis de prever. Uma abordagem comum é manter Top-P próximo do padrão (0.9-1.0) e ajustar apenas a temperatura.

Qual o valor padrão de Top-P nos principais modelos? A maioria dos modelos usa Top-P = 1.0 como padrão (sem corte), deixando todo o controle de diversidade para a temperatura. Alguns sistemas usam 0.9 como padrão. O OpenClaw documenta os defaults específicos de cada modelo integrado.

Top-P = 1.0 significa que qualquer token pode ser escolhido? Sim, com Top-P = 1.0 (e temperatura não-zero), qualquer token com probabilidade maior que zero pode ser amostrado. Na prática, tokens com probabilidade muito baixa raramente são escolhidos devido às suas probabilidades pequenas, mas não são excluídos explicitamente como acontece com Top-P < 1.0.

Top-K é melhor ou pior que Top-P? Depende do caso. Top-K (considerar apenas os K tokens mais prováveis) é mais simples de entender mas menos adaptável. Se K=50, sempre considera exatamente 50 tokens — muito restritivo quando a distribuição é plana, muito permissivo quando é concentrada. Top-P adapta automaticamente e tende a gerar resultados mais naturais.

Top-P afeta o custo da API? Não diretamente. O número de tokens processados e gerados é o que determina o custo, independente dos parâmetros de sampling. Top-P pode indiretamente afetar a qualidade das respostas, que por sua vez pode afetar a necessidade de regenerar respostas, mas o parâmetro em si não tem custo adicional.