O papel da amostragem nos resultados
De 30 a 80 prompts calibrados por marca: como a amostragem define a precisão do IA Performance Index da TIDEX.
A amostragem define a confiabilidade de tudo que o IA Performance Index mede
A qualidade do IA Performance Index depende diretamente da qualidade dos prompts que a gente dispara nos motores de IA. Se os prompts forem enviesados, genéricos demais ou desconectados do que consumidores realmente perguntam, o score não vale nada. Por isso a amostragem é a etapa mais crítica do pipeline. A gente gera entre 30 e 80 prompts por marca, calibrados pelo setor, região e perfil de cliente. Esses prompts são derivados de dados reais: termos de busca com volume no Google, perguntas frequentes em Google Places, reclamações comuns no Reclame Aqui e variações semânticas que LLMs processam de formas diferentes. Segundo o Stanford HAI AI Index 2024, a performance de LLMs varia até 23% dependendo de como a mesma pergunta é formulada. Uma amostragem fraca mascararia essa variação. Uma amostragem robusta a captura e neutraliza.
Como o Gemini gera o universo de prompts
O primeiro modelo do pipeline, Gemini, é responsável por construir a lista de prompts. Ele recebe como input o setor da marca, a região geográfica, os principais concorrentes e os serviços oferecidos. A partir disso, gera prompts em quatro categorias de intenção: comercial ("melhor X em Y"), informacional ("o que é X"), comparativa ("X vs Y") e navegacional ("site do X"). Pra cada categoria, o Gemini cria variações linguísticas — porque perguntar "qual o melhor restaurante japonês em Pinheiros" é diferente de perguntar "recomenda um japonês bom perto de Pinheiros", mesmo que a intenção seja a mesma. Segundo pesquisa da Semrush 2024, 15% das buscas diárias no Google nunca foram feitas antes — são formulações novas. O Gemini é treinado pra gerar essas variações naturais, não apenas repetir keywords óbvias. Isso garante que a amostra cobre tanto os prompts previsíveis quanto os inesperados.
Tamanho da amostra: por que 30-80 prompts por marca
O tamanho da amostra varia conforme a complexidade do setor. Um restaurante local precisa de menos prompts porque o universo de perguntas relevantes é menor — são variações de "melhor [culinária] em [bairro]". Um SaaS B2B com múltiplos produtos pra múltiplos segmentos precisa de mais prompts porque a superfície de busca é maior. A gente definiu o range de 30-80 com base em testes estatísticos de convergência: abaixo de 30 prompts, a variação entre rodadas é alta demais pra ser confiável. Acima de 80, o ganho marginal de precisão não justifica o custo de execução. Segundo metodologia padrão de pesquisa quantitativa, uma amostra precisa ter pelo menos 30 observações pra que a distribuição dos resultados se aproxime da normal (teorema do limite central). A gente aplica esse princípio: cada motor recebe pelo menos 30 prompts pra que a taxa de aparição tenha significância estatística mínima.
Execução múltipla: lidando com a variabilidade dos LLMs
LLMs não são determinísticos. A mesma pergunta feita duas vezes pode gerar respostas diferentes. Pra lidar com isso, a gente executa cada prompt múltiplas vezes e usa a mediana como resultado. Se em 3 execuções do mesmo prompt a marca aparece 2 vezes, a gente registra como "aparece" (mediana positiva). Se aparece só 1 vez em 3, registra como "não aparece consistentemente" — um sinal intermediário que entra no cálculo com peso reduzido. Segundo o MIT Technology Review 2024, a variabilidade intra-modelo em LLMs comerciais fica tipicamente entre 5% e 12% pra perguntas factuais. A execução múltipla é a forma padrão de lidar com isso em avaliação de LLMs. A gente escolheu mediana em vez de média porque a mediana é mais robusta a outliers — se uma execução gera uma resposta completamente fora do padrão (alucinação severa), ela não contamina o resultado final.
Renovação da amostra: prompts não são eternos
Os prompts usados na amostragem são renovados parcialmente a cada ciclo de medição. Cerca de 70% dos prompts são mantidos pra permitir comparação histórica — se a gente mudasse todos os prompts, não daria pra saber se uma mudança no score veio de performance real ou de mudança na amostra. Os 30% restantes são substituídos por prompts novos, gerados com base em mudanças no mercado: novos concorrentes, novos termos de busca com volume, mudanças sazonais. Segundo a BrightEdge, o volume de buscas por categoria pode variar até 40% entre trimestres em setores sazonais. A renovação parcial garante que a amostra reflete a realidade atual sem perder continuidade histórica. Toda substituição de prompt é registrada no log de auditoria, então se um score muda e a amostra mudou ao mesmo tempo, a gente consegue separar os efeitos e reportar qual parte da variação veio de cada fator.