Como o IA Performance Index é calculado?

O IA Performance Index é calculado por um pipeline multi-LLM usando Gemini, GPT e Claude. São 7 componentes ponderados (presença, citação, contexto, conteúdo, técnico, reputação e concorrentes) que geram um score de 0 a 10. A metodologia é pública e auditável.

Quais fontes de dados a TIDEX consulta?

A TIDEX consulta 8 fontes públicas: SERP Google (top 20), crawl do site (até 50 páginas), Google Places, Reclame Aqui, redes sociais, testes LLMO em 4 motores de IA, análise de concorrentes e PageSpeed/Core Web Vitals.

O que significa cada faixa do score?

O score vai de 0 a 10: Crítico (0-3) significa marca invisível em IA com risco competitivo alto. Atenção (3-5) indica presença inconsistente. Bom (5-7) significa fundamentos em dia com espaço para escalar. Excelente (7-10) é referência do segmento.

Metodologia

O papel da amostragem nos resultados

De 30 a 80 prompts calibrados por marca: como a amostragem define a precisão do IA Performance Index da TIDEX.

Vittor Saraiva

·13 de março de 2026·4 min de leitura

A amostragem define a confiabilidade de tudo que o IA Performance Index mede

A qualidade do IA Performance Index depende diretamente da qualidade dos prompts que a gente dispara nos motores de IA. Se os prompts forem enviesados, genéricos demais ou desconectados do que consumidores realmente perguntam, o score não vale nada. Por isso a amostragem é a etapa mais crítica do pipeline. A gente gera entre 30 e 80 prompts por marca, calibrados pelo setor, região e perfil de cliente. Esses prompts são derivados de dados reais: termos de busca com volume no Google, perguntas frequentes em Google Places, reclamações comuns no Reclame Aqui e variações semânticas que LLMs processam de formas diferentes. Segundo o Stanford HAI AI Index 2024, a performance de LLMs varia até 23% dependendo de como a mesma pergunta é formulada. Uma amostragem fraca mascararia essa variação. Uma amostragem robusta a captura e neutraliza.

Como o Gemini gera o universo de prompts

O primeiro modelo do pipeline, Gemini, é responsável por construir a lista de prompts. Ele recebe como input o setor da marca, a região geográfica, os principais concorrentes e os serviços oferecidos. A partir disso, gera prompts em quatro categorias de intenção: comercial ("melhor X em Y"), informacional ("o que é X"), comparativa ("X vs Y") e navegacional ("site do X"). Pra cada categoria, o Gemini cria variações linguísticas — porque perguntar "qual o melhor restaurante japonês em Pinheiros" é diferente de perguntar "recomenda um japonês bom perto de Pinheiros", mesmo que a intenção seja a mesma. Segundo pesquisa da Semrush 2024, 15% das buscas diárias no Google nunca foram feitas antes — são formulações novas. O Gemini é treinado pra gerar essas variações naturais, não apenas repetir keywords óbvias. Isso garante que a amostra cobre tanto os prompts previsíveis quanto os inesperados.

Tamanho da amostra: por que 30-80 prompts por marca

O tamanho da amostra varia conforme a complexidade do setor. Um restaurante local precisa de menos prompts porque o universo de perguntas relevantes é menor — são variações de "melhor [culinária] em [bairro]". Um SaaS B2B com múltiplos produtos pra múltiplos segmentos precisa de mais prompts porque a superfície de busca é maior. A gente definiu o range de 30-80 com base em testes estatísticos de convergência: abaixo de 30 prompts, a variação entre rodadas é alta demais pra ser confiável. Acima de 80, o ganho marginal de precisão não justifica o custo de execução. Segundo metodologia padrão de pesquisa quantitativa, uma amostra precisa ter pelo menos 30 observações pra que a distribuição dos resultados se aproxime da normal (teorema do limite central). A gente aplica esse princípio: cada motor recebe pelo menos 30 prompts pra que a taxa de aparição tenha significância estatística mínima.

Execução múltipla: lidando com a variabilidade dos LLMs

LLMs não são determinísticos. A mesma pergunta feita duas vezes pode gerar respostas diferentes. Pra lidar com isso, a gente executa cada prompt múltiplas vezes e usa a mediana como resultado. Se em 3 execuções do mesmo prompt a marca aparece 2 vezes, a gente registra como "aparece" (mediana positiva). Se aparece só 1 vez em 3, registra como "não aparece consistentemente" — um sinal intermediário que entra no cálculo com peso reduzido. Segundo o MIT Technology Review 2024, a variabilidade intra-modelo em LLMs comerciais fica tipicamente entre 5% e 12% pra perguntas factuais. A execução múltipla é a forma padrão de lidar com isso em avaliação de LLMs. A gente escolheu mediana em vez de média porque a mediana é mais robusta a outliers — se uma execução gera uma resposta completamente fora do padrão (alucinação severa), ela não contamina o resultado final.

Renovação da amostra: prompts não são eternos

Os prompts usados na amostragem são renovados parcialmente a cada ciclo de medição. Cerca de 70% dos prompts são mantidos pra permitir comparação histórica — se a gente mudasse todos os prompts, não daria pra saber se uma mudança no score veio de performance real ou de mudança na amostra. Os 30% restantes são substituídos por prompts novos, gerados com base em mudanças no mercado: novos concorrentes, novos termos de busca com volume, mudanças sazonais. Segundo a BrightEdge, o volume de buscas por categoria pode variar até 40% entre trimestres em setores sazonais. A renovação parcial garante que a amostra reflete a realidade atual sem perder continuidade histórica. Toda substituição de prompt é registrada no log de auditoria, então se um score muda e a amostra mudou ao mesmo tempo, a gente consegue separar os efeitos e reportar qual parte da variação veio de cada fator.

#metodologia#IA Performance Index

O papel da amostragem nos resultados

A amostragem define a confiabilidade de tudo que o IA Performance Index mede

Como o Gemini gera o universo de prompts

Tamanho da amostra: por que 30-80 prompts por marca

Execução múltipla: lidando com a variabilidade dos LLMs

Renovação da amostra: prompts não são eternos

Leia também

IA Performance Index: o que é e como funciona

As três dimensões do IA Performance Index

Como medimos presença em motores de IA