O Google anunciou nesta quinta-feira (5) o lançamento do Android Bench, um ranking oficial projetado para avaliar o desempenho de inteligências artificiais (IAs) no desenvolvimento de aplicativos para a plataforma Android. A iniciativa visa fornecer uma métrica clara sobre a capacidade dos Modelos de Linguagem de Grande Escala (LLMs) em resolver desafios práticos de programação.
Na primeira edição da lista, a inteligência artificial da própria empresa, o Gemini 3.1 Pro Preview, conquistou a primeira colocação, atingindo uma taxa de sucesso de 72,4% na resolução dos testes propostos. O resultado destaca a liderança do Google no campo do desenvolvimento de IAs voltadas para a programação de aplicativos.
As IAs mais eficientes para o Android
Logo após o modelo do Google, o Claude Opus 4.6, da Anthropic, garantiu a segunda posição com 66,6% de aprovação. Completando o pódio, o GPT-5.2-Codex registrou 62,5%. A lista de destaque segue com o Claude Opus 4.5 (61,9%) e o Gemini 3 Pro Preview (60,4%) nas posições seguintes, demonstrando uma variação significativa de capacidade entre as ferramentas avaliadas, com taxas de conclusão de tarefas oscilando entre 16% e 72%. Curiosamente, enquanto o Google obteve a primeira colocação, seu modelo Gemini 2.5 Flash ficou na última posição do ranking.
Como funciona o Android Bench
A metodologia do Android Bench é rigorosa e baseada em cenários reais. A avaliação utiliza problemas extraídos de repositórios públicos do GitHub, com diferentes níveis de dificuldade. Os testes exigem que a IA resolva desafios práticos de programação, como a migração para versões recentes do Jetpack Compose, a adaptação a quebras de compatibilidade em novas atualizações do sistema operacional e a configuração de redes em dispositivos vestíveis (wearables).
A verificação das correções de código geradas pelas IAs é feita por meio de testes automatizados de unidade e de instrumentação, avaliando a capacidade técnica de cada ferramenta de navegar por bases de código complexas e compreender dependências. A metodologia do ranking contou com a validação de empresas atuantes no setor, como a JetBrains, que destacou a estrutura do Android Bench como essencial para medir o impacto da IA no ecossistema de desenvolvimento Android.
Transparência e aprimoramento contínuo
O Google disponibilizou publicamente a metodologia, o conjunto de dados e o ambiente de testes no GitHub, reforçando o compromisso com a transparência. Para evitar a contaminação de dados — onde a IA poderia apresentar um bom resultado por já ter memorizado o problema — a empresa implementou revisões manuais e a integração de canary strings (strings de segurança) no código.
O principal objetivo da ferramenta é estabelecer uma linha de base para que os criadores de LLMs possam identificar falhas operacionais e aprimorar seus sistemas voltados à programação. Os desenvolvedores de aplicativos já podem testar os modelos avaliados utilizando chaves de API diretamente na versão estável mais recente do Android Studio, integrando a inteligência artificial ao seu fluxo de trabalho diário.
Fonte: canaltech.com.br
