Novos artigos no blog de aprendizado de máquina da Apple detalham como a IA pode ser usada para testes de QE mais rápidos, mais baratos e mais eficazes, bem como para correção e identificação de bugs.
Novos artigos no blog de aprendizado de máquina da Apple detalham como a IA pode ser usada para testes de QE mais rápidos, baratos e eficazes, bem como para correção e identificação de bugs.
Em outubro de 2025, a Apple publicou três novos estudos relacionados à inteligência artificial e às possíveis aplicações de LLMs. O trabalho de pesquisa da empresa remonta a muitos anos, mas alguns de seus artigos mais recentes se concentraram nas falhas da IA e em como prevenir ações e alucinações indesejadas da IA.
Agora, um de seus novos estudos explica como agentes autônomos de IA podem ser usados para testes de Engenharia de Qualidade (QE), entre outras coisas. Seus outros dois artigos de pesquisa focam em como agentes de IA podem ser usados para corrigir e prever bugs em código após treinamento adequado.
Agentic RAG para testes de software com Hybrid VectorGraph e orquestração multiagente
Em seu primeiro estudo, os pesquisadores da Apple apontam as limitações e desvantagens da criação tradicional de testes de QE. Especificamente, eles explicam que os engenheiros de qualidade gastam de 30 a 40% do seu tempo criando planos de teste, casos e scripts de automação manualmente.
O estudo propõe uma solução: deixar que agentes de IA façam o trabalho necessário. “Avanços recentes em aprendizado de máquina para testes de software têm se mostrado promissores na geração automatizada de casos de teste.”
No entanto, isso não significa que a melhor abordagem seja deixar que um modelo de IA padrão planeje, crie e valide testes de Engenharia de Qualidade. “Sistemas de IA de uso geral carecem do conhecimento específico de domínio necessário para testes de software eficazes”, diz o estudo.
Os pesquisadores da Apple também apontam que “os sistemas existentes não conseguem manter a rastreabilidade abrangente ao longo do ciclo de vida do teste”. O estudo oferece uma solução para esse problema na forma de uma estrutura complexa, Agentic RAG Framework, de quatro etapas, e um total de seis agentes de IA para cada aspecto do processo de teste.
Um agente, por exemplo, garante a conformidade regulatória, outro examina testes históricos e um terceiro cria testes com base na metodologia atual. Há também um agente de resolução de conflitos e um que faz a interface entre os módulos e sistemas que fazem parte do processo de teste.
Em essência, vários agentes de IA são usados para criar e gerenciar testes de QE, em vez de um engenheiro fazer tudo manualmente.
A abordagem dos pesquisadores da Apple “demonstra melhorias significativas em precisão (94,8% vs. 65% da linha de base), produtividade (redução de tempo de 85%) e métricas de qualidade (melhoria de 35% na detecção de defeitos)”. Ela também garante a rastreabilidade dos documentos durante todo o ciclo de vida do QE.
Treinamento de agentes e verificadores de engenharia de software com SWE-Gym
Outro estudo científico realizado por pesquisadores da Apple, publicado em outubro de 2025, explora o uso de agentes de IA na resolução de bugs em código. O SWE-Gym é descrito como “o primeiro ambiente para treinamento de agentes de engenharia de software (SWE) do mundo real”.
Pesquisadores da Apple afirmam que o SWE-Gym é um ambiente para treinamento de agentes de engenharia de software (SWE) do mundo real. Crédito da imagem: Apple.
Ele combina “tarefas de engenharia de software do mundo real de problemas do GitHub com dependências pré-instaladas e verificação de testes executáveis”. Especificamente, “o SWE-Gym compreende 2.438 tarefas de engenharia de software do mundo real originadas de solicitações de pull em 11 repositórios populares do Python”.
Os agentes SWE baseados em modelos de linguagem são necessários para encontrar maneiras de resolver problemas reais do GitHub, usando as bases de código e ambientes executáveis fornecidos.
Quando um LM interage com o SWE-Gym, ele aprende a se aprimorar. Mesmo assim, os engenheiros da Apple observaram que “os resultados de autoaperfeiçoamento são modestos”.
Os engenheiros da Apple também criaram um subconjunto menor de 230 tarefas. Chamado de SWE-Gym Lite, ele contém tarefas mais fáceis e independentes em comparação às do SWE-Gym padrão.
Modelos de linguagem treinados com o SWE-Gym conseguiram resolver 72,5% das tarefas corretamente, enquanto o SWE-Gym Lite parece mais útil para prototipagem, pois produz resultados em prazos mais curtos. Por fim, os pesquisadores da Apple observaram que houve “fortes resultados empíricos” demonstrando a eficácia do SWE-Gym.
Em termos de benefícios práticos, o estudo explica que o SWE-Gym pode levar ao aumento da produtividade dos desenvolvedores em diversos setores. Os pesquisadores da Apple explicam que diversas direções de pesquisa podem ser aplicadas ao SWE-Gym, incluindo como manter os humanos informados.
Previsão de defeitos de software usando modelo de transformador autocodificador
Um terceiro estudo da Apple enfatiza o mesmo problema dos testes manuais conduzidos por engenheiros de QE. O artigo de pesquisa, intitulado “Previsão de Defeitos de Software usando o Modelo de Transformador Autoencoder”, observa que ter um engenheiro conduzindo testes manualmente é demorado, lento e ineficaz em termos de custo.
O erro humano é, compreensivelmente, outro fator destacado pelos pesquisadores da Apple. Os métodos tradicionais de prevenção de defeitos baseados em IA, por sua vez, só resolvem problemas após o término do desenvolvimento, ignorando problemas que poderiam ter sido resolvidos muito antes.
Pesquisadores da Apple criaram uma solução para esse problema na forma de um novo modelo. O estudo “apresenta uma abordagem de engenharia de qualidade baseada em IA que aprimora a previsão de defeitos de software usando o modelo ADE-QVAET”.
As duas siglas no nome do modelo são “Adaptive Differential Evolution (ADE)” e “Quantum Variational Autoencoder-Transformer (QVAET)”. Combinadas, elas se tornam ADE-QVAET.
A abordagem ADE-QVAET também inclui “Redução e Aumento Adaptativo de Ruído (ANRA)”. Este último melhora os resultados ao equilibrar instâncias de defeitos e reduzir o ruído.
ADE é descrito como uma técnica de otimização, “que adapta os hiperparâmetros dos modelos de aprendizado de máquina durante o treinamento para melhorar seu desempenho”.
O QVAET, por sua vez, “detecta defeitos precisos extraindo características latentes de alta dimensão, preservando a dependência sequencial”.
Ao combinar esses dois modelos e usar ANRA para reduzir o ruído, a IA pode aprender a reconhecer bugs e defeitos de software por meio de treinamento e reconhecimento de padrões.
“Esta pesquisa aborda as limitações dos modelos existentes, fornecendo monitoramento preciso de defeitos e melhorando a qualidade do software”, diz o estudo. “Futuras ferramentas de teste baseadas em IA podem ser aprimoradas usando aprendizado profundo e aprendizado por reforço para prever e prevenir problemas de software antes mesmo do desenvolvimento.”
Resta saber se a Apple aplicará algum conhecimento adquirido com esses estudos aos seus produtos existentes. O Xcode 26 ganhou recentemente suporte para contas de IA de terceiros , então a inclusão de modelos de correção de código projetados pela Apple não seria uma ideia absurda.
Fonte: www.appleinsider.com
Link da Fonte


