Texas irá implementar sistema de inteligência artificial para avaliar exames obrigatórios do estado

A Texas Education Agency (TEA) está testando a Inteligência Artificial Generativa (Gen AI) em seu sistema de pontuação. A nova técnica de classificação empregará chatbots como o ChatGPT da OpenAI para entender e se comunicar com os usuários.

O Texas contratará muito menos avaliadores humanos este ano, pois os está substituindo por um novo sistema de pontuação baseado em IA. Os exames de Avaliação de Prontidão Acadêmica do Estado do Texas (STAAR) poderiam ser um banco de testes para substituir a maioria dos avaliadores humanos pela Geração AI.

Texas treinando sistema de pontuação Gen AI para substituir avaliadores humanos

A Agência de Educação do Texas confirmou que está “lançando um mecanismo de pontuação automatizado para perguntas abertas sobre a Avaliação de Prontidão Acadêmica do Estado do Texas para leitura, redação, ciências e estudos sociais”.

Os exames exigidos pelo estado neste ano no Texas serão históricos. Os alunos que comparecerem aos exames STAAR esta semana terão muito menos avaliadores humanos do que no ano passado. Um mecanismo de processamento de linguagem natural, comumente chamado de IA Generativa, avaliará a maioria de suas respostas.

O teste STAAR mede a compreensão dos alunos sobre o currículo básico exigido pelo estado. O estado do Texas o redesenhou no ano passado. Curiosamente, o teste agora tem muito menos questões de múltipla escolha. O Texas as substituiu por “perguntas abertas” ou “itens de resposta construídos”.

O Texas está lançando um “mecanismo de pontuação automatizado” para pontuar no teste STAAR. A tecnologia, que utiliza processamento de linguagem natural, um alicerce dos chatbots de IA, economizará ao estado entre 15 e 20 milhões de dólares. Mas alguns educadores estão preocupados.
Novo em @TexasTribune
-Keaton Peters (@KeatonPeters) 10 de abril de 2024

De acordo com Tribuna do Texasas perguntas abertas recentemente introduzidas teriam “seis a sete vezes mais itens de resposta construídos”.

Simplificando, essas questões abertas têm várias respostas aceitáveis, em comparação com apenas uma resposta numa questão de múltipla escolha. Consequentemente, essas questões precisam de muito mais tempo e dos avaliadores para pontuar, afirmou José Rios, diretor de avaliação de alunos da Texas Education Agency.

Em outras palavras, essas questões aumentam significativamente a complexidade da classificação. E é aqui que a Geração AI realmente brilha. Plataformas como ChatGPT têm um histórico comprovado de resposta a consultas complexas em vários níveis de simplicidade e profundidade.

Texas estima que a Gen AI economizará de US$ 15 milhões a US$ 20 milhões a cada ano

O TEA treinou o sistema de pontuação Gen AI usando 3.000 respostas. Como medida de segurança, a Geração AI é exposta a respostas que passaram por duas rodadas de pontuação humana. O mecanismo de pontuação de IA aprendeu as características das respostas e está programado para atribuir as mesmas pontuações que um ser humano teria dado.

As crianças texanas que fizerem o teste STAAR serão aparentemente avaliadas pela IA. Se você discordar da pontuação do seu filho, ele terá prazer em avaliar novamente com um avaliador humano – por US$ 50.#STAAR #Texas
– não, isso é apenas sopa para minha família (@SeanxTyler) 10 de abril de 2024

Os avaliadores humanos reavaliarão um quarto de todos os resultados avaliados por computador. Além disso, algumas respostas que podem confundir o sistema de pontuação da IA, como gírias ou respostas que não sejam em inglês, seriam repassadas a avaliadores humanos.

A TEA estimou que economizará entre 15 e 20 milhões de dólares por ano, reduzindo a necessidade de marcadores humanos temporários. Estatisticamente falando, o Texas planeja contratar menos de 2.000 avaliadores humanos este ano. Em 2023, o Lone Star State contratou cerca de 6.000 avaliadores para o mesmo exame. Escusado será dizer que vários educadores manifestaram preocupação com a nova técnica de avaliação.

A era digital surgiu no Texas #STAAR teste. Em dezembro de 2023, vieram à luz os resultados das primeiras respostas escritas avaliadas por computador. Com o novo sistema de classificação, 79% dos testadores obtiveram nota zero. Apenas 8% dos testadores marcaram zero em um teste anterior com avaliadores humanos.#TxEd pic.twitter.com/Kwj7FYUh16
– RaiseYourHandTexas (@RYHTexas) 10 de abril de 2024