Todavía no tan humanos como los humanos: IAs vs. CAPTCHAs

Unos investigadores han puesto a varias IAs con capacidades visuales a resolver CAPTCHAs como los que los de carne y hueso tenemos que resolver para «demostrar nuestra humanidad», y los resultados son interesantes. Claude Sonnet 4.5 (Anthropic) fue el mejor, superando la prueba un 60 % de las veces; luego quedó en segundo puesto Gemini 2.5 Pro (Google) con un 56 % y finalmente GPT-5 (OpenAI) tercero con tan solo un 28 %.

Estos son los promedios de las pruebas con tres tipos distintos de CAPTCHAs del estilo «marca las bicicletas», «marca todas las imágenes con puentes» y similares. Dicen que GPT-5 puede que fallara porque «se lo pensaba demasiado», razonando y obsesionándose con pensar más tiempo y hacer y deshacer clics en las mismas imágenes. Lo cual no siempre es la mejor idea. [Fuente: Benchmarking Leading AI Agents Against CAPTCHAs en RoundTable.]

Relacionado: