Las herramientas populares impulsadas por IA, como GPT-4, generan texto similar a un humano y son tan buenas para manejar una variedad de tareas lingüísticas que cada vez es más difícil determinar si un interlocutor es un humano o un chatbot.
Este escenario refleja el famoso experimento mental de Alan Turing en el que propuso una prueba para evaluar si una máquina «podría exhibir un comportamiento similar al humano hasta tal punto que una persona no sería capaz de diferenciar entre un humano y una máquina basándose únicamente en su reacciones.»
El Departamento de Ciencias Cognitivas de la Universidad de California en San Diego decidió probar cómo funcionan los sistemas modernos de inteligencia artificial y evaluó ELIZA (un simple chatbot basado en scripts de la década de 1960 incluido en el experimento como base), GPT-3.5 y GPT- 4 en un experimento controlado de Turing.
Los participantes hablaron con un humano o un robot durante cinco minutos y luego tuvieron que decidir si su interlocutor era humano o no.
Los investigadores instruyeron a los modelos GPT-4 y GPT-3.5 para que «adoptaran la imagen de un joven lacónico, que no se tomó el experimento en serio, usó jerga y cometió errores ocasionales de ortografía». Además, las instrucciones contenían “información general sobre el experimento e información sobre noticias que ocurrieron después de que el modelo dejó de entrenar”.
Se accedió a los dos modelos a través de la API OpenAI y para evitar que los chatbots respondieran demasiado rápido, sus mensajes se enviaron con un retraso dependiendo de la cantidad de caracteres del mensaje.
En el estudio, 500 participantes fueron asignados a uno de los grupos. Mantuvieron una conversación con una persona o con uno de los tres sistemas basados en inteligencia artificial.
La interfaz del experimento se parecía a una aplicación de mensajería típica. Al cabo de cinco minutos, los participantes debían concluir si su interlocutor era humano o inteligencia artificial y justificar sus conclusiones.
Según los resultados, GPT-4 fue identificado como humano el 54% de las veces, por delante de GPT-3.5 (50%) y ambos superaron significativamente a ELIZA (22%) pero quedaron por detrás de los humanos reales (67%). Según los investigadores, el resultado del experimento indica que los sistemas modernos basados en inteligencia artificial son capaces de engañar a las personas haciéndoles creer que son humanos.
El análisis de los resultados mostró que los participantes a menudo confiaban en el estilo lingüístico, factores socioemocionales y preguntas basadas en conocimientos para decidir si estaban hablando con un humano o con un chatbot.

Artículos Relacionados
Descubre más desde CIBERED
Suscríbete y recibe las últimas entradas en tu correo electrónico.
