Actualizado a: 19 de enero de 2024
El Test de Turing es una prueba el comportamiento inteligente de las máquinas, y cómo ésta puede asemejarse a la inteligencia de una persona. Actualmente, con el auge de la IA, este test se ha vuelto aún más importante, por eso en este artículo te vamos a mostrar todo lo que deberías saber sobre él.
¿Qué es el Test de Turing?
El Test de Turing es una prueba que se usa como herramienta para poder evaluar la capacidad de una máquina para actuar de forma similar a la inteligencia humana. Esta prueba fue propuesta por Alan Turing.
En el proceso de evaluación se tendría dos personas manteniendo una conversación en lenguaje natural y una máquina que pueda aportar respuestas similares a las de los humanos. El evaluador sabría que uno de los participantes en el test de Turing es una máquina, pero no sabría cuál en un principio.
Estas conversaciones se desarrollarían de forma textual, usando un teclado y un monitor, impidiendo que la máquina use la conversión de texto a voz. Es decir, tres terminales manteniendo esta conversación, con uno de los humanos actuando como interrogador y el otro humano y el ordenador como interrogados. Si durante la prueba el ser humano evaluador no puede distinguir con precisión quién es la máquina después de un periodo de tiempo (unos 5 min y un 70% de aciertos), se considera que la máquina ha pasado la prueba.
Además, hay que tener en cuenta que las preguntas serán dentro de un ámbito temático específico, además de usar un formato y contexto particulares para la prueba.
Todo esto fue documentado en un ensayo llamado Computing Machinery and Intelligence del propio Turing y que se publicó en 1950, mientras trabajaba en la Universidad de Mánchester. En este documento de investigación, el autor se preguntó: ¿Pueden pensar las máquinas? Sin embargo, como la definición de pensar era algo compleja, se decidió cambiar esa pregunta por: ¿Existen máquinas que puedan imitar a las personas?
A partir de este ensayo, el Test de Turing se ha venido utilizando en multitud de ocasiones, aunque también ha tenido muchas críticas a lo largo del tiempo. No obstante, en la actualidad, es un concepto fundamental en el ámbito de la inteligencia artificial, y está cobrando más sentido en los últimos tiempos, debido a los nuevos desarrollos de IA.
Por tanto, el Test de Turing es un método de investigación para determinar si un ordenador es capaz de pensar de forma similar a un ser humano.
Puntos fuertes del test
El Test de Turing tienen algunos puntos fuertes que pueden permitir realizar una prueba sobre la inteligencia de las máquinas, como:
- Tratabilidad y simplicidad: es valorada por su simplicidad, ya que proporciona una medida que puede aplicarse a máquinas, a diferencia de las definiciones vagas de «inteligencia» y «pensamiento» en la filosofía de la mente. Ofrece una solución pragmática a una difícil pregunta filosófica.
- Variedad de temas: permite al interrogador plantear una amplia gama de tareas intelectuales a la máquina. Puede incluir campos de conocimiento y habilidades variados, lo que la hace versátil. La máquina debe utilizar el lenguaje natural, la razón, tener conocimientos y aprender.
- Inteligencia emocional y estética: aunque Turing era un matemático, su prueba no requería conocimientos especializados. En cambio, enfatizaba la empatía y la sensibilidad estética en la interacción de la máquina con los humanos. Esto sugiere que Turing consideraba que la inteligencia no se limita a la lógica y el conocimiento técnico, sino que también incluye la capacidad de comprender y responder a las emociones y la estética.
- IA amigable: al destacar la importancia de la empatía y la sensibilidad estética en la inteligencia artificial, se sugiere que Turing tenía una intuición sobre la importancia de estos aspectos en la creación de una «IA amigable» que se relacione adecuadamente con los humanos. Esta perspectiva puede ser relevante en la creación de inteligencias artificiales que sean seguras y beneficiosas para la humanidad.
Limitaciones de la prueba
A pesar de sus fuertes, el Test de Turing no es infalible, y dado que se desarrolló hace décadas cuando la IA no estaba en el punto actual, también tiene serias limitaciones:
- Inteligencia humana vs. Inteligencia en general: la prueba de Turing evalúa si una máquina se comporta como un ser humano, pero el comportamiento humano no siempre es sinónimo de inteligencia. La prueba examina comportamientos no necesariamente inteligentes, como cometer errores, mentir o ser susceptible a insultos. Además, la prueba no evalúa comportamientos altamente inteligentes, como resolver problemas difíciles o generar ideas originales. Se sugiere que la prueba no puede medir la inteligencia que va más allá de la humana.
- Inteligencia real vs. Inteligencia simulada: se enfoca en el comportamiento externo de la máquina, lo que lleva a una perspectiva conductista. La crítica plantea que una máquina podría simular el comportamiento humano sin realmente «pensar» o tener una mente. John Searle argumenta que el comportamiento externo no puede determinar si una máquina realmente piensa o simplemente simula el pensamiento.
- Ingenuidad de los interrogadores y la falacia antropomórfica: la prueba depende en gran medida de la habilidad del interrogador. Los interrogadores pueden ser influenciados por su ingenuidad o actitudes. Además, los humanos tienen una tendencia a atribuir cualidades humanas a objetos no humanos, conocida como la «falacia antropomórfica». Esto puede llevar a que se considere que una máquina está pensando solo porque se asemeja superficialmente a un ser humano.
- Errores en la identificación humana: la prueba a menudo resulta en que los investigadores confundan a los participantes humanos con máquinas. Esto puede deberse a la búsqueda de respuestas humanas esperadas en lugar de respuestas típicas, lo que puede llevar a una categorización incorrecta.
- Irrelevancia e impractibilidad en la investigación de IA: algunos investigadores argumentan que tratar de pasar la prueba de Turing es una distracción de investigaciones más fructíferas en el campo de la inteligencia artificial. Se sugiere que la prueba no es un enfoque activo de investigación y que hay formas más fáciles de evaluar programas de IA, como darles tareas específicas relacionadas con la IA, en lugar de compararlos con seres humanos.
Las críticas y desafíos a la prueba de Turing incluyen cuestionamientos sobre su capacidad para medir la inteligencia, su enfoque en el comportamiento externo, la influencia del interrogador, y la relevancia de la prueba en la investigación de la inteligencia artificial. Estas consideraciones han llevado a debates sobre la utilidad y aplicabilidad de la prueba en el campo de la IA.
Por ejemplo, lprueba de Turing ha sido criticada a lo largo de los años, en particular porque, históricamente, la naturaleza del interrogatorio tenía que ser limitada para que un ordenador mostrara una inteligencia similar a la humana. Durante muchos años, un ordenador sólo podía obtener una puntuación alta si el interrogador formulaba las consultas, de modo que tuvieran respuestas de «Sí» o «No» o pertenecieran a un campo de conocimiento muy limitado. Cuando las preguntas eran abiertas y requerían respuestas conversacionales, era menos probable que el programa del ordenador pudiera engañar exitosamente al interrogador. Esto era aceptable para los ordenadores de aquella época, pero las máquinas actuales han evolucionado mucho, y permiten tratar temas más diversos y respuestas más desarrolladas. Incluso existen algunas IAs que pueden comprender algunas ironías, algo puramente humano…
Por todo ello, para muchos expertos, la cuestión de si una máquina puede pasar o no una prueba de Turing se ha vuelto totalmente irrelevante. En lugar de centrarse en cómo convencer a alguien de que está conversando con un ser humano y no con un programa, el verdadero enfoque debería centrarse en cómo hacer que la interacción hombre-máquina sea más intuitiva y eficiente…
Variantes del Test de Turing
Tras la postulación del Test de Turing original, se han ido presentando algunas pruebas similares que son modificaciones o variantes de la misma. Algunos ejemplos destacados son los siguientes:
- Prueba de Turing en reversa: la prueba de Turing en reversa implica que una máquina determine si está interactuando con un humano o con otra computadora.
- CAPTCHA: son las siglas de Completely Automated Public Turing test to tell Computers and Humans Apart, y es una forma de prueba de Turing en reversa que presenta caracteres distorsionados, entre otros, para evitar la entrada automatizada en sitios web.
- Pruebas de Turing Experta en la Materia o Prueba Feigenbaum: en esta variación propuesta por Edward Feigenbaum, no se puede distinguir entre la respuesta de una máquina y la respuesta dada por un experto en la materia.
- Prueba de Turing Total: esta variación agrega requisitos adicionales a la prueba tradicional. El interrogador también evalúa las capacidades de percepción del sujeto (visión computacional) y la habilidad del sujeto para manipular objetos (robótica).
- Prueba de la Señal de Inteligencia Mínima: propuesta por Chris McKinstry, esta prueba se centra en la capacidad de pensar y utiliza entradas binarias (verdadero/falso o si/no). Se utiliza para recolectar información estadística sobre el rendimiento de programas de IA.
- Premio Hutter: organizado para evaluar la compresión del lenguaje natural, se considera un desafío equivalente a pasar la prueba de Turing. En lugar de requerir que la computadora mienta al juez, esta prueba se basa en la compresión de información.
- Otras pruebas basadas en la compresión o Complejidad de Kolmogorov: variaciones de la prueba de Turing que incorporan problemas de compresión en una prueba extendida. También se menciona el CI algorítmico (CIA), que busca convertir la medida teórica de la inteligencia universal en una prueba práctica de inteligencia de máquinas.
- Prueba de Ebert: propuesta por el crítico de cine Robert Ebert en 2011, esta prueba evalúa si una voz sintetizada por computadora es capaz de generar risas a través de entonaciones, inflexiones y sincronización.
Estas variaciones de la prueba de Turing abordan diferentes aspectos de la inteligencia artificial y la interacción entre humanos y máquinas, adaptándose a diferentes necesidades actuales no contempladas en el Test de Turing original.
El caso particular del CAPTCHA
Un CAPTCHA es una prueba para detectar máquinas o bots de usuarios humanos. Se emplean en multitud de servicios de Internet, como las encuestas, el acceso a ciertos servicios, etc. De esta forma, se puede filtrar de forma más o menos eficaz que las máquinas puedan entrar en estos servicios, e incluso por cuestiones de seguridad para evitar ataques de fuerza bruta, evitar acciones de automatización, etc.
El CAPTCHA es una aplicación moderna del Test de Turing. Este término se empezó a usar en 2000 por Luis von Ahn, Manuel Blum y Nicholas J. Hopper de la Universidad Cargegie Mellon, así como por John Langford de IBM. Al principio era básicamente una imagen distorsionada con un conjunto de caracteres que aparecían en pantalla y se suponía que solo los humanos podían reconocerlos e introducirlos de forma correcta.
Sin embargo, los programas y la IA poco a poco ha ido aprendiendo a resolver este tipo de pruebas simples, lo que ha obligado a que los CAPTCHAs evolucionen para seguir siendo efectivos. Por ejemplo, algunos de los tipos más actuales de estos tests de Turing son:
- Basados en texto: estos desafíos visuales presentan caracteres alfanuméricos distorsionados, lo que dificulta que los algoritmos de visión por ordenador los identifiquen, pero los humanos pueden descifrarlos con esfuerzo.
- Basados en cálculos matemáticos: los usuarios deben resolver problemas matemáticos simples, a menudo con texto adicional que complica la interpretación del problema. Por ejemplo, 8 – _ = 5, para que el humano complete el 3 o similares.
- Juegos de palabras: los usuarios deben repetir una palabra o serie de palabras, o nombrar un color. Estos pueden ser más difíciles para los sistemas de visualización e IA.
- Basados en preguntas lógicas: de cultura general o sobre un tema específico. Pueden requerir conocimientos o habilidades específicas..
- Visuales o gráficos: los usuarios deben hacer clic en imágenes que contienen elementos específicos, como señales de tráfico, taxis, autobuses, coches, etc., aunque la efectividad está amenazada por algoritmos de reconocimiento de imágenes actuales. También están los basados en vídeos, que pueden meterse como parte de este tipo de CAPTCHA.
- Auditivos: se puede escuchar una secuencia de cifras y escribirla como respuesta, lo que es útil para personas con dificultades de visión.
- Lúdicos: se convierten en juegos más entretenidos para los usuarios, como resolver rompecabezas o rotar imágenes. Es decir, es la gamificación de los CAPTCHAs.
- Basados en análisis de comportamiento: algunas versiones, como reCAPTCHA v2 y v3, siguen esta estrategia, evaluando el comportamiento del usuario en lugar de solo la respuesta a un desafío visual o matemático.
Conforme la IA se va desarrollando y los algoritmos son capaces de aprender a resolver estos CAPTCHAs, se deben seguir inventando nuevos métodos para tratar de seguir identificando a los bots de los humanos.
Historia sobre el Test de Turing
Desde hace siglos se ha estado preguntando en el contexto filosófico sobre si las máquinas podían pensar. Uno de los primeros en hacerlo fue el filósofo René Descartes, ya que en su obra Discurso del Método (1637) ya anticipaba esto. Otros filósofos también se han estado preguntando acerca de esta preocupación durante muchos años.
Sin embargo, la inteligencia de las máquinas no sería estudiando a nivel técnico hasta mucho después, cuando la inteligencia artificial pasó a ser una de las preocupaciones de los investigadores en Reino Unido. Entre los investigadores estuvo el propio Alan Turing, que comenzaría desde 1941 a investigar sobre esta materia, y determinando años más tarde que la inteligencia computacional podría comprobarse mediante un test.
Años después, otros investigadores siguieron con las preguntas iniciadas por Turing, e incluso desarrollando software para realizar estas pruebas de Turing, así como poner en práctica numerosos experimentos para demostrar la inteligencia o no inteligencia de las máquinas informáticas.
¿Quién fue Alan Turing?
Alan M. Turing fue un matemático, criptoanalista y pionero de la informática británico que vivió entre 1912 y 1954. Sus contribuciones a la ciencia y la tecnología han tenido un impacto duradero en muchas áreas.
Turing nació el 23 de junio de 1912 en Londres, Reino Unido. Estudió matemáticas en el King’s College de la Universidad de Cambridge, donde destacó académicamente. Turing es más conocido por su trabajo en lógica y matemáticas. En 1936, publicó su famoso artículo «On Computable Numbers, with an Application to the Entscheidungsproblem» en el que introdujo la noción de una máquina universal, ahora conocida como «la máquina de Turing». Este concepto se considera un precursor fundamental del ordenador moderno.
Durante la II Guerra Mundial, Turing trabajó en Bletchley Park, un centro de inteligencia británico, donde desempeñó un papel crucial en el desciframiento de los códigos de la máquina Enigma utilizados por las fuerzas alemanas. Su trabajo contribuyó significativamente a la victoria de los Aliados en la guerra.
Después de la guerra, Turing continuó trabajando en el desarrollo de los primeros ordenadores modernos, por ejemplo, participó en el desarrollo y diseño la máquina ACE (Automatic Computing Engine), una de los primeros ordenadores digitales.
Su vida no fue sencilla, en 1952, Turing fue condenado por «indecencia grave» debido a su homosexualidad, que era ilegal en el Reino Unido en ese momento. Fue sometido a una terapia hormonal para su cura. Esta experiencia tuvo graves consecuencias en su vida y salud.
Alan Turing se suicidó a consecuencia de esos tratamientos el 7 de junio de 1954 a los 41 años. Fue encontrado muerto en su casa en Wilmslow, Cheshire, por envenenamiento con cianuro, mordiendo una manzana envenenada. De ahí que Apple cogiese este símbolo como logo. Además, el gobierno y la corona británica se negó a disculparse por fomentar este hecho, hasta que en 2009, el primer ministro Gordon Grown pidiera disculpas formales. Años más tarde, en 2013, la Reina Isabel II se concedió un perdón póstumo.
Ahora solo nos ha quedado el legado de Alan Turing en la informática y la inteligencia artificial es innegable. La «máquina de Turing» es un concepto fundamental en la teoría de la computación. Además, su trabajo en criptografía y desciframiento de códigos fue de gran importancia histórica.
Usos actuales con la IA
El Test de Turing original se podría aplicar a los nuevos ordenadores y sistemas de inteligencia artificial, sin embargo, existen variantes quizás más adecuadas adaptadas a las nuevas necesidades. Por ejemplo, el Premio Loebner se otorga anualmente desde 1990 al programa informático más parecido al humano según lo votado por un panel de jueces. La competición sigue las reglas estándar del Test de Turing. Los críticos de la relevancia del premio a menudo le restan importancia, considerándolo más una cuestión de publicidad que de probar realmente si las máquinas pueden pensar.
Por eso, actualmente muchos críticos y expertos catalogan los experimentos del Test de Turing a sistemas actuales como correctos o no correctos. Por ejemplo:
- No aceptable: un concurso organizado por la Universidad de Reading con motivo del 60 aniversario de la muerte de Turing, en 2014, se usó un chatbot llamado Eugene Goostman que simula a un niño de 13 años pasó el Test de Turing, engañando a los jueces humanos en un 33%. Este llamado primer pase ha recibido muchas críticas por parte de quienes argumentan que no había suficientes jueces, que otras máquinas han tenido mejores resultados en la prueba en el pasado y que la prueba no es válida por sólo durar cinco minutos.
- Aceptable: en 2018 hubo otro mediático experimento. Google Duplex logró concertar una cita telefónica con un peluquero por teléfono frente a una multitud de 7.000 personas. La recepcionista ignoraba por completo que estaba conversando con un ordenador. Algunos consideran que esto es un pase de prueba de Turing moderno, a pesar de no depender del formato real de la prueba tal como lo diseñó Alan Turing.
Algunos creen que GPT-3 o GPT-4, modelos de procesamiento de lenguaje natural creados por OpenAI, tienen más posibilidades de superar la prueba en su forma real que cualquier tecnología que tenemos hoy. Pero, incluso con sus capacidades avanzadas de generación de texto, muchos han criticado esta IA porque puede ser engañada para que responda preguntas sin sentido y, por lo tanto, tendría dificultades en las condiciones de la prueba de Turing. De hecho, algunos textos se notan que son escritos por IA de forma muy fácil, aunque otros pasan totalmente desapercibidos…
A pesar del gran debate sobre la relevancia del Test de Turing en la actualidad y la validez de los experimentos, la prueba sigue siendo muy aplicada a los nuevos sistemas de IA, para comprobar cómo de avanzados son.