• SPR Informa
  • SPR Informa
  • SPR Informa
  • SPR Informa
  • SPR Informa
  • https://www.sprinforma.mx/noticia/que-es-y-como-funciona-chatgpt
  • 22 Mar 2023
  • 19:03
  • SPR Informa 6 min

¿Qué es y cómo funciona ChatGPT?

¿Qué es y cómo funciona ChatGPT?

Por Ernesto Ángeles .

El final del año 2022 e inicio del 2023 está caracterizado por la “democratización” en el acceso a programas de Inteligencia Artificial (IA) bastante potentes, como nunca en la historia, el caso más sonado es el éxito de la empresa OpenAI y su producto estrella ChatGPT; el éxito de GPT ha sido tal que marcó un precedente en la competencia por el desarrollo de lo que se conoce como Inteligencia Artificial Generativa, al punto que hoy mismo Adobe anunció su programa de generación de imágenes, lo que se suma a otros competidores que intentan ganarle mercado a OpenAI, el más interesado de estos es Alphabet y su filial Google, el cual días atrás “liberó” su producto Bard para que algunos usuarios (de Estados Unidos y Reino Unido) pudieran probarlo y dar su opinión al respecto.

Y como es usual en los mercados tecnológicos, la masificación de la IA generativa ha causado una avalancha de publicidad y especulaciones, en muchos casos alimentada directamente por las empresas con el fin de promocionar sus productos o generar una imagen positiva frente al consumidor, tal como lo hace OpenAI y su CEO, Sam Altman, el cual encontró en el miedo una herramienta idónea para extender el dominio de la empresa bajo una visión paternalista.

Sin embargo, OpenAI no es la única instancia que infunde cierta desinformación o promociona la IA de manera acrítica, sino que esta práctica parece ser la norma en gran parte de los medios que hablan acerca de esta tecnología, su funcionamiento y consecuencias; por lo que en esta serie de artículos me he propuesto explicar un poco más de OpenAI, GPT y la IA generativa desde una postura más crítica y analítica que sólo repetir las bondades de este producto.

Para comenzar, es necesario plantear algunos significados básicos con el fin de hacer más comprensible la naturaleza y funcionamiento de estos productos, para esto es necesario hacer preguntas tan básicas como ¿Qué es la IA? ¿Cómo funciona? ¿Cuáles son las características de la IA? Entre otras preguntas.

En torno a la IA existen dos visiones predominantes: aquellos que únicamente la consideran como un programa que exhibe un comportamiento que requiere inteligencia; y aquellos que consideran a la IA como un sistema en sí mismo, el cual tiene por objetivo el desarrollar programas que exhiban un comportamiento “inteligente”. Entre estos últimos tenemos la definición de la OCDE, la cual considera que “Un sistema de IA consta de tres elementos principales: sensores, lógica operativa y actuadores. Los sensores recopilan datos sin procesar del entorno, mientras que los actuadores actúan para cambiar el estado del medio ambiente. El poder clave de un sistema de IA reside en su lógica operativa”[1]

 Este acercamiento inicial es  importante, ya que aquellos que únicamente consideran la IA como un programa dejan de lado aspectos tan importantes como las infraestructuras, dispositivos y datos con los cuales se construyen y funcionan tales programas, algo que impacta bastante a la hora de preguntarse ¿Qué regular? ¿De quién son los derechos de propiedad? ¿Cómo se puede incidir en las decisiones de producción de IA a partir de las infraestructuras y demás elementos que le dan soporte? Tal como el caso de OpenAI y GPT, los cuales dependen de las infraestructuras de Microsoft, especialmente de sus centros de datos, sin los cuales GPT no podría haber sido el fenómeno masivo que es.

Pese a lo que se podría considerar, el desarrollo de programas de IA no es lineal ni existe un sólo camino, sino que en realidad depende de una serie de instancias tales como el tipo de arquitectura usada y las técnicas empleadas;  en última instancia, el desarrollo de una IA está subordinado a los objetivos y recursos disponibles de la instancia que la desarrolla.

En un principio está lo que se denomina como la arquitectura de la IA, la cual es una estructura que define cómo se organizan los componentes y los procesos de un sistema de IA; la arquitectura define cómo se estructuran las capas de procesamiento, las conexiones entre las neuronas artificiales y las funciones de activación, entre otros aspectos; además, proporciona el marco general para el diseño de modelos y técnicas de IA. Existen numerosas arquitecturas de IA, entre las más populares están: Redes neuronales artificiales (ANN); Máquinas de vectores de soporte (SVM); Árboles de decisión (DT); Algoritmos genéticos (GA); Lógica difusa (FL); Modelos ocultos de Markov (HMM); Sistemas expertos (ES); Sistemas basados en reglas (RBS); Procesamiento de lenguaje natural (NLP), entre otros.

A su vez, una técnica de IA es un método específico utilizado para construir sistemas de IA capaces de realizar tareas complejas y resolver problemas de manera inteligente; una técnica de IA es un conjunto de algoritmos, procedimientos y herramientas que se utilizan para crear modelos y sistemas de IA. Entre las técnicas existentes encontramos: Aprendizaje profundo (deep learning); Aprendizaje por refuerzo (reinforcement learning); Aprendizaje supervisado (supervised learning); Aprendizaje no supervisado (unsupervised learning); Redes neuronales artificiales (artificial neural networks); Minería de datos (data mining); Procesamiento de lenguaje natural (natural language processing), entre otros.

Por último, un modelo de IA es una instancia específica de una arquitectura de IA que ha sido diseñada y entrenada para realizar una tarea particular. El modelo se construye mediante la selección de una arquitectura de IA adecuada y la aplicación de técnicas de IA específicas. El modelo utiliza datos de entrada para producir una salida determinada. Los modelos de IA pueden variar en complejidad y pueden ser entrenados de diferentes maneras.

¿Y por qué es importante todo esto? Porque el éxito de ChatGPT, y otros productos que están saliendo al mercado, depende de los modelos, técnicas y arquitecturas creadas por las empresas y los investigadores; además, cualquier critica de una IA debe tener en consideración todo su proceso de producción, ya que las arquitecturas, técnicas y otros elementos usados serán los indicadores de las posibles fallas o puntos débiles de una IA y, en general, de lo que una IA puede hacer o no.

En el caso de ChatGPT tenemos que se trata de una versión específica de GPT que ha sido entrenada para tareas de conversación y generación de respuestas y se manifiesta en forma de interfaz de chat; por lo que el aspecto central de ChatGPT es el modelo de IA GPT.

GPT es un modelo de lenguaje natural desarrollado por OpenAI que utiliza la arquitectura Transformer (que es una arquitectura de red neuronal) y técnicas de aprendizaje profundo para generar texto; GPT se destaca por ser un modelo de lenguaje generativo pre-entrenado no supervisado, diseñado para la generación de texto y altamente escalable en términos de tamaño y complejidad.

El funcionamiento y construcción depende de una serie de fases: Pre-entrenamiento: GPT se pre-entrena con grandes cantidades de datos de texto, utilizando un enfoque llamado aprendizaje por refuerzo. Durante el entrenamiento, el modelo intenta predecir la palabra siguiente en una secuencia de texto dada una parte del texto anterior. Finetuning: Una vez que el modelo ha sido pre-entrenado, se ajusta aún más para adaptarse a una tarea específica utilizando un conjunto más pequeño de datos de entrenamiento. Generación de texto: Después del finetuning, el modelo puede generar texto automáticamente. Para generar texto, el modelo utiliza una semilla inicial, que es una cadena de texto proporcionada por el usuario, y utiliza la información que ha aprendido durante el pre-entrenamiento y el finetuning para generar texto coherente.

Lo anterior ya nos arroja una serie de cuestiones tales como ¿Con qué datos se entrenó GPT y cuáles de estos estaban licenciados? ¿Cómo se ajustaron las categorías de entrenamiento y quién lo hizo? ¿Cómo se entrenó el modelo? ¿Cuáles fueron los parámetros de entrenamiento entre lo aceptable y lo no aceptable? ¿Entonces el modelo no entiende lo que dice? Esto último es muy importante, ya que diversos usuarios y medios que han usado ChatGPT le otorgan características como la agencia, comprensión y hasta responsabilidad de lo que dice, aún cuando en realidad no entiende en lo absoluto, sino que hace un arreglo de palabras con base en parámetros como el input del usuario, la enorme base de datos con los que fue entrenado y otros parámetros de entrenamiento. Sin mencionar lo difícil que se vuelve actualizar este programa más allá de su base de datos o la imposibilidad del programa de responder lo que no es o lo que no puede ser más allá de su base de datos.


 

[1]OECD.(2019).Artificial Intelligence in Society, OECD Publishing, Paris. https://doi.org/10.1787/eedfee77-en