Opinión

Con que información se alimenta Chat GPT y otros sistemas de IA

Por Guillermo Pérezbolde

Es innegable la cantidad de información que tienen cargada sistemas de inteligencia artificial como Chat GPT, la pregunta es ¿cuáles son las fuentes?


En noviembre de 2022 el mundo de la información cambió de forma definitiva con la presentación al público de Chat GPT y hasta la fecha sigue siendo el sistema de inteligencia artificial más utilizado en todo el mundo, superando a Bard de Google y Copilot de Microsoft.

La pregunta más frecuente entre quienes utilizan este tipo de sistemas tiene que ver con las fuentes de información, de donde sacan todos los datos que arrojan en sus respuestas, y por qué en algunos casos no son tan precisos.

Para hablar de las fuentes(lo haré más adelante) hay que entender como funciona un sistema de inteligencia artificial como Chat GPT. Este tipo de sistemas como su nombre lo dice, utilizan un modelo llamado GPT(Generative Pre-Trained Transformer) que se puede traducir como “Transformador generativo pre-entrenado” y sin ponernos muy técnicos es básicamente un sistema al que se le cargan grandes cantidades de información que le sirven de entrenamiento para que vaya aprendiendo de esa misma información y de la interacción que se tiene con ella. Para realizar esta tarea los sistemas GPT requieren de algo llamado LLM(Large Language Model) o modelos de lenguaje de gran tamaño y es la parte que entiende la información mediante el NLP(Natural Language Processing) que se encarga de manejar el lenguaje humano para poder interactuar por medio de un chat.

Con todo lo anterior, los sistemas GPT requieren de grandes cantidades de información, por lo que es vital encontrarla de una forma accesible. Si, la información está en internet, pero encontrarla junta y ordenada es una tarea muy complicada, así que para Chat GPT, Open AI recurrió a Common Crawl para cargar 60% de su contenido.

Common Crawl es una organización sin fines de lucro que rastrea la web de forma continua cada mes desde el 2008. CC entrega el resultado de una forma ordenada y lista para usarse; su base de datos tiene más de 250 mil millones de páginas indexadas. Aunque no es la única organización que hace este proceso, al ser open source, facilita que empresas de todos los tamaños la utilicen para alimentar sus modelos.

La fuente de información de Chat GPT se divide en 5 partes; a diferencia de los que mucha gente piensa, la mega base de datos que alimenta Chat GPT solo cuenta con el 3% proveniente de Wikipedia y solo de su versión en inglés, 22% viene de WebText2 que es el texto de las páginas web de los enlaces salientes de Reddit desde publicaciones y el 16% restante viene de libros.

Gracias a esta mezcla de fuentes de información es que los resultados pueden tener el nivel de detalle y variedad, pero recordemos que no todo lo que está en internet ha sido verificado y mucha de la información puede estar desactualizada, errónea o puede contradecirse entre sí.
Yo siempre he recomendado contrastar los resultados con diferentes plataformas para encontrar la que nos resulta más precisa y actualizada.