Alucinaciones y exageración en modelos LLM
Todos hemos oído hablar de ChatGPT de OpenAI en estos últimos meses, es un modelo LLM (Modelos de lenguaje de gran tamaño), gracias a ellos estamos inmersos en una nueva revolución de como obtenemos y consumimos la información. Cuando esta tecnología salió a la luz, gracias a la publicidad y a los medios, tuvo un gran impacto en la población, la posibilidad de generar texto con unas solas instrucciones supera todo lo conocido, puedes realizar diversas tareas desde resumir, escribir poemas, chistes, generar listas obtener información de eventos históricos y actuales, y un largo etc.

Todo esto resulta emocionante y futurista y como toda tecnología con estas características genera un ciclo de exageración, este ciclo fue descrito en 1995 por el analista Jackie Fenn de la consultora Gartner, al principio genera una alta expectación todo el mundo habla de salto tecnológico importante y sus futuras e inmediatas implicaciones en varios ámbitos de la vida.
Esta llega a un límite, cuando el gran público y público especializado, empieza a probar el producto y empieza a encontrar y exagerar sus limitaciones, lo que deriva en una desilusión de la tecnología y se reducen drásticamente las expectativas, es como cuando recomiendas una película o un restaurante a un conocido si exageras demasiado y se lo vendes demasiado bien, creas en la persona una expectativa imposible de cumplir, aunque la película o restaurante estén muy bien al no llegar a esa expectativa tan alta, nos produce un rechazo que baja nuestra percepción, esto es ese punto de desilusión.
Por suerte para nosotros esto no queda ahí, la tecnología avanza, se mejora, se solucionan esos problemas y empezamos a ver esta tecnología con otros ojos, es la cuesta de consolidación, esta cuesta implica volver a enganchar a esa gente desilusionada.
Para llegar finalmente a la meseta de productividad, es la zona de confort de las tecnologías, donde están aceptada, el producto alcanza la madurez y la gente tiene buena comprensión de cómo usarlo de manera efectiva.
Alucinación o invención
Debido a este concepto, hay gente que esta cayendo en la curva de la desilusión para ciertas tareas, estos modelos a veces se inventan o “decoran” ciertas respuestas, lo peor no es que se invente hechos contrastados, es la convicción con la que te responde, estos modelos están entrenados para que la respuesta sea lo más humana posible y por eso caen en esa tendencia a responder con mucha autoridad, es por ello que voy a introducir un concepto del que se está hablando últimamente, es el concepto de que estas inteligencias no inventan contenido sino que alucinan, la diferencia radica en que en una invención el hablante es consciente de que la realidad es diferente de la inventada, mientras que en una alucinación para el hablante su realidad es la que describe en la alucinación.
El problema es que las inteligencias artificiales responden con tal determinación que lleva a dudar de si la información es realmente correcta, esto crea una incertidumbre en cualquier otra respuesta, lo que lleva a contrastar esta información, en este caso requerimos de una tarea adicional que es la de buscar la información correcta, por lo que en realidad la inteligencia artificial no nos ha ayudado a mejorar nuestra productividad, en este punto es donde se genera la desconfianza y caemos en la curva de la desilusión.
Para ciertas tareas no es tan relevante si la información es realmente veraz o no, como puede ser la creación de un cuento, canción, poesía, etc. Pero en otros muchos casos que la información sea veraz cobra mucha o toda relevancia, esto sucede cuando dejamos que esta tecnología responda a preguntas donde tiene un amplio contexto de información u opiniones sobre ciertas cuestiones. Esto es similar a cuando llegas tarde a un sitio con mucha gente, al principio cuesta enterarse bien de que se está hablando, a medida que empiezas a integrarte en la conversación el resto de las conversaciones empiezan a tener más sentido.
Otros casos como son resúmenes o preguntas concisas a textos entregados en la misma entrada funcionan bastante mejor ya que hay un contexto muy definido.
Por ello, los grandes modelos generativos se están enfocando a solventar estas carencias, con más datos de entrenamiento y con grupos de control, que son grupos de personas evaluando constantemente las respuestas de estos modelos para buscar sus puntos débiles y poder subsanarlos, este es una de las formas en las que han solventado parte de los diferentes sesgos de estos modelos, ya sean por temas de raza, de sexo, nacionalidad e incluso política.

Conclusión
Es tan importante conocer las limitaciones como sus capacidades, esto nos va a permitir adaptarnos a la tecnología y poder adaptarla a nuestros diferentes casos de uso. No quiere decir que la tecnología no se pueda usar, la rapidez de implementación de esta tecnología, que gracias a una correcta petición se adaptan a nuestra tarea es impresionante, y que en muchos de los ámbitos se está utilizando ampliamente.
Un caso de uso con nuestra empresa NETCheck con esta tecnología, es la de obtener resúmenes de calidad de documentos judiciales, el tiempo de obtener un modelo capaz de resumir textos judiciales que tienen un contexto y vocabulario particular es bastante alto, los modelos de generación de texto y resumidores más competentes que abundan en internet no se adaptan bien a un contexto jurídico, ya que la mayoría no se han entrenado con este tipo de contexto, hemos visto que la tecnología se adapta muy bien gracias a que en la propia entrada incluimos el texto a resumir el sistema no divaga en otras cuestiones por que tiene un contexto muy definido.
Estos modelos acaban de explotar, pero el recorrido y las posibilidades a futuro son inimaginables.
Paco
junio 22, 2023Muy interesante artículo. En el caso de chatGPT si resulta útil para muchas tareas. Conociendo sus puntos fuertes y débiles podemos elegir mejor las circunstancias en las q usarlo y así mejorar la calidad del producto.