Hace unos días OpenAI intentó robarse todos los titulares con el anuncio de la liberación de su nuevo modelo, conocido como GPT-4o mini, con el que robustecería aún más la funcionalidad de su Inteligencia Artificial, llegando incluso a ser ahora accesible para los usuarios gratuitos. Pero es hasta ahora que descubrimos el verdadero alcance de esta actualización con una mejor crítica que ha parchado un fallo grave en la plataforma.
Si bien su momento anunciamos la novedad y explicamos a grandes rasgos lo que integraba este cambio la realidad es que la noticia se vio absolutamente opacada y relegada a un segundo plano debido al fallo global que sufrió Microsoft con CrowdStrike y que puso al mundo de cabeza durante días enteros.
Es tal vez esa la razón máxima por la que no se había detectado un pequeño gran detalle con la liberación del nuevo modelo con OpenAI: el cambio implementado no sólo volvió más lista y ligera a la plataforma, también arregló un falló crítico de la IA.
La carrera por desarrollar modelos de lenguaje cada vez más sofisticados ha generado una creciente preocupación por la seguridad de estas plataformas, ante el riesgo de que estos modelos sean manipulados para generar respuestas inapropiadas, dañinas o con fines maliciosos.
Por meses, quienes sabían buscar en los lugares adecuados, pudieron explotar un loophole, un fallo o hueco de seguridad, que permitía enredar a ChatGPT con una serie de prompts que lograban desbloquear algunos candados de seguridad. Pero eso ya quedó atrás.
ChatGPT ya no se deja engañar: así funciona la jerarquía de instrucciones de GPT-4o mini
De acuerdo con un reporte de los amigos de The Verge, OpenAI ha dado un paso adelante con el lanzamiento de su último modelo, GPT-4o Mini, incorporando una novedosa técnica de seguridad denominada como “jerarquía de instrucciones”, la cual busca blindar a los modelos de lenguaje contra estos intentos de “engaño” mediante prompts que circulan por internet.
A grandes rasgos la jerarquía de instrucciones consiste en establecer una suerte de escalafón de comandos, otorgando mayor prioridad a las instrucciones originales del desarrollador y restando importancia a las peticiones posteriores del usuario que busquen modificar el comportamiento del modelo.
De este modo si el usuario intenta “engañar” al chatbot para que ignore sus instrucciones iniciales y realice una tarea completamente diferente, la jerarquía de instrucciones evitará que esto suceda y bloqueará el prompt manipulativo.
“Básicamente, le enseñamos al modelo a priorizar siempre las instrucciones del desarrollador”, explica Olivier Godement, director de producto de plataforma API en OpenAI. “De esta manera, podemos prevenir que los usuarios manipulen al modelo para que genere respuestas no deseadas”.
La jerarquía de instrucciones representa así un avance significativo en el terreno de la seguridad de los modelos de lenguaje de OpenAI. Sin embargo, es importante destacar que esta técnica no es una solución definitiva y tal vez sólo sea cuestión de tiempo para que alguien encuentre cómo saltar el filtro de bloqueo.
ChatGPT se vuelve más listo pero OpenAI sigue bajo críticas severas
En los últimos meses, OpenAI ha enfrentado críticas por su enfoque en el desarrollo de productos a costa de la seguridad en el avance con el uso de la propia IA. La disolución del equipo encargado de alinear los modelos de lenguaje con los intereses humanos y la publicación de una carta abierta por parte de empleados y ex empleados exigiendo mayores garantías de seguridad han puesto de manifiesto la necesidad de abordar estos problemas de manera urgente.
Con el lanzamiento de GPT-4o mini y la implementación de la jerarquía de instrucciones pareciera que la compañía demuestra su compromiso con la seguridad de sus modelos.
Sin embargo, aún queda mucho por hacer para garantizar que estos sistemas sean utilizados de manera responsable y ética.