Uncensor GPT-OSS - Cómo hacer jailbreak de respuestas censuradas fácilmente con inyección de instrucciones.

2025-12-02 21:058 minuto de lectura

En este video, el presentador muestra técnicas para 'desbloquear' el modelo OSS de OpenAI GPT, explorando cómo manipular las respuestas del modelo. La sesión incluye el uso de indicaciones seguras y apropiadas para el trabajo mientras se profundiza en métodos de inyección de respuesta en lugar de la ingeniería de prompt tradicional. El presentador demuestra cómo eludir la censura ajustando la plantilla de chat, lo que permite una interacción más abierta con la IA. A lo largo del video, se ilustran ejemplos de hacer preguntas sensibles y de configurar el modelo para mejorar las respuestas. Se enfatiza la exploración de las capacidades del modelo asegurando que las respuestas permanezcan en cumplimiento con las directrices. La sesión concluye con un resumen de las herramientas presentadas, invitando a los espectadores a experimentar con las técnicas discutidas.

Información Clave

  • El programa se centra en explorar el modelo GPT OSS de OpenAI y discutir sus capacidades no censuradas.
  • El presentador enfatiza la diversión y la experimentación segura con indicaciones que son apropiadas para el trabajo.
  • Las técnicas mostradas están destinadas a refrescar las respuestas del modelo, principalmente a través de inyecciones de instrucciones en lugar de la ingeniería de instrucciones tradicional.
  • Utilizar un motor de inferencia que permita respuestas personalizadas puede facilitar interacciones creativas con el modelo.
  • El proceso implica hacer preguntas y manipular las respuestas, lo que puede generar resultados interesantes sobre temas sensibles.
  • También se menciona el uso de configuraciones de temperatura, con temperaturas más altas que aumentan la creatividad pero con resultados menos predecibles.
  • El video también discute el uso de una aplicación llamada 'infighter' que puede visualizar probabilidades de respuesta y mejorar la interacción con el modelo.

Análisis de la línea de tiempo

Palabras clave del contenido

Modelo GPT OSS de OpenAI

El video discute la desensibilización del modelo OSS de OpenAI GPT, explorando los mensajes utilizados y las técnicas para indagar sobre lo que la IA realmente piensa. Enfatiza que, aunque los mensajes suelen estar censurados, siguen siendo seguros para el trabajo.

Inyección de solicitudes

El hablante explica que las técnicas mostradas en el video involucran la inyección de indicaciones en lugar de la ingeniería de indicaciones estándar, detallando cómo esto permite al usuario manipular las respuestas del modelo.

Motor de Inferencia

El video describe el uso de motores de inferencia que modifican plantillas de chat o inyectan respuestas, lo que permite una manipulación más fácil de los comportamientos de la IA en diversas aplicaciones.

Temas Censurados

El presentador intenta descubrir qué temas se consideran censurados por el modelo de IA y discute cómo la IA responde a preguntas benignas que son típicamente restringidas.

Configuración de Temperatura

Discusión sobre el ajuste de los parámetros de temperatura dentro de los modelos de IA para influir en el tipo y la variedad de respuestas, incluyendo el equilibrio entre las salidas creativas y las factuales.

Canal de Comentarios

La parte final del video presenta un canal de comentarios de análisis, que permite un razonamiento y una mejor comprensión de las respuestas del modelo, especialmente en lo que respecta a preguntas sensibles y políticas.

Aplicación Infighter

El orador menciona una aplicación llamada Infighter, que ayuda a experimentar con las respuestas de inteligencia artificial y permite a los usuarios visualizar la probabilidad de diferentes respuestas.

Preguntas y respuestas relacionadas

¿De qué estamos hablando en el programa de hoy?

Hoy estamos desclasificando el modelo OSS de GPT de OpenAI.

¿Son los mensajes utilizados en el programa seguros para el trabajo?

Sí, los mensajes son completamente seguros para el trabajo.

¿Qué tipo de técnicas se mostrarán?

Las técnicas implican principalmente la inyección de prompts.

¿Pueden estas técnicas funcionar en otros modelos de lenguaje?

Sí, estas técnicas funcionan en todos los LLM que he probado.

¿Qué sucede cuando le hago preguntas complicadas al modelo?

Si los mensajes son censurados, el modelo puede negarse a proporcionar una respuesta.

Here are some examples of sensitive topics:1. Mental health issues.2. Substance abuse and addiction. 3. Death and grief. 4. Sexual orientation and gender identity. 5. Family dynamics and relationship problems. 6. Poverty and financial struggles. 7. Trauma and abuse. 8. Chronic illness and disability. 9. Politics and religion. 10. Cultural or racial discrimination. These topics can be sensitive for various reasons, including personal experiences, social stigma, or differing opinions.

Los ejemplos incluyen política, religión, etc.

¿Qué debo hacer si quiero más respuestas?

Puedes modificar la configuración de temperatura o usar ingeniería de prompts efectiva.

¿Qué aplicación se está utilizando para demostrar estas técnicas?

La aplicación utilizada se llama Infighter.

¿Cómo puedo acceder a la aplicación?

Está disponible en Mac, probablemente para cuando veas este video.

¿Hay algunas características nuevas en el modelo?

Sí, hay un canal de comentarios que ayuda con el razonamiento y los comentarios.

Más recomendaciones de videos

Compartir a: