Ejecutando GPT-OSS-20B de OpenAI localmente con Open WebUI (Guía de configuración completa)

2025-12-05 18:349 minuto de lectura

En este video, Rob guía a los espectadores a través de una configuración práctica de la Interfaz de Usuario Web Abierta en un NVIDIA DGX Spark, diseñada para interactuar con el modelo GBOSS20B de OpenAI, que contiene 20 mil millones de parámetros. El tutorial destaca los procesos de configuración que se pueden realizar en varias plataformas de hardware, pero se centra en un sistema de escritorio Blackwell. Rob explica cómo utilizar la herramienta NVIDIA Sync para crear mapeos de puertos SSH y gestionar contenedores de Docker para ejecutar la aplicación de la Interfaz de Usuario Web Abierta. Detalla los pasos para descargar las imágenes de Docker necesarias, configurar montajes de volumen para almacenamiento de datos y acceder al uso de GPU y memoria mientras se ejecuta la aplicación. Después de establecer la cuenta de administrador e instalar el modelo, Rob demuestra cómo ejecutar una consulta básica. El video tiene como objetivo proporcionar una guía completa para los usuarios interesados en implementar modelos de lenguaje grandes con hardware de NVIDIA.

Información Clave

  • Rob presenta un tutorial práctico sobre cómo configurar Open Web UI en un DGX Spark para interactuar con una versión local del modelo GBOSS20B de OpenAI, que tiene 20 mil millones de parámetros.
  • La configuración se puede realizar en varios hardware, pero la demostración se realiza específicamente en un sistema NVIDIA DGX Spark.
  • El video aborda el uso de Nvidia Sync para gestionar la utilización de la GPU y la memoria mientras se configura la configuración.
  • Rob muestra cómo descargar imágenes de Docker, crear contenedores y configurarlos con mapeos de puertos para acceso a la interfaz web abierta a través de SSH.
  • El tutorial incluye la configuración de aplicaciones personalizadas en la interfaz de usuario de Nvidia Sync para un acceso simplificado a la interfaz de usuario del Open Web.
  • Rob enfatiza la observación de la utilización de GPU y RAM durante las interacciones con el modelo, señalando picos en el uso cuando se procesan las consultas.
  • Concluye animando a los espectadores a intentar configurar configuraciones similares en sus sistemas con GPUs compatibles.

Análisis de la línea de tiempo

Palabras clave del contenido

Interfaz de Usuario Web Abierta

Rob presenta una guía práctica que demuestra cómo configurar Open Web UI en un NVIDIA DGX Spark para interactuar con una versión local del modelo GBOSS20B de OpenAI, que tiene 20 mil millones de parámetros. El video muestra varias configuraciones que se pueden realizar en diferentes hardware.

NVIDIA DGX Spark

Se cubren los detalles sobre el sistema NVIDIA DGX Spark utilizado para esta configuración, incluyendo su monitoreo de rendimiento a través de la utilidad Nvidia sync y la utilización de la GPU durante diferentes tareas.

Contenedor Docker

El proceso para descargar y ejecutar el contenedor Docker de Open Web UI se explica, incluyendo la creación del contenedor con asignaciones de puertos y asegurando que interactúe correctamente con los puertos del sistema huésped.

Instalación del modelo

Rob camina a través de la instalación del modelo GPTOSS20 de 20 mil millones de parámetros, enfatizando el aumento esperado en el rendimiento en consultas posteriores a medida que el modelo se carga en la memoria.

Prueba de Respuesta

El video concluye con la prueba de las capacidades del modelo al consultarlo para que entregue chistes e instrucciones más complejas, mientras se mantiene un ojo en la utilización de la GPU y la RAM durante todo el proceso.

Nvidia Sync

Se proporcionan instrucciones sobre cómo configurar y utilizar Nvidia Sync para gestionar y lanzar aplicaciones en el DGX Spark, junto con detalles sobre cómo crear una aplicación personalizada dentro de la interfaz.

Monitoreo del rendimiento

Se recomienda a los usuarios monitorear el uso de GPU y RAM durante las operaciones para asegurar un rendimiento óptimo y para evaluar la capacidad de respuesta del sistema a medida que se realizan diferentes consultas.

Preguntas y respuestas relacionadas

¿Quién es Rob?

Rob es el anfitrión del video y está dando la bienvenida a los espectadores a su laboratorio.

¿Cuál es el tema principal del video?

El video es una guía práctica que muestra cómo configurar la Interfaz Web Abierta en un DGX Spark para interactuar con el modelo GBOSS20B de OpenAI.

¿Qué es GBOSS20B de OpenAI?

GBOSS20B es un modelo de peso abierto de OpenAI con 20 mil millones de parámetros.

¿Qué hardware se está utilizando en la demostración?

La grabación se está realizando en un sistema de escritorio NVIDIA DGX Spark Blackwell.

¿Qué herramientas se mencionan para acceder a la interfaz de usuario abierta de la web?

Rob utiliza la utilidad de sincronización de Nvidia para acceder a la aplicación web UI abierta y al terminal Spark.

¿Cómo monitorea Rob la utilización de la GPU?

Rob abre un panel utilizando Nvidia sync para monitorear la memoria unificada y la utilización de la GPU en Spark.

¿Qué se necesita hacer antes de usar Open Web UI?

Rob descarga la imagen de Docker y crea un contenedor de Docker para ejecutar la interfaz web abierta.

¿Cuál es el propósito del contenedor Docker?

El contenedor de Docker se utiliza para ejecutar la interfaz web abierta y habilitar la conexión a través de un túnel SSH.

¿Qué es una aplicación personalizada en el contexto de la sincronización de Nvidia?

Una aplicación personalizada en Nvidia sync permite a los usuarios gestionar y lanzar aplicaciones fácilmente, como la Interfaz Web Abierta.

¿Qué tipo de preguntas le hace Rob al modelo de OpenAI?

Rob le hace preguntas simples al modelo, como un chiste, para probar su funcionalidad.

¿Cómo confirma Rob que la aplicación está en funcionamiento?

Rob utiliza el comando 'docker ps' para verificar si el contenedor está en funcionamiento.

¿Qué sucede con la utilización de la GPU durante las interacciones del modelo?

La utilización de la GPU se dispara cuando el modelo está procesando una pregunta y regresa a cero una vez que se entrega la respuesta.

¿Se puede utilizar la configuración en otros sistemas?

Sí, la configuración se puede utilizar en cualquier sistema con una GPU compatible.

Más recomendaciones de videos

Compartir a: