Exécution de GPT-OSS-20B d'OpenAI localement avec Open WebUI (Guide de configuration complet)

2025-12-05 18:359 min de lecture

Dans cette vidéo, Rob guide les spectateurs à travers une configuration pratique de l'interface Web ouverte sur un NVIDIA DGX Spark, conçu pour interagir avec le modèle GBOSS20B d'OpenAI, qui contient 20 milliards de paramètres. Le tutoriel met en évidence les processus de configuration qui peuvent être effectués sur diverses plateformes matérielles, mais il est centré sur un système Blackwell de bureau. Rob explique comment utiliser l'outil NVIDIA Sync pour créer des mappages de port SSH et gérer des conteneurs Docker pour exécuter l'application Open Web UI. Il détaille les étapes à suivre pour télécharger les images Docker nécessaires, configurer les montages de volumes pour le stockage des données et accéder à l'utilisation du GPU et de la mémoire pendant l'exécution de l'application. Après avoir établi le compte administrateur et installé le modèle, Rob démontre comment exécuter une requête basique. La vidéo vise à fournir un guide complet pour les utilisateurs intéressés par le déploiement de modèles de langage de grande taille avec du matériel NVIDIA.

Informations clés

  • Rob présente un tutoriel pratique sur la configuration de l'interface Web ouverte sur un DGX Spark pour interagir avec une version locale du modèle GBOSS20B d'OpenAI, qui compte 20 milliards de paramètres.
  • La configuration peut être effectuée sur divers matériels, mais la démonstration se fait spécifiquement sur un système NVIDIA DGX Spark.
  • La vidéo traite de l'utilisation de Nvidia Sync pour gérer l'utilisation du GPU et de la mémoire lors de la configuration.
  • Rob montre comment télécharger des images Docker, créer des conteneurs et les configurer avec des mappages de ports pour un accès à l'interface Web ouverte via SSH.
  • Le tutoriel inclut la configuration d'applications personnalisées dans l'interface utilisateur Nvidia Sync pour un accès simplifié à l'interface utilisateur Open Web.
  • Rob souligne l'importance d'observer l'utilisation du GPU et de la RAM lors des interactions avec le modèle, en notant des pics d'utilisation lorsque des requêtes sont traitées.
  • Il conclut en encourageant les spectateurs à essayer de configurer des configurations similaires sur leurs systèmes avec des GPU compatibles.

Analyse de la chronologie

Mots-clés de contenu

Interface Web Ouverte

Rob présente une démonstration pratique expliquant comment configurer l'interface web Open sur un NVIDIA DGX Spark pour interagir avec une version locale du modèle GBOSS20B d'OpenAI, qui possède 20 milliards de paramètres. La vidéo montre diverses configurations qui peuvent être effectuées sur différents matériels.

NVIDIA DGX Spark

Les détails concernant le système NVIDIA DGX Spark utilisé pour cette configuration sont abordés, y compris sa surveillance de performance via l'utilitaire Nvidia sync et l'utilisation du GPU lors de différentes tâches.

Conteneur Docker

Le processus pour télécharger et exécuter le conteneur Docker de l'Open Web UI est expliqué, y compris la création du conteneur avec des mappages de ports et en s'assurant qu'il interagit correctement avec les ports du système hôte.

Installation du modèle

Rob traverse l'installation du modèle GPTOSS de 20 milliards de paramètres, en soulignant les augmentations de performance prévues dans les requêtes ultérieures à mesure que le modèle est chargé en mémoire.

Test de réponse

La vidéo se termine par des tests des capacités du modèle en lui demandant de délivrer des blagues et des instructions plus complexes, tout en surveillant l'utilisation du GPU et de la RAM tout au long du processus.

Nvidia Sync

Des instructions sur la façon de configurer et d'utiliser Nvidia Sync pour gérer et lancer des applications sur le DGX Spark sont fournies, ainsi que des détails sur la façon de créer une application personnalisée dans l'interface.

Surveillance de la Performance

Les utilisateurs sont encouragés à surveiller l'utilisation du GPU et de la RAM pendant les opérations pour garantir des performances optimales et évaluer la réactivité du système à mesure que différentes requêtes sont effectuées.

Questions et réponses connexes

Qui est Rob ?

Rob est l'hôte de la vidéo et accueille les spectateurs dans son laboratoire.

Quel est le sujet principal de la vidéo ?

La vidéo est un guide pratique montrant comment configurer l'interface utilisateur Web ouverte sur un DGX Spark pour interagir avec le modèle GBOSS20B d'OpenAI.

Qu'est-ce que le GBOSS20B d'OpenAI ?

GBOSS20B est un modèle OpenAI à poids ouverts avec 20 milliards de paramètres.

Quel matériel est utilisé dans la démonstration ?

L'enregistrement est en cours sur un système de bureau NVIDIA DGX Spark Blackwell.

Quels outils sont mentionnés pour accéder à l'interface utilisateur web ouverte ?

Rob utilise l'utilitaire de synchronisation Nvidia pour accéder à l'application web UI ouverte et au terminal Spark.

Comment Rob surveille-t-il l'utilisation du GPU ?

Rob ouvre un tableau de bord en utilisant la synchronisation Nvidia pour surveiller la mémoire unifiée et l'utilisation du GPU sur le Spark.

Qu'est-ce qui doit être fait avant d'utiliser Open Web UI ?

Rob télécharge l'image Docker et crée un conteneur Docker pour exécuter l'interface web Open.

Quel est le but d'un conteneur Docker ?

Le conteneur Docker est utilisé pour exécuter l'interface Web Open et permettre la connexion via un tunnel SSH.

Qu'est-ce qu'une application personnalisée dans le contexte de la synchronisation Nvidia ?

Une application personnalisée dans Nvidia sync permet aux utilisateurs de gérer et de lancer des applications facilement, comme l'interface utilisateur Web ouverte.

Quel type de questions Rob pose-t-il au modèle d'OpenAI ?

Rob pose au modèle des questions simples, comme une blague, pour tester sa fonctionnalité.

Comment Rob confirme-t-il que l'application fonctionne ?

Rob utilise la commande 'docker ps' pour vérifier si le conteneur est en cours d'exécution.

Que se passe-t-il avec l'utilisation du GPU lors des interactions avec le modèle ?

L'utilisation du GPU augmente lorsque le modèle traite une question et revient à zéro une fois la réponse fournie.

Le dispositif peut-il être utilisé sur d'autres systèmes ?

Oui, la configuration peut être utilisée sur n'importe quel système avec un GPU compatible.

Plus de recommandations de vidéos

Partager à: