OpenAI's GPT-OSS-20B lokal mit Open WebUI ausführen (Vollständige Einrichtungsanleitung)

2025-12-05 18:379 min lesen

In diesem Video führt Rob die Zuschauer durch eine praktische Einrichtung der Open Web UI auf einem NVIDIA DGX Spark, der für die Interaktion mit dem GBOSS20B-Modell von OpenAI konzipiert ist, das 20 Milliarden Parameter enthält. Das Tutorial hebt die Konfigurationsprozesse hervor, die auf verschiedenen Hardware-Plattformen durchgeführt werden können, ist jedoch auf einem Desktop Blackwell-System zentriert. Rob erklärt, wie man das NVIDIA Sync-Tool verwendet, um SSH-Port-Zuordnungen zu erstellen und Docker-Container für die Ausführung der Open Web UI-Anwendung zu verwalten. Er beschreibt die Schritte zum Herunterladen der notwendigen Docker-Images, zum Einrichten von Volumemounts für die Datenspeicherung und zum Zugreifen auf die GPU- und Speicherauslastung während der Ausführung der App. Nachdem das Administratorkonto eingerichtet und das Modell installiert wurde, demonstriert Rob, wie man eine grundlegende Abfrage ausführt. Das Video soll eine umfassende Anleitung für Benutzer bieten, die an der Bereitstellung großer Sprachmodelle mit NVIDIA-Hardware interessiert sind.

Wichtige Informationen

  • Rob führt ein praktisches Tutorial ein, um die Open Web UI auf einem DGX Spark einzurichten, um mit einer lokalen Version des GBOSS20B-Modells von OpenAI zu interagieren, das 20 Milliarden Parameter hat.
  • Die Konfiguration kann auf verschiedenen Hardware durchgeführt werden, aber die Demonstration erfolgt speziell auf einem NVIDIA DGX Spark-System.
  • Das Video behandelt die Verwendung von Nvidia Sync, um die GPU- und Speicherauslastung während der Einrichtung der Konfiguration zu verwalten.
  • Rob zeigt, wie man Docker-Images herunterlädt, Container erstellt und sie mit Portzuweisungen für den Zugriff auf die Open Web UI über SSH konfiguriert.
  • Das Tutorial umfasst die Einrichtung benutzerdefinierter Anwendungen in der Nvidia Sync-Benutzeroberfläche für einen optimierten Zugriff auf die Open Web-Benutzeroberfläche.
  • Rob betont, die GPU- und RAM-Auslastung während der Interaktionen mit dem Modell zu beobachten und stellt fest, dass es zu Nutzungsspitzen kommt, wenn Abfragen verarbeitet werden.
  • Er schließt mit der Aufforderung an die Zuschauer, ähnliche Konfigurationen auf ihren Systemen mit kompatiblen GPUs auszuprobieren.

Zeitlinienanalyse

Inhaltsstichwörter

Offene Web-Benutzeroberfläche

Rob führt einen praktischen Überblick ein, der demonstriert, wie man die Open Web UI auf einem NVIDIA DGX Spark einrichtet, um mit einer lokalen Version des GBOSS20B-Modells von OpenAI zu interagieren, das über 20 Milliarden Parameter verfügt. Das Video zeigt verschiedene Konfigurationen, die auf unterschiedlicher Hardware durchgeführt werden können.

NVIDIA DGX Spark

Details zum NVIDIA DGX Spark-System, das für dieses Setup verwendet wird, werden behandelt, einschließlich der Leistungsüberwachung über das Nvidia Sync-Tool und der GPU-Auslastung während verschiedener Aufgaben.

Docker-Container

Der Prozess zum Herunterladen und Ausführen des Open Web UI Docker-Containers wird erklärt, einschließlich der Erstellung des Containers mit Portzuordnungen und der Sicherstellung, dass er korrekt mit den Ports des Hostsystems interagiert.

Modellinstallation

Rob geht die Installation des GPTOSS20 Milliarden-Parameter-Modells durch und betont die erwarteten Leistungssteigerungen bei nachfolgenden Abfragen, während das Modell in den Speicher geladen wird.

Antwortprüfung

Das Video endet mit der Testung der Fähigkeiten des Modells, indem es dazu aufgefordert wird, Witze und komplexere Anweisungen zu liefern, während die GPU- und RAM-Auslastung während des gesamten Prozesses im Auge behalten wird.

Nvidia Sync

Anleitungen zur Konfiguration und Nutzung von Nvidia Sync für das Verwalten und Starten von Anwendungen auf dem DGX Spark werden bereitgestellt, zusammen mit Details zur Erstellung einer benutzerdefinierten Anwendung innerhalb der Oberfläche.

Leistungsüberwachung

Benutzer werden ermutigt, die GPU- und RAM-Nutzung während der Vorgänge zu überwachen, um eine optimale Leistung sicherzustellen und die Reaktionsfähigkeit des Systems zu bewerten, während unterschiedliche Anfragen gestellt werden.

Verwandte Fragen & Antworten

Wer ist Rob?

Rob ist der Gastgeber des Videos und begrüßt die Zuschauer in seinem Labor.

Was ist das Hauptthema des Videos?

Das Video ist eine praktische Anleitung, die zeigt, wie man die Open Web UI auf einem DGX Spark einrichtet, um mit OpenAIs GBOSS20B-Modell zu interagieren.

Was ist OpenAIs GBOSS20B?

GBOSS20B ist ein OpenAI-Modell mit offenen Gewichten und 20 Milliarden Parametern.

Welcher Hardware wird in der Demo verwendet?

Die Aufnahme erfolgt auf einem NVIDIA DGX Spark Desktop Blackwell-System.

Welche Werkzeuge werden erwähnt, um auf die offene Web-Benutzeroberfläche zuzugreifen?

Rob verwendet das Nvidia Sync-Tool, um auf die offene Web-UI-App und das Spark-Terminal zuzugreifen.

Wie überwacht Rob die GPU-Auslastung?

Rob öffnet ein Dashboard mit Nvidia Sync, um den einheitlichen Speicher und die GPU-Auslastung auf dem Spark zu überwachen.

Was muss getan werden, bevor das Open Web UI verwendet wird?

Rob lädt das Docker-Image herunter und erstellt einen Docker-Container, um die Open Web UI auszuführen.

Der Zweck des Docker-Containers ist es, Anwendungen in isolierten Umgebungen auszuführen.

Der Docker-Container wird verwendet, um die Open Web UI auszuführen und eine Verbindung über ein SSH-Tunnel zu ermöglichen.

Was ist eine benutzerdefinierte App im Kontext von Nvidia Sync?

Eine benutzerdefinierte App in Nvidia Sync ermöglicht es den Nutzern, Anwendungen einfach zu verwalten und zu starten, wie die Open Web UI.

Was für Fragen stellt Rob dem Modell von OpenAI?

Rob stellt dem Modell einfache Fragen, wie einen Witz, um dessen Funktionalität zu testen.

Wie bestätigt Rob, dass die App läuft?

Rob verwendet den Befehl 'docker ps', um zu überprüfen, ob der Container läuft.

Was passiert mit der GPU-Auslastung während der Interaktionen mit dem Modell?

Die GPU-Auslastung steigt, wenn das Modell eine Frage bearbeitet, und fällt auf null, sobald die Antwort übermittelt wird.

Kann das Setup auch auf anderen Systemen verwendet werden?

Ja, das Setup kann auf jedem System mit einer kompatiblen GPU verwendet werden.

Weitere Videoempfehlungen

Teilen mit: