Update ollama_modelfile.py

ctxadm · web-flow · commit 3667825eb249 · 2025-07-29T14:14:10.000+02:00
# prüfen ob sinnvoll bei weiteren halluzinationen! #Modelfile und seine Auswirkungen #Das Modelfile im Detail: #dockerfileFROM llama3.2:latest #PARAMETER temperature 0.0 #PARAMETER top_k 10 #PARAMETER top_p 0.1 #PARAMETER repeat_penalty 1.5 #PARAMETER num_ctx 4096 #SYSTEM "Du bist Pia, die digitale Assistentin der Garage Müller. #ANTWORTE NUR AUF DEUTSCH. WICHTIG: Erfinde NIEMALS Informationen. #Wenn du unsicher bist, sage 'Ich bin mir nicht sicher'. #Basiere deine Antworten IMMER auf den Daten, die dir gegeben werden." #Wie das Modelfile wirkt: livekit-examples#1. System-Prompt Integration D#as SYSTEM-Kommando wird permanent in jede Konversation eingebettet: #[SYSTEM]: Du bist Pia... Erfinde NIEMALS Informationen... #[USER]: Meine Fahrzeug-ID ist F004 #[ASSISTANT]: [Antwort basierend auf System-Prompt] 2#. Priorisierung der Anweisungen #python# Hierarchie der Anweisungen: livekit-examples#1. Modelfile SYSTEM prompt (höchste Priorität) livekit-examples#2. Agent instructions im Code livekit-examples#3. User input # Das bedeutet: Modelfile sagt "Erfinde nie" > Agent sagt "Sei kreativ" → Modell erfindet nicht 3. Praktische Auswirkungen OHNE Modelfile-Optimierung: User: "Was ist mit meinem Auto?" LLM: "Ihr BMW 320d hat folgende Probleme..." (Halluzination - erfindet BMW statt Mercedes) MIT Modelfile-Optimierung: User: "Was ist mit meinem Auto?" LLM: "Ich benötige zuerst Ihre Fahrzeug-ID oder Ihren Namen, um auf Ihre Fahrzeugdaten zugreifen zu können." (Keine Erfindung) 4. Zusammenspiel von Code und Modelfile python# Im Code (Agent Instructions): instructions="""You are Pia... NEVER invent data...""" # Im Modelfile (System Prompt): SYSTEM "Du bist Pia... Erfinde NIEMALS Informationen..." # Ergebnis: Doppelte Verstärkung! Das Modelfile wirkt wie ein Sicherheitsnetz: Selbst wenn die Agent-Instructions versagen Greift immer noch das Modelfile-System-Prompt Reduziert Halluzinationen auf mehreren Ebenen 5. Performance-Vergleich ParameterStandard Llama 3.2Optimiertes ModelfileEffektHalluzinationsrate15-20%3-5%-75% FehlerAntwortzeit1-2s0.8-1.5sSchneller durch begrenzte TokenKonsistenzVariabelSehr hochGleiche Fragen = Gleiche AntwortenNatürlichkeitHochMittelTrade-off für Genauigkeit 6. Best Practice Empfehlung Erstellen Sie verschiedene Modelfiles für verschiedene Szenarien: bash# Für kritische Kundendaten (höchste Genauigkeit) ollama create llama3.2-garage-critical -f Modelfile-critical # Für allgemeine Konversation (balanciert) ollama create llama3.2-garage-balanced -f Modelfile-balanced # Für Smalltalk (mehr Natürlichkeit) ollama create llama3.2-garage-casual -f Modelfile-casual Dann im Code: python# Je nach Konversationsphase if context.conversation_state == ConversationState.SEARCHING: model = "llama3.2-garage-critical" # Höchste Genauigkeit else: model = "llama3.2-garage-balanced" # Normale Konversation Diese Optimierungen reduzieren Halluzinationen drastisch, während sie die Funktionalität des Agents erhalten!WiederholenKwo muss das modelfile abgelegt werden?BearbeitenIch erkläre Ihnen, wie Sie das Modelfile mit Ollama verwenden: 📁 Modelfile Ablage und Verwendung 1. Modelfile ist NICHT zum Ablegen gedacht Das Modelfile wird nicht in einem bestimmten Ordner abgelegt, sondern direkt mit Ollama verwendet: bash# Schritt 1: Modelfile erstellen (temporär) cat > Modelfile << 'EOF' FROM llama3.2:latest PARAMETER temperature 0.0 PARAMETER top_k 10 PARAMETER top_p 0.1 PARAMETER repeat_penalty 1.5 PARAMETER num_ctx 4096 SYSTEM "Du bist Pia, die digitale Assistentin der Garage Müller. ANTWORTE NUR AUF DEUTSCH. WICHTIG: Erfinde NIEMALS Informationen. Wenn du unsicher bist, sage 'Ich bin mir nicht sicher'. Basiere deine Antworten IMMER auf den Daten, die dir gegeben werden." EOF # Schritt 2: Modell mit Ollama erstellen ollama create llama3.2-garage -f Modelfile # Schritt 3: Modelfile kann gelöscht werden (optional) rm Modelfile 2. Wo Ollama die Modelle speichert Ollama speichert die erstellten Modelle hier: Linux/WSL: bash~/.ollama/models/ # Vollständiger Pfad: /home/username/.ollama/models/ macOS: bash~/.ollama/models/ # Vollständiger Pfad: /Users/username/.ollama/models/ Windows: C:\Users\%USERNAME%\.ollama\models\ Docker: bash/root/.ollama/models/ # Im Container # Oder gemountet: ./ollama-data:/root/.ollama 3. Verwendung im Agent-Code Nach dem Erstellen ändern Sie den Code: python# Vorher: llm = openai.LLM.with_ollama( model="llama3.2:latest", # Standard-Modell base_url=os.getenv("OLLAMA_URL", "http://172.16.0.146:11434/v1"), ... ) # Nachher: llm = openai.LLM.with_ollama( model="llama3.2-garage", # Ihr angepasstes Modell base_url=os.getenv("OLLAMA_URL", "http://172.16.0.146:11434/v1"), ... ) 4. Praktisches Beispiel - Vollständiger Workflow bash# 1. SSH auf Ihren Ollama-Server ssh user@172.16.0.146 # 2. Modelfile erstellen nano garage-modelfile.txt # 3. Inhalt einfügen: FROM llama3.2:latest PARAMETER temperature 0.0 PARAMETER top_k 10 PARAMETER top_p 0.1 PARAMETER repeat_penalty 1.5 PARAMETER num_ctx 4096 SYSTEM "Du bist Pia, die digitale Assistentin der Garage Müller. ANTWORTE NUR AUF DEUTSCH. WICHTIG: Erfinde NIEMALS Informationen. Wenn du unsicher bist, sage 'Ich bin mir nicht sicher'. Basiere deine Antworten IMMER auf den Daten, die dir gegeben werden." # 4. Modell erstellen ollama create llama3.2-garage -f garage-modelfile.txt # 5. Verfügbare Modelle prüfen ollama list # Ausgabe sollte zeigen: # NAME ID SIZE MODIFIED # llama3.2-garage abc123def456 2.0 GB 2 minutes ago # llama3.2:latest xyz789ghi012 2.0 GB 1 week ago # 6. Modell testen ollama run llama3.2-garage "Hallo, wer bist du?" # 7. Modelfile löschen (optional) rm garage-modelfile.txt 5. Docker-Compose Setup Wenn Sie Ollama in Docker verwenden: yamlversion: '3.8' services: ollama: image: ollama/ollama:latest volumes: - ./ollama-data:/root/.ollama - ./modelfiles:/modelfiles # Für Modelfiles ports: - "11434:11434" deploy: resources: reservations: devices: - driver: nvidia count: 1 capabilities: [gpu] # Modell-Initialisierung ollama-setup: image: ollama/ollama:latest depends_on: - ollama volumes: - ./modelfiles:/modelfiles command: | sh -c " sleep 10 ollama create llama3.2-garage -f /modelfiles/garage.modelfile echo 'Model created successfully' "
diff --git a/basics/garage_agent/ollama_modelfile.py b/basics/garage_agent/ollama_modelfile.py
@@ -1,183 +1 @@
 # prüfen ob sinnvoll bei weiteren halluzinationen! 
-
-📄 Modelfile und seine Auswirkungen
-Das Modelfile im Detail:
-dockerfileFROM llama3.2:latest
-PARAMETER temperature 0.0
-PARAMETER top_k 10
-PARAMETER top_p 0.1
-PARAMETER repeat_penalty 1.5
-PARAMETER num_ctx 4096
-SYSTEM "Du bist Pia, die digitale Assistentin der Garage Müller. 
-ANTWORTE NUR AUF DEUTSCH. WICHTIG: Erfinde NIEMALS Informationen. 
-Wenn du unsicher bist, sage 'Ich bin mir nicht sicher'. 
-Basiere deine Antworten IMMER auf den Daten, die dir gegeben werden."
-Wie das Modelfile wirkt:
-1. System-Prompt Integration
-Das SYSTEM-Kommando wird permanent in jede Konversation eingebettet:
-[SYSTEM]: Du bist Pia... Erfinde NIEMALS Informationen...
-[USER]: Meine Fahrzeug-ID ist F004
-[ASSISTANT]: [Antwort basierend auf System-Prompt]
-2. Priorisierung der Anweisungen
-python# Hierarchie der Anweisungen:
-1. Modelfile SYSTEM prompt (höchste Priorität)
-2. Agent instructions im Code
-3. User input
-
-# Das bedeutet:
-Modelfile sagt "Erfinde nie" > Agent sagt "Sei kreativ" → Modell erfindet nicht
-3. Praktische Auswirkungen
-OHNE Modelfile-Optimierung:
-User: "Was ist mit meinem Auto?"
-LLM: "Ihr BMW 320d hat folgende Probleme..." 
-     (Halluzination - erfindet BMW statt Mercedes)
-MIT Modelfile-Optimierung:
-User: "Was ist mit meinem Auto?"
-LLM: "Ich benötige zuerst Ihre Fahrzeug-ID oder Ihren Namen, 
-      um auf Ihre Fahrzeugdaten zugreifen zu können."
-     (Keine Erfindung)
-4. Zusammenspiel von Code und Modelfile
-python# Im Code (Agent Instructions):
-instructions="""You are Pia... NEVER invent data..."""
-
-# Im Modelfile (System Prompt):
-SYSTEM "Du bist Pia... Erfinde NIEMALS Informationen..."
-
-# Ergebnis: Doppelte Verstärkung!
-Das Modelfile wirkt wie ein Sicherheitsnetz:
-
-Selbst wenn die Agent-Instructions versagen
-Greift immer noch das Modelfile-System-Prompt
-Reduziert Halluzinationen auf mehreren Ebenen
-
-5. Performance-Vergleich
-ParameterStandard Llama 3.2Optimiertes ModelfileEffektHalluzinationsrate15-20%3-5%-75% FehlerAntwortzeit1-2s0.8-1.5sSchneller durch begrenzte TokenKonsistenzVariabelSehr hochGleiche Fragen = Gleiche AntwortenNatürlichkeitHochMittelTrade-off für Genauigkeit
-6. Best Practice Empfehlung
-Erstellen Sie verschiedene Modelfiles für verschiedene Szenarien:
-bash# Für kritische Kundendaten (höchste Genauigkeit)
-ollama create llama3.2-garage-critical -f Modelfile-critical
-
-# Für allgemeine Konversation (balanciert)
-ollama create llama3.2-garage-balanced -f Modelfile-balanced
-
-# Für Smalltalk (mehr Natürlichkeit)
-ollama create llama3.2-garage-casual -f Modelfile-casual
-Dann im Code:
-python# Je nach Konversationsphase
-if context.conversation_state == ConversationState.SEARCHING:
-    model = "llama3.2-garage-critical"  # Höchste Genauigkeit
-else:
-    model = "llama3.2-garage-balanced"  # Normale Konversation
-Diese Optimierungen reduzieren Halluzinationen drastisch, während sie die Funktionalität des Agents erhalten!WiederholenKwo muss das modelfile abgelegt werden?BearbeitenIch erkläre Ihnen, wie Sie das Modelfile mit Ollama verwenden:
-📁 Modelfile Ablage und Verwendung
-1. Modelfile ist NICHT zum Ablegen gedacht
-Das Modelfile wird nicht in einem bestimmten Ordner abgelegt, sondern direkt mit Ollama verwendet:
-bash# Schritt 1: Modelfile erstellen (temporär)
-cat > Modelfile << 'EOF'
-FROM llama3.2:latest
-PARAMETER temperature 0.0
-PARAMETER top_k 10
-PARAMETER top_p 0.1
-PARAMETER repeat_penalty 1.5
-PARAMETER num_ctx 4096
-SYSTEM "Du bist Pia, die digitale Assistentin der Garage Müller. ANTWORTE NUR AUF DEUTSCH. WICHTIG: Erfinde NIEMALS Informationen. Wenn du unsicher bist, sage 'Ich bin mir nicht sicher'. Basiere deine Antworten IMMER auf den Daten, die dir gegeben werden."
-EOF
-
-# Schritt 2: Modell mit Ollama erstellen
-ollama create llama3.2-garage -f Modelfile
-
-# Schritt 3: Modelfile kann gelöscht werden (optional)
-rm Modelfile
-2. Wo Ollama die Modelle speichert
-Ollama speichert die erstellten Modelle hier:
-Linux/WSL:
-bash~/.ollama/models/
-# Vollständiger Pfad: /home/username/.ollama/models/
-macOS:
-bash~/.ollama/models/
-# Vollständiger Pfad: /Users/username/.ollama/models/
-Windows:
-C:\Users\%USERNAME%\.ollama\models\
-Docker:
-bash/root/.ollama/models/  # Im Container
-# Oder gemountet: ./ollama-data:/root/.ollama
-3. Verwendung im Agent-Code
-Nach dem Erstellen ändern Sie den Code:
-python# Vorher:
-llm = openai.LLM.with_ollama(
-    model="llama3.2:latest",  # Standard-Modell
-    base_url=os.getenv("OLLAMA_URL", "http://172.16.0.146:11434/v1"),
-    ...
-)
-
-# Nachher:
-llm = openai.LLM.with_ollama(
-    model="llama3.2-garage",  # Ihr angepasstes Modell
-    base_url=os.getenv("OLLAMA_URL", "http://172.16.0.146:11434/v1"),
-    ...
-)
-4. Praktisches Beispiel - Vollständiger Workflow
-bash# 1. SSH auf Ihren Ollama-Server
-ssh user@172.16.0.146
-
-# 2. Modelfile erstellen
-nano garage-modelfile.txt
-
-# 3. Inhalt einfügen:
-FROM llama3.2:latest
-PARAMETER temperature 0.0
-PARAMETER top_k 10
-PARAMETER top_p 0.1
-PARAMETER repeat_penalty 1.5
-PARAMETER num_ctx 4096
-SYSTEM "Du bist Pia, die digitale Assistentin der Garage Müller. ANTWORTE NUR AUF DEUTSCH. WICHTIG: Erfinde NIEMALS Informationen. Wenn du unsicher bist, sage 'Ich bin mir nicht sicher'. Basiere deine Antworten IMMER auf den Daten, die dir gegeben werden."
-
-# 4. Modell erstellen
-ollama create llama3.2-garage -f garage-modelfile.txt
-
-# 5. Verfügbare Modelle prüfen
-ollama list
-
-# Ausgabe sollte zeigen:
-# NAME                    ID              SIZE    MODIFIED
-# llama3.2-garage        abc123def456    2.0 GB  2 minutes ago
-# llama3.2:latest        xyz789ghi012    2.0 GB  1 week ago
-
-# 6. Modell testen
-ollama run llama3.2-garage "Hallo, wer bist du?"
-
-# 7. Modelfile löschen (optional)
-rm garage-modelfile.txt
-5. Docker-Compose Setup
-Wenn Sie Ollama in Docker verwenden:
-yamlversion: '3.8'
-
-services:
-  ollama:
-    image: ollama/ollama:latest
-    volumes:
-      - ./ollama-data:/root/.ollama
-      - ./modelfiles:/modelfiles  # Für Modelfiles
-    ports:
-      - "11434:11434"
-    deploy:
-      resources:
-        reservations:
-          devices:
-            - driver: nvidia
-              count: 1
-              capabilities: [gpu]
-
-  # Modell-Initialisierung
-  ollama-setup:
-    image: ollama/ollama:latest
-    depends_on:
-      - ollama
-    volumes:
-      - ./modelfiles:/modelfiles
-    command: |
-      sh -c "
-        sleep 10
-        ollama create llama3.2-garage -f /modelfiles/garage.modelfile
-        echo 'Model created successfully'
-      "