Ollama für Schweizer Unternehmen: Open-Source-LLMs lokal betreiben, Datensouveränität wahren, nDSG-konform. CNEXT aus Bern implementiert Ollama on-premise.
Für Schweizer Unternehmen in regulierten Branchen (Gesundheitswesen, Banken, Behörden) ist On-Premise-KI mit Ollama oft die einzig gangbare Lösung: Patientendaten, Finanzdaten und vertrauliche Dokumente verlassen nie die eigene Infrastruktur. CNEXT begleitet Sie vom Hardware-Sizing über die Modell-Evaluation bis zum produktiven Betrieb mit Monitoring. Beratung anfragen →
FAQ
Was ist Ollama und wie funktioniert es?
Ollama ist eine Open-Source-Plattform, die das Betreiben grosser Sprachmodelle (LLMs) auf der eigenen Infrastruktur so einfach macht wie einen Paketmanager. Mit einem einzigen Befehl lädt und startet Ollama Modelle wie Llama 3, Mistral oder Phi-4. Ollama stellt eine OpenAI-kompatible REST-API bereit, sodass bestehende Anwendungen ohne Codeänderungen auf lokale Modelle umgeleitet werden können.
Welche Modelle unterstützt Ollama?
Ollama unterstützt über 70 Open-Weight-Modelle: Llama 3.1 und 3.3 (8B, 70B, 405B), Mistral und Mixtral, Microsoft Phi-4, Qwen 2.5, Google Gemma 3, DeepSeek-Coder, CodeLlama und viele weitere. CNEXT evaluiert für Ihren spezifischen Use Case, welches Modell die beste Balance aus Qualität, Geschwindigkeit und Hardware-Anforderungen bietet.
Für welche Unternehmen ist Ollama besonders geeignet?
Ollama eignet sich besonders für: Gesundheitseinrichtungen (Patientendaten dürfen Infrastruktur nicht verlassen), Finanzinstitute (FINMA-Compliance), Bundesbehörden und Kantone (keine US-Cloud-Abhängigkeit), Industrieunternehmen mit hohem KI-Volumen (Token-Kosteneinsparung), und alle Organisationen, die unter das nDSG fallen und personenbezogene Daten verarbeiten.
Wie viel kostet Ollama im Vergleich zu OpenAI oder Azure OpenAI?
Ollama selbst ist kostenlos (Open Source). Die Kosten entstehen durch Hardware (Server, GPU) und CNEXT-Implementierungsaufwand. Bei hohem Anfragevolumen rechnet sich On-Premise typischerweise schon ab ca. 500–1'000 CHF/Monat Cloud-API-Kosten. CNEXT erstellt eine TCO-Analyse (Total Cost of Ownership) für Ihren konkreten Use Case.
Kann Ollama mit Microsoft 365 und SharePoint integriert werden?
Ja. CNEXT integriert Ollama via REST-API mit Microsoft 365: Power Automate-Flows können lokale Modelle direkt ansprechen, SharePoint-Inhalte dienen als RAG-Wissensbasis (mit lokaler Vektordatenbank wie Qdrant oder Chroma), und bestehende OpenAI-SDK-Integrationen können per Endpoint-Konfiguration auf Ollama umgeleitet werden.
Welche Hardware brauche ich für Ollama?
Kleine Modelle (7B–8B Parameter) laufen auch auf Standard-CPUs mit 16–32 GB RAM. Für grössere Modelle (70B+) und höhere Durchsatzanforderungen empfiehlt CNEXT GPU-Server (NVIDIA A100, L40S oder H100). CNEXT führt ein Hardware-Sizing durch und bewertet, ob On-Premise-Server, ein GPU-Cloud-Server (z. B. Azure NC-Instanzen) oder eine Hybrid-Lösung sinnvoller ist.
Ist Ollama nDSG-konform?
Ollama selbst ist ein Tool – die nDSG-Konformität hängt davon ab, wie es eingesetzt wird. Da bei Ollama alle Daten lokal verarbeitet werden und nichts in eine US-Cloud übertragen wird, erfüllt ein korrekt konfigurierter Ollama-Betrieb die Anforderungen des Schweizer Datenschutzgesetzes. CNEXT dokumentiert die Datenflüsse und erstellt auf Wunsch einen Datenschutz-Nachweis.
Was ist der Unterschied zwischen Ollama und Azure AI Foundry?
Ollama ist für On-Premise-Betrieb optimiert (kostenlos, Open Source, keine Cloud-Abhängigkeit). Azure AI Foundry bietet eine verwaltete Enterprise-Plattform mit 1'700+ Modellen, Fine-Tuning, Enterprise-Governance und Azure-Datenresidenz. Für strenge Datensouveränität (keine Cloud) ist Ollama die bessere Wahl; für komplexe Multi-Agenten-Systeme mit Enterprise-Support empfiehlt CNEXT Azure AI Foundry.
Kann Ollama für RAG (Retrieval-Augmented Generation) eingesetzt werden?
Ja, Ollama unterstützt Embeddings-Modelle, die für RAG benötigt werden. CNEXT implementiert vollständige RAG-Pipelines: Dokumente aus SharePoint oder Dateisystemen werden in eine lokale Vektordatenbank (Qdrant, Chroma, Weaviate) indexiert, Ollama generiert lokale Embeddings und beantwortet Fragen auf Basis Ihrer Wissensdatenbank – ohne dass ein einziges Dokument die Infrastruktur verlässt.
Bietet CNEXT auch Betrieb und Support für Ollama an?
Ja. CNEXT bietet Ollama Managed Service: Deployment, Konfiguration, Modell-Updates, Monitoring (Prometheus/Grafana), Security-Patches und Incident-Response. Der Service umfasst regelmässige Evaluationen neuer Modelle und Empfehlungen, wenn leistungsstärkere Alternativen verfügbar sind.