Question 1

Was ist Ollama und wie funktioniert es?

Accepted Answer

Ollama ist eine Open-Source-Plattform, die das Betreiben grosser Sprachmodelle (LLMs) auf der eigenen Infrastruktur so einfach macht wie einen Paketmanager. Mit einem einzigen Befehl lädt und startet Ollama Modelle wie Llama 3, Mistral oder Phi-4. Ollama stellt eine OpenAI-kompatible REST-API bereit, sodass bestehende Anwendungen ohne Codeänderungen auf lokale Modelle umgeleitet werden können.

Question 2

Welche Modelle unterstützt Ollama?

Accepted Answer

Ollama unterstützt über 70 Open-Weight-Modelle: Llama 3.1 und 3.3 (8B, 70B, 405B), Mistral und Mixtral, Microsoft Phi-4, Qwen 2.5, Google Gemma 3, DeepSeek-Coder, CodeLlama und viele weitere. CNEXT evaluiert für Ihren spezifischen Use Case, welches Modell die beste Balance aus Qualität, Geschwindigkeit und Hardware-Anforderungen bietet.

Question 3

Für welche Unternehmen ist Ollama besonders geeignet?

Accepted Answer

Ollama eignet sich besonders für: Gesundheitseinrichtungen (Patientendaten dürfen Infrastruktur nicht verlassen), Finanzinstitute (FINMA-Compliance), Bundesbehörden und Kantone (keine US-Cloud-Abhängigkeit), Industrieunternehmen mit hohem KI-Volumen (Token-Kosteneinsparung), und alle Organisationen, die unter das nDSG fallen und personenbezogene Daten verarbeiten.

Question 4

Wie viel kostet Ollama im Vergleich zu OpenAI oder Azure OpenAI?

Accepted Answer

Ollama selbst ist kostenlos (Open Source). Die Kosten entstehen durch Hardware (Server, GPU) und CNEXT-Implementierungsaufwand. Bei hohem Anfragevolumen rechnet sich On-Premise typischerweise schon ab ca. 500–1'000 CHF/Monat Cloud-API-Kosten. CNEXT erstellt eine TCO-Analyse (Total Cost of Ownership) für Ihren konkreten Use Case.

Question 5

Kann Ollama mit Microsoft 365 und SharePoint integriert werden?

Accepted Answer

Ja. CNEXT integriert Ollama via REST-API mit Microsoft 365: Power Automate-Flows können lokale Modelle direkt ansprechen, SharePoint-Inhalte dienen als RAG-Wissensbasis (mit lokaler Vektordatenbank wie Qdrant oder Chroma), und bestehende OpenAI-SDK-Integrationen können per Endpoint-Konfiguration auf Ollama umgeleitet werden.

Question 6

Welche Hardware brauche ich für Ollama?

Accepted Answer

Kleine Modelle (7B–8B Parameter) laufen auch auf Standard-CPUs mit 16–32 GB RAM. Für grössere Modelle (70B+) und höhere Durchsatzanforderungen empfiehlt CNEXT GPU-Server (NVIDIA A100, L40S oder H100). CNEXT führt ein Hardware-Sizing durch und bewertet, ob On-Premise-Server, ein GPU-Cloud-Server (z. B. Azure NC-Instanzen) oder eine Hybrid-Lösung sinnvoller ist.

Question 7

Ist Ollama nDSG-konform?

Accepted Answer

Ollama selbst ist ein Tool – die nDSG-Konformität hängt davon ab, wie es eingesetzt wird. Da bei Ollama alle Daten lokal verarbeitet werden und nichts in eine US-Cloud übertragen wird, erfüllt ein korrekt konfigurierter Ollama-Betrieb die Anforderungen des Schweizer Datenschutzgesetzes. CNEXT dokumentiert die Datenflüsse und erstellt auf Wunsch einen Datenschutz-Nachweis.

Question 8

Was ist der Unterschied zwischen Ollama und Azure AI Foundry?

Accepted Answer

Ollama ist für On-Premise-Betrieb optimiert (kostenlos, Open Source, keine Cloud-Abhängigkeit). Azure AI Foundry bietet eine verwaltete Enterprise-Plattform mit 1'700+ Modellen, Fine-Tuning, Enterprise-Governance und Azure-Datenresidenz. Für strenge Datensouveränität (keine Cloud) ist Ollama die bessere Wahl; für komplexe Multi-Agenten-Systeme mit Enterprise-Support empfiehlt CNEXT Azure AI Foundry.

Question 9

Kann Ollama für RAG (Retrieval-Augmented Generation) eingesetzt werden?

Accepted Answer

Ja, Ollama unterstützt Embeddings-Modelle, die für RAG benötigt werden. CNEXT implementiert vollständige RAG-Pipelines: Dokumente aus SharePoint oder Dateisystemen werden in eine lokale Vektordatenbank (Qdrant, Chroma, Weaviate) indexiert, Ollama generiert lokale Embeddings und beantwortet Fragen auf Basis Ihrer Wissensdatenbank – ohne dass ein einziges Dokument die Infrastruktur verlässt.

Question 10

Bietet CNEXT auch Betrieb und Support für Ollama an?

Accepted Answer

Ja. CNEXT bietet Ollama Managed Service: Deployment, Konfiguration, Modell-Updates, Monitoring (Prometheus/Grafana), Security-Patches und Incident-Response. Der Service umfasst regelmässige Evaluationen neuer Modelle und Empfehlungen, wenn leistungsstärkere Alternativen verfügbar sind.

Ollama für Unternehmen
KI lokal. Daten souverän.

Warum Ollama?

100% On-Premise

Offene Modelle

Schnelle Inferenz

nDSG-konform

Was Ollama kann

Lokale Modell-Bibliothek

OpenAI-kompatible API

Flexible Deployment-Optionen

Ollama vs. Cloud-LLMs

Datensouveränität

Kosteneffizienz

Anpassbarkeit

Anwendungsfälle in der Schweiz

Gesundheitswesen & Kliniken

Banken & Versicherungen

Industrie & KMU

Behörden & öffentliche Verwaltung

Was CNEXT für Sie umsetzt

Ollama-Setup & Deployment

RAG mit lokalen Modellen

App-Integration

Fine-Tuning & Modelfiles

Training & Enablement

Strategische Beratung

Lokale KI in Zahlen

Bereit für lokale KI?

Ollama für Unternehmen KI lokal. Daten souverän.