Die versteckten Kosten des eigenständigen LLM-Betriebs im Unternehmen

Q: Wie groß muss das Team für einen ernsthaften internen LLM-Betrieb sein?

Für einige Geschäftsbereiche sind es sechs bis zehn Personen. Für ein größeres Deployment, das mehrere Geschäftsbereiche bedient, sind es fünfzehn bis zwanzig. Die Teamkosten sind das, was die meisten Projektionen zu knapp ansetzen.

Q: Wann ist Self-Hosting tatsächlich die richtige Antwort?

Drei spezifische Fälle. Erstens, wenn Datenlokalisierungsanforderungen absolut sind. Zweitens, wenn das Workflow-Volumen die Fixkosten rechtfertigt. Drittens, wenn der strategische Fall explizit formuliert und finanziert ist.

Q: Wann ist Self-Hosting die falsche Antwort?

Drei spezifische Fälle. Wenn die Datenlokalisierungsanforderung durch Transformation adressierbar ist. Wenn der Workflow Frontier-Leistungsfähigkeit benötigt. Wenn die Kalkulation das vollständige Team nicht einschloss.

Q: Wie lang ist der realistische Zeitrahmen vom Beschluss bis zum produktiven KI-Betrieb?

Neun bis achtzehn Monate für die meisten Unternehmen. Die Opportunitätskosten sind real — und die externe LLM-Landschaft entwickelt sich weiter.

Q: Enden die Kosten, sobald das System läuft?

Nein — sie verlagern sich. Modell-Updates, Qualitätsmonitoring, Infrastruktur-Updates und Workflow-Evolution akkumulieren sich als dauerhafter Teamaufwand.

Q: Welches Betriebsmodell wählen die meisten Unternehmen am Ende?

Hybrid — als die Architektur, die das Kostenprofil jeder Workflow-Kategorie ihrer tatsächlichen Restriktion zuordnet. Das Team betreibt eine Routing-Schicht, ein Governance-Framework und zwei Backends — zu deutlich geringeren Gesamtkosten.

Einen LLM auf eigener Infrastruktur zu betreiben ist eine vertretbare Entscheidung — aber die Kostenstruktur ist asymmetrisch. Das Modell ist der günstige Teil. Eine sachliche Betrachtung der tatsächlichen Kosten von Self-Hosted-KI: wo Teams zu knapp kalkulieren und wann diese Entscheidung die richtige ist.

KI-Architektur~10 Min. LesezeitMai 2026

Kurzfassung

Self-Hosting eines LLM ist eine vertretbare Entscheidung — die Kostenstruktur ist jedoch asymmetrisch, und die meisten Kalkulationen erfassen sie nicht vollständig. Das Modell selbst ist kostenfrei. Infrastrukturkosten sind real und werden gewöhnlich budgetiert. Das Personal ist die Kostenkomponente, die Projektionen am häufigsten sprengt: mindestens sechs bis zehn Engineers für kleinere Deployments, fünfzehn bis zwanzig für größere. Über einen Dreijahreszeitraum übersteigen die Personalkosten die Infrastrukturkosten typischerweise um das Zwei- bis Dreifache. Das Betriebsmodell, bei dem die meisten Unternehmen landen, ist hybrid: Self-Hosted für Workflows, die es erfordern, externe Endpunkte mit Transformationsschicht für die übrigen — unter einer gemeinsamen Routing-Schicht und einem einheitlichen Governance-Framework.

1. Warum Teams sich zunächst für Self-Hosting entscheiden

Die Entscheidung, einen LLM auf der eigenen Unternehmensinfrastruktur zu betreiben, ist grundsätzlich nachvollziehbar. Es gibt Workflows, bei denen dies die richtige Antwort ist, Umgebungen, bei denen es die einzige Antwort ist, und strategische Gründe, in interne KI-Kompetenz zu investieren — selbst wenn externe Optionen verfügbar sind. Das steht nicht zur Debatte.

Die entscheidende Frage lautet: Versteht das Team, das diese Entscheidung trifft, worauf es sich tatsächlich einlässt? In einer bemerkenswert hohen Zahl von Unternehmens-KI-Programmen wurde die Entscheidung für einen internen Betrieb auf Basis eines Kostenmodells getroffen, das sich in vorhersehbarer Weise als unzutreffend erweist. Das Modell selbst — die eigentlichen Gewichte, das Open-Source-Release, das das Team deployen will — ist der günstigste Teil des Deployments. Die übrige Kostenstruktur birgt die Überraschungen, und die meisten davon zeigen sich erst Monate nachdem die Entscheidung kaum noch umkehrbar ist.

Dieser Artikel beleuchtet die Kostenschichten des ernsthaften internen LLM-Betriebs, was jede davon tatsächlich bedeutet und wo Teams systematisch zu knapp kalkulieren. Es ist kein Argument gegen Self-Hosting. Es ist der Versuch, die Entscheidung auf informierter Grundlage zu treffen.

Bevor es um die Kosten geht, lohnt sich ein präziser Blick auf die Gründe, die Unternehmen zum Self-Hosting führen. Die Gründe sind real — und die Architektur sollte ihnen entsprechen.

Datenlokalisierungsanforderungen sind absolut. Manche Workflows dürfen Daten unter keinen Umständen an externe Endpunkte senden — unabhängig von Transformation oder Schutzmaßnahmen. Verteidigungsoperationen, bestimmte regulierte Kategorien im Gesundheitswesen, Abhördaten, klassifizierte Finanzworkflows. Für diese ist Self-Hosting keine Wahl, sondern die einzige funktionsfähige Architektur. Die Kostenanalyse betrifft dann welches interne Deployment — nicht ob intern deployt werden soll.
Sektorspezifische Verpflichtungen schränken die Deployment-Topologie ein. Ein Telekommunikationsunternehmen unter sektorspezifischen Datenlokalisierungsanforderungen muss Teile seiner operativen KI möglicherweise innerhalb des eigenen Netzes betreiben — selbst wenn transformationsbasierte Ansätze die Restriktion theoretisch adressieren könnten. Der Vertrag oder die Datenpositionierung ist verbindlich, unabhängig von der Architektur.
Strategischer Kompetenzaufbau. Manche Unternehmen betrachten KI als langfristige Kernkompetenz, die sie aufbauen wollen — nicht mieten. Die Überlegung: KI wird zentral für das Geschäft, die Anbieterlandschaft ist unsicher, und das Unternehmen zieht es vor, interne Expertise aufzubauen. Das ist eine vertretbare Position, die nicht von Datenlokalisierungsrestriktionen abhängt.
Kostenprognose bei hohem Volumen. Bei Workflows mit sehr hohem Anfragevolumen übersteigen die Per-Token-Kosten externer API-Aufrufe irgendwann die Fixkosten des eigenen Infrastrukturbetriebs. Für die meisten Unternehmen liegt dieser Punkt weiter in der Zukunft, als sie annehmen — aber die Prognose ist gelegentlich der explizite Grund für Self-Hosting.
Betriebliche Planbarkeit. Externe LLM-Anbieter ändern Modelle, Preise, Vertragsbedingungen und Verfügbarkeit ohne Zustimmung des Unternehmens. Für Workflows, bei denen diese Volatilität nicht akzeptabel ist, hat die interne Kontrolle über den Modell-Lebenszyklus einen realen Wert.

Jeder dieser Punkte ist eine legitime Grundlage für Self-Hosting. Der Fehler liegt nicht in der Begründung — er liegt im Budget, das nach der Entscheidung angesetzt wird.

2. Das Modell — der günstige Teil

Die erste Überraschung für Teams, die diesen Weg zum ersten Mal gehen: Das Modell selbst kostet nahezu nichts.

Die führenden Open-Source-Modelle — Llama, Mistral, Qwen und ihre Nachfolger — werden unter Lizenzen veröffentlicht, die Unternehmensnutzung ohne Per-Token-Gebühren erlauben. Das Herunterladen der Gewichte ist kostenlos. Die Quantisierung für verfügbare Hardware ist kostenlos. Es gibt keine Lizenzverhandlungen, keine nutzungsbasierte Abrechnung, keine Sitzlizenzen für das Modell als solches.

Das ist der sichtbare Teil der Kostenanalyse — und der Ausgangspunkt für optimistische Projektionen: „Das Modell ist kostenlos; der Eigenbetrieb muss günstiger sein als die API." Die Kalkulation wirkt überzeugend, solange nur die Modellkosten einbezogen sind.

Was die Kalkulation auslässt, ist alles andere.

Abbildung 1 · Das Modell ist die günstigste Schicht. Personalkosten dominieren die Mehrjahreskalkulation konsequent. Zeit und Wartung kumulieren sich — und erscheinen nicht im ursprünglichen Budget.

3. Infrastruktur — die Schicht, für die die meisten Teams budgetieren

Die nächste Kostenschicht ist die Infrastruktur — und dies ist die Schicht, für die die meisten Teams tatsächlich budgetieren, häufig auch realistisch.

Den ernsthaften Betrieb eines Open-Source-Modells in Produktion erfordert GPUs. Die genaue Spezifikation hängt von Modellgröße, Quantisierungsstufe, erforderlichem Durchsatz und Latenzzielen ab. Ein kleines Deployment mit einem quantisierten Modell mittlerer Größe für interne Workflows mit geringem Durchsatz lässt sich auf wenigen Enterprise-GPUs zu überschaubaren Kosten betreiben. Ein ernsthaftes Deployment mit einem größeren Modell für Produktionsworkflows mit hohem Durchsatz benötigt einen dedizierten GPU-Cluster — inklusive Kühlung, Stromversorgung und Netzwerkinfrastruktur.

Die GPU-Kosten lassen sich kalkulieren. Ein Team, das die Vorarbeit geleistet hat, weiß, was benötigt wird und was es kostet — ob als Hardware-Investition, als reservierte Cloud-Instanzen oder als Kombination. Der Investitionsanteil erhält in der Regel angemessene Budgetaufmerksamkeit.

Weniger präzise budgetiert wird auf dieser Ebene häufig die unterstützende Infrastruktur, die die GPUs erst nutzbar macht: der Model-Serving-Stack (vLLM, TGI oder vergleichbare Lösungen), Request-Routing und Load-Balancing vor der Serving-Schicht, Storage für Modellgewichte und Caches, Netzwerkkapazität für das Anfragevolumen sowie die Monitoring-Infrastruktur, die das Gesamtsystem überwacht. Einzeln sind diese Komponenten nicht teuer, in der Summe schlagen sie zu Buche — und erfordern sorgfältige Planung. Der Serving-Stack hat sich in den letzten Jahren erheblich weiterentwickelt; er ist kein Forschungsartefakt mehr, aber noch immer Infrastruktur, die das Team deployen und betreiben muss.

Über das initiale Deployment hinaus muss die Infrastruktur mit der Nutzung skalieren. Ein Workflow, der von hundert auf zehntausend Anfragen pro Tag wächst, benötigt proportional mehr Kapazität. Das ist der routinemäßige Aufwand produktiver Systeme — er sollte in die Mehrjahresplanung einfließen statt durch die Annahme abgetan zu werden, das Budget vom ersten Tag reiche langfristig aus.

4. Personal — die unterschätzte Kostenschicht

Die Schicht, bei der Projektionen am häufigsten scheitern, ist das Personal. Den Produktionsbetrieb eines LLM übernimmt nicht nebenbei das bestehende Infrastrukturteam. Er erfordert ein dediziertes Team mit spezifischen Qualifikationen — die auf dem aktuellen Markt kostspielig sind.

Ein Mindestteam für den ernsthaften internen LLM-Betrieb umfasst:

ML-Platform-Engineers, die Model-Serving, Quantisierung, Durchsatzoptimierung und die Betriebseigenschaften des Inference-Stacks verstehen. Zwei bis vier Engineers, abhängig vom Umfang.
ML-Operations-Engineers, die Monitoring, Alerting, Kapazitätsplanung und die On-Call-Rotation für die Inferenz-Infrastruktur verantworten. Zwei bis drei Engineers — in kleineren Teams häufig mit Überlappung zu den Platform-Engineers.
Evaluierungs-Engineers, die die Golden-Datasets, die Evaluierungspipelines, das Qualitätsmonitoring und das Regressionstest-Verfahren für Modell-Updates pflegen. Ein bis zwei Engineers, mit erheblichem Input von den Workflow-Teams, die das Modell nutzen.
Workflow-Integration-Engineers, die die Schicht zwischen der Modell-API und den tatsächlichen Geschäftsprozessen aufbauen und warten. Die Zahl skaliert mit der Anzahl der Workflows; typischerweise zwei bis drei Engineers pro großem Workflow-Bereich.
Technische Führungskräfte mit ausreichend ML- und Infrastrukturerfahrung für architektonische Entscheidungen und die Überprüfung der Arbeit. Mindestens ein Senior-Engineer, bei größeren Deployments häufig eine kleine Führungsgruppe.

Für ein Unternehmen, das interne LLMs für einige Geschäftsbereiche betreibt, sind das sechs bis zehn Personen. Für ein größeres Deployment, das mehrere Geschäftsbereiche in einem komplexen Unternehmen bedient, sind es fünfzehn bis zwanzig.

Die Kosten dieser Teams sind in jedem größeren Markt erheblich. ML-Engineers mit den erforderlichen Qualifikationen werden deutlich oberhalb des allgemeinen Engineering-Marktes vergütet. Das Team ist klein in der Kopfzahl, aber aufwendig im laufenden Aufwand. Über einen Dreijahreszeitraum übersteigen die Personalkosten die Infrastrukturkosten typischerweise um einen deutlichen Faktor — bei vielen Deployments um das Zwei- bis Dreifache.

Das ist die Kalkulation, die sich am häufigsten verschiebt, wenn das Team, das das Projekt vorgeschlagen hat, die Personalkosten anfänglich nicht verantwortet. Das Infrastrukturbudget wird freigegeben; das Team muss eingestellt werden; und sobald das Team eingestellt ist, muss das restliche Programm es finanzieren.

5. Zeit — die kumulierende Kostenkomponente

Eine Kategorie, der sich schwer eine konkrete Zahl zuordnen lässt, die aber leicht unterschätzt wird: Zeit. Konkret die Lücke zwischen der Entscheidung für Self-Hosting und dem produktiven Betrieb eines nützlichen Workflows.

Die Entscheidung fällt schnell. Die Beschaffung von Hardware oder die Bindung an Cloud-Kapazitäten dauert Wochen. Das initiale Deployment des Serving-Stacks und eines ersten Modells dauert weitere Wochen. Einen ersten Workflow zu integrieren und produktiv zu machen dauert Monate. Die betriebliche Reife für den zuverlässigen Betrieb mehrerer Workflows zu erreichen dauert noch länger.

Für die meisten Unternehmen liegt der realistische Zeitrahmen von „Wir bauen das selbst" bis „Wir betreiben produktive KI darauf" zwischen neun und achtzehn Monaten. Manche Teams sind schneller; viele sind langsamer. In diesem Zeitfenster hat das Unternehmen entweder keine KI in den Workflows, die das Projekt bedienen soll — oder es nutzt KI über externe Endpunkte, die das Projekt eigentlich ablösen sollte.

Das hat zwei Konsequenzen. Die erste sind die Opportunitätskosten: Die Workflows, die durch KI hätte verbessert werden sollen, werden während der Aufbauphase nicht verbessert — der geschäftliche Wert dieser Verzögerung ist real. Die zweite ist das strategische Risiko: Im selben Zeitfenster entwickelt sich die externe LLM-Landschaft weiter — das interne Modell, das schließlich produktiv geht, kann bereits zwei Iterationen hinter dem externen Angebot zurückliegen.

Ein häufiges Muster: Das interne Modell erreicht Produktionsqualität genau dann, wenn das Team feststellt, dass der Workflow, den es eigentlich unterstützen sollte, in der Zwischenzeit auf externe Endpunkte umgestellt wurde. Das Projekt gelingt technisch — und scheitert strategisch.

6. Wartung — die Kostenkomponente, die nicht endet

Sobald das System läuft, hören die Kosten nicht auf. Sie verlagern sich in eine andere Kategorie.

Modell-Updates. Alle paar Monate werden neue Open-Source-Modelle mit deutlich verbesserten Fähigkeiten veröffentlicht. Das Team muss jedes Release evaluieren, über ein Upgrade entscheiden, die Migration planen, die parallele Evaluierung durchführen und die Umstellung vollziehen. Für ein einzelnes Modell ist das ein wiederkehrendes Engineering-Projekt — nicht riesig, aber kontinuierlich. Bei mehreren Modellen für verschiedene Workflows nimmt das einen erheblichen Teil der Teamkapazität in Anspruch.
Evaluierung und Qualitätsmonitoring. Das Modell, das im letzten Quartal gut funktioniert hat, muss nicht dieselbe Qualität auf der aktuellen Eingabeverteilung liefern. Workflows entwickeln sich weiter, Dokumente ändern sich, Geschäftskontexte verschieben sich. Die Evaluierungsinfrastruktur muss Qualitätsdrift erkennen, bevor Nutzer es bemerken. Das ist kontinuierliche Engineering-Arbeit — keine einmalige Einrichtung.
Infrastruktur-Updates. Der Serving-Stack erhält Aktualisierungen; GPU-Treiber ändern sich; Sicherheits-Patches erscheinen; Cloud-Plattformen deprecaten Dienste. Nichts davon ist dramatisch, aber das Team muss aktuell bleiben und Änderungen einpflegen, ohne die Produktionsworkflows zu beeinträchtigen.
Workflow-Evolution. Mit dem Unternehmen verändern sich die Workflows, die das Modell unterstützt. Neue Prompts müssen entwickelt, evaluiert und ausgerollt werden. Alte Prompts müssen zurückgezogen werden. Workflow-Integrationen müssen aktualisiert werden. Das Team, das das System aufgebaut hat, ist das Team, das die Workflows wartet, die es bedient — das ist mehr Arbeit, als der initiale Aufbau vermuten ließ.

Die Wartungskosten sind die am schwersten prognostizierbaren, weil sie im ursprünglichen Budget nicht erscheinen. Sie zeigen sich über den Mehrjahreszeitraum als dauerhafter Teamaufwand gegen ein wachsendes Portfolio an Workflows. Unternehmen, die mit Self-Hosted-KI erfolgreich sind, haben die Wartungsinvestition von Anfang an eingeplant; Unternehmen, die Schwierigkeiten haben, haben das initiale Deployment für den Gesamtaufwand gehalten.

7. Wann Self-Hosting die richtige Antwort ist

Angesichts all dessen sind die Fälle, in denen Self-Hosting klar die richtige Antwort ist, spezifisch.

Wenn Datenlokalisierungsanforderungen absolut sind. Workflows, die Daten unter keinen Umständen an externe Endpunkte senden dürfen, müssen intern betrieben werden. Die Kosten sind die Kosten der Erfüllung dieser Anforderung — die Alternative ist, in diesem Workflow überhaupt keine KI einzusetzen.
Wenn das Workflow-Volumen die Fixkosten rechtfertigt. Sehr hohe Anfragevolumina — Millionen von Anfragen pro Tag bei dauerhafter Auslastung — amortisieren Infrastruktur- und Personalkosten über genug Arbeit, um gegenüber Per-Token-Abrechnung vorzuliegen. Der Break-even-Punkt liegt weiter in der Zukunft, als die meisten Unternehmen annehmen — aber für manche Workflows liegt er klar innerhalb des Planungshorizonts.
Wenn der strategische Fall explizit formuliert und finanziert ist. Den Aufbau interner KI-Kompetenz als langfristige Investition zu betreiben ist vertretbar. Diese Entscheidung sollte mit vollständiger Transparenz über die Mehrjahreskosten getroffen werden — nicht als Nebeneffekt von „Wir sparen bei den API-Gebühren."

8. Wann Self-Hosting die falsche Antwort ist

Die Fälle, in denen Self-Hosting die falsche Antwort ist, sind ebenfalls spezifisch.

Wenn die Datenlokalisierungsanforderung durch Transformation adressierbar ist. Für Workflows, bei denen die Daten durch architektonische Maßnahmen in der EU-Region bleiben können — Kapsulierung, Tokenisierung, kundenkontrolliertes Mapping — ist der externe Endpunkt mit geeigneten Schutzmaßnahmen die schnellere, günstigere und leistungsfähigere Lösung. Die Kostenanalyse spricht für diese Workflows in der Regel nicht für Self-Hosting.
Wenn der Workflow Frontier-Leistungsfähigkeit benötigt. Das interne Modell liegt beim komplexen Schlussfolgern, langen Kontextfenstern und unbekannten Dokumenttypen hinter dem externen Frontier-Modell zurück. Manche Workflows können mit diesem Rückstand leben; manche nicht. Self-Hosting für Workflows, die das nicht können, erzeugt ein System, das funktioniert, aber zu wenig leistet.
Wenn die Kalkulation das vollständige Team nicht einschloss. Ein Self-Hosting-Programm, das nur für Infrastruktur finanziert ist, läuft entweder mit Unterbesetzung weiter oder absorbiert stillschweigend das Budget, das für andere Zwecke vorgesehen war. In beiden Fällen holen die tatsächlichen Kosten die optimistische Prognose ein.

9. Das Betriebsmodell, bei dem die meisten Unternehmen landen

Unter Unternehmen, die diesen Weg durchlaufen haben, ist das entstehende Deployment in der Regel kein reines Self-Hosting. Es ist ein hybrides Modell, bei dem die selbst betriebene Infrastruktur die Workflows übernimmt, die sie tatsächlich erfordern — die Fälle mit absoluten Restriktionen, die strategischen Investitionsfälle, die Volumenfälle, bei denen die Rechnung aufgeht — und externe Endpunkte mit Transformation den Rest übernehmen.

Das hybride Muster ist kein Kompromiss. Es ist die Architektur, die das Kostenprofil jeder Workflow-Kategorie ihrer tatsächlichen Restriktion zuordnet. Workflows, die Self-Hosting benötigen, erhalten Self-Hosting. Workflows, die das nicht tun, erhalten externe Endpunkte mit Schutzmaßnahmen. Das Team betreibt eine Routing-Schicht, ein Governance-Framework und zwei Backends — zu deutlich geringeren Gesamtkosten als ein einziges Backend, das alles abdecken muss.

Für das grundsätzliche Argument, warum Hybrid die architektonisch ehrliche Antwort ist und kein politischer Kompromiss, siehe den Pillar-Artikel zum Thema, wo Enterprise-KI betrieben werden sollte. Für die Routing-Schicht, die Hybrid tatsächlich funktionsfähig macht, siehe den Artikel zum Routing von KI-Workflows zwischen Cloud- und lokalen Modellen. Für Workflows am strikten Ende des Self-Hosting-Spektrums — wo kein externer Endpunkt akzeptabel ist — siehe den Artikel über KI ohne Netzwerkzugang.

Wichtigste Erkenntnisse

Das Modell selbst ist kostenfrei — die Überraschungen liegen in jeder anderen Schicht der Kostenstruktur
Infrastruktur (GPU + Serving-Stack + Monitoring) ist real, wird aber typischerweise angemessen budgetiert
Personal ist die Schicht, die Projektionen am häufigsten sprengt — mindestens 6–10 Engineers, 15–20 für größere Deployments, mit Personalkosten, die die Infrastrukturkosten über drei Jahre um das 2- bis 3-Fache übersteigen
Zeit kumuliert sich als Opportunitätskosten — 9–18 Monate vom Beschluss bis zum produktiven KI-Betrieb, in denen Workflows warten und die externe Frontier sich weiterentwickelt
Wartung endet nicht — Modell-Updates, Qualitätsdrift, Infrastruktur-Patches, Workflow-Evolution akkumulieren sich als dauerhafter Teamaufwand
Richtig, wenn: Restriktionen absolut sind · Volumen die Fixkosten rechtfertigt · der strategische Fall explizit formuliert und finanziert ist
Falsch, wenn: Transformation die Restriktion adressieren könnte · der Workflow Frontier-Leistungsfähigkeit benötigt · die Kalkulation das vollständige Team nicht einschloss
Das Betriebsmodell, bei dem die meisten Unternehmen landen, ist hybrid — Self-Hosted für Workflows, die es erfordern, externe Endpunkte mit Transformation für die übrigen, unter einer Routing-Schicht und einem Governance-Framework

Häufig gestellte Fragen

Ist selbst betriebene KI nicht günstiger als die Per-Token-Abrechnung externer APIs?

Nur dann, wenn die Kalkulation alles einschließt — nicht nur das Modell. Das Modell selbst ist kostenfrei: Llama, Mistral, Qwen und ihre Nachfolger werden unter unternehmensfreundlichen Lizenzen ohne Per-Token-Gebühren veröffentlicht. Wo die Kalkulation typischerweise bricht, ist alles andere: GPU-Infrastruktur (angemessen budgetiert), das Team für den Betrieb (zu knapp budgetiert), die Zeit zwischen Entscheidung und Produktionsbetrieb (kumuliert als Opportunitätskosten) und laufende Wartung (endet nicht). Über einen Dreijahreszeitraum übersteigen die Personalkosten die Infrastrukturkosten typischerweise um das Zwei- bis Dreifache. Der Break-even-Punkt gegenüber API-Abrechnung liegt weiter in der Zukunft, als die meisten Unternehmen annehmen.

Wie groß muss das Team für einen ernsthaften internen LLM-Betrieb sein?

Für einige Geschäftsbereiche sind es sechs bis zehn Personen. Für ein größeres Deployment, das mehrere Geschäftsbereiche in einem komplexen Unternehmen bedient, sind es fünfzehn bis zwanzig. Die Zusammensetzung: ML-Platform-Engineers (2–4), ML-Operations-Engineers (2–3), Evaluierungs-Engineers (1–2), Workflow-Integration-Engineers (2–3 pro großem Workflow-Bereich) und technische Führungskräfte (mindestens ein Senior-Engineer). Geringe Kopfzahl, aber hoher laufender Aufwand — ML-Engineers mit den erforderlichen Qualifikationen werden deutlich oberhalb des allgemeinen Engineering-Marktes vergütet. Die Teamkosten sind das, was die meisten Projektionen zu knapp ansetzen.

Wann ist Self-Hosting tatsächlich die richtige Antwort?

Drei spezifische Fälle. Erstens, wenn Datenlokalisierungsanforderungen absolut sind — Workflows, die Daten unter keinen Umständen an externe Endpunkte senden dürfen, müssen intern betrieben werden; die Kosten sind die Kosten der Erfüllung dieser Anforderung. Zweitens, wenn das Workflow-Volumen die Fixkosten rechtfertigt — dauerhaft Millionen von Anfragen pro Tag amortisieren Infrastruktur- und Teamkosten über genug Arbeit, um gegenüber Per-Token-Abrechnung vorzuliegen. Drittens, wenn der strategische Fall explizit formuliert und finanziert ist — Aufbau interner KI-Kompetenz als langfristige Investition, mit vollständiger Transparenz über die Mehrjahreskosten statt als Nebeneffekt von „Wir sparen bei den API-Gebühren."

Wann ist Self-Hosting die falsche Antwort?

Drei spezifische Fälle. Wenn die Datenlokalisierungsanforderung durch Transformation adressierbar ist — für Workflows, bei denen Daten durch Kapsulierung, Tokenisierung und kundenkontrolliertes Mapping in der EU-Region bleiben können, ist der externe Endpunkt mit geeigneten Schutzmaßnahmen schneller, günstiger und leistungsfähiger. Wenn der Workflow Frontier-Leistungsfähigkeit benötigt — interne Modelle liegen beim komplexen Schlussfolgern, langen Kontexten und unbekannten Dokumenttypen hinter dem Frontier zurück; Self-Hosting für Workflows, die diesen Rückstand nicht tolerieren können, erzeugt Systeme, die funktionieren, aber zu wenig leisten. Wenn die Kalkulation das vollständige Team nicht einschloss — nur für Infrastruktur finanzierte Programme laufen entweder mit Unterbesetzung weiter oder absorbieren Budgets, die für andere Zwecke bestimmt waren.

Wie lang ist der realistische Zeitrahmen vom Beschluss bis zum produktiven KI-Betrieb?

Neun bis achtzehn Monate für die meisten Unternehmen. Beschaffung dauert Wochen, das initiale Serving-Stack-Deployment dauert weitere Wochen, einen ersten Workflow zu integrieren und nutzbar zu machen dauert Monate — und die betriebliche Reife für den zuverlässigen Betrieb mehrerer Workflows zu erreichen dauert noch länger. In diesem Zeitfenster hat das Unternehmen entweder keine KI in den betroffenen Workflows oder nutzt die externen Endpunkte weiter, die das Projekt ablösen sollte. Die Opportunitätskosten sind real — und im selben Zeitfenster entwickelt sich die externe LLM-Landschaft weiter; das interne Modell, das schließlich produktiv geht, kann bereits hinter dem aktuellen Stand zurückliegen.

Enden die Kosten, sobald das System läuft?

Nein — sie verlagern sich. Modell-Updates (neue Open-Source-Releases alle paar Monate erfordern Evaluierung, Migration, parallele Evaluierung, Umstellung). Qualitätsmonitoring (Workflows entwickeln sich, Eingabeverteilungen verschieben sich, die Evaluierungsinfrastruktur muss Drift erkennen). Infrastruktur-Updates (Serving-Stack-Aktualisierungen, GPU-Treiber-Änderungen, Sicherheits-Patches, Cloud-Deprecations). Workflow-Evolution (neue Prompts entwickeln, alte zurückziehen, Integrationen aktualisieren). Das ist die Kostenkomponente, die am schwersten zu prognostizieren ist, weil sie im ursprünglichen Budget nicht erscheint — sie zeigt sich über mehrere Jahre als dauerhafter Teamaufwand gegen ein wachsendes Workflow-Portfolio.

Welches Betriebsmodell wählen die meisten Unternehmen am Ende?

Hybrid — nicht als politischer Kompromiss, sondern als die Architektur, die das Kostenprofil jeder Workflow-Kategorie ihrer tatsächlichen Restriktion zuordnet. Die selbst betriebene Infrastruktur übernimmt Workflows, die sie tatsächlich erfordern (Fälle mit absoluten Restriktionen, strategische Investitionsfälle, Volumenfälle, bei denen die Rechnung aufgeht). Externe Endpunkte mit Transformation übernehmen den Rest. Das Team betreibt eine Routing-Schicht, ein Governance-Framework und zwei Backends — zu deutlich geringeren Gesamtkosten als ein einziges Backend, das alles abdecken muss.

Have a deployment question?

Bring your industry, your regulatory profile, and your data. We respond within one business day.

Request a Live Demo

Email : contact@cubig.ai

CUBIG LTD (United Kingdom)

Company Number: NI735459
Address: 21 Arthur Street, Belfast, Antrim, United Kingdom, BT1 4GA

CUBIG CORP (Republic of Korea)

Business Registration Number : 133-81-45679

E-Commerce Registration : 2023-Seoul-Seocho-2822

Address: 4F, NAVER 1784, 95, Jeongjail-ro, Bundang-gu, Seongnam-si, Gyeonggi-do, Republic of Korea

Produkt

Ressourcen

Company

Lösungen

Consent Preferences

Email : contact@cubig.ai

CUBIG LTD (United Kingdom)

Company Number: NI735459
Address: 21 Arthur Street, Belfast, Antrim, United Kingdom, BT1 4GA

CUBIG CORP (Republic of Korea)

Business Registration Number : 133-81-45679

E-Commerce Registration : 2023-Seoul-Seocho-2822

Address: 4F, NAVER 1784, 95, Jeongjail-ro, Bundang-gu, Seongnam-si, Gyeonggi-do, Republic of Korea

Produkt

Ressourcen

Company

Lösungen

Consent Preferences

Email : contact@cubig.ai

CUBIG LTD (United Kingdom)

Company Number: NI735459
Address: 21 Arthur Street, Belfast, Antrim, United Kingdom, BT1 4GA

CUBIG CORP (Republic of Korea)

Business Registration Number : 133-81-45679

E-Commerce Registration : 2023-Seoul-Seocho-2822

Address: 4F, NAVER 1784, 95, Jeongjail-ro, Bundang-gu, Seongnam-si, Gyeonggi-do, Republic of Korea

Produkt

Ressourcen

Company

Lösungen

Consent Preferences

Email : contact@cubig.ai

CUBIG LTD (United Kingdom)

Company Number: NI735459
Address: 21 Arthur Street, Belfast, Antrim, United Kingdom, BT1 4GA

CUBIG CORP (Republic of Korea)

Business Registration Number : 133-81-45679

E-Commerce Registration : 2023-Seoul-Seocho-2822

Address: 4F, NAVER 1784, 95, Jeongjail-ro, Bundang-gu, Seongnam-si, Gyeonggi-do, Republic of Korea

Produkt

Ressourcen

Company

Lösungen

Consent Preferences

Email : contact@cubig.ai

CUBIG LTD (United Kingdom)

Company Number: NI735459
Address: 21 Arthur Street, Belfast, Antrim, United Kingdom, BT1 4GA

CUBIG CORP (Republic of Korea)

Business Registration Number : 133-81-45679

E-Commerce Registration : 2023-Seoul-Seocho-2822

Address: 4F, NAVER 1784, 95, Jeongjail-ro, Bundang-gu, Seongnam-si, Gyeonggi-do, Republic of Korea

Produkt

Ressourcen

Company

Lösungen

Consent Preferences