Why isn't a better PII detection engine enough?

Better detection improves the first step — finding sensitive elements — but the underlying architecture is still detect, remove, send. The removal step is what breaks cross-references, structural relationships, and document coherence. Even with hundreds of entity types and ML-based detection, removal-based approaches optimise for what's taken out rather than what remains usable. The architectural problem is the removal, not the detection.

What is the difference between removal-based and transformation-based approaches?

Removal-based tools (PII guardrails, masking, redaction) detect sensitive elements and either strip them or replace them with redaction markers like [REDACTED]. They optimise for what's taken out. Transformation-based tools replace sensitive values with structured placeholders that preserve format, type, and the structural role the original played, so cross-references still resolve and the AI can still reason about relationships. They optimise for what remains usable. The mapping from placeholder back to original value stays inside the enterprise.

Are there cases where traditional PII masking is actually fine?

Yes — when three conditions all hold. First, the document is long-form prose rather than a structured operational artifact. Second, the AI's task doesn't require resolving cross-references, preserving structure, or understanding sequence. Third, the privacy constraint is about named entities rather than structural information. CV screening, contract summarisation, and press release drafting often meet all three. The mistake is assuming the rest of the enterprise's documents look the same.

What does 'the structure is the sensitivity' actually mean?

In operational data — service tickets, network logs, clinical records, financial files — the sensitive information often lives in the relationships between elements rather than in any single field. Device IDs joined with timestamps can reveal infrastructure topology. Lab results trajectories joined with rough timing can identify patients. Transaction patterns joined with rough geography can identify loan applicants. Removing only the obvious named entities leaves the structural information that enables re-identification untouched.

How does this relate to data location requirements?

Data location requirements often cover more than named-entity PII — network topology, infrastructure references, sector-specific identifiers, and structural information that can identify customers or operations. A PII guardrail that sees no obvious identifiers in a network log will pass it through to a third-country endpoint, even though the log's structural content is exactly what the data location commitment was designed to keep in. The constraint and the detection layer are looking at different things.

What does the data preparation layer have to do instead?

Preserve the document's structure and references while changing the elements that can't cross the boundary. Same shape, different content. The AI receives a document that still reads like a service ticket — with header, free-text description, cross-references — but the sensitive elements are placeholders that behave the same way in context. The external model reasons about the structure as usual. Inside the enterprise environment, the placeholders are mapped back to real values, producing a business-ready document.

← Learn

Warum KI-Workflows an Tabellen, Tickets und operativen Dokumenten scheitern

PII-Guardrails und feldbasierte Maskierung lösen den einfachen Teil des Problems — und zerstören dabei den Rest des Workflows. Eine Analyse der Stellen, an denen KI an realen operativen Daten scheitert, und warum entfernungsbasierte Ansätze das nicht beheben können.

KI-Architektur~8 Min. LesezeitAktualisiert Mai 2026

TL;DR

KI-Pilotprojekte funktionieren auf bereinigten Texten, scheitern jedoch regelmäßig an realen Service-Tickets, Betriebsprotokollen sowie klinischen oder finanziellen Dokumenten. Die Ursache liegt selten im Modell — sondern in der Datenvorbereitung. PII-Guardrails, Maskierung und Schwärzung (Redaction) setzen voraus, dass sensible Inhalte eine überschaubare Menge benannter Entitäten in Fließtext sind. Operative Daten haben diese Struktur nicht. Die sensiblen Informationen stecken in der Dokumentstruktur: Querverweise, Identifikatoren, Sequenz, Topologie. Entfernungsbasierte Ansätze optimieren für das, was herausgenommen wird — und unterbrechen dabei die Querverweise, auf die die KI für ihre Schlussfolgerungen angewiesen ist. Gleichzeitig bleiben die strukturellen Informationen, die eine Re-Identifizierung ermöglichen, unberührt. Drei konkrete Fehlerszenarien — ein Telekommunikations-Service-Ticket, ein Netzwerkbetriebsprotokoll und ein klinisches oder finanzielles Dokument — zeigen dasselbe Muster: Entfernung verschlechtert die KI-Ergebnisse, ohne den Datenschutz zu verbessern. Ein besseres Erkennungsmodell löst das nicht. Die Architektur muss transformationsbasiert sein, nicht entfernungsbasiert — die Struktur erhalten und nur die Elemente ersetzen, die die Vertrauensgrenze nicht überschreiten dürfen.

1. Warum Maskierung und Schwärzung der erste Versuch sind

In KI-Pilotprojekten von Unternehmen wiederholt sich ein bekanntes Muster: Der Proof of Concept funktioniert auf bereinigten Texten, die Demo überzeugt die Führungsebene — doch sobald derselbe Workflow auf ein echtes Service-Ticket oder ein operatives Dokument angewendet wird, kommt ein unbrauchbares Ergebnis zurück. Das Modell ist in Ordnung. Die Integration ist in Ordnung. Was versagt, ist etwas Spezifischeres — und es lässt sich fast immer auf die Datenvorbereitung zurückführen.

Der Standardansatz zur Vorbereitung ist eine Form der PII-Behandlung: eine Maskierungsbibliothek, eine Guardrail-API oder eine Schwärzungsverarbeitung. Das Team installiert eine dieser Lösungen, konfiguriert sie für Namen und IDs und geht davon aus, dass das Datenschutzproblem gelöst ist. Bei einer kleinen Klasse von Dokumenten — Fließtext, bei dem der sensible Teil ein Name in einem Satz ist — funktioniert das. Bei den Dokumenten, mit denen operative Teams tatsächlich arbeiten, schlägt dieser Ansatz auf eine Weise fehl, die schwer zu diagnostizieren ist.

Die Intuition ist nachvollziehbar. Das Problem sieht so aus: „Sensible Daten befinden sich im Dokument; die KI soll sie nicht sehen; also werden die sensiblen Teile entfernt." Die verfügbaren Werkzeuge — Open-Source-PII-Erkennungsbibliotheken, kommerzielle Guardrail-APIs, in Dokumentenmanagementsysteme integrierte Schwärzungsmodule — gehen alle von diesem Rahmen aus. Sie nehmen ein Dokument, identifizieren benannte Entitäten und ersetzen diese durch Platzhalter oder entfernen sie.

Diese Annahme gilt ausreichend gut, wenn das Dokument unstrukturierter Fließtext ist und der sensible Inhalt in wenigen namentlichen Erwähnungen konzentriert ist. Ein Lebenslauf. Eine Vertragszusammenfassung. Ein Pressemitteilungsentwurf. In diesen Dokumenten macht der Name des Kunden oder der Partei einen kleinen Anteil des Textes aus — und seine Entfernung beeinträchtigt die Bedeutung nicht.

Diese Annahme hält nicht mehr, sobald das Dokument operativer Natur ist. Und operative Dokumente sind genau das, was Unternehmens-KI tatsächlich verarbeiten soll.

2. Szenario 1 — Das Service-Ticket

Betrachten Sie ein einzelnes Kunden-Service-Ticket aus einem Telekommunikationsbetriebszentrum. Das Ticket hat eine Struktur: eine Kopfzeile mit Kundenkontonummer, Geräteseriennummer, betroffenem Dienst sowie Datum und Uhrzeit. Eine Freitextbeschreibung des Agenten: „Kunde meldet intermittierende Verbindungsabbrüche auf Mobile-X-Leitung, nach zweitem Anruf von Stufe 1 eskaliert. Gerät zeigt Rücksetz-Ereignis um 14:22 UTC. Teilnehmer bestätigt keinen physischen Schaden, erwähnt aber niedrige Geschwindigkeiten seit dem Firmware-Update letzten Dienstag." Ein verknüpfter Anhang mit einem Netzwerkprotokoll-Fragment. Verweise auf zwei weitere Ticket-IDs desselben Kunden aus dem vergangenen Monat. Eine Asset-Referenz auf den Mobilfunkmast, der die betroffene Leitung versorgt.

Ein PII-Guardrail analysiert dieses Ticket und findet: einen Kundennamen (sofern er in der Beschreibung steht), möglicherweise eine Telefonnummer und eine E-Mail-Adresse, falls der Agent den Kunden zitiert hat. Alles andere ist aus Sicht des Guardrails nicht sensibel.

Für einen EU-Telekommunikationsanbieter unter branchenspezifischen Datenlokalisierungsanforderungen ist jedoch nahezu alles andere in irgendeiner Form sensibel. Die Mobilfunkmast-Kennung offenbart geografische Standortdaten. Die Asset-Referenz kann zusammen mit dem Firmware-Update-Datum die Hardware-Konfiguration des Kunden identifizieren. Die Querverweise auf Ticket-IDs legen ein Verhaltensmuster offen. Die Seriennummer ist ein eindeutiger Identifikator. Nur die offensichtliche PII zu entfernen hinterlässt ein Dokument, in dem das meiste von dem, was es sensibel machte — und das meiste von dem, was es für die KI nützlich machte — unberührt bleibt. Der Name des Kunden ist weg; der Kunde selbst ist für jeden mit Zugang zum CRM des Betreibers weiterhin identifizierbar.

Dazu kommt ein zweites Problem: Das Entfernen der vom Guardrail markierten Daten beschädigt auch die Funktionsfähigkeit der KI. Die Freitextbeschreibung des Agenten referenziert durchgehend „den Kunden". Wird der Kundenname in der Kopfzeile durch [REDACTED] ersetzt, entstehen im Freitext hängende Verweise. Die zurückgegebene KI-Zusammenfassung wird Formulierungen enthalten wie „der Nutzer erwähnte niedrige Geschwindigkeiten, aber [REDACTED] berichtete auch" — für den nächsten Agenten, der dieses Ticket liest, ist das wertlos.

Das Ticket ist ein Geflecht aus Identifikatoren, Verweisen und Kontextfragmenten, die voneinander abhängen. Die sensiblen Teile lassen sich nicht herausnehmen, ohne die Abhängigkeiten zu zerstören — und genau diese Abhängigkeiten sind es, die die KI-Verarbeitung überhaupt erst sinnvoll machen.

3. Szenario 2 — Das Betriebsprotokoll

Ein weiteres Beispiel: ein Zeitfenster aus den Betriebsprotokollen eines Network Operations Centers — zwanzig Minuten Alarmereignisse vor einem Dienstausfall. Das Format ist strukturiert: Zeitstempel, Schweregrad, Geräte-ID, Ereigniscode, Freitextbeschreibung, Korrelations-ID.

Ein PII-Guardrail findet hier praktisch nichts. Es gibt keine Kundennamen, keine E-Mail-Adressen oder Telefonnummern. Die Felder sind technische Identifikatoren und Ereigniscodes. Der Guardrail gibt das Protokoll unverändert zurück, und das Team fühlt sich sicher, es zur Root-Cause-Analyse an ein externes LLM zu senden.

Für Netzwerkbetreiber in den meisten EU-Ländern umfassen branchenspezifische Verpflichtungen jedoch die Netzwerktopologie selbst. Geräte-IDs legen die Infrastrukturarchitektur offen. Die Alarmsequenz zusammen mit der Korrelations-ID kann Traffic-Routing-Entscheidungen preisgeben. Ereigniscodes sind teils herstellerspezifisch und verraten, welche Geräte welche Segmente betreiben. Für einen Netzbetreiber mit Kundenverpflichtungen zur Datenlokalisierung stellt die Übertragung des Rohprotokolls an einen Endpunkt außerhalb der EU einen Verstoß dar — auch wenn der Guardrail keine PII erkannt hat.

Die strukturellen Informationen — was mit was verbunden ist, was in welcher Reihenfolge ausgefallen ist, welches Teilsystem den Fehler weitergegeben hat — sind genau das, was die KI für eine sinnvolle Root-Cause-Analyse benötigt. Sie sind zugleich das, was das Protokoll sensibel macht. Entfernt man die Struktur, hat die KI keine Grundlage mehr. Lässt man sie stehen, sind die Daten faktisch nicht geschützt.

Das ist die Erkenntnis, die die meisten Teams auf die harte Tour machen: Bei operativen Daten ist die Struktur die Sensibilität. Feldbasierte Entfernung erkennt sie nicht, kann sie nicht modellieren und nicht erhalten.

4. Szenario 3 — Das klinische oder finanzielle Dokument

Ein drittes Szenario, weniger offensichtlich, aber häufiger anzutreffen: ein klinisches Workflow-Dokument oder ein finanzielles Prüfdokument. Eine Patientenakte mit Querverweisen auf frühere Besuche, Laborbefunde, Rezepte und einen Freitext-Kliniker-Vermerk. Eine Kreditakte mit Antragstellerdaten, Vermögensdetails, Transaktionshistorie und der Einschätzung des Underwriters.

Diese Dokumente enthalten etwas, das den ersten beiden fehlt: explizite persönliche Identifikatoren, die ein PII-Guardrail erkennt — Patientenname, Geburtsdatum, Kontonummer, Sozialversicherungsnummer. Das Team konfiguriert den Guardrail, führt ihn aus, und die offensichtlichen Identifikatoren werden maskiert. Das Dokument sieht bereinigt aus.

Die Querverweise bleiben jedoch bestehen. Der Kliniker-Vermerk nennt den Patienten „den Patienten" — soweit in Ordnung — verweist aber auch auf „das Ergebnis vom vorherigen Aufenthalt" und „die Medikamentenanpassung beim dritten Besuch". Die Laborbefundtabelle enthält strukturierte Zeilen mit Datumsangaben, Codes und Werten. Das Finanzdokument enthält eine Transaktionshistorie mit Händlernamen, Beträgen und Zeitstempeln.

Zwei Probleme entstehen.

Querverweise können nicht mehr aufgelöst werden. Die KI sieht „das Ergebnis vom vorherigen Aufenthalt", aber der vorherige Aufenthalt wurde durch ein Token maskiert, das keine inhaltliche Information trägt. Die KI-Zusammenfassung bleibt entsprechend vage.
Das Dokument bleibt auch nach der Maskierung identifizierbar. Die Laborbefund-Verlaufskurve eines Patienten kann zusammen mit ungefähren Zeitangaben eine Identifizierung auch ohne Namen ermöglichen. Das Transaktionsmuster eines Kreditantragstellers kann zusammen mit grober geografischer Einordnung und einer Asset-Referenz zur Identifizierung führen. Diese Re-Identifizierungspfade sind keine theoretischen Konstrukte — sie werden von Datenschutzforschern regelmäßig demonstriert. Ein Guardrail, der direkte Identifikatoren abfängt, aber die Struktur unangetastet lässt, erreicht nicht das Datenschutzniveau, das das Team erwartet.

Das Ergebnis ist das schlechteste aus beiden Welten: Die KI-Ausgabe ist degradiert, weil Querverweise unterbrochen wurden — und der Datenschutz wurde nicht verbessert, weil die strukturellen Informationen, die eine Re-Identifizierung ermöglichen, weiterhin vorhanden sind.

5. Warum ein besserer Guardrail das nicht löst

Die naheliegende Reaktion auf diese Szenarien ist die Forderung nach einer leistungsfähigeren PII-Erkennungsmaschine. Breitere Entitätsabdeckung. Benutzerdefinierte Regeldefinitionen. Kontextbewusste Erkennung. Der Markt hat geliefert — heute gibt es PII-Guardrails mit Hunderten von Entitätstypen, konfigurierbaren benutzerdefinierten Markierungen und ML-basierter Erkennung, die über reguläre Ausdrücke hinausgeht.

Das sind Verbesserungen, aber sie ändern die grundlegende Architektur nicht. Die Architektur lautet nach wie vor: sensible Elemente erkennen, entfernen oder ersetzen, Ergebnis übermitteln. Die Erkennungsschicht verbessert sich; die Entfernungsschicht bleibt Entfernung. Und Entfernung zerstört dieselben Dinge wie eh und je: Querverweise, strukturelle Beziehungen, Dokumentenkohärenz.

Eine präzisere Formulierung des Problems lautet: Der KI-Workflow benötigt die Dokumentstruktur — Beziehungen, Verweise, Format, Sequenz — um sinnvolle Arbeit zu leisten. Die datenschutzrechtliche Anforderung besagt, dass bestimmte Elemente des Dokuments nicht an das externe Modell übermittelt werden dürfen. Diese beiden Tatsachen stehen nur dann im Konflikt, wenn die einzig verfügbare Maßnahme das Entfernen ist. Gibt es einen Weg, die Struktur zu übermitteln, ohne den identifizierenden Inhalt zu senden, löst sich der Konflikt auf.

Das ist der architektonische Wechsel, der entfernungsbasierte Ansätze (PII-Guardrails, Maskierung, Schwärzung) von transformationsbasierten Ansätzen unterscheidet. Entfernungsbasierte Werkzeuge optimieren dafür, was herausgenommen wird. Transformationsbasierte Werkzeuge optimieren dafür, was nutzbar bleibt — das ist eine andere Entwurfsbedingung und erzeugt andere Architekturen.

Abbildung 1 · Dasselbe Service-Ticket, auf zwei Arten verarbeitet. Entfernung unterbricht die Verweise, die die KI benötigt; Transformation erhält die Struktur und ändert dabei, was das externe Modell sieht.

6. Fälle, in denen Maskierung tatsächlich ausreicht

Es ist sinnvoll, präzise zu benennen, wann der traditionelle Ansatz geeignet ist. Drei Bedingungen müssen gleichzeitig erfüllt sein:

Das Dokument ist Fließtext und kein strukturiertes operatives Artefakt. Die sensiblen Elemente machen einen kleinen Teil des Inhalts aus, und das Dokument bleibt auch ohne sie kohärent lesbar.
Die KI-Aufgabe erfordert weder das Auflösen von Querverweisen noch das Erhalten von Struktur oder das Verstehen von Sequenzen. Die Zusammenfassung eines narrativen Einzelquelldokuments ist unproblematisch. Das Extrahieren wesentlicher Klauseln aus einem Vertrag kann ausreichen, wenn die Vertragsparteien die einzigen sensiblen Elemente sind.
Die datenschutzrechtliche Anforderung betrifft benannte Entitäten, nicht strukturelle Informationen. Wenn die Anforderung lautet: „Der Kundenname darf dem externen Modell nicht sichtbar sein", löst Maskierung das. Wenn sie lautet: „Dieses Dokument identifiziert einen Kunden auch ohne den Namen", löst Maskierung das nicht.

Für diese Fälle — sie existieren — ist ein gut konfigurierter PII-Guardrail ein geeignetes Werkzeug. Der Fehler liegt darin anzunehmen, dass die übrigen Dokumente im Unternehmen dieselbe Struktur haben.

7. Konsequenzen für die Workflow-Architektur

Die Schlussfolgerung, zu der die meisten Teams nach mehrfachem Auftreten dieser Probleme gelangen, ist diese: Die Datenvorbereitung muss etwas anderes leisten als Entfernung. Sie muss Struktur und Querverweise des Dokuments erhalten und gleichzeitig die Elemente ersetzen, die die Vertrauensgrenze nicht überschreiten dürfen. Gleiche Form, anderer Inhalt.

Diese Erhaltungseigenschaft — die Struktur beizubehalten und sensible Elemente durch Platzhalter zu ersetzen, die im Kontext dieselbe Rolle übernehmen — ist das, was transformationsbasierte Ansätze von Maskierung und Schwärzung unterscheidet. Die KI erhält weiterhin ein Dokument, das wie ein Service-Ticket aussieht: mit Kopfzeile, Freitextbeschreibung und Querverweisen. Das externe Modell kann weiterhin über die Beziehungen schlussfolgern. Die zurückgegebenen Ergebnisse referenzieren dieselben strukturellen Rollen. Innerhalb der Unternehmensumgebung werden die Platzhalter auf die Originalwerte zurückgemappt — das Ergebnis ist ein unmittelbar einsatzbereites Dokument mit echten Namen, echten IDs und echten Referenzen.

Das ist keine andere Konfiguration von Maskierung. Es ist eine andere Kategorie der Datenvorbereitung — konzipiert für die Anforderung, dass Unternehmensdokumente strukturierte Artefakte sind, deren Wert für die KI ebenso in ihrer Struktur wie in ihrem Inhalt liegt. Diese Anforderung ist im deutschen Unternehmensumfeld besonders relevant: DSGVO (GDPR) und BSI C5 decken operative Strukturinformationen ab, nicht nur namentliche Personendaten.

Have a deployment question?

Bring your industry, your regulatory profile, and your data. We respond within one business day.

Request a Live Demo

Email : contact@cubig.ai

CUBIG LTD (United Kingdom)

Company Number: NI735459
Address: 21 Arthur Street, Belfast, Antrim, United Kingdom, BT1 4GA

CUBIG CORP (Republic of Korea)

Business Registration Number : 133-81-45679

E-Commerce Registration : 2023-Seoul-Seocho-2822

Address: 4F, NAVER 1784, 95, Jeongjail-ro, Bundang-gu, Seongnam-si, Gyeonggi-do, Republic of Korea

Produkt

Ressourcen

Company

Lösungen

Consent Preferences

Email : contact@cubig.ai

CUBIG LTD (United Kingdom)

Company Number: NI735459
Address: 21 Arthur Street, Belfast, Antrim, United Kingdom, BT1 4GA

CUBIG CORP (Republic of Korea)

Business Registration Number : 133-81-45679

E-Commerce Registration : 2023-Seoul-Seocho-2822

Address: 4F, NAVER 1784, 95, Jeongjail-ro, Bundang-gu, Seongnam-si, Gyeonggi-do, Republic of Korea

Produkt

Ressourcen

Company

Lösungen

Consent Preferences

Email : contact@cubig.ai

CUBIG LTD (United Kingdom)

Company Number: NI735459
Address: 21 Arthur Street, Belfast, Antrim, United Kingdom, BT1 4GA

CUBIG CORP (Republic of Korea)

Business Registration Number : 133-81-45679

E-Commerce Registration : 2023-Seoul-Seocho-2822

Address: 4F, NAVER 1784, 95, Jeongjail-ro, Bundang-gu, Seongnam-si, Gyeonggi-do, Republic of Korea

Produkt

Ressourcen

Company

Lösungen

Consent Preferences

Email : contact@cubig.ai

CUBIG LTD (United Kingdom)

Company Number: NI735459
Address: 21 Arthur Street, Belfast, Antrim, United Kingdom, BT1 4GA

CUBIG CORP (Republic of Korea)

Business Registration Number : 133-81-45679

E-Commerce Registration : 2023-Seoul-Seocho-2822

Address: 4F, NAVER 1784, 95, Jeongjail-ro, Bundang-gu, Seongnam-si, Gyeonggi-do, Republic of Korea

Produkt

Ressourcen

Company

Lösungen

Consent Preferences

Email : contact@cubig.ai

CUBIG LTD (United Kingdom)

Company Number: NI735459
Address: 21 Arthur Street, Belfast, Antrim, United Kingdom, BT1 4GA

CUBIG CORP (Republic of Korea)

Business Registration Number : 133-81-45679

E-Commerce Registration : 2023-Seoul-Seocho-2822

Address: 4F, NAVER 1784, 95, Jeongjail-ro, Bundang-gu, Seongnam-si, Gyeonggi-do, Republic of Korea

Produkt

Ressourcen

Company

Lösungen

Consent Preferences