What is differential privacy in enterprise AI?

Differential privacy is a mathematical framework that bounds the influence any single record can have on a derived output. In enterprise AI, it is applied during the encapsulation step of an AI enablement data layer to reduce re-identification, inference, and sensitive context exposure risks when operational data — network logs, configurations, OT manifests, clinical workflows — is transformed into AI-ready context.

How is differential-privacy-based encapsulation different from PII masking?

PII masking detects and replaces personal identifiers — names, IDs, financial fields. Differential-privacy-based encapsulation additionally protects against inference and re-identification across complex operational data such as network logs, incident records, and OT configurations, where structure and aggregate patterns themselves can leak sensitive information. It is a technical protection layer with a defined risk-reduction scope, not a substitute for compliance frameworks.

Does differential privacy guarantee zero risk?

No. Differential privacy is not a legal guarantee or absolute claim. It is a mathematical framework for bounding the contribution of any single record to a derived output, with a tunable parameter that trades utility against privacy. LLM Capsule presents differential-privacy-based encapsulation as a technical protection layer with a defined risk-reduction scope, not as 100 percent safety, GDPR guarantee, or zero risk.

When should an enterprise use differential-privacy-based protection?

When the data going into an LLM is operational, structured, and re-identifiable through context — such as network topology with device IDs, incident sequences with site references, OT manifests with asset and zone references, clinical workflows with patient journeys, or mission logs with unit and location references. PII filtering alone cannot adequately protect these classes of data.

← 알아보기

엔터프라이즈 AI를 위한 차등 프라이버시: 그것이 무엇인지, 왜 중요한지, 운영 데이터에 어떻게 적용되는지

PII 필터링은 이름까지 걸러냅니다. 차등 프라이버시는 패턴까지 포착합니다. 차등 프라이버시 기반 캡슐화가 AI 지원 데이터 계층의 기술적 기반인 이유.

PILLAR · 차등 프라이버시12분 읽기2025년 5월 업데이트

정의 · 요약

차등 프라이버시 기반 캡슐화는 AI 활성화 데이터 계층의 기술적 기반입니다. 이는 구조(표 레이아웃, 로그 순서, 문서 계층 구조)를 유지하면서 규제 대상 운영 데이터를 AI에 바로 사용할 수 있는 컨텍스트로 변환하고, 차등 프라이버시 기반 보호를 적용해 재식별, 추론, 민감한 컨텍스트 노출 위험을 줄입니다. 이는 범위가 명확한 위험 감소용 기술 보호 계층이며, 법적 보증은 아닙니다.

PII 필터링이 해결하지 못하는 문제

대부분의 엔터프라이즈 팀은 실제 내부 데이터에 외부 LLM을 적용하려 할 때 같은 벽에 부딪힙니다. 데이터는 PII 필터를 통과하지만, 워크플로는 여전히 깨집니다. 이름은 사라집니다. 전화번호도 사라집니다. 하지만 네트워크 구성은 여전히 알아볼 수 있습니다. 인시던트의 순서는 여전히 고객 세그먼트를 식별합니다. OT 경보 패턴은 여전히 공장을 드러냅니다.

이 간극을 해결하기 위해 설계된 것이 차등 프라이버시입니다. PII 필터링은 필드 수준 방어입니다. 이름처럼 보이는 패턴을 찾아서 바꾸는 방식입니다. 차등 프라이버시는 분포 수준 방어입니다. 단일 레코드 하나가 출력에 얼마나 영향을 줄 수 있는지 상한을 둡니다. 데이터가 운영적이고, 구조화되어 있으며, 맥락을 통해 재식별될 수 있다면 두 가지가 모두 필요합니다.

운영 데이터는 PII 필드 목록이 아닙니다. 네트워크 로그, 인시던트 기록, 구성 트리, OT 매니페스트, 임상 워크플로, 미션 로그는 식별 가능한 필드뿐 아니라 구조, 순서, 집계 패턴을 통해 정보를 누출합니다.

차등 프라이버시란 실제로 무엇인가

차등 프라이버시(DP)는 2006년 Cynthia Dwork와 동료들이 소개한 수학적 프레임워크입니다. 핵심 직관은 단순합니다. 어떤 계산이 단일 레코드 하나가 포함되었는지 여부와 관계없이 결과가 거의 같다면, 그 계산은 차등 프라이빗합니다. 여기서 "거의"는 epsilon(ε)으로 매개변수화되며, epsilon이 작을수록 프라이버시는 강해지고 유용성은 낮아집니다.

실무에서는 함수의 민감도와 선택한 프라이버시 예산에 따라 잡음의 규모를 정해, 출력이나 쿼리, 변환에 보정된 노이즈를 추가하는 방식으로 DP를 구현합니다. 올바르게 적용하면, 임의의 배경 지식이 있더라도 공격자가 출력으로부터 특정 개인 레코드에 대해 무엇을 알아낼 수 있는지에 대한 정량적 상한을 제공합니다.

DP가 아닌 것

예/아니오식 보장이 아닙니다. 유용성과 프라이버시 위험 사이를 조정하는 튜닝 가능한 매개변수입니다.
그 자체로 GDPR, HIPAA 또는 특정 규정 준수를 보장하지는 않습니다.
위험을 제거하지 않습니다. 엔지니어와 컴플라이언스 팀이 위험을 추론하고 관리할 수 있도록 상한을 두고 특성을 규정합니다.

AI enablement 데이터 계층에 DP가 필요한 이유

AI enablement 데이터 계층은 규제 대상 운영 데이터가 "비공개"에서 "LLM이 사용할 수 있는 상태"로 넘어가는 지점입니다. 일반적인 PII 전용 파이프라인에서는 이 계층이 식별 가능한 필드를 탐지하고 토큰으로 대체한 뒤 LLM으로 전달하고, 이후 토큰을 복원합니다. 민감한 내용이 주로 개별 식별자인 고객지원 채팅이나 계약 검토 워크플로에서는 이 방식이 잘 작동합니다.

하지만 민감한 정보가 국가 통신사의 네트워크 토폴로지, 장애 직전의 경보 순서, 두 PLC 간의 구성 드리프트, 혹은 병동의 운영 리듬인 경우에는 작동하지 않습니다. 이런 경우 필드 수준 마스킹은 통과하지만, 맥락을 재구성할 수 있는 사람에게는 underlying pattern이 여전히 읽힙니다.

차등 프라이버시 기반 캡슐화는 필드 수준 마스크 위에 분포 수준 보호 계층을 추가합니다. 이는 데이터가 LLM에 도달하기 전에 수행되는 캡슐화 단계에서 적용되며, 운영 데이터의 민감도 프로파일에 맞춰 보정됩니다.

LLM Capsule이 차등 프라이버시를 적용하는 방식

LLM Capsule은 구조 보존 캡슐화(structure-preserving encapsulation)라고 하는 더 큰 변환의 일부로 차등 프라이버시 기반 보호를 적용합니다. 전체 파이프라인은 다음과 같습니다.

수집 — 운영 데이터가 커넥터 레인(NOC 플러그인, 티켓 웹훅, OT 로그 탭, 파일 감시)을 통해 Capsule Runtime으로 들어옵니다.
기밀성 마커 식별 — 일반적인 PII를 넘어 네트워크 식별자, 시스템 운영 로그, OT/자산 참조, 미션 및 임상 맥락까지 식별합니다.
구조 보존 변환 적용 — 테이블 레이아웃, 로그 순서, 문서 계층, 구성 트리를 보존하여 LLM이 이를 기반으로 추론할 수 있게 합니다.
차등 프라이버시 기반 보호 적용 — 해당 워크플로의 정책상 프라이버시 예산에 맞춰 보정합니다. epsilon-DP 활성화, 라플라스 노이즈 주입, k-익명성 적용, 의미 기반 토큰화, 자유 텍스트 NER 마스킹.
실행 경로로 라우팅 — 경로 A(승인된 외부 LLM, 캡슐 데이터만 전달) 또는 경로 B(온프레미스 로컬 경량 모델, 외부 전송 없음).
상태 금고를 통한 복원 — LLM 출력에 원래의 운영 식별자를 다시 주입해 워크플로(RCA, 티켓 업데이트, 런북, 대응 초안)에 삽입합니다.

핵심 주장은 다음과 같이 제한적으로 표현됩니다. 차등 프라이버시 기반 캡슐화는 운영 데이터셋에 대한 재식별, 추론, 민감 맥락 노출 위험을 줄입니다. 이는 위험이 0이라는 약속이 아닙니다. 거버넌스에서 볼 수 있는 프라이버시 예산을 가진, 정의된 기술적 보호 계층입니다.

DP와 PII 필터링: 나란히 비교

	PII 필터링 / 가드레일	차등 프라이버시 기반 캡슐화
방어 수준	필드 수준(식별 가능한 필드 찾기 / 대체)	필드 수준 + 분포 수준(단일 레코드의 영향 상한 설정)
범위	이름, ID, 금융 필드, 주소	+ 네트워크 로그, 구성, OT 경보, 임상 및 미션 맥락
실패 모드	패턴이 통과함(구조, 순서, 집계)	위험이 프라이버시 예산을 통해 상한이 설정되고 가시화됨
일반적 주장	"PII 제거됨"	"정의된 위험 감소 범위를 가진 프라이버시 보호"
감사 관점	탐지 로그	프라이버시 예산, 감사 추적, 거버넌스 증빙

기업이 AI 계층에서 DP를 배포하기 전에 물어야 할 것

워크플로별 프라이버시 예산은 얼마인가? 워크플로마다 서로 다른 epsilon 값을 가질 수 있습니다. NOC 분석은 더 높은 유용성을 허용할 수 있습니다. 미션 요약은 더 강한 보호를 요구할 수 있습니다.
예산은 어디에서 소진되는가? 동일한 데이터셋에 대한 각 쿼리는 예산의 일부를 사용합니다. 실행 계층은 이를 추적하고 거버넌스에 표시해야 합니다.
구조 보존 요구사항은 무엇인가? LLM이 토폴로지에 대해 추론해야 한다면, 단순한 노이즈 주입으로 이를 파괴할 수는 없습니다. 구조 보존 캡슐화가 이를 해결합니다.
보호는 어떻게 감사 가능한가? 차등 프라이버시는 매개변수와 예산이 문서화되고, 추적 가능하며, 정책과 연결되어 있을 때만 의미가 있습니다.

외부 LLM 사용 vs 온프레미스 실행

차등 프라이버시 기반 캡슐화는 LLM Capsule의 두 실행 경로를 모두 뒷받침하지만, 운영적 의미는 다릅니다.

경로 A · 승인된 외부 LLM — 캡슐 데이터가 승인된 외부 LLM 엔드포인트로 전송됩니다. 원본 운영 데이터는 엔터프라이즈 환경을 벗어나지 않습니다. DP 계층은 캡슐 자체에 대한 추론 위험을 줄입니다.

경로 B · 온프레미스 로컬 경량 모델 — 캡슐 실행이 전적으로 엔터프라이즈 환경 내부에서 이루어집니다. 외부 전송이 없습니다. 에어갭, 기밀, 또는 엄격히 규제되는 운영에 사용됩니다.

선택은 워크플로의 규제 프로필, 데이터 주권 제약, 고객 약속에 의해 결정되는 정책 문제입니다. 실행 계층은 두 방식을 모두 가능하게 하고, 거버넌스는 어디에 무엇이 적용되는지를 강제합니다.

"100% 안전" 또는 "GDPR 보장" 같은 절대적 주장에 대해

그런 표현은 피해야 합니다. 차등 프라이버시는 강력하고 잘 연구된 프레임워크이지만, 마법은 아닙니다. "수학적으로 복원이 불가능하다"는 벤더 주장은 프레임워크를 지나치게 단순화하고 검증 공격을 유발합니다. 정직한 표현은 다음과 같습니다.

"정의된 위험 감소 범위를 가진 프라이버시 보호"
"정책의 프라이버시 예산 하에서 상한이 있는 추론 위험"
"외부 LLM으로의 원본 운영 데이터 노출 없음(경로 A)"
"로컬 실행 경로에서 외부 노출 없음(경로 B)"

이러한 표현은 규제 대상 구매자의 보안 및 법무 팀이 검토할 수 있는 주장입니다. 절대적 주장은 오히려 검증 대상이 됩니다.

이것이 더 넓은 AI enablement 데이터 계층에서 차지하는 위치

차등 프라이버시 기반 캡슐화는 LLM Capsule 런타임의 한 기능입니다. 런타임에는 구조 보존 변환, 정책 기반 마커 제어, 복원을 위한 상태 금고, 감사 추적도 포함됩니다. 차등 프라이버시 구성요소는 패턴 수준 추론 공격에 대해 캡슐을 방어 가능하게 하고, 구조 보존 구성요소는 LLM이 이를 유용하게 사용할 수 있게 하며, 상태 금고는 결과를 워크플로로 되돌릴 수 있게 합니다.

이 세 가지가 함께, 그리고 기존 NOC, 티켓, OT, EHR, 미션 시스템에 연결하는 커넥터 레인과 함께 작동하기 때문에 LLM Capsule은 프라이버시 제품이나 PII 도구가 아니라 AI enablement 데이터 계층으로 포지셔닝됩니다.

핵심 요약