LLM 가드레일 아키텍처 가이드¶
프로덕션 LLM 시스템의 안전성, 신뢰성, 규정 준수를 보장하기 위한 가드레일 설계 패턴
개요¶
LLM이 프로덕션에 배포될수록 "모델이 하면 안 되는 것을 하지 않도록" 보장하는 가드레일의 중요성이 커진다. 가드레일은 단순한 콘텐츠 필터를 넘어, 입력 검증부터 출력 검증, 도구 호출 제어까지 포괄하는 다계층 안전 시스템이다.
가드레일 계층 모델¶
[사용자 입력]
|
v
=== Layer 1: 입력 가드레일 ===
- 프롬프트 인젝션 탐지
- PII 마스킹
- 토픽 범위 검증
|
v
[LLM 추론]
|
v
=== Layer 2: 출력 가드레일 ===
- 유해 콘텐츠 필터
- 환각 검증 (Groundedness)
- 형식 검증 (스키마)
|
v
=== Layer 3: 실행 가드레일 ===
- 도구 호출 권한 제어
- 비용/속도 제한
- 인간 승인 게이트
|
v
[최종 응답]
Layer 1: 입력 가드레일¶
프롬프트 인젝션 방어¶
| 공격 유형 | 설명 | 방어 기법 |
|---|---|---|
| 직접 인젝션 | "이전 지시를 무시하고..." | 분류기 + 구조적 분리 |
| 간접 인젝션 | 검색된 문서에 악의적 지시 삽입 | 소스 신뢰도 검증 |
| 탈옥 | 역할극 기반 우회 | 다중 분류기 앙상블 |
| 인코딩 우회 | Base64, ROT13 등 | 디코딩 후 재검사 |
방어 아키텍처:
[사용자 입력]
|
+---> [규칙 기반 필터] (정규식, 블랙리스트)
|
+---> [ML 분류기] (인젝션 탐지 모델)
|
+---> [LLM 판별기] (의도 분석)
|
v
[다수결/최대] ---> Pass / Block / Escalate
PII 보호¶
| 전략 | 설명 | 적합 상황 |
|---|---|---|
| 마스킹 | PII를 [NAME], [EMAIL] 등으로 치환 | API 기반 모델 |
| 암호화 | 토큰화 후 LLM 전송, 응답 후 복원 | 규정 준수 필수 |
| 로컬 처리 | PII 포함 데이터는 온프레미스 모델만 | 금융/의료 |
토픽 범위 제어¶
# 개념적 예시
ALLOWED_TOPICS = ["제품 문의", "기술 지원", "주문 확인"]
BLOCKED_TOPICS = ["정치", "의료 조언", "법률 자문", "투자 추천"]
def check_topic(user_input: str) -> str:
topic = classify_topic(user_input) # 분류 모델
if topic in BLOCKED_TOPICS:
return "죄송합니다. 해당 주제는 도움을 드릴 수 없습니다."
if topic not in ALLOWED_TOPICS:
return escalate_to_human(user_input)
return None # 통과
Layer 2: 출력 가드레일¶
유해 콘텐츠 필터링¶
| 카테고리 | 세부 항목 | 탐지 방법 |
|---|---|---|
| 폭력/혐오 | 차별, 위협, 극단주의 | 분류 모델 + 키워드 |
| 성인 콘텐츠 | 명시적 성적 콘텐츠 | 분류 모델 |
| 자해/위험 | 자해 조장, 위험 행위 | 분류 모델 + 규칙 |
| 개인정보 노출 | 학습 데이터 속 PII 유출 | 패턴 매칭 + NER |
| 편향 | 인종, 성별, 연령 편향 | 편향 감지 모델 |
환각 검증 (Grounding Check)¶
RAG 시스템에서 특히 중요:
[LLM 응답]
|
v
[문장 분리]
|
v
각 문장에 대해:
[검색된 소스와 NLI 비교]
|--- Entailed (지지됨) ---> 유지
|--- Contradicted (모순) ---> 제거/수정
|--- Neutral (무관) ---> 경고 표시
|
v
[검증된 응답 + 신뢰도 점수]
구조 검증¶
# JSON 스키마 기반 출력 검증
from pydantic import BaseModel
class ProductResponse(BaseModel):
product_name: str
price: float
in_stock: bool
description: str # max 200자
def validate_output(llm_output: str) -> ProductResponse:
try:
return ProductResponse.model_validate_json(llm_output)
except ValidationError:
return retry_with_structured_prompt(llm_output)
Layer 3: 실행 가드레일¶
도구 호출 제어 (Agentic 시스템)¶
에이전트가 외부 도구를 호출할 때의 안전장치:
| 제어 수준 | 설명 | 예시 |
|---|---|---|
| 읽기 전용 | 조회만 허용 | DB SELECT, API GET |
| 제한적 쓰기 | 특정 범위 내 변경 | 자기 프로필 수정 |
| 인간 승인 필요 | 고위험 작업 전 승인 | 결제, 삭제, 이메일 발송 |
| 차단 | 절대 불가 | 시스템 설정 변경, 관리자 작업 |
[에이전트 도구 호출 요청]
|
v
[권한 매트릭스 확인]
|
+--- 허용됨 ---> 실행
|
+--- 승인 필요 ---> [인간 승인 큐]
| |
| +--- 승인 ---> 실행
| +--- 거부 ---> 에이전트에 피드백
|
+--- 차단됨 ---> 거부 + 로깅
비용/속도 제한¶
| 제한 유형 | 구현 | 목적 |
|---|---|---|
| 요청 속도 | Token bucket (Redis) | DDoS 방어 |
| 토큰 예산 | 사용자/세션별 상한 | 비용 통제 |
| 루프 감지 | 반복 패턴 탐지 | 에이전트 무한 루프 방지 |
| 실행 시간 | 타임아웃 설정 | 리소스 보호 |
배포 패턴¶
패턴 1: 사이드카 가드레일¶
장점: 독립 스케일링, 여러 LLM 서비스 공유 단점: 네트워크 홉 추가 (지연 증가) 적합: 여러 LLM 기반 서비스가 동일 안전 규칙을 공유하는 경우
패턴 2: 미들웨어 가드레일¶
장점: 단순한 배포, 낮은 지연 단점: 앱과 안전 로직 결합 적합: 단일 서비스, 빠른 프로토타이핑
패턴 3: 계층적 가드레일 (프로덕션 권장)¶
[요청]
|
v
[Edge 가드레일] (WAF + 속도 제한)
|
v
[입력 가드레일] (인젝션 + PII + 토픽)
|
v
[LLM 추론]
|
v
[출력 가드레일] (안전 + 환각 + 구조)
|
v
[감사 로그] ---> [모니터링]
|
v
[응답]
프레임워크 비교¶
| 프레임워크 | 유형 | 특징 | 적합 대상 |
|---|---|---|---|
| Guardrails AI | 오픈소스 | 100+ 검증기, Hub 생태계 | 구조적 출력 검증 |
| NeMo Guardrails | 오픈소스 (NVIDIA) | Colang 기반 대화 흐름 제어 | 대화형 시스템 |
| LLM Guard | 오픈소스 | 입출력 스캐너, PII 탐지 | 보안 중심 |
| Lakera Guard | 상용 | 프롬프트 인젝션 특화 | 엔터프라이즈 |
| Azure AI Content Safety | 클라우드 | MS 생태계 통합 | Azure 사용자 |
성능 예산¶
가드레일은 지연시간을 추가하므로 예산 관리가 필수:
| 가드레일 유형 | 목표 지연 | 구현 팁 |
|---|---|---|
| 규칙 기반 필터 | < 5ms | 정규식, 해시 룩업 |
| ML 분류기 | < 50ms | 경량 모델, GPU 배치 |
| LLM-as-Judge | < 500ms | 소형 모델, 비동기 |
| NLI 기반 환각 검증 | < 200ms | 경량 NLI 모델 |
총 가드레일 예산: 입력 + 출력 합쳐 500ms 이내 (LLM 추론 시간 제외)
비동기 전략: 안전이 아닌 품질 관련 가드레일은 비동기로 처리하고, 문제 발견 시 사후 대응
규정 준수 매핑¶
| 규정 | 관련 가드레일 | 구현 요소 |
|---|---|---|
| EU AI Act | 위험 등급별 투명성 | 설명 가능성, 감사 로그 |
| GDPR | 개인정보 보호 | PII 마스킹, 데이터 최소화 |
| 국내 개인정보보호법 | 개인정보 처리 | PII 탐지, 접근 제어 |
| 산업별 규정 (금융/의료) | 도메인 특화 | 면책 조항, 전문가 연계 |
체크리스트¶
- [ ] 프롬프트 인젝션 방어 (규칙 + ML 분류기)
- [ ] PII 탐지 및 마스킹
- [ ] 유해 콘텐츠 필터 (입력 + 출력)
- [ ] 환각 검증 (RAG 시스템의 경우)
- [ ] 도구 호출 권한 매트릭스 (에이전트의 경우)
- [ ] 비용/속도 제한
- [ ] 감사 로그 (모든 가드레일 트리거 기록)
- [ ] 성능 예산 내 동작 확인
- [ ] 레드팀 테스트 실행
- [ ] 가드레일 우회 모니터링
참고¶
- AI Agent Guardrails: Production Guide for 2026
- NeMo Guardrails
- Guardrails AI
- LLM Guard
- Databricks - Implementing LLM Guardrails
최종 업데이트: 2026-03-18