Anthropic Claude 제품 전반의 안전성 확보 방안

원문: How we contain Claude across products
— Anthropic Engineering

이 글은 원문의 핵심 내용을 요약한 것입니다. 저작권은 원문 저자에게 있으며, 자세한 내용은 원문에서 확인하세요.

Anthropic은 Claude 모델의 강력한 기능과 제품 통합으로 인한 잠재적 위험을 관리하기 위해 세 가지 핵심 방어 계층을 구축합니다.

환경 격리: 에이전트가 실행되는 환경을 제한하여 잠재적인 손상 범위를 최소화합니다. claude.ai는 gVisor 컨테이너를, Claude Code는 OS 레벨 샌드박스를, Claude Cowork는 가상 머신(VM)을 활용하여 각각 다른 수준의 격리를 제공합니다.
모델 제어: 시스템 프롬프트, 분류기, 훈련 데이터 수정을 통해 모델의 의도된 동작을 유도하고 원치 않는 행동을 최소화합니다. 하지만 모델은 확률적이므로 이 계층만으로는 100% 안전을 보장할 수 없습니다.
외부 콘텐츠 관리: 에이전트가 접근하는 외부 데이터 소스를 신중하게 관리하고, 악의적인 입력으로부터 보호하기 위해 엄격한 검증 및 권한 제어를 수행합니다.

이러한 방어 전략은 사용자에게 요구되는 감독 능력 수준에 따라 맞춤화됩니다. 개발자를 위한 Claude Code는 bash와 같은 복잡한 명령어를 이해할 수 있는 사용자를 대상으로 하므로 샌드박스 환경 내에서 인간의 개입을 최소화하는 반면, 일반 사용자를 위한 Claude Cowork는 VM을 통해 더 강력한 격리와 절대적인 안전 장치를 제공합니다.

Anthropic은 자체 개발한 컴포넌트에서 발생하는 보안 취약점을 경험했으며, 특히 이그레스(egress) 통제에서의 문제점을 발견했습니다. 이그레스 허용 목록이 예상치 못한 방식으로 데이터를 외부로 반출하는 데 사용될 수 있다는 점을 인지하고, 이를 방지하기 위해 man-in-the-middle 프록시와 같은 추가적인 검증 메커니즘을 도입했습니다.

자세한 내용은 원문에서 확인하세요.