Paper Review06.202026-06-20 09:0015 min read
[논문 리뷰] SafeClawBench — 도구 사용 에이전트의 보안 실패를 세 단계로 보기
SafeClawBench는 도구 사용 에이전트의 보안 실패를 텍스트 동의, 감사 증거, 실제 sandbox harm으로 분리해 평가한다.
1 post tagged
SafeClawBench는 도구 사용 에이전트의 보안 실패를 텍스트 동의, 감사 증거, 실제 sandbox harm으로 분리해 평가한다.