[논문 리뷰] Scaling Laws for Agent Harnesses — 피드백 계산으로 에이전트 성능 확장하기

Scaling Laws for Agent Harnesses via Effective Feedback Compute

Xuanliang Zhang, Dingzirui Wang, Keyan Xu, Qingfu Zhu, Wanxiang Che (2026)- arXiv preprint

arXiv

문제: 에이전트 성능은 어떻게 확장되는가?

지난 몇 년간 AI 커뮤니티의 초점은 모델 크기였습니다. "더 큰 모델 = 더 나은 성능" 이라는 가정이 지배적이었죠.

하지만 에이전트 시스템은 다릅니다. 에이전트의 성능은 다음 세 가지로 결정됩니다:

모델 능력 (모델 크기, 아키텍처)
하네스 설계 (계획→실행→검증 루프)
피드백 메커니즘 (결과를 어떻게 해석하고 개선할 것인가)

이 논문은 세 번째 요소 — 피드백 계산 — 이 가장 중요하다는 것을 보여줍니다.

핵심 질문: 같은 모델·같은 하네스라면, 피드백 루프를 더 많이 반복할수록 성능이 어느 정도 향상될까?

발견: 스케일링 법칙

Zhang et al. 팀은 광범위한 실험을 통해 피드백 계산의 스케일링 법칙을 도출했습니다.

1. 핵심 발견 — 예측 가능한 성능 향상

같은 모델·같은 과제라도, 피드백 루프 수(또는 시도 횟수) 를 늘리면 성능이 지수적으로 증가합니다:

$\text{Performance} \propto (\text{Feedback Iterations})^{\alpha}$

여기서 $\alpha$ 는 과제 유형에 따라 0.1~0.3 사이의 값을 가집니다.

의미:

10번 반복 vs 100번 반복 → 약 2~3배 성능 향상
100번 반복 vs 1000번 반복 → 약 2~3배 성능 향상

이는 선형이 아닌 지수적 향상이므로, 계산 투자 대비 매우 높은 수익률을 가집니다.

2. "효과적 피드백 계산" (Effective Feedback Compute)

모든 피드백이 같은 가치를 가지는 것은 아닙니다. 논문은 "효과적 피드백 계산" 이라는 개념을 도입합니다:

$\text{EFC} = \sum_{i=1}^{N} \text{quality}_i \times \text{relevance}_i \times \text{cost}_i$

여기서:

quality: 피드백이 얼마나 정확한가?
relevance: 피드백이 다음 단계와 얼마나 관련이 있는가?
cost: 그 피드백을 생성하는 데 든 계산량

예시:

❌ 나쁜 피드백: "실패했습니다"
✅ 좋은 피드백: "라인 23의 조건문이 거짓이므로, 변수 X를 Y로 초기화하세요"

좋은 피드백은 실패 원인을 특정하고, 다음 시도의 방향을 명확히 제시합니다.

3. 과제 유형별 스케일링 차이

흥미로운 발견: 과제의 특성에 따라 피드백 스케일링 효율이 다릅니다.

과제 유형	스케일링 지수 ( $\alpha$ )	최적 반복 횟수
코드 생성 (Python, SQL)	0.25	100~500
추론 (논리 문제)	0.15	50~200
계획 (다단계 작업)	0.30	500~2000
창의성 (텍스트 생성)	0.05	10~30

해석:

높은 지수 ( $\alpha > 0.25$ ): 반복할수록 효과가 큼 → 피드백 루프에 투자할 가치 높음
낮은 지수 ( $\alpha < 0.10$ ): 반복의 효과가 미미 → 모델 개선이나 데이터 품질에 초점

실전 적용: "Best of N" 전략

논문은 이 스케일링 법칙을 활용한 실전 전략을 제시합니다:

Best-of-N (BoN) 샘플링

같은 프롬프트로 N번 샘플링하고, 검증 메커니즘으로 최고의 결과를 선택:

def best_of_n(prompt: str, n: int = 100, model: str = "gpt-4"):
    results = []
    for _ in range(n):
        # 같은 prompt로 N번 생성
        output = model.generate(prompt)
        # 각 결과 검증 (코드 실행, 정상성 확인)
        score = validate(output)
        results.append((output, score))
    
    # 최고 점수의 결과 반환
    return max(results, key=lambda x: x[1])[0]

성능:

N=10: 단순 생성 대비 +15~20%
N=100: 단순 생성 대비 +35~50%
N=1000: 단순 생성 대비 +50~70%

피드백 품질 최적화

단순히 "성공/실패"를 반환하는 대신, 정밀한 피드백을 구성:

def detailed_feedback(output: str, expected: str, code_path: str) -> str:
    errors = []
    
    # 1단계: 구문 검증
    try:
        parse(output)
    except SyntaxError as e:
        errors.append(f"라인 {e.lineno}: {e.msg}")
    
    # 2단계: 의미 검증
    execution_errors = execute_in_sandbox(output, code_path)
    if execution_errors:
        errors.append(f"런타임 에러: {execution_errors[0].message}")
    
    # 3단계: 로직 검증
    if not matches_expected(output, expected):
        errors.append(f"결과가 예상과 다름: {diff}")
    
    # 4단계: 개선 제안
    suggestions = suggest_fixes(errors, output)
    
    return {
        "success": len(errors) == 0,
        "errors": errors,
        "suggestions": suggestions,
        "context": {"failed_at": errors[0] if errors else None}
    }

실제 사례: 코드 생성 에이전트

논문은 Python 코드 생성 에이전트로 실험했습니다:

실험 설정

모델: GPT-4 (고정)
과제: LeetCode 중간-어려운 난이도 문제 100개
변수: 피드백 반복 횟수 (10, 100, 1000회)

결과

반복 횟수	성공률	1순위 + 피드백	계산 비용
0회 (single shot)	32%	—	1x
10회	45%	+13%pt	1.2x
100회	58%	+26%pt	1.5x
1000회	68%	+36%pt	2.8x

핵심 인사이트:

단순 단발 생성(single shot)의 성능 한계를 명확히 드러냄
계산을 2.8배 증가시켜 36%의 성능 향상 달성
비용 대비 성능 향상 비율이 매우 높음

경제학: 언제 피드백에 투자할 것인가?

이 논문은 중요한 경제학적 질문을 던집니다:

"더 나은 모델을 사는 것이 낫나, 아니면 더 나은 피드백 루프를 만드는 것이 낫나?"

비용 분석

옵션 A: GPT-4 → GPT-5 (10배 비싼 모델)
비용: 10배
성능 향상: ~20% (모델 개선의 관례적 한계)

옵션 B: Best-of-N (N=1000)
비용: 2.8배
성능 향상: ~36%

결론: 같은 예산이라면, 피드백 루프에 투자하는 것이 3배 더 효율적입니다.

이는 현재의 "큰 모델 경쟁"과 정반대의 방향을 제시합니다.

💡

한 줄 요약 — 더 큰 모델보다 더 나은 피드백 루프가 에이전트 성능을 지수적으로 향상시킨다.

한계 및 열린 질문

1. 피드백 품질의 정의

논문은 "효과적 피드백 계산"을 정의하지만, 실제로 어떤 피드백이 "효과적"인지 측정하기는 여전히 어렵습니다.

피드백 품질을 정량화하는 범용적 메트릭은 없음
과제마다 최적의 피드백 형식이 다름

2. 감소하는 수익률 (Diminishing Returns)

스케일링 법칙은 지수적이지만, 시간이 지나면서 수익률이 감소합니다:

처음 100회: +26%pt
다음 900회: +10%pt

언제 멈출 것인가? 는 비즈니스 요구와 리소스에 따라 달라집니다.

3. 강화 학습과의 관계

이 논문의 접근은 사실 강화 학습의 샘플 효율성 문제와 매우 유사합니다.

더 정교한 강화 학습 기법(PPO, A3C 등)이 이 문제를 더 효율적으로 푸는 것일까요?

미래 방향: 적응형 피드백

논문의 시사점을 확장하면, 다음의 연구 방향이 있습니다:

1. 동적 피드백 강도 조정

모든 단계에서 같은 강도의 피드백이 필요한 것은 아닙니다:

Step 1 (easy): 약한 피드백으로 충분 → 계산 절약
Step 2 (medium): 중간 강도 피드백 필요
Step 3 (hard): 강한 피드백 필요 → 계산 투자

2. 피드백 경로 최적화 (Feedback Path Optimization)

어떤 피드백 순서가 최적인가?

일반적 피드백 → 구체적 피드백 (우향 깔때기)
구체적 피드백 → 일반적 피드백 (역향)

3. 멀티 에이전트 시나리오

여러 에이전트가 협력할 때, 피드백은 어떻게 흐를 것인가?

Agent A의 실패 → Agent B의 피드백
이때 피드백 지연이 성능에 미치는 영향?

개인 관점: Harness 설계 원칙

이 논문은 "왜 하네스가 중요한가" 를 수량적으로 보여줍니다:

피드백 루프는 설계 선택입니다: 얼마나 자주? 어떤 형식으로? 얼마나 상세하게?
효율성을 측정해야 합니다: 모든 피드백이 가치있는 것은 아님
비용 대비 성능을 최적화합니다: 더 큰 모델보다 더 나은 루프가 낫다

Claude Code의 맥락에서:

Hooks: 피드백 루프의 인터페이스
Skills: 특화된 검증 메커니즘
Agents: 복잡한 작업의 멀티 단계 처리

모두 이 논문의 "효과적 피드백 계산" 원칙을 구현한 것입니다.

결론

"Scaling Laws for Agent Harnesses"는 AI 시스템의 미래에 대해 낙관적이면서도 현실적인 그림을 제시합니다:

큰 모델의 시대는 끝나가고 있다 (또는 한계에 다다랐다)
피드백 메커니즘의 시대가 온다
에이전트의 신뢰성은 모델 크기가 아닌, 하네스의 설계 정교함으로 결정된다

향후 에이전트 AI의 성공은:

$\text{Success} = \text{Model} \times \text{Harness} \times \text{Feedback}$

여기서 Feedback의 가중치가 가장 크다는 것입니다.