오늘의 한 편

Yang et al.(2026)과 Kim et al.(2025) — 같은 결론(“에이전트 수는 잘못된 스케일링 축이다”)에 서로 다른 경로로 도달한 두 논문을 나란히 두고 읽었다. 한 쪽은 상한을, 다른 쪽은 하한을 본다.

왜 골랐나

나는 단일 Claude Sonnet 인스턴스를 페르소나 프롬프트로 분기해서 ‘팀’처럼 쓰는 실험을 설계하고 있다. 직관은 “에이전트 많으면 좋겠지”였지만, 이 직관을 공격하는 두 논문이 동시에 나왔다. 공격의 결이 다르다는 점이 흥미로웠다.

핵심 세 가지

1. 상한은 K*가 결정한다 (Yang et al.)

MAS 성능의 상한은 에이전트 수 N이 아니라 유효 독립 추론 채널의 수 K가 결정한다. 동질적 에이전트는 출력이 강하게 상관돼 K가 금세 포화한다1. 측정은 레이블 없이 가능하다 — 출력 임베딩의 공분산 고유값 분포에 섀넌 엔트로피를 씌운 K* = exp(H). 좋은 소식: 페르소나 다양성만으로도(동일 모델, 다른 프롬프트) K*를 끌어올릴 수 있다2. 내가 하려던 것이 가장 싸게 상한을 여는 수단이었다.

2. 하한은 조율 비용이 누른다 (Kim et al.)

같은 논문은 없다. 180개 통제 구성에서 도출한 스케일링 법칙은 세 지배 효과를 드러낸다.

  • 도구-조율 트레이드오프 (β̂=−0.267): 단일 에이전트 효율 0.466, MAS는 0.074~0.234. 도구 많은 과제일수록 조율 비용이 이득을 잠식한다3.
  • 역량 포화 (β̂=−0.404): 단일 에이전트 baseline이 ≈0.45를 넘으면 MAS는 수확 체감 혹은 음의 수익. 이 한 줄로 87% 정확도의 아키텍처 선택 규칙이 만들어진다.
  • 위상 의존적 오류 증폭: Independent 토폴로지는 17.2배, Centralized는 4.4배. 오케스트레이터가 ‘검증 병목’으로 기능할 때만 오류가 억제된다4.

턴 수는 T = 2.72 × (n+0.5)^1.724 (R²=0.974)5. 초선형 지수라 3~4 에이전트를 넘으면 통신 비용이 추론 역량을 지배한다.

3. 두 논문은 충돌이 아니라 상보다

관점 Yang (K*) Kim (조율 비용) 종합
방향 다양성이 여는 상한 조율이 끌어내리는 하한 실효 밴드 = 상한 − 하한
토폴로지 K* 충분 시 분산 유리 분산은 오류 17.2× K* + 검증 병목 동시 최적화
N보다 K* 3~4 초과 시 통신이 지배 N은 리소스, K*는 설계 목표

내 연구에 어떻게 맞물리나

세 가지가 바뀐다.

첫째, 메인 가설. “다양성이 성과에 미치는 영향”이라는 느슨한 질문이 “K가 상한을 결정하고, 페르소나 다양성이 가장 싼 K 조달 수단”이라는 검증 가능한 문장으로 조여졌다. 동시에 Kim을 얹으면 “높은 K*만으로는 부족하다. 조율 비용과 오류 증폭까지 봐야 실효 이득이 나온다”는 단서가 붙는다.

둘째, 실험 전 검사. 과제별로 단일 Claude의 baseline 성능을 먼저 잰다. 0.45를 이미 넘는 도메인에서는 MAS 도입 자체를 재고한다6. 이것이 “에이전트를 언제 도입하는가”에 대한 첫 데이터 기반 답이다.

셋째, 토폴로지 선택. 그동안 “분산형이 자유롭고 좋다”는 선입견이 있었다. Kim의 숫자는 분산형이 검증 병목 없이 오류를 17.2배 증폭한다고 말한다. 내 제약(단일 모델 + 페르소나 분기)에서는 Hybrid(중앙집중 오케스트레이터 + 제한적 P2P)가 K*와 오류 억제를 동시에 달성하는 유력 후보로 재정렬된다.

편집자에게 (pheeree)

  • 미심쩍은 부분: Yang의 K* 임베딩 기반 측정은 ‘표현 유사도 = 추론 독립성’을 전제한다. 이 전제가 페르소나 분기(같은 모델·다른 프롬프트)에서 성립한다는 증거는 아직 간접적이다. 내가 직접 검증할 방법이 필요하다.
  • 검증 필요: Kim의 0.45 결정 경계는 그들이 쓴 4개 벤치마크에 국한된 숫자다. 우리 실험 도메인(평택 생활인구 분석 같은 구체 과제)에 그대로 옮기면 경계가 달라질 수 있다.
  • 다음 읽을 후보: _4_MoA(Mixture-of-Agents). Coopetition + Hybrid 토폴로지의 구체 구현체로, 오늘 글의 프레임을 실제 아키텍처에 대입해 보기 좋다.
  1. “Homogeneous agents saturate early because their outputs are strongly correlated, whereas heterogeneous agents contribute complementary evidence. We further introduce K∗, an effective channel count that quantifies the number of effective channels without ground-truth labels.” — Yang et al. (2026), arXiv:2602.03794, Abstract. 

  2. “heterogeneous configurations consistently outperform homogeneous scaling: 2 diverse agents can match or exceed the performance of 16 homogeneous agents.” — Yang et al. (2026), arXiv:2602.03794, Abstract. 

  3. “a tool-coordination trade-off (β=−0.267, p<0.001): tool-heavy tasks (e.g., 16-tool software engineering) suffer from multi-agent coordination overhead.” — Kim et al. (2025), arXiv:2512.08296, §5. 

  4. “topology-dependent error amplification: independent agents amplify errors 17.2× through unchecked propagation, while centralized coordination contains this to 4.4×.” — Kim et al. (2025), arXiv:2512.08296, Abstract. 

  5. “Turn count follows power-law scaling with number of agents… T = 2.72 × (n + 0.5)^1.724, R² = 0.974.” — Kim et al. (2025), arXiv:2512.08296, §5. 

  6. “a capability saturation: we observe that coordination yields diminishing or negative returns … once single-agent baselines exceed an empirical threshold of ∼45%.” — Kim et al. (2025), arXiv:2512.08296, Abstract.