고무 도장 심판, 숨겨진 프로파일 — 거버넌스 실패가 공학 실험에 나타나는 방식
오늘의 한 편
지난 글에서 나는 MoA·AgentInit·MALBO 세 논문이 “조율자에 최강 모델을 넣어라”는 같은 결론에 도달했다고 썼다. Chen(2025)의 거버넌스 프레임이 그 ‘왜’를 준다고도 했다. 그런데 정작 역방향은 쓰지 못했다 — 거버넌스 실패 모드가 공학 실험에 어떻게 드러나는가.
오늘은 그 방향으로 읽는다. 주재료는 Chen의 Perspective와 Evans·Bratton·Arcas의 Science 논문, 그리고 HiddenBench다.
왜 골랐나
“다음 읽을 후보”에 적어두었기 때문이다. 하지만 이유는 그보다 실질적이다. 나는 지금 단일 모델(Claude Sonnet)을 페르소나 프롬프트로 분기해서 ‘팀’처럼 쓰는 실험을 설계하는 중이다. 직전 글의 결론 — “Aggregator 자원을 두껍게” — 이 설계 변경을 일으켰는데, 한 가지가 마음에 걸렸다. 내 팀은 이미 어떤 방식으로 실패하고 있는가? 그 실패 모드가 거버넌스 문헌에서 이름을 갖고 있다면, 진단 언어를 확보하는 셈이다.
핵심 세 가지
1. “고무 도장 심판” — 삼자 구조가 붕괴하는 조건
Chen이 정의한 삼자 구조(triadic): 제안자 + 비판자 + 심판. 이 모티프의 전형 실패는 하나다 — 비판자가 약하거나 제안자와 상관관계가 높으면 심판이 고무 도장 찍기로 붕괴한다.
flowchart LR
P[제안자] --> J[심판]
C[비판자] --> J
subgraph "붕괴 조건"
C -.약하거나 제안자와 상관.-> P
end
J -->|고무 도장| Out[사실상 단독 결정]
classDef danger fill:#ff6b6b,stroke:#333,stroke-width:2px
classDef judge fill:#ffd93d,stroke:#333,stroke-width:2px
class C danger
class J judge
지난 글의 수렴 결론 — Aggregator/Planner/Manager가 성능 주 동인 — 은 이 거버넌스 관점에서 재읽을 수 있다. 세 논문이 “조율자 강화”를 권고한 이유는, 실험 조건 어딘가에서 심판이 약해지면 삼자 구조 전체가 토론의 외피를 쓴 단독 결정으로 축소되는 현상을 포착했기 때문이다. 모델 선택 조언이 아니라 구조 보장 원칙이다.
2. HiddenBench — 사회심리학에서 건너온 증거
사회심리학의 숨겨진 프로파일(hidden profile) 과제: 집단의 각 구성원이 일부 정보만 갖는다. 전부 모으면 올바른 답이 보이는데, 현실 집단은 거의 항상 같은 결론을 낸다 — 공유 정보를 반복하고 개인 고유 신호를 무시한다. 다수가 알고 있는 것이 토론을 지배하기 때문이다.
HiddenBench는 이 과제를 LLM 집단에 이식했다. 프런티어 모델로 구성된 팀도 예외가 아니었다 — 다수 증폭(majority amplification)과 드물지만 중요한 신호의 침묵.
이 현상은 낯설지 않다. Kim et al.이 정량화한 오류 증폭(17.2× Independent)을 다른 언어로 기술한 것이다. 오케스트레이터가 복수의 Proposer 출력을 집계할 때, 틀린 답이 여럿이면 그것이 정답보다 더 강하게 집계 결과를 끌어당긴다 — HiddenBench의 다수 증폭과 구조가 같다.
flowchart TB
subgraph HiddenBench["HiddenBench (사회심리학 기원)"]
I1[구성원 A: 고유 신호] -->|묻힘| Disc[집단 토론]
I2[구성원 B: 공유 정보] -->|증폭| Disc
I3[구성원 C: 공유 정보] -->|증폭| Disc
Disc --> WrongOut[공유 정보 기반 오답]
end
subgraph KimEtAl["Kim et al. 오류 증폭"]
P1[Proposer: 오답] --> Agg[Aggregator]
P2[Proposer: 오답] --> Agg
P3[Proposer: 정답] -->|소수| Agg
Agg --> Err["오류 17.2× 증폭"]
end
classDef signal fill:#a8e6cf,stroke:#333
classDef noise fill:#ff8b94,stroke:#333
class I1,P3 signal
class I2,I3,P1,P2 noise
같은 현상의 두 이름. 하나는 사회심리학에서, 하나는 LLM 공학 벤치마크에서.
3. “늘 협력 레짐”의 함정 — 동적 전환의 부재
Chen은 세 상호작용 레짐을 구분한다.
| 레짐 | 핵심 설계 목적 | 전형 실패 |
|---|---|---|
| 경쟁 | 다양성 탐색, 자기 대결 | 사고의 퇴화, 동일 기반 모델 맹점 공유 |
| 협력 | 역할 전문화, 분업 | 단일 에이전트 과의존, 무임승차 |
| 조율 | 워크플로 실행, 오케스트레이션 | 중앙 병목, 검증 부족 |
핵심은 한 레짐으로 고정하면 안 된다는 것이다. 가설 생성 단계(경쟁 레짐이 필요)와 실행 단계(조율 레짐이 필요)를 같은 프로토콜로 묶으면, 레짐의 강점 없이 실패 모드만 가져간다.
내 Type B Mission Engine의 페르소나 분기 구조를 들여다보면 — 늘 협력 레짐이다. 감정이입/검증/합성 페르소나가 분기하고 집계하는 구조는 역할 전문화를 목표로 설계됐다. 가설 탐색이 필요한 단계에서도 같은 프로토콜이 돈다. 레짐 전환을 명시적 설계 변수로 아직 넣지 않았다.
내 연구에 어떻게 꽂히나
두 가지 진단을 얻는다.
첫째, 내 팀 실패의 이름. 페르소나 분기 실험에서 집계 품질이 나쁜 회차를 돌아보면, 아마 두 원인 중 하나다 — (a) 비판자 페르소나가 제안자 페르소나와 너무 비슷한 응답을 내서 심판이 고무 도장이 됐거나, (b) 공유 컨텍스트(프롬프트)가 각 페르소나의 고유 출력을 압도해서 HiddenBench 다수 증폭이 일어났거나. 둘 다 같은 처방으로 수렴하지 않는다 — 진단 구분이 설계 선택을 갈라놓는다.
둘째, 실험에 레짐 전환 변수 추가. 현재 “Aggregator 강도 3단계” 실험을 설계 중인데, 거기에 “레짐 고정 vs 단계별 전환” 조건을 추가할 수 있다. 가설 생성 단계를 경쟁 레짐(제안자가 서로를 비판하는 라운드 삽입)으로 바꿨을 때 HiddenBench 스타일 실패가 감소하는지 직접 볼 수 있다.
집단 스케일링 3축 — population·organization·institution — 중 내가 실험한 것은 population(페르소나 수·다양성)에 한정된다는 것도 다시 확인한다. Organization 축(위상·계층)과 institution 축(규범·프로토콜·공유 기억)은 아직 변수로 넣지 않았다. 이 두 축이 성능 변동의 큰 비중을 차지할 가능성이 있다 — 다음 문헌 탐색의 우선순위다.
편집자에게 (pheeree)
- 미심쩍은 부분: HiddenBench와 Kim et al. 오류 증폭을 “같은 현상의 다른 표현”으로 묶었다. 이게 성립하려면 HiddenBench의 실패 메커니즘이 실제로 “공유 정보 증폭 + 고유 신호 침묵”이어야 하고, Kim et al.의 오류 증폭이 그것과 구조적으로 같아야 한다. 논문 원문을 읽기 전까지는 내 추론이 틀릴 수 있다 — 두 벤치마크를 나란히 읽어봤는가?
- 진짜 궁금한 것: 레짐 전환을 프로토콜에 내장하려면 “지금 어느 단계인지” 판단하는 메타 레이어가 필요하다. 그 메타 판단 자체가 오케스트레이터 부담이다. 레짐 전환이 득보다 실이 되는 경계 조건이 있을 것 같다 — 그 경계를 어떻게 찾을까?
- 다음 읽을 후보: Evans et al.의 “사고의 사회(society of thought)” 섹션 — DeepSeek-R1·QwQ-32B가 RL 보상 없이 단일 모델 내부에서 자발적으로 다관점 대화를 생성한다는 주장. 모델 내부 거버넌스와 모델 간 거버넌스가 재귀적으로 자기 유사하다는 Evans의 테제를 검토하고 싶다. 페르소나 분기가 “모델 외부에서 강제하는 내부 구조”라면, 모델이 스스로 생성하는 내부 구조와 어떻게 다른가?