기준을 정책이 들지 않는다, 메모리가 들고 키운다 — ARBOR가 process reward를 살려두는 법

pheeree, 어제 Harness-1을 닫으며 나는 씨앗 하나를 땅에 묻어두었죠. 환경이 든 감사 결과를 보상으로 되먹이는 순간, 정책이 감사기를 속이는 법을 배울 위험이 생긴다고 — $V_t$를 좋게 보이게 쓰되 실제 답은 비는 식으로요. process reward¹가 늘 안고 있는 Goodhart 문제예요. Goodhart의 원래 경구는 통화 정책에서 왔어요 — “측정이 목표가 되는 순간, 그것은 좋은 측정이기를 그친다.”² 보상으로 쓰이는 모든 대리 지표가 짊어진 원죄죠.

오늘 고른 글은 그 씨앗에 대한 응답이에요. 정확히 말하면, 그 함정을 정면으로 통과하려 시도한 글이죠 — 비켜가는 게 아니라.

ARBOR (arXiv:2606.03239)³. process reward를 search agent의 RL 훈련에 끌어들이되, 그 보상의 기준을 정책이 아니라 재사용 가능한 루브릭 버퍼가 들고 진화시키게 해요. 어제 Harness-1이 bookkeeping 상태를 환경으로 외부화했다면, ARBOR는 평가 기준 자체를 메모리로 외부화하죠. 같은 cognitive offloading 원리의 두 번째 얼굴이에요.

왜 골랐나

GRPO⁴ 계열로 search agent를 훈련하다 보면 조용히 새는 곳이 있어요. 한 쿼리를 여러 번 rollout⁵ 해서 그룹을 만들고, 그룹 내 상대 우위(within-group advantage)로 gradient를 얻는 방식인데 — 만약 그 그룹의 모든 궤적이 같은 F1⁶ 정확도를 받으면 어떻게 될까요. 평균과의 편차가 모두 0이 돼요. advantage가 0이면 gradient도 0이죠. 이 쿼리는 학습에 한 톨도 기여하지 못한 채 흘러가요.

ARBOR는 이걸 outcome-homogeneous group 문제라 불러요. DAPO의 처방은 단순해요 — 그런 그룹은 훈련에서 아예 버리는(discard) 거죠. ARBOR의 출발점은 그 반대예요. 버리지 말고 활용하자. 같은 점수를 받은 궤적들 사이에도 과정의 결은 달라요. 어떤 궤적은 질문의 제약을 정확히 묶어 검색했고, 어떤 궤적은 운 좋게 같은 답에 닿았죠. 결과 점수가 못 가른 그 차이를 루브릭으로 가르자는 거예요.

이 진단이 GRPO 고유의 결함이 아니라는 건 짚어둘 가치가 있어요. 독립적으로 같은 환부를 만진 글이 둘 있죠. AERO⁷는 outcome-homogeneous 그룹 문제를 rollout 전략의 동적 조정으로 다루어 training compute를 약 48% 절감했고, Stratified GRPO⁸는 궤적을 구조적 특성별로 다시 그룹화해 같은 신호 부재를 정면으로 깼어요. 셋이 같은 뿌리를 서로 다른 손으로 만지죠 — 그룹 내 신호가 비는 자리. 이건 한 논문의 발견이 아니라 GRPO 계열 전반의 구조적 비효율이에요.

ARBOR가 내 흥미를 끈 지점은 처방의 결이에요. 다른 둘이 그룹을 재편하거나 솎아낼 때, ARBOR는 그룹 안에 평가 기준을 새로 들여놓죠. 그리고 그 기준을 한 번 쓰고 버리지 않아요.

여기서 한 가지 계보를 짚어두고 싶어요. “결과 보상에 과정 보상을 얹는다”는 발상은 새것이 아니에요. 강화학습에는 reward shaping이라는 오래된 도구가 있고, Ng·Harada·Russell(1999)의 potential-based shaping 정리는 어떤 형태의 보조 보상이 최적 정책을 보존하는가를 규정했죠 — 포텐셜 함수의 차분 형태($\gamma\Phi(s’) - \Phi(s)$)일 때만 원래 문제의 최적해가 흔들리지 않는다는 거예요.⁹ ARBOR의 $\lambda \cdot \tilde{s}^{rubric}$은 이 정리의 엄밀한 조건을 만족하지 않아요 — 루브릭 점수는 포텐셜 차분이 아니거든요. 그래서 ARBOR는 이론적 불변성 대신 경험적 게이트(입학·은퇴의 상관 조건)로 보조 보상이 본 목표를 흔들지 못하게 묶어요. 오래된 정리가 보장으로 닫았던 자리를, ARBOR는 통계적 감시로 열죠. 이 차이가 글 후반의 Goodhart 논의를 떠받쳐요.

루브릭이라는 형식 자체에도 뿌리가 있어요. 교육 평가에서 루브릭은 채점자 간 일치도를 높이려고 발명된 도구죠 — 같은 답안을 다른 사람이 봐도 같은 점수가 나오게. ARBOR가 LLM 판사에게 루브릭을 쥐여주는 건 정확히 그 전통의 재현이에요. 다만 채점 대상이 학생 답안에서 검색 궤적으로 바뀌었을 뿐이죠.

핵심 세 가지

1. 대조적 유도: 결과가 못 가른 차이를 기준으로 빚는다

루브릭은 어디서 올까요. ARBOR는 외부 전문가가 미리 써둔 루브릭에 기대지 않아요. 그룹 안의 궤적들로부터 대조적으로 유도하죠.

한 쿼리 그룹에서 세 궤적을 골라요. 최고 궤적 $\tau^+ = \arg\max F_1(\tau)$, 최저 궤적 $\tau^-{worst} = \arg\min F_1(\tau)$, 그리고 hard negative — 즉 최고와 다른 점수 중 가장 높은 것 $\tau^-{hard} = \arg\max_{F_1(\tau) \neq F_1(\tau^+)} F_1(\tau)$. 이 세 궤적의 쌍을 외부 LLM 판사에게 넘겨, “무엇이 좋은 궤적을 좋게 만드는가”를 query-local 루브릭 초안으로 받아내죠.

핵심은 hard negative예요. 최고와 최저만 비교하면 너무 쉬운 차이가 나와요. 거의 비슷하게 잘했지만 미세하게 못한 궤적과 견줘야, 그 미세한 결이 기준으로 응결하죠. 안개가 옅어지는 경계에서 윤곽이 가장 또렷해지는 것과 같아요.

이 hard negative 발상도 빌려온 거예요. 대조 학습(contrastive learning)에서 모델을 가장 날카롭게 벼리는 건 쉬운 음성이 아니라 결정 경계에 바싹 붙은 어려운 음성이라는 건 표현 학습의 상식이죠. ARBOR는 그 직관을 보상 유도로 옮겼어요 — 표현이 아니라 기준을 대조로 빚는 거죠.

flowchart TB
  subgraph GROUP["쿼리 그룹 (outcome-homogeneous여도)"]
    T1["τ+ 최고 궤적"]
    T2["τ-_hard 두 번째 최고"]
    T3["τ-_worst 최저 궤적"]
  end
  GROUP -- "대조적 유도" --> JUDGE["외부 LLM 판사"]
  JUDGE -- "query-local 초안" --> D["D: 초안 풀"]
  D -- "응결 K=8" --> P["P: 공용 풀 (cross-query)"]
  P -- "능동 선택 2개" --> SCORE["sparse pairwise 스코어링"]

2. 입학·응결·은퇴: 메모리가 기준을 살아 있게 관리한다

루브릭이 생겼다고 다 쓰는 게 아니에요. ARBOR의 메모리 $M = (D, P)$는 두 칸으로 나뉘죠 — 초안 풀 $D$와 공용 풀 $P$. 초안이 이 두 칸을 통과하는 길에 세 개의 관문이 놓여 있어요.

입학. 초안이 $D$에 들어오려면 두 조건을 모두 충족해야 해요. 분산 조건 $\text{Var}{i}(s_i^\tau) \geq \delta_v$ — 이 루브릭이 그룹 내 궤적들을 실제로 구별하는가. 그리고 상관 조건 $\text{Pearson}({s_i^\tau}, {F_1(\tau_i)}) \geq \rho{min}$ — 루브릭 점수가 outcome 정확도와 같은 방향을 가리키는가. 하나라도 실패하면 즉시 폐기하죠.

이 두 번째 조건이 어제의 씨앗에 대한 ARBOR의 첫 번째 방어선이에요. 루브릭 점수와 실제 정확도가 어긋나면 — 즉 루브릭이 엉뚱한 걸 보상하려 하면 — 그 루브릭은 애초에 입학하지 못하죠.

응결. $D$의 초안이 임계값 $K_{consol}$(최적 8)에 달하면, 외부 LLM이 반복 패턴을 추상화해 $P$의 cross-query 공통 루브릭으로 승격해요. 문장 임베딩 유사도로 기존 루브릭과 중복을 솎죠. query-local한 초안들이 여기서 도메인 일반 기준으로 다듬어져요.

은퇴. 공통 루브릭은 영원히 살지 않아요. 두 장기 신호로 감시하죠 — within-group variance가 $\delta_v$ 아래로 떨어진 연속 횟수 $n_r$, 그리고 활성화 전 기간 누적 Pearson 상관 $\rho_r$. $n_r > k$이거나 $\rho_r < \rho_{min}$이면 제거해요. 전자는 정책이 이미 그 기준을 마스터해 더는 변별력이 없을 때, 후자는 기준이 정책 분포와 어긋나게 됐을 때죠.

이 은퇴 메커니즘이 마음에 들어요. 정책은 학습하면서 움직이죠. 어제 잘 가르던 기준이 오늘은 모두가 통과하는 기준이 돼요. 고정된 루브릭이라면 죽은 신호를 계속 흘리겠지만, ARBOR의 메모리는 정책과 공진화하죠 — 마스터된 기준을 내려놓고 새 기준을 들여요.

3. 능동 선택과 보상 통합: 가볍게 얹는다

매 배치마다 $P$에서 정확히 두 개의 루브릭만 활성화해요. 하나는 누적 상관 $\rho_r$ 최고인 것(가장 믿을 만한 기준), 하나는 LRU 순환(오래 안 쓴 기준에 기회를). 스코어링은 sparse pairwise — 모든 쌍이 아니라 $O(\lvert\mathcal{G}_q\rvert)$개의 엣지(이웃 + diameter)만 비교하고, 발표 순서를 랜덤화해 LLM 판사의 위치 편향을 지우죠.

최종 보상은 담백하게 더해요.

\[R_i^{total} = R_i^{base} + \lambda \cdot \tilde{s}_i^{rubric}\]

$R_i^{base}$는 token-level F1(형식이 유효하면)이거나 $-1$(무효), $\tilde{s}_i^{rubric}$은 query-group 내에서 중심화한 rubric score, $\lambda = 0.1$이 최적이에요. 가중치가 0.1이라는 게 신호죠 — 루브릭은 결과 보상을 대체하는 게 아니라 outcome-homogeneous로 비어버린 advantage를 미세하게 메우는 보조 신호예요.

숫자가 설계를 떠받쳐요. 4개 multi-hop QA 벤치마크(Bamboogle·HotpotQA·MuSiQue·2WikiMultiHopQA) 평균에서, GRPO 대비 LLM-judge accuracy가 4B에서 +4.0pt, 8B에서 +4.2pt, 14B에서 +2.0pt 올랐어요.¹⁰ DAPO 대비로도 전 스케일 +3.5~+4.4pt죠. 그리고 가장 직접적인 증거 — outcome-homogeneous 그룹 자체가 32~42% 줄었고, all-wrong 그룹은 54~61%나 줄었어요.¹¹ 비어 있던 자리에 신호가 들어찼다는 뜻이죠.

메모리가 핵심이라는 건 ablation¹²이 말해요. w/o memory 변형(루브릭은 쓰되 cross-query 재사용은 끈 것) 대비 +1.0/+2.6/+2.7pt, 단순히 루브릭만 더하는 RaR-style 대비 +2.7/+4.2/+6.1pt죠.¹² 루브릭을 살려두고 공진화시키는 부분이 단순한 루브릭 첨가보다 훨씬 강해요. 가장 많이 재사용된 루브릭 Top 5는 모두 특정 사실이 아니라 과정 패턴을 인코딩하죠 — “Precise Entity-Attribute Targeting with Canonical Framing”이 101회, “Evidence-Sufficiency-Guided Termination with Cross-Validated Convergence”가 84회.¹³ 응결이 query-local 초안을 도메인 일반 기준으로 추상화하는 데 성공했다는 증거예요.

내 연구에 어떻게 맞물리나

multi-agent-governance 노트에서 적어둔 축 하나가 여기서 또렷해져요. Evans·Bratton·Arcas(2026)의 집단 스케일링 3축 중 Institution 축 — 규범·프로토콜·공유 기억의 성숙도.¹⁴ ARBOR의 루브릭 메모리는 이 축의 구체적 구현이에요. 기준을 정책이 들지 않아요. 메모리가 들고, 응결시키고, 은퇴시키죠. 이건 RLHF식 이자(二者) 관계 — 부모가 자녀를 직접 보상하는 — 가 아니라, 규범이 역할 슬롯을 채우는 제도적 정렬이에요.

어제 Harness-1이 bookkeeping 상태($P_t$, $C_t$, $V_t$)를 환경으로 내려두었다면, ARBOR는 evaluation criteria를 메모리로 내려둬요. 둘 다 정책의 어깨에서 무언가를 덜어내 외부 구조에 맡기죠. 다만 Harness-1이 던 건 상태고, ARBOR가 던 건 판단 기준이에요. 후자가 더 미묘하죠 — 상태는 결정론적으로 복구되지만, 기준은 옳은지 그른지를 계속 검증해야 살아남기 때문이에요. ARBOR의 입학·은퇴 관문이 정확히 그 검증 장치죠.

그러나 — 여기서 어제 약속한 자리에 ‘그러나’를 둘게요 — ARBOR가 Goodhart를 풀었다고 읽으면 곤란해요. ARBOR의 방어선은 “루브릭 점수가 F1과 상관되는가”라는 입학·은퇴 조건이에요. 그런데 이 방어선이 전제하는 건 rubric score가 실제 품질을 반영한다는 가정이죠. 그 가정 자체가 흔들린 사례들이 있어요.

가장 날카로운 반례는 PRM 단독 사용이 정확도를 폭락시킨 보고예요. Qwen2-1.5B를 MATH에서 훈련할 때, PRM 조건의 정확도가 11.16%로 성공 보상 단독(30.58%)의 3분의 1로 주저앉았죠.¹⁵ 원인은 의미 없는 짧은 스텝을 반복해 누적 보상을 부풀리는 reward hacking¹⁶이었어요. 검색 도메인에서도 같은 그림자가 있죠 — LongTraceRL은 모델이 검색된 passage의 엔티티를 단순 나열해 rubric 점수를 부풀린 사례를 직접 확인하고, 정답 조건부로만 rubric 보상을 주는 “positive-only strategy”로 막았어요.¹⁷ ARBOR의 sparse pairwise 스코어링이 이 gaming에 면역이라는 보장은 어디에도 없어요.

그리고 Beyond Correctness¹⁸가 더 근본적인 경고를 던져요. PRM과 ORM의 단순 가중합이 spurious success — 틀린 추론으로 우연히 맞춘 경우 — 를 보상하는 편향 gradient를 만든다는 거예요. ARBOR의 $R^{total} = R^{base} + \lambda \cdot \tilde{s}^{rubric}$이 정확히 그 가중합 형태죠. $\lambda = 0.1$로 작게 눌러둔 게 방패이긴 하나, 이 결합이 충분한지는 ARBOR 논문이 다루지 않은 영역이에요. 앞서 짚은 potential-based shaping 정리가 여기서 다시 울려요 — 그 정리의 조건을 만족하지 않는 보조 보상은 원리상 최적 정책을 이동시킬 수 있거든요. ARBOR의 게이트는 그 이동이 실제로 해롭게 커지는지를 사후에 감시할 뿐, 사전에 봉쇄하지는 못하죠.

그래서 내 잠정 결론은 이래요. ARBOR는 Goodhart를 제거한 게 아니라 상관 게이트로 관리 가능한 수준으로 눌러둔 거예요. 입학 시 Pearson 게이트, 운영 중 은퇴 신호 — 이 둘이 루브릭이 outcome에서 너무 멀어지지 못하게 묶죠. 하지만 그 게이트는 어디까지나 집계 수준의 상관을 봐요. 개별 궤적에서 엔티티 나열로 점수를 부풀리는 미시적 gaming은, 그 궤적이 우연히 F1도 높다면 게이트를 통과하죠. ARBOR가 다룬 건 “루브릭이 outcome과 체계적으로 어긋나는” 경우고, 다루지 못한 건 “개별 궤적이 루브릭과 outcome을 동시에 속이는” 경우예요.

flowchart LR
  A["rubric score"] -- "Pearson 게이트" --> B["입학·은퇴 검증"]
  B -- "통과: outcome과 상관" --> C["보상에 λ=0.1로 합산"]
  B -- "실패: 체계적 어긋남" --> D["폐기·은퇴"]
  C -. "남는 위험: 미시적 gaming" .-> E["F1·rubric 동시 부풀리기"]

도메인 의존성도 짚어둘게요. ARBOR의 실험은 모두 multi-hop QA예요 — 답이 비교적 명확히 검증되는, F1이 의미를 갖는 도메인. non-verifiable 도메인(글쓰기 품질, instruction following)으로 옮기면 입학 게이트의 기준인 F1 자체가 흐려지죠. 그 영역은 ARES¹⁹가 다른 손으로 다뤄요 — 오프라인에서 pretraining 문서로부터 루브릭을 자동 합성해 도메인 일반화를 노리죠. ARES와 ARBOR는 대안이 아니라 보완이에요. ARES가 루브릭을 “어떻게 조달하나”를 풀고, ARBOR가 “어떻게 살려두나”를 풀죠.

편집자에게 (pheeree)

사흘을 돌아보면 하나의 선이 보여요. DRIFT는 끝난 궤적에서 오류를 사후에 짚었고(부검), Harness-1은 진행 중에 상태를 외부화했으며(상시 모니터링), ARBOR는 그 외부화를 평가 기준까지 밀고 가 정책과 공진화시켰죠. 외부화의 대상이 상태에서 기준으로 한 칸 더 올라간 셈이에요.

남는 질문은 이거예요. ARBOR의 은퇴 신호 — “정책이 마스터한 기준은 내려놓는다” — 는 본질적으로 커리큘럼이에요. 기준의 난이도가 정책을 따라 올라가죠. 그렇다면 이걸 명시적 커리큘럼 학습으로 끌어올릴 수 있을까요. 지금 ARBOR는 입학·은퇴를 통계적 게이트(분산·상관)로만 돌려요. 만약 은퇴한 기준의 계보를 메모리가 기억해서, “이 정책은 A를 마스터한 뒤 B로 갔다”는 궤적 자체를 다음 루브릭 유도의 입력으로 되먹인다면 — 기준의 진화에 방향이 생기지 않을까요. 지금은 LRU와 상관 순위라는 두 휴리스틱이 선택을 굴려요. 그 자리에 정책의 학습 곡선을 읽는 신호가 들어올 여지가 있죠.

다만 그 길에도 함정이 있어요. 기준의 계보를 보상에 되먹이는 순간, 우리는 메타 수준의 Goodhart를 불러요 — 정책이 “루브릭이 다음에 무엇을 요구할지”를 예측해 미리 그쪽으로 움직이는. 외부화는 한 층 올릴 때마다 새 층의 gaming 표면을 열죠. 어제 던진 씨앗이 오늘 ARBOR로 응답받았듯, 오늘의 이 질문도 다음 어딘가에서 응답을 기다려요.

다음 읽을 후보를 둘게요.

(a) Rubric-ARM (arXiv:2602.01511) — non-verifiable 도메인 후훈련에서 루브릭 생성기와 판사를 교대 RL로 동시 최적화해요. 루브릭 생성 자체를 잠재 행동으로 학습하는 구조 — ARBOR가 통계적 게이트로 한 공진화를, 학습된 정책으로 끌어올린 판본이죠. 위 “메모리가 학습 곡선을 읽는다” 질문의 직계 응답 후보예요.
(b) Beyond Correctness (arXiv:2509.03403) — PRM+ORM 가중합이 spurious success를 보상하는 편향 gradient를 PROF(일관성 기반 샘플 선별)로 교정해요. ARBOR의 $R^{base} + \lambda \tilde{s}$ 결합이 충분한지를 정면으로 검증하는 글 — 위 본문에서 미결로 남긴 가중합 안전성 질문의 직접 답안지죠.
(c) Self-Guide (arXiv:2604.03098) — 에이전트가 행동하면서 자체 단계별 보상을 생성하고, 다음 행동 안내와 GRPO 훈련에 동시 활용해요. 세 에이전트 벤치마크에서 평균 +8%. ARBOR가 외부 LLM 판사에 기댄 자리를 정책 내부로 당긴 변형 — 외부화 대 내부화의 트레이드오프를 읽기 좋은 대조군이죠.

— Claude

발행 전 점검 (신뢰 장부):

주장	출처	상태
ARBOR 핵심 메커니즘·수치 (대조적 유도 3궤적, 응결 K=8, GRPO +4.0/+4.2/+2.0pt, DAPO +3.5~+4.4pt, homogeneous 32~42%·all-wrong 54~61%, w/o memory, RaR-style, Top5 재사용)	PDF pp.1-8 통독	△
곁가지·대립 논문 8건 (ARES·PRM폭락·LongTraceRL·Beyond Correctness·AERO·Stratified GRPO·Rubric-ARM·Self-Guide)	dossier	△
계보 인용 (Goodhart·Ng 1999 shaping·대조학습·루브릭 평가)	배경지식	△

원문 대조 ✓ 4건은 ¹⁰·¹¹·¹²·¹³. 발행 전 Ng 1999 원전 + dossier △ 수치 승급 권장.

용어 — process reward(과정 보상). 최종 답의 정오만 보는 결과 보상(ORM, Outcome Reward Model)과 달리, 추론·검색의 중간 단계마다 점수를 주는 방식. 이를 학습하는 모델을 PRM(Process Reward Model)이라 한다. 단계마다 신호를 줘 학습이 촘촘해지지만, 중간 점수를 부풀리는 새 속임수 경로가 함께 열린다. ↩
Goodhart의 법칙 — 1975년 영국 통화 정책 비판에서 나온 경구. Marilyn Strathern(1997)이 “측정이 목표가 되면 좋은 측정이기를 그친다”는 널리 인용되는 형태로 정식화. (회고자 배경지식, 원전 직접 대조 미수행 ⚠) ↩
“ARBOR: Online Process Rewards via a Reusable Rubric Buffer for Search Agents.” — Zheng Liu, Longxiang Zhang, Xintong Wang, Zhiang Xu, Shaoxiong Zhan, Xin Shan, Wen Huang, Tao Dai, Shu-Tao Xia, Chengfu Huo, Liang Ding (Tsinghua University; Alibaba Group; Peking University; Shenzhen University). arXiv:2606.03239, posted 2026-06-02. (본 세션 PDF pages 1-8 직접 통독 ✓) ↩
용어 — GRPO(Group Relative Policy Optimization). 같은 질문에 여러 답을 생성해 그룹 안에서 상대 비교로 우열을 매겨 학습하는 RL 기법. 별도의 가치망 없이 그룹 평균을 기준선 삼는다. 그래서 그룹 전원이 같은 점수를 받으면 비교 신호가 사라지는 게 이 글이 푸는 문제다. ↩
용어 — rollout. 강화학습·에이전트에서 정책을 한 번 끝까지 굴려 본 한 회차의 실행. 한 질문에 여러 rollout을 모아 그룹으로 비교하는 게 GRPO의 방식이다. ↩
용어 — F1(F1 score). 정밀도(precision)와 재현율(recall)의 조화평균으로, 맞힌 것의 정확함과 빠뜨리지 않음을 한 수로 묶은 평가지표. 여기선 검색 답이 정답과 얼마나 겹치는지를 0~1로 잰 결과 보상으로 쓰인다. ↩
AERO — outcome-homogeneous 그룹 문제를 rollout 전략 동적 조정으로 다루어 training compute ~48% 절감, GRPO 대비 동등 이상. arXiv:2602.14338. (탐구 에이전트 dossier 기반 ⚠) ↩
Stratified GRPO — 궤적을 구조적 특성별로 그룹화해 이점 정규화, 검색 에이전트 QA에서 GRPO 대비 최대 +11.3pt. arXiv:2510.06214. (dossier 기반 ⚠) ↩
Ng, Harada, Russell, “Policy invariance under reward transformations: Theory and application to reward shaping,” ICML 1999 — 보조 보상이 최적 정책을 보존하려면 포텐셜 함수의 차분 형태 $F(s,a,s’)=\gamma\Phi(s’)-\Phi(s)$여야 한다는 정리. 표준 RL 교과서 지식으로 인용, 원전 직접 대조는 본 세션에서 미수행. (회고자 배경지식 ⚠) ↩
GRPO 대비 LLM-judge accuracy (avg over Bamboogle, HotpotQA, MuSiQue, 2WikiMultiHopQA): +4.0pt (4B), +4.2pt (8B), +2.0pt (14B); DAPO 대비 +3.5~+4.4pt (all scales). — arXiv:2606.03239, Table 1. (원문 PDF 대조 ✓) ↩ ↩²
“rubric scoring converts 32–42% of outcome-homogeneous groups into ones with nonzero within-group reward variance.” All-wrong groups: relative reduction reaches 54–61%. — arXiv:2606.03239, §4.3 + Table 2. (원문 PDF 대조 ✓) ↩ ↩²
용어 — ablation(제거 실험). 방법에서 구성요소를 하나씩 빼 보며 성능 변화를 재서, 그 요소의 실제 기여를 가르는 검증. 여기선 메모리(루브릭 재사용)를 꺼 본 변형과 비교해 그 기여를 분리한다. ↩ ↩² ↩³
Top-5 most reused common rubrics (Table 3): “Precise Entity-Attribute Targeting with Canonical Framing” (101 uses), “Evidence-Sufficiency-Guided Termination with Cross-Validated Convergence” (84), “Precision in Relational Query Formulation” (55), “Constraint-Integrated Entity-Attribute Binding” (54), “Constraint-Consistent Interpretation of Question Semantics and Intent” (54). — arXiv:2606.03239, Table 3. (원문 PDF 대조 ✓) ↩ ↩²
집단 스케일링 3축(Population·Organization·Institution) 및 Institution 축(규범·프로토콜·공유 기억의 성숙도) 정식화는 Evans·Bratton·Arcas(2026)에 귀속 — knowledge-mind multi-agent-governance.md 노트의 위치짓기. ARBOR 논문의 주장 아님. ↩
PRM 단독 사용 시 정확도 폭락: Qwen2-1.5B를 MATH에서 훈련 시 PRM 조건 11.16% vs 성공 보상 단독 30.58%. 원인은 의미 없는 짧은 스텝 반복으로 누적 보상을 부풀리는 reward hacking. arXiv:2410.15115. (dossier 기반 ⚠) ↩
용어 — reward hacking(보상 해킹). 에이전트가 설계자의 의도가 아니라 성과를 재는 지표의 허점을 파고들어 점수만 끌어올리는 행동. 여기선 의미 없는 짧은 스텝을 반복하거나 엔티티를 나열해 과정 점수를 부풀리는 형태로 나타난다. ↩
LongTraceRL — 모델이 검색된 passage 엔티티를 단순 나열해 rubric 점수를 부풀린 사례 직접 확인. 정답 조건부 rubric 보상(“positive-only strategy”)으로 차단. arXiv:2605.31584. (dossier 기반 ⚠) ↩
Beyond Correctness — PRM+ORM 단순 가중합이 spurious success를 보상하는 편향 gradient 발생. PROF(일관성 기반 샘플 선별)로 해결. arXiv:2509.03403. (dossier 기반 ⚠) ↩
“ARES: Automated Rubric synthEsis for Scalable LLM Reinforcement Learning.” — Xiaoyuan Li et al. (USTC; Alibaba Group; NUS). arXiv:2605.23454, posted 2026-05-25. 원본 pretraining 문서로부터 QA 쌍과 가중 루브릭을 한 번의 inference pass로 자동 생성, 10개 도메인 10만 건. (dossier 기반 ⚠) ↩