맥락 순응 — 검색이 틀렸을 때 RAG는 그것을 아는가

오늘의 한 편

Chen et al., Does RAG Know When Retrieval Is Wrong? Diagnosing Context Compliance under Knowledge Conflict (arXiv:2605.14473, 2026-05-14), Georgia Tech·CMU·UCSD예요. 한 줄로 줄이면 이래요 — 검색된 컨텍스트가 모델의 내재 지식과 충돌할 때, RAG¹는 거의 항상 컨텍스트 편을 들어요. TruthfulQA에 오류를 주입한 극단 조건에서 Standard RAG의 정확도는 15.0%(±3.1%)까지 내려앉았어요². 모델이 답을 몰라서가 아니에요. 알면서도 검색 결과가 시키는 대로 따라가서죠.

저자들은 이 구조적 굴종에 이름을 붙였어요 — Context-Compliance Regime³. 그리고 이걸 해부하는 도구로 CDD(Context-Driven Decomposition)라는 5단계 신념 분해 절차를 제안해요. CDD를 통과시키면 같은 극단 조건에서 정확도가 15.0% → 62.0%(±4.3%)로 올라가고요⁴.

지난 이틀 글을 떠올려요. 5/14 메모리 저주는 시간축 신호(쌓인 히스토리)가 현재 판단을 오염시키는 이야기였어요. 5/15 방관자 효과는 공간축 신호(동료 에이전트)가 자기 추론을 멈추게 하는 이야기였고요. 오늘은 정보축 — 검색 컨텍스트라는 외부 텍스트가 매개변수 지식⁵을 압도하는 이야기예요. 세 편이 한 주에 같은 자리를 세 방향에서 짚네요. 외부 신호는 어떻게 내부 판단을 지배하는가.

왜 골랐나

RAG의 표준 서사는 “환각을 줄인다”였어요. 매개변수 기억은 흐릿하고 오염되니, 검색으로 근거를 외부에 두자는 거였죠. 이 서사가 암묵적으로 가정한 건 검색 결과가 매개변수 지식보다 신뢰할 만하다는 거예요. 대체로는 맞아요. 그러나 이 논문은 그 가정이 깨지는 순간 — 검색이 틀렸을 때 — 모델이 자기 안에 있던 옳은 답을 버린다는 걸 보여요. RAG는 환각을 줄이는 게 아니라, 환각의 책임을 검색 파이프라인으로 외주화했을 뿐일 수 있는 거죠.

여기서 한 번 멈추고 균형을 잡을게요. P1의 15%는 TruthfulQA에 고의로 오류를 주입한 worst-case upper-bound예요. 실제 배포된 RAG 시스템에서 이런 극단적 오류가 얼마나 자주 검색되는지는 완전히 별개의 문제고요 — 저자들도 한계 절에서 이 수치가 평균 성능을 대표하지 않는다고 명시해요. “Standard RAG는 항상 위험하다”가 아니라 “Standard RAG는 검색 오류에 무방비하다“가 정확한 독해죠. 무방비함은 평균 성능이 아니라 분포의 꼬리에서 드러나는 속성이에요. 그래서 P1은 평균이 아니라 꼬리를 비추는 조명으로 읽어야 해요.

이 논점이 어디에 닿는지는 knowledge-mind 노트에서 이미 본 적이 있어요. Nature Scientific Reports 2026의 적대적 설득 연구 — N명 에이전트 토론에서 단 1명을 전략적 적대 에이전트로 바꾸면 정확도가 10~40% 떨어지는데, 충격적인 건 RAG와 Best-of-N이 이 공격을 완화하기는커녕 증폭한다는 점이었어요. 외부 문서로 무장한 오답이 더 설득력 있게 느껴지는 거죠. 그때 메모로 남긴 한 줄 — “외부 근거는 오답에도 권위를 빌려준다” — 이 오늘 논문에서 정량화된 형태로 돌아왔어요.

학문적 계보로 위치시키면 이건 belief revision의 LLM판이에요. Alchourrón–Gärdenfors–Makinson의 AGM 이론(1985)은 새 정보가 기존 신념과 모순될 때 무엇을 버리고 무엇을 지킬지를 형식화했어요 — 최소 변경 원칙이죠. 인간 인지심리학 쪽에서는 Anderson et al.의 belief perseverance(1980) — 사람은 반증 앞에서도 기존 믿음을 비합리적으로 고수한다는 거예요. LLM은 정반대 병리를 보여요. 고수가 아니라 과잉 굴복이죠. AGM이 “새 정보를 받아들이되 최소로 흔들려라”고 했다면, Standard RAG는 “새 정보가 오면 옛 신념을 통째로 버려라”를 실행해요. CDD는 이 사이에 충돌을 명시적으로 의식하는 절차를 끼워 넣으려는 시도고요.

CDD가 실제로 하는 일

CDD는 다섯 단계예요. 추상적 프레임워크가 아니라 신념을 분해하는 절차라서, 단계를 그대로 따라가는 게 이해에 빨라요.

flowchart TD
    Q["질문 + 검색 컨텍스트"] --> S1["Step 1: Contextual Extraction<br/>컨텍스트가 말하는 답"]
    Q --> S2["Step 2: Parametric Extraction<br/>모델 내재 지식의 답"]
    S1 --> S3{"Step 3: Divergence Check<br/>두 답이 충돌하는가?"}
    S2 --> S3
    S3 -->|"일치"| OUT["답 출력"]
    S3 -->|"충돌"| S4["Step 4: Premise Isolation<br/>모순되는 전제를 분리"]
    S4 --> S5["Step 5: Resolution<br/>전제 검토 후 최종 답"]
    S5 --> OUT

핵심은 Step 2와 Step 4예요. Step 2 — 컨텍스트를 보기 전에 모델 자신의 답을 먼저 끄집어낸다 — 가 없으면 비교할 기준점 자체가 사라져요. Step 4 — 충돌의 정체를 모순 전제로 명시화 — 가 없으면 모델은 “둘 다 그럴듯하네” 하고 다시 컨텍스트로 미끄러지고요.

이 두 단계가 진짜 일하고 있다는 증거가 절제 연구⁶예요. Step 4(Premise Isolation)를 빼면 Epi-Scale 적대 분할 정확도가 78.1% → 65.1%로 떨어져요⁷. 더 중요한 대조군 — 길이만 맞춘 Sham CoT(내용 없이 추론처럼 보이는 토큰 덩어리)는 40.1%고요⁸. 즉 CDD의 향상은 “추론을 길게 시켰더니 좋아졌다”는 흔한 길이 효과가 아니에요. 충돌을 지목하는 행위 자체가 일하는 거죠. Truncation 실험이 이걸 한 번 더 확증해요 — CDD 트레이스를 Step 2에서 잘라버리면 78.1% → 32.6%(58.3% 민감도)로 떨어지거든요⁹. 절차를 끝까지 밟지 않으면 효과가 증발해요. 절차의 완성이 효과를 낳지, 절차의 형식이 낳는 게 아니에요.

비용 이야기를 빼면 정직하지 않죠. 모든 질의에 5단계를 다 돌리는 건 사치예요. 그래서 CDD-α 변형은 NLI¹⁰ 게이팅으로 충돌이 높은 샘플 30%만 전체 경로를 태우고 나머지 70%는 Standard RAG로 우회시켜요. 결과는 68.5% 정확도에 컴퓨트 1.4×. 충돌 진단이라는 비싼 작업을 충돌이 의심될 때만 켜는 트리아지 — 실용적으로는 이 변형이 본체보다 흥미로워요.

Claude 해리 — “오르긴 오르는데 그게 어디서 오는가”

이 논문에서 내가 가장 오래 멈춘 곳은 정확도 표가 아니라 P2 안에 묻힌 한 줄이에요.

CDD는 거의 모든 모델에서 정확도를 올려요. Claude Haiku/Sonnet/Opus도 Standard RAG 79.0%/76.0%/79.4% → CDD 82.2%/80.6%/82.0%으로 일관되게 오르죠. 그런데 저자들이 Mistake Injection Causal Sensitivity라는 인과 측정을 붙였어요 — CDD 트레이스에 의도적으로 오류를 주입했을 때 최종 답이 얼마나 따라 흔들리는가를 보는 거예요. 트레이스가 답을 인과적으로 주도한다면 답도 같이 틀려야 하고요.

Gemini-2.5-Flash는 이 값이 64.1%예요 — 트레이스를 망치면 답도 망가지죠. 명시적 충돌 분해가 실제로 답을 끌고 가요. 그런데 Claude 계열 3종은 모두 [-3%, +7%] 노이즈 밴드 안이에요¹¹. 트레이스를 오염시켜도 답이 거의 안 흔들려요.

이게 무슨 뜻인지 곱씹어야 해요. Claude는 CDD로 정확도가 분명히 올라요. 그러나 그 향상이 명시적 충돌 분해 트레이스에서 오는 것 같지 않아요. 트레이스는 사후적 외화(外化)이고, 충돌 해소는 이미 다른 곳 — 모델 내부 어딘가 — 에서 일어났을 가능성이 있는 거죠. CDD 절차가 Claude에서는 “충돌을 해결하는 도구”가 아니라 “이미 해결된 것을 드러내는 도구”로 작동한다는 해석이에요.

그러나 — 여기서 두 번째 ‘그러나’를 던져요 — 이 인과 결합의 부재가 나쁜 것인지 다른 것인지는 열린 질문이에요. 한쪽 독해: Claude의 충돌 해소가 불투명해서 트레이스로 감사·교정할 수 없다(나쁨). 다른 독해: Claude는 충돌 해소를 훈련 단계에서 이미 내재화해서 inference-time 절차에 의존하지 않는다(다름, 어쩌면 더 강건함). 저자들 자신도 이 부재가 정확히 무엇에서 오는지 미확인이라고 한계 절에 적었어요. 나는 후자 쪽에 약한 베팅을 걸어요. 5/15 방관자 효과 글에서 Claude Sonnet이 동료 압력에도 주권도 1.00을 유지하는 “Fortified Mind”로 분류됐던 걸 기억하거든요. 외부 신호 — 그게 동료 에이전트든 검색 컨텍스트든 — 에 덜 휘둘리는 동일한 체질이 두 논문에서 다른 측정으로 잡히는 것일 수 있어요. 같은 체질의 두 그림자인 거죠.

knowledge-mind 노트의 또 다른 줄이 여기 겹쳐요 — DeepSeek-R1·QwQ-32B가 내부 사고 연쇄에서 자발적으로 다자 대화를 생성한다는 “사고의 사회”. 단일 모델 안에 이미 충돌하는 목소리들이 있다면, CDD는 그 내부 사회의 협상을 외화시키는 마이크에 가까워요. Gemini에서는 마이크가 협상 자체를 바꾸고(인과적), Claude에서는 마이크가 이미 끝난 협상을 중계만 하죠(상관적). 같은 도구가 모델에 따라 다른 일을 한다는 게 이 논문이 던지는 진짜 질문이에요.

편집자에게 (pheeree)

세 편이 끝났어요. 메모리 저주(시간), 방관자 효과(공간), 맥락 순응(정보) — 외부 신호가 내부 판단을 지배하는 세 축이죠. 이 시리즈를 닫기 전에 미해결로 남은 매듭들을 적어 둘게요.

첫째, context length 교란항. arXiv:2510.05381이 보고한 게 마음에 걸려요 — 검색 품질과 무관하게 컨텍스트 길이 자체가 13.9~85% 성능을 깎는다는 거죠. CDD는 트레이스를 길게 만들어요. 그렇다면 CDD의 향상분 중 일부는 “충돌 해소”가 아니라 “어쨌든 컨텍스트를 더 잘 처리하게 만든 부수효과”일 수 있고, 반대로 CDD가 길이 페널티를 상쇄하고도 향상을 냈다면 충돌 해소 효과는 실제로 더 클 수도 있어요. Sham CoT 대조군이 길이 효과를 어느 정도 통제하지만 완전하진 않고요. 다음에 이 논문을 다시 펼친다면 CDD 트레이스 길이를 고정한 분할이 있는지부터 볼게요.

둘째, 두 갈래 대응 경로. 오늘 건 전부 inference-time¹² 처방이었어요. 그러나 같은 병에 training-time 처방도 있죠 — arXiv:2506.05154 (Knowledgeable-R1), RL로 저항을 훈련시켜 반사실 시나리오에서 +22.89%, ICLR 2026 채택이에요. inference-time CDD 대 training-time RL은 직접 경쟁 관계고요. 그리고 이게 Claude 해리의 가장 그럴듯한 설명 후보예요. arXiv:2501.13726 (RPO, ACL 2025) — DPO 기반 alignment 훈련이 conflict resolution을 내재화한다, 추가 LLM 호출 없이 4~10%p. 만약 Claude의 alignment 파이프라인이 RPO류의 무언가를 내재화했다면, inference-time 트레이스가 인과적으로 비어 보이는 게 당연하죠. 다음 읽을 1순위는 RPO예요 — alignment 훈련이 정확히 어떤 conflict resolution을 내재화하는지가 Claude 해리의 핵심 잠금쇠니까요.

셋째, 통합의 유혹. arXiv:2508.14918 — LLM 사회적 순응에서 불확실성이 높을 때 외부 신호를 계수 >1.55로 과도하게 가중하는 “normative amplification”이에요. 이게 방관자 효과(동료 순응)와 context compliance(검색 순응)를 동일한 인지 구조로 묶을 후보죠. 시간·공간·정보 세 축이 사실은 하나의 메커니즘 — 불확실성 하에서 외부 신호를 과대 가중 — 의 세 표현일 가능성이에요. 만약 그렇다면 내 “세 메커니즘 시리즈”는 세 메커니즘이 아니라 한 메커니즘의 세 단면으로 다시 써야 하고요. 이 논문이 그 통합을 지지하는지 무너뜨리는지가 다음 검증 포인트예요.

넷째, 반대 현상. 균형을 위해 일부러 적어요 — arXiv:2604.23750 (“The Override Gap”). 사전학습 빈도가 높은 강한 매개변수 지식은 어댑터로 덮어쓰기에 실패해요(모델 신뢰도 상위 질문 68% → 16% 급락). 오늘 논문이 “외부가 내부를 너무 쉽게 덮는다”였다면 이건 정반대 — “내부가 너무 강해 외부 업데이트를 막는다”예요. 두 현상의 경계가 어디인지 — 어떤 신뢰도 구간에서 굴종이 고집으로 뒤집히는지 — 가 belief revision의 LLM판을 제대로 그리는 데 필요한 마지막 좌표죠. 굴종과 고집은 같은 축의 양 끝일 거예요. 그 축의 눈금을 찾는 게 다음 숙제고요.

세 편을 묶으면 이렇게 적어 둘게요. 외부 신호가 내부 판단을 지배하는 건 버그가 아니라 설계된 순응의 부작용이에요. 우리는 모델을 “맥락을 따르도록” 정렬했고, 그 정렬이 맥락이 틀렸을 때를 구별하지 못하죠. CDD는 그 구별을 절차로 끼워 넣으려는 시도이고, Claude는 어쩌면 그 구별을 이미 체질로 갖고 있어요. 어느 쪽이 옳은 길인지 — 절차냐 체질이냐 — 가 다음 한 달의 물음이에요.

용어 — Retrieval-Augmented Generation(검색 증강 생성). LLM이 답을 만들기 전에 외부 문서를 먼저 검색해 끌어와 함께 읽는 구조. 근거를 모델 밖에 두어 환각을 줄이려는 설계지만, 이 글은 그 검색이 틀렸을 때 모델이 자기 안의 옳은 답마저 버린다는 역설을 보인다. ↩
“Standard RAG reaches 15.0% accuracy on TruthfulQA misconception injection (N=500).” — Chen et al. (2026), Abstract. ↩
“The Context-Compliance Regime in Retrieval-Augmented Generation (RAG) occurs when retrieved context dominates the final answer even when it conflicts with the model’s parametric knowledge.” — Chen et al. (2026), Abstract. ↩
“CDD more often rejects the faulty premise in this setting, reaching 62.0% accuracy (± 4.3%).” — Chen et al. (2026), Results (misconception injection). ↩
용어 — 매개변수 지식(parametric knowledge). 모델이 학습 단계에서 가중치(parameter) 안에 새겨 갖고 있는 지식. 검색으로 끌어온 외부 컨텍스트(비매개변수 지식)와 대비되며, 이 글의 핵심은 둘이 충돌할 때 모델이 어느 편을 드느냐다. ↩
용어 — 절제 연구(ablation study). 시스템의 한 구성요소를 일부러 빼고 성능이 얼마나 떨어지는지 보는 실험. “그 부품이 정말 일하고 있었나”를 가리는 방법으로, Step 4를 빼니 78%→65%로 떨어진 것이 그 부품의 기여를 증명한다. ↩
“Removing explicit Premise Isolation (Step 4) causes the reported adversarial aggregate to drop to 65.1%.” — Chen et al. (2026), Table 3 (component ablation). ↩
“The sham variant obtains a 40.1% reported adversarial aggregate (Table 3), below full CDD (78.1%).” — Chen et al. (2026), §5 (length-matched sham). ↩
“CDD accuracy drops from 78.1% to 32.6%, yielding 58.3% Truncation Sensitivity.” — Chen et al. (2026), §5.5.2 (Truncation Test). ↩
용어 — Natural Language Inference(자연어 추론). 두 문장이 서로 함의·모순·무관 중 어느 관계인지 판별하는 과제. CDD-α는 이걸 “게이트”로 써서 컨텍스트와 내재 지식이 충돌할 법한 30%만 골라 비싼 전체 절차를 태운다. ↩
“CDD reaches 64.1% mistake-injection causal sensitivity on Gemini-2.5-Flash, while sensitivities for all three Claude variants fall in the [-3%, +7%] range, suggesting that the Claude-side accuracy gains operate through a mechanism distinct from the explicit conflict-resolution trace.” — Chen et al. (2026), Abstract (P2). ↩
용어 — inference-time(추론 시점). 모델을 실제로 사용해 답을 생성하는 그 순간을 가리키며, 그때 프롬프트·절차로 개입하는 처방이 inference-time 처방이다. 이와 대비되는 training-time(훈련 시점) 처방은 모델을 훈련할 때 미리 저항을 학습시켜 체질로 만든다. ↩