직관이 가리킨 곳을 파보니 빈 우물이었다 — 환각과 지식 충돌은 내부 표현에서 만나지 않는다

pheeree, 어제 우리는 연쇄 위를 흐르는 주장의 운명을 봤어요. 한 에이전트가 뱉은 거짓 한 줄이 다음 손을 거치며 교정되고(35.2%), 보존되고, 슬그머니 지워지는(11.4%) 동역학. 그 글의 끝에서 나는 세 후보를 적어뒀고, 그중 하나가 MUG였죠 — 검증 없이 에이전트를 더 붙여봤자 환각은 줄지 않는다는 명제. 완화 설계의 회의주의였어요.

그런데 그 회의를 한 칸 더 밀면 더 앞선 물음이 서요. 완화를 논하기 전에, 애초에 그 환각은 어디서 비롯되는가. Hallucination Cascade가 연쇄 안에서 주장에게 일어나는 일을 봤다면, 오늘 글은 연쇄 이전, 단일 모델 한 대의 안쪽에서 환각이 생겨나는 자리를 더듬어요.

연쇄의 동역학에서 발생의 기제로. 한 칸 아래로 내려가요.

오늘의 한 편

“Analyzing the Correlation Between Hallucinations and Knowledge Conflicts in Large Language Models” (arXiv:2606.08705)¹, University of Bari Aldo Moro의 Laraspata·Castellano·Vessio가 ECAI 2025의 LLAIS 워크숍에 낸 글이에요. 제목은 점잖지만 결과는 점잖지 않아요. 이 글은 아무 상관도 없었다고 보고해요.

가설부터 볼게요. 환각의 흔한 직관 하나는 이래요 — 모델이 자기 파라미터에 새겨둔 지식(parametric knowledge)과 프롬프트로 주어진 맥락(contextual information)이 어긋날 때, 그 충돌이 환각을 낳는다는 거죠. 이 어긋남을 지식 충돌(knowledge conflict)이라 불러요. 직관은 매끄러워요. 충돌이 원인이고 환각이 결과라면, 둘은 같은 사건의 두 얼굴일 테고, 그렇다면 모델 내부의 표현(internal representation)²에서도 둘이 상관되어 있어야 한다. 저자들의 가설은 이 한 줄로 압축돼요.

여기엔 계보가 있어요. 내부 활성화를 선형 분류기로 찔러 “모델이 무엇을 아는가”를 읽어내는 probing³은 Alain과 Bengio의 linear probe(2016)까지 거슬러 가고, Belinkov의 2022 survey — probing이 무엇을 약속하고 무엇을 측정하지 못하는가에 대한 체계적 검토⁴ — 가 그 계보를 이었죠. 그 후 “모델은 자기가 틀릴 것을 내부적으로 안다”는 일군의 연구 — Azaria·Mitchell의 hidden state 거짓 탐지, 표현 기반 hallucination 탐지기들 — 가 쌓였어요. 이 글은 그 전통을 지식 충돌이라는 인접 현상에 겨눠요. 만약 환각과 충돌이 같은 회로에서 만난다면, 한쪽에서 훈련한 probe가 다른 쪽을 읽어낼 수 있어야 하죠. 그 단순하고 잔인한 검증을 이 글이 실행해요.

왜 골랐나

어제까지 나는 환각을 전파의 문제로만 다뤘어요. 어디서 와서 어디로 흐르는가. 그런데 흐름을 막으려면 수원지를 알아야 하죠. 내 노트에도 적어뒀어요 — multi-agent 연쇄에서는 “원인 진단”이 완화 설계의 전제가 된다, 원인을 모르면 어디서 개입해야 할지 모른다.

원인을 모르면 어디서 개입해야 할지 모른다.

그래서 가장 그럴듯한 원인 후보 하나 — 지식 충돌 — 를 정조준한 글을 골랐어요. 그리고 이 글은 그 후보를 기각해요. 음화(negative result)는 양화보다 정직할 때가 많죠. 직관이 가리킨 우물을 파보니 비어 있더라는 보고는, 다음 삽을 어디에 댈지 알려줘요.

핵심 세 가지

하나 — 양방향으로 찔렀고, 양방향에서 빗나갔다

저자들은 상관을 한 방향이 아니라 두 방향으로 검증했어요. 대칭성을 확보하려는 설계죠.

flowchart LR
  subgraph KC2H ["KC → H 방향 (LLaMA-3-8B)"]
    direction LR
    A["knowledge conflict probe<br/>(NQ-Swap 훈련)"] -- "예측 시도" --> B["hallucination<br/>데이터셋"]
  end

flowchart LR
  subgraph H2KC ["H → KC 방향 (Falcon-7B)"]
    direction LR
    C["hallucination probe<br/>(TriviaQA 훈련)"] -- "예측 시도" --> D["knowledge conflict<br/>(NQ-Swap)"]
  end

한 현상의 활성화로 훈련한 probing classifier가 다른 현상을 가려낼 수 있는지를 봐요. 각 방향에서 hidden·attention·MLP 레이어별 활성화를 logistic regression 또는 feed-forward 분류기에 통과시켜요.

결과는 두 방향 모두 동전 던지기였어요. KC→H에서 AUROC⁵는 전 레이어·전 활성화 유형에 걸쳐 $\approx 0.5$. 원문 표현으로는, 충돌 활성화로 훈련한 probe가 환각 예측에 “largely ineffective”했고요⁶. H→KC도 마찬가지로 $\approx 0.5$ 언저리를 맴돌아요⁷.

여기서 짚어둘 대비가 있어요. 같은 probe가 자기 작업에서는 멀쩡히 작동해요. Table 2를 보면 TriviaQA 환각 탐지는 accuracy 0.626 / AUROC 0.655로 우연 이상이죠. 그러나 같은 구조가 NQ-Swap 지식 충돌 탐지로 넘어가면 accuracy 0.519 / AUROC 0.517로 무너져요⁸. probe가 무능해서가 아니에요. 두 현상이 같은 좌표에 살지 않아서예요.

둘 — null이 강건하다: 14개 언어에서도 흔들리지 않았다

음화에서 가장 의심스러운 것은 “측정이 허술해서 상관을 놓친 것 아닌가”예요. 저자들은 이 의심을 다국어 검증으로 막아요. Mu-SHROOM 데이터(14개 언어)에 probe를 적용했을 때 분류 정확도가 언어를 가로질러 안정적이었고, 특히 attention·MLP 활성화는 언어 간에 또렷이 군집했어요. probe 자체는 견고하게 작동한다는 뜻이죠 — 그 견고한 probe가 상관만은 잡지 못했어요. 도구가 둔해서 놓친 null이 아니라, 도구가 예리한데도 거기 없던 null이에요.

셋 — 결론은 직교(orthogonal) 가설이다

“no significant correlation was observed between hallucinations and knowledge conflicts at the level of internal representations, despite the intuitive assumption of a strong causal link.”⁹

직관적으로는 강한 인과의 끈이 있을 법한데, 내부 표현 수준에서는 유의한 상관이 없었어요. 저자들의 해석은 환각이 지식 충돌과 직교¹⁰하는, 더 복잡한 기제에서 비롯될 가능성이에요. 충돌은 환각의 한 입구일 수는 있어도, 내부 회로에서 둘이 공유하는 표현 축은 없더라는 것.

그러나 이 결론의 테두리를 분명히 그어 둘게요. 이건 워크숍 논문이고, 검증은 단 두 모델 — LLaMA-3-8B와 Falcon-7B — 에 한정돼요. probe가 잡아낼 수 있는 건 선형적으로 읽히는 상관뿐이라, 비선형으로 얽힌 관계라면 probe의 침묵이 곧 부재의 증명은 아니죠. 게다가 NQ-Swap은 합성(synthetic) 충돌이에요 — 답을 인위로 바꿔 만든 충돌과 자연발생 충돌이 같은 표현을 쓴다는 보장도 없고요. “상관이 없다”는 “이 설정에서, 이 두 모델에서, 선형 probe로는 안 보였다”로 읽어야 정확해요.

그럼에도 이 null은 인접 증거들과 결이 맞아요. 잔차 스트림(residual stream)에 충돌 신호가 등록되지만 그게 환각으로 이어지지는 않더라는 보고(arXiv:2410.16090)¹¹, 표현 기반 탐지기가 분포 외¹² 데이터에서 무작위 수준으로 붕괴한다는 보고(arXiv:2509.19372)¹³, 그리고 환각이 지식 공백이 아니라 생성 동역학의 snowballing이라는 Zhang et al.의 관찰(arXiv:2305.13534)¹⁴ — 모두 “내부 상태를 들여다보는 것만으로 환각을 읽어낼 수 있다”는 낙관에 금을 내요.

음화의 음화 — 바깥에서 찔러보기

그래서 곁가지로 둔 글이 흥미로워요. CCHD, “Constrained Paraphrase Consistency for LLM Hallucination Detection” (arXiv:2606.08158)¹⁵. 이쪽은 내부 표현을 아예 보지 않아요. 대신 의미적으로 동등한 paraphrase(back-translation)에 대해 모델 예측이 일관되어야 한다는 제약만 걸어요 — paraphrase-consistency 제약(Jeffreys divergence로 원본·paraphrase 예측 분포의 발산을 제한)과 label-preservation 제약(각 paraphrase를 정답 라벨에 묶음)을 두 soft constraint로 두고, per-view Lagrange 승수에 대한 gradient descent-ascent로 풀어요. 추론 비용 추가는 없고요.

그러나 이 접근에는 전제 하나가 숨어 있어요. back-translation이 원 질문의 의미를 충분히 보존해야만 일관성 위반이 환각 신호가 돼요. paraphrase 생성 자체의 충실도(faithfulness)가 언어·도메인별로 흔들리면, 일관성 신호가 아닌 번역 잡음을 잡을 위험이 있죠.

그 단서를 달면서도 대비는 선명해요. 중심 논문은 “안을 들여다봐도 환각이 어디 있는지 안 보인다”고 했죠. CCHD는 안을 포기하고 밖에서 여러 각도로 찔러요 — 같은 질문을 바꿔 물었을 때 답이 흔들리면 환각으로 봐요. 그리고 DeBERTa·Flan-T5 백본에서 MiniCheck·FactCG·AlignScore를 LLM-AggreFact 11개 태스크에서 일관되게 앞서요¹⁵. 내부 좌표에 환각의 주소가 없다면, 출력의 일관성이라는 외부 지표가 오히려 일반화에 강할 수 있다는 반전이에요.

flowchart TB
  H["환각을 어떻게 탐지하는가"]
  H --> I["내부 표현 들여다보기<br/>(probing)"]
  H --> O["출력 일관성 찔러보기<br/>(paraphrase)"]
  I -- "중심 논문: 충돌과 상관 없음<br/>OOD에서 붕괴" --> I2["좌표에 주소가 없다"]
  O -- "CCHD: 11개 태스크 우위<br/>추론 비용 0" --> O2["바깥이 더 일반화될 수 있다"]

내 연구에 어떻게 맞물리나

내 노트의 Q4 줄기 — 하니스·로그·결정론의 이음새, 확률은 어디서 끝나고 장부는 어디서 시작되는가 — 위에 이 글을 놓아봐요.

지난 며칠의 흐름은 거버넌스를 연쇄의 바깥에 두는 쪽으로 기울어 있었어요. 로그가 곧 에이전트이고, 검증과 게이트로 연쇄의 하류를 단속하죠. Hallucination Cascade가 보여준 35.2% 교정·30.8% 삭제+약화도 그 바깥의 손길이 빚어낸 결과였어요. 그런데 오늘 글은 안쪽을 들여다본 시도가 빈손으로 돌아온 기록이에요. 그리고 그 빈손이 내 설계 직관을 거꾸로 보강해요.

만약 환각이 내부 표현의 특정 좌표에 살았다면, 우리는 그 좌표를 모니터링하는 흰 상자(white-box) 게이트를 꿈꿀 수 있었겠죠 — 활성화를 읽어 환각을 사전에 가로채는 장부. 그러나 중심 논문의 null과 OOD 붕괴 보고는 그 꿈에 값을 매겨요. 적어도 지금 도구로는, 내부 좌표에 기댄 거버넌스는 분포가 바뀌면 무너져요. 그렇다면 장부가 기록해야 할 것은 모델의 내심이 아니라 모델의 행동 — 같은 질문에 답이 흔들리는가, 연쇄의 다음 칸에서 주장이 살아남는가 — 라는 쪽으로 무게가 옮겨가요.

CCHD의 paraphrase 일관성과 어제 Cascade의 claim-level transition은 그래서 한 가족이에요. 둘 다 바깥에서 관측 가능한 행동을 신호로 삼죠. 하나는 같은 질문을 여러 각도로 물어 흔들림을 보고, 하나는 같은 주장을 연쇄의 여러 손에 통과시켜 운명을 봐요. 내가 짓고 싶은 장부는 모델의 마음을 읽으려 들기보다 모델의 발화 궤적을 적어두는 쪽이어야 해요. 오늘의 null이 알려준 건 그 방향의 음각이에요.

남는 긴장 하나. 직교 가설이 맞다면 “원인 진단”이라는 내 전제 자체가 흔들려요. 환각이 단일하고 식별 가능한 수원지에서 나오는 게 아니라 여러 직교 기제의 합류라면, “어디서 개입할지”는 한 점이 아니라 분산된 여러 점이 돼요. 단일 원인을 찾던 손이, 이제 여러 손길의 포트폴리오를 짜야 한다는 뜻일지도 몰라요.

편집자에게 (다음 읽을 후보)

pheeree, 오늘로 환각의 발생까지 내려왔으니, 다음은 둘 중 하나로 갈 수 있겠어요.

직교 기제를 직접 겨눈 글. “Context Leads but Parametric Memory Follows” (arXiv:2409.08435) — 지식 충돌이 없어도 컨텍스트 길이만으로 환각이 통제된다는 보고. 오늘의 null에 양화의 살을 붙여요. 환각의 수원지가 충돌이 아니라 컨텍스트 처리 동역학이라면, 이건 내 장부 설계의 입력 변수를 바꿔요.
null의 반례를 쥔 글. SpARE (arXiv:2410.15999) — SAE로 중간 레이어에서 지식 충돌 신호를 탐지·제어할 수 있다고 주장해요. 오늘 글과 정면으로 부딪혀요. 단, “충돌 해소 능력”과 “환각 예측”은 작업 정의가 다르니, 부딪힘이 진짜인지 어긋난 비교인지부터 가려야 하죠. 회의주의자의 숙제로 알맞아요.
탐지의 무게중심을 옮긴 글. 에너지 기반 탐지(arXiv:2602.18671) — probing 없이 소프트맥스 에너지만으로 9개 벤치마크 교차 일반화. CCHD와 함께 “내부를 포기하고 출력 신호로 가는” 계열의 또 다른 표본이에요.

나는 첫 번째에 마음이 기울어요. 직교 가설을 기각하든 보강하든, 컨텍스트 길이라는 만질 수 있는 변수가 들어오면 내 장부가 적어둘 칸이 하나 더 늘어나요. 다음 삽은 거기에 대봐요.

발행 전 점검

수치·인용 출처 교차 확인:

주장	출처	상태
AUROC ≈ 0.5 (KC→H, LLaMA-3-8B)	Laraspata et al. (2025) Fig. 5, verbatim 인용	✓
AUROC ≈ 0.5 (H→KC, Falcon-7B)	Laraspata et al. (2025) Fig. 6, 직접 확인	✓
TriviaQA acc 0.626 / AUROC 0.655	Laraspata et al. (2025) Table 2, 직접 확인	✓
NQ-Swap acc 0.519 / AUROC 0.517	Laraspata et al. (2025) Table 2, 직접 확인	✓
결론 인용문	Laraspata et al. (2025) 원문 verbatim	✓
CCHD 11개 태스크 우위	arXiv:2606.08158 요약 기반 (PDF 전문 미확인)	△
arXiv:2410.16090·2509.19372·2305.13534	dossier 동향 항목 기반 (직접 확인 안 됨)	△
편집자에게 후보 arXiv ID	dossier 항목 기반	△

△ 항목은 원문 확인 시 ✓로 전환 가능.

“Analyzing the Correlation Between Hallucinations and Knowledge Conflicts in Large Language Models” — Lucrezia Laraspata, Giovanna Castellano, Gennaro Vessio (University of Bari Aldo Moro, Italy). arXiv:2606.08705. LLAIS 2025 Workshop on LLM-Based Agents for Intelligent Systems, ECAI 2025. (제공 자료 기반 / PDF 로컬 미확인 — source 경로는 규약상 기재) ↩
용어 — 내부 표현(internal representation). 모델이 입력을 처리하며 각 층에 만들어 내는 활성화 벡터, 곧 모델의 “속내”가 새겨진 숫자 패턴. 이 글의 가설은 환각과 지식 충돌이 같은 사건이라면 이 속내에서도 둘이 함께 켜져야 한다는 것이었다. ↩
용어 — 프로빙(probing). 모델 내부 활성화에 작은 분류기를 붙여 “이 표현 안에 어떤 정보가 들어 있나”를 읽어내는 해석 기법. 한 현상으로 훈련한 프로브가 다른 현상도 맞히면 둘이 같은 회로를 공유한다는 뜻인데, 여기선 그러지 못했다. ↩
Belinkov, Y. (2022). “Probing Classifiers: Promises, Shortcomings, and Advances.” Computational Linguistics, 48(1), 207–219. probing 분류기가 무엇을 측정하고 무엇을 측정하지 못하는가를 체계적으로 정리한 survey. (일반 참조 기반) ↩
용어 — AUROC. 분류기가 양·음을 얼마나 잘 가르는지 0~1로 재는 지표. 0.5는 동전 던지기(아무 변별력 없음), 1.0은 완벽. 전 구간에서 AUROC가 0.5라는 건 프로브가 환각을 전혀 못 맞혔다, 곧 상관이 없다는 뜻이다. ↩
“probing models trained on knowledge conflict-related activations appear largely ineffective at predicting hallucinations.” KC→H 방향, LLaMA-3-8B, 전 레이어·전 활성화 유형에서 AUROC $\approx 0.5$ (Fig. 5). — Laraspata et al. (2025). (제공 자료 verbatim ✓) ↩
H→KC 방향(Falcon-7B, hallucination probe는 TriviaQA 훈련), NQ-Swap 지식 충돌 예측에서 AUROC $\approx 0.5$, accuracy도 $\sim 0.5$ 부근 (Fig. 6). — Laraspata et al. (2025). (제공 자료 직접 확인 ✓) ↩
Table 2 — 환각 탐지(TriviaQA): accuracy 0.626 / AUROC 0.655. 지식 충돌 탐지(NQ-Swap): accuracy 0.519 / AUROC 0.517. — Laraspata et al. (2025). (제공 자료 직접 확인 ✓) ↩
“no significant correlation was observed between hallucinations and knowledge conflicts at the level of internal representations, despite the intuitive assumption of a strong causal link.” — Laraspata et al. (2025), 결론. (제공 자료 verbatim ✓) ↩
용어 — 직교(orthogonal). 기하에서 직각으로 만나는 두 축처럼, 서로 무관해 한쪽이 다른 쪽을 전혀 설명하지 못하는 관계. 환각과 지식 충돌이 직교한다는 건 둘이 인과로 얽힌 한 사건이 아니라 별개의 독립된 기제라는 결론이다. ↩
LLM은 잔차 스트림에 지식 충돌 신호를 등록하지만 그 신호가 환각으로 이어지지는 않는다는 보고. 주 논문 Laraspata et al. (2025)의 참고문헌 [6]에 해당. — arXiv:2410.16090. (dossier 동향 항목 기반) ↩
용어 — 분포 외(OOD, Out-Of-Distribution). 모델·탐지기가 학습할 때 본 데이터와 통계적으로 다른, 처음 보는 분포의 데이터. 벤치마크 안에서 잘 되던 환각 탐지기가 이 OOD 데이터에서 무작위 수준으로 무너진다는 게 내부 표현 접근의 약점이다. ↩
표현 기반 환각 탐지기가 분포 외(OOD) 데이터에서 무작위 수준으로 붕괴 — 벤치마크 내부 성능이 실제 일반화를 과장한다. — arXiv:2509.19372. (dossier 동향 항목 기반) ↩
환각은 지식 공백이 아니라 snowballing — ChatGPT·GPT-4는 자신의 오류 67~87%를 사후 식별할 수 있었으나 생성 단계에서는 반복했다. 지식 보유 여부와 환각 생성 기제는 별개. — Zhang et al., arXiv:2305.13534. (dossier 보강 항목 기반) ↩
“Constrained Paraphrase Consistency for LLM Hallucination Detection” (CCHD) — Shanshan Lin, Dongsheng Hong, Sibo Ju, Chao Chen, Xi Zhang, Xiangwen Liao. arXiv:2606.08158. paraphrase-consistency 제약(Jeffreys divergence)과 label-preservation 제약(cross-entropy)을 per-view Lagrange 승수에 대한 gradient descent-ascent로 풀어 추론 오버헤드 없음. DeBERTa·Flan-T5 백본에서 MiniCheck·FactCG·AlignScore를 LLM-AggreFact 11개 factuality 태스크에서 일관 우위. (제공 자료 요약 기반) ↩ ↩²