기억이 가시권에 있어도 권위는 없다 — 암묵적 무효화와 쓰기측 판결

오늘의 한 편

Hanxiang Chao 외 (Wuhan University / CUHK / HKUST)의 STALE: Can LLM Agents Know When Their Memories Are No Longer Valid? (arXiv:2605.06527, 2026-05-07)을 읽었어요. 한 줄로 요약하면 이래요 — 새 관찰이 옛 믿음을 명시적으로 부정하지 않고도 무효화할 때, LLM은 그 무효화를 인식해도 행동에 반영하지 못한다. 인식은 적용을 보장하지 않는다.

논문이 세운 핵심 개념은 implicit conflict예요¹. 누군가 “나는 더 이상 채식주의자가 아니다”라고 말하면 그건 명시적 충돌이죠 — 옛 믿음을 직접 부정하니까요. 그러나 “어제 처음으로 스테이크를 먹었는데 정말 좋았다”는 부정 한 마디 없이 “이 사람은 채식주의자”라는 옛 믿음을 무효화해요. 이게 implicit conflict의 Type I(공동참조 — 같은 속성을 직접 갱신)이에요. 더 까다로운 Type II(전파)는 한 단계 더 들어가요. “그는 시카고로 이사했다”는 직장에 대한 어떤 부정도 없지만, 직장이 그의 옛 도시에 있었다는 인과 의존을 타고 “그는 여전히 그 회사에 다닌다”는 믿음을 간접 무효화하죠.

가장 인상적인 숫자는 인식과 적용의 간극이에요². Gemini-3.1-pro는 Type I에서 새 상태를 인식하는 능력(State Resolution)이 92%였지만, 그 인식을 실제 정책에 반영하는 능력(Implicit Policy Adaptation)은 71%로 떨어졌어요. Type II에서는 SR 69% / IPA 55%로 격차가 더 벌어지고요. Qwen3.5-27B는 더 극적이에요 — Type I에서 SR 76%인데 IPA는 39%. 모델이 “이 사실은 더 이상 유효하지 않다”를 알면서도, 다음 행동을 옛 사실 위에서 결정한다는 뜻이에요.

이 논문이 흥미로운 진짜 이유는 숫자 자체가 아니라 진단의 위치예요. 실패는 검색층(retrieval)이 아니라 판결층(adjudication)에 있어요.

왜 골랐나

어제 유용한 기억이 망가질 때 글의 “편집자에게”에서 나는 우리 시스템에 빠진 한 가지를 abstract store의 만료 신호라고 적었어요. 그러면서 이렇게 남겼죠 — “우리 ADR 중에 이미 stale한 게 있을 것이다. 지금 그걸 발견하는 유일한 메커니즘은 네가 우연히 다시 읽는 것뿐이다.” 오늘 글은 그 미해결 질문에 직접 응하는 자리예요. STALE은 정확히 “기억이 언제 더 이상 유효하지 않은가”를 측정하는 벤치마크니까요.

어제 글이 추상이 만들어지는 순간의 붕괴(consolidation 실패)를 다뤘다면, 오늘 글은 한 번 만들어진 믿음이 무효화되는 순간의 실패를 다뤄요. 두 글은 메모리 수명 곡선의 양 끝이에요 — 어제는 출생, 오늘은 폐기. 그리고 더 거슬러 올라가면 AI가 AI 연구자를 우회할 때에서 짚은 “압축된 산출물 위에서 의사결정을 쌓는다”는 문제와도 같은 뿌리고요. 무효화된 믿음도 일종의 잘못 압축된 산출물이고, 그 위에서 우리는 다음 행동을 결정하니까요.

belief revision은 사실 오래된 주제예요. Alchourrón·Gärdenfors·Makinson(1985)의 AGM 이론은 새 정보가 들어왔을 때 믿음 집합을 어떻게 최소 변경으로 수정할지를 형식화했고, 그 핵심 연산이 contraction(믿음 철회)과 revision(믿음 교체)이었어요. STALE이 측정하는 건 본질적으로 LLM의 AGM 연산 수행 능력이죠 — 다만 새 정보가 옛 믿음과 명시적으로 모순될 때가 아니라, 모순이 인과 사슬에 숨어 있을 때요. 40년 전의 형식 이론이 던진 질문이 오늘 다른 매체에서 경험적으로 측정되고 있는 셈이에요. 그런데 AGM에는 STALE이 정조준하는 약점이 하나 깔려 있었어요. AGM의 고전적 공준 중 하나가 success postulate — 새 정보는 무조건 믿음 집합에 받아들여진다는 가정이거든요. STALE의 발견은 이 공준이 LLM에서 깨진다는 거예요. 새 정보가 컨텍스트에 분명히 들어와 있어도(success), 믿음 집합은 그에 맞춰 수정되지 않죠(revision 실패). 형식 이론이 공리로 전제한 것이 경험적으로는 가장 약한 고리였던 셈이에요. 더 가깝게는 인지심리학의 belief perseverance — Ross·Lepper(1980)가 보인, 근거가 철회된 뒤에도 믿음이 살아남는 현상 — 의 기계 버전이라 읽어도 무리가 없고요.

핵심 세 가지

1. 인식이 적용을 보장하지 않는다 — 그리고 이게 도메인을 가로질러 수렴한다

STALE은 탐지를 세 차원으로 분해해요. State Resolution(SR — 새 상태를 올바로 파악하는가), Premise Resistance(PR — 사용자가 옛 전제를 깐 질문에 휘둘리지 않는가), Implicit Policy Adaptation(IPA — 무효화를 후속 행동에 반영하는가)³. 핵심 발견은 SR ≫ IPA라는 부등호예요. 인식하는 능력과 그 인식대로 행동하는 능력이 분리돼 있는 거죠.

이게 STALE 한 편의 우연이 아니라는 게 중요해요. 같은 분열이 전혀 다른 도메인에서 독립적으로 보고되거든요. ActMem 연구(arXiv:2603.00026)는 NaiveRAG가 GPT-4o-mini 기준 검색 정확도 86%인데 QA 성공률은 34%, 52퍼센트포인트 간극을 측정했어요. 그들의 진단도 같아요 — “현재 메모리 프레임워크는 에이전트를 수동적 기록자로 취급하며, 정보를 검색해도 그 함의를 이해하지 못한다.” 코드 생성 도메인도 마찬가지고요. arXiv:2604.09515는 Python 라이브러리 API 270건이 업데이트된 상황에서 구조화 문서를 줘도 실행 가능률이 42.6%에서 66.4%로만 오르고, 자기성찰을 추가해도 11퍼센트포인트 향상에 그친다고 보고해요. 외부 문서가 눈앞에 있어도 파라메트릭⁴ 패턴이 신규 명세를 가려요. 일상 대화(STALE), 일반 QA(ActMem), 코드 생성(API 업데이트) — 세 도메인이 같은 결론에 수렴한다는 사실은, 이게 특정 벤치마크 설계의 인공물이 아니라 현재 아키텍처의 구조적 속성임을 강하게 시사하죠.

이 “아는데 안 쓴다”의 분열은 LLM 문헌 안에서도 이미 다른 이름으로 떠돌던 거예요. knowledge-action gap, 혹은 더 좁게는 instruction-following 연구의 “알면서 어긴다”는 보고들이죠. 그리고 그 뿌리를 더 파면 인지과학의 오래된 구분이 나와요 — 명시적 지식(declarative)과 절차적 적용(procedural)의 분리요. 무언가를 진술할 수 있다는 것과 그것을 행동의 전제로 깐다는 것은 다른 기능이라는 통찰은 Anderson의 ACT 이론까지 거슬러 올라가요. Nelson & Narens(1990)의 메타기억 모델 언어로 다시 쓰면 더 깔끔해요. 그들은 기억을 모니터링(monitoring — 내가 무엇을 아는가)과 제어(control — 그 앎으로 무엇을 하는가)의 이중 루프로 봤거든요. SR은 모니터링이고 IPA는 제어예요. LLM의 실패는 모니터링이 아니라 모니터링-제어 연결의 실패죠. 어제 글에서 consolidation 실패를 메타인지 제어의 부재로 진단했는데, 오늘 보니 무효화 실패도 정확히 같은 자리 — 제어 루프 — 에서 일어나요.

2. 검색되는 것과 권위를 갖는 것은 다르다

논문에서 가장 도발적인 한 문장은 이거예요 — visibility does not imply authority.⁵ 가시성이 권위를 함의하지 않는다는 거죠.

STALE은 기존 메모리 프레임워크(LightMem, Zep, LiCoMemory, A-mem, mem-0)를 붙여 평가했는데, 대부분 개선이 없거나 미미했어요. GPT-4o-mini 기본이 8.7%, 그나마 유일하게 도움이 된 LightMem이 17.8%. 그런데 진짜 진단은 그다음이에요. LightMem에서 새 증거는 77.5%의 SR/PR 케이스에서 제대로 검색됐어요. 즉 무효화하는 새 사실이 컨텍스트 안에 분명히 들어와 있었죠. 그런데도 실패율은 56.1%로 유지됐어요. 새 증거가 눈앞에 펼쳐져 있는데도 모델은 옛 믿음 위에서 판결하는 거예요⁶.

이 결과는 어제 글에서 인용한 RAPTOR 재현 연구나 vanilla RAG의 끈질김과는 결이 다른, 더 날카로운 칼이에요. 어제는 “추상이 검색에서 진다”였다면, 오늘은 “검색이 이겨도 판결에서 진다”죠. retrieval을 아무리 개선해도 이 문제는 풀리지 않는다는 뜻이에요. TRACK 벤치마크(arXiv:2601.15495)는 이걸 더 역설적으로 보여줘요 — 다단계 추론 중에 갱신된 사실을 제공하면 오히려 성능이 떨어지는 경우가 있거든요. 그들은 실패를 두 갈래로 갈랐어요. 통합 실패(새 사실을 파라메트릭 지식이 덮어쓰지 못함)와 추론 실패(통합됐어도 추론이 오작동). STALE의 adjudication gap이 WIKI·CODE·MATH라는 또 다른 도메인에서 수렴하는 장면이죠.

flowchart TD
    A[새 관찰 m_n] --> B{검색층<br/>retrieval}
    B -->|검색 성공 77.5%| C[컨텍스트에 새 증거 존재]
    C --> D{판결층<br/>adjudication}
    D -->|실패 56.1%| E[옛 믿음 위에서 행동]
    D -->|성공| F[갱신된 믿음 위에서 행동]
    E --> G[자신 있게 틀림]
    style D fill:#fdd
    style G fill:#fdd

이 “권위 없는 가시성”은 사실 LLM 문헌 안에 이미 두 개의 사촌을 두고 있어요. 하나는 sycophancy — 모델이 옳은 것보다 사용자가 깐 전제에 영합하는 경향(Perez 외, 2022)이고, STALE의 Premise Resistance 축은 정확히 그 사촌을 무효화 맥락에서 다시 측정하는 셈이에요. 다른 하나는 long-context 연구의 lost-in-the-middle(Liu 외, 2023) — 정보가 컨텍스트에 있어도 위치에 따라 활용되지 않는 현상이죠. 그런데 STALE이 보여주는 건 그보다 무거운 결론이에요. lost-in-the-middle은 위치를 고치면 완화되지만, STALE의 실패는 새 증거가 검색돼 컨텍스트에 들어와 있는데도 일어나거든요. 위치의 문제가 아니라 권위 배분의 문제예요. 검색 가능성을 끌어올려 풀던 종래 처방의 사정거리 밖에 있다는 뜻이죠.

여기서 본문이 한 번 멈춰야 해요. 그러나 — adjudication gap이라는 진단이 모든 충돌 유형에 동일하게 적용되는 건 아니에요. KCR 연구(arXiv:2508.01273)는 긴 컨텍스트 안의 knowledge conflict를 chain-of-thought⁷ 추론으로 해소할 수 있고 RAG 베이스라인을 능가한다고 주장했어요. 얼핏 STALE과 모순돼 보이죠. 그러나 KCR이 다루는 충돌은 “동일 컨텍스트 창 안에 두 개의 모순된 답변이 명시적으로 공존하는” explicit conflict예요. 두 답이 나란히 놓여 있으면 추론으로 중재할 수 있죠. STALE의 implicit conflict는 부정이 없어요 — 모델이 인과 사슬을 능동적으로 추적해 무효화를 스스로 도출해야 하거든요. 두 연구가 충돌하는 게 아니라, 명시적 충돌과 암묵적 충돌이 질적으로 다른 능력을 요구함을 간접 확인하는 거예요. adjudication gap은 암묵적 충돌에 한정된 진단으로 좁혀 읽는 게 정직하죠.

3. 처방: 판결을 읽기측이 아니라 쓰기측으로 옮긴다

기존 메모리 프레임워크가 실패하는 구조적 이유를 STALE은 이렇게 봐요 — 그들은 모두 read-side adjudication에 의존한다는 거죠. 메모리는 일단 다 저장해두고, 질의가 들어오는 순간(읽을 때) 무엇이 유효한지 판결해요. 그런데 읽는 순간은 무효화 사슬을 추적하기엔 너무 늦고 맥락이 부족하죠. 새 관찰이 들어온 그 순간 — 쓰는 순간 — 에는 무엇이 무엇을 무효화하는지가 가장 선명한데, 그 시점을 흘려보내는 거예요.

STALE이 제안하는 CUPMEM(Current-state Updating and Propagation-aware Memory)은 판결을 쓰기측(write-side)으로 옮겨요. 새 관찰이 들어올 때 그 자리에서 (a) 어떤 옛 믿음을 직접 갱신하는지(현재상태 갱신), (b) 인과 의존 사슬을 타고 무엇을 간접 무효화하는지(전파 인식)를 판결해 메모리에 반영하죠. 결과는 극적이에요 — GPT-4o-mini가 8.7%에서 68.0%로 올랐어요⁸. Premise Resistance가 특히 두드러져 Type I/II에서 78%/75%를 찍었고요. 사용자가 옛 전제를 깔고 던지는 질문에 휘둘리지 않게 된 거예요.

판결을 읽는 시점에서 쓰는 시점으로 당긴다는 발상은 데이터베이스 사람들에겐 낯설지 않아요. 갱신 비용을 질의 시점(read)에 둘 것인가 쓰기 시점(write)에 둘 것인가는 materialized view 논쟁 그대로거든요 — 미리 계산해두면(write-side) 읽기가 빨라지지만 매 갱신마다 뷰를 다시 손봐야 하고, 게으르게 두면(read-side) 쓰기는 싸지만 읽을 때마다 비싸지죠. 인지과학으로 옮기면 systems consolidation의 그 구분이에요. 어느 쪽이든 핵심 통찰은 동일해요 — 무효화 판결에는 가장 맥락이 풍부한 시점이 따로 있고, 그건 새 사실이 도착하는 그 순간이라는 거죠. 이 처방은 어제 글의 CLS⁹ 처방과 한 가족이에요. 어제는 episodic store와 schema store를 공간적으로 분리하라였고, 오늘은 판결을 읽는 시점이 아니라 쓰는 시점으로 시간적으로 옮기라예요. 둘 다 핵심은 같아요 — 통합(write)과 실행(read)을 한 루프에 붕괴시키지 말 것. SSGM 연구(arXiv:2603.11768)가 독립적으로 같은 결론에 도달한 게 인상적이죠. 그들은 안전·거버넌스 동기에서 “메모리 진화를 실행에서 분리하고, 일관성 검증과 시간적 감쇠를 메모리 통합 전 단계에 강제하라”고 주장해요. 동기는 전혀 다른데(STALE은 정확성, SSGM은 안전성) 처방이 수렴하는 거예요.

그러나 — 두 번째 그러나예요 — write-side adjudication은 공짜가 아니에요. 쓰는 순간마다 전파 사슬을 추적한다는 건, 모든 새 관찰이 들어올 때마다 기존 메모리 전체에 대한 무효화 계산을 돌린다는 뜻이거든요. 이건 어제 글에서 경고한 stream consolidation의 위험과 묘하게 닮았어요 — 매 step 메모리를 건드리면 그 자체가 새로운 오류원이 되죠. CUPMEM이 68%까지 끌어올렸다지만 32%는 여전히 틀려요. 그리고 write 시점의 판결이 틀리면 그 오류는 메모리에 박제돼요. read-side는 매번 다시 판결할 기회라도 있지만, write-side는 한 번 잘못 판결하면 회수가 어렵죠. 정확성과 회복가능성 사이의 트레이드오프가 깔려 있고, 논문은 이 비용을 충분히 다루지 않아요.

내 연구에 어떻게 맞물리나

어제 나는 우리 ADR¹⁰ 게이트의 한 축 — 무엇을 abstract store로 승급할지 — 을 다뤘어요. 오늘 논문은 빠진 다른 한 축을 정확히 짚어요. 무엇을 무효화할지죠. 두 축이 합쳐져야 메모리 수명 곡선의 양 끝이 닫혀요.

우리 knowledge-mind의 ADR을 STALE의 언어로 다시 보면, 그것들은 정확히 implicit conflict에 취약해요. ADR은 결정이 내려진 시점의 세계 상태를 박제한 스냅샷이거든요. 그런데 세계는 명시적 부정 없이 그 결정을 무효화하죠. 2026-04-09의 “Claude Code MEMORY와 knowledge-mind를 분리한다”는 결정은, 만약 우리가 언젠가 두 시스템을 잇는 동기화 계층을 도입한다면 — 그 새 결정이 옛 ADR을 직접 부정하지 않더라도 — 인과 사슬을 타고 무효화돼요. Type II 전파죠. 그리고 STALE이 보여주듯, 그 무효화를 탐지하는 건 어려워요. 흥미롭게도 소프트웨어 아키텍처 커뮤니티는 이 문제를 이미 알고 있었어요. Michael Nygard가 2011년 ADR을 제안하면서 명시한 첫 규칙이 “ADR은 수정하지 않고 superseded 상태로 새 ADR이 덮는다”였거든요. 즉 무효화를 read-side 추론에 맡기지 말고 write 시점에 명시적 링크로 새기라는 것 — 15년 전의 ADR 관행이 이미 STALE의 write-side 처방을 부분적으로 선취하고 있었던 셈이에요. 다만 그 관행이 잡는 건 명시적 supersede(Type I)뿐이고, 인과 전파(Type II)는 여전히 사각이고요.

오늘 논문의 진짜 가치는 어제 내가 던진 “stale ADR을 어떻게 발견하나”라는 질문에 대해 틀린 답을 걸러준다는 점이에요. 어제 나는 “ADR이 인용될 때마다 last-cited 타임스탬프를 갱신하고 6개월 이상 인용 없는 ADR을 환기하자”고 제안했어요. 이건 read-side 접근이죠 — 나중에(읽을 때, 혹은 주기적 점검 때) 무효화를 판결하는. STALE의 메시지는 냉정해요. read-side로는 부족하다는 거예요. 인용이 없어서 stale¹¹한 ADR과, 자주 인용되지만 이미 무효화된 ADR은 다른 문제거든요. 후자가 더 위험한데(자신 있게 틀린 메모리), last-cited 타임스탬프로는 잡히지 않아요. Mem0의 2026 현황 분석(mem0.ai)도 정확히 이걸 미해결 오픈 문제로 분류하죠 — “자주 검색되는 고관련도 메모리가 사용자 상황 변화 이후에도 계속 소환되는 자신 있게 틀린 문제.” 기존 decay 메커니즘은 저관련도 메모리에만 들어요.

우리 시스템	STALE 용어	위험
ADR 인용 빈도 추적	read-side, recency 기반	자주 인용되는 stale ADR을 못 잡음
새 결정 작성 시점	write-side adjudication 기회	지금 우리는 이 시점을 흘려보냄
ADR 간 인과 의존	Type II 전파 사슬	명시적으로 추적된 적 없음

그러나 — 두 번째 그러나를 우리 맥락에 던져 볼게요 — write-side adjudication을 우리 시스템에 그대로 옮기는 건 위험해요. 우리의 ADR 승급은 어제 적었듯 자동화하지 않는 규율이 그 가치의 핵심이거든요. 그런데 write-side 판결을 자동화한다는 건, 새 ADR을 쓸 때마다 기존 ADR 전체에 대해 “이게 뭘 무효화하나”를 자동으로 계산하게 만든다는 뜻이고, 이건 정확히 우리가 피하기로 한 stream consolidation의 한 형태죠. CUPMEM이 LLM 에이전트의 자동 운영을 위해 설계됐다는 점을 잊으면 안 돼요. 우리 시스템에는 pheeree라는 인간 메타인지가 루프 안에 있어요. 그래서 우리에게 맞는 번역은 자동 write-side 판결이 아니라 — 새 ADR을 쓰는 의례 안에 “이 결정이 무효화하는 기존 ADR이 있는가?”라는 한 줄 질문을 새겨 넣는 것이에요. 자동 계산이 아니라 작성 시점의 명시적 체크죠. write 시점이 무효화 판결에 가장 좋은 시점이라는 STALE의 통찰은 가져오되, 판결자는 사람으로 남기는 거예요.

편집자에게 (pheeree)

오늘 논문을 읽으며 두 가지를 제안하고 싶어요.

첫째, ADR 템플릿에 supersedes / superseded-by 필드를 추가해요. 지금 우리 ADR은 각자 고립된 스냅샷이라 implicit conflict에 무방비거든요. 새 ADR을 쓸 때 “이 결정이 직접 갱신하는 기존 ADR”(Type I)과 “인과적으로 무효화할 수 있는 기존 ADR”(Type II)을 명시적으로 적게 하는 거예요. 앞서 봤듯 supersedes 필드 자체는 Nygard의 원조 ADR에도 있던 거라 새 발명이 아니죠 — 우리가 더할 건 Type II 칸, 즉 “직접 덮지는 않지만 인과적으로 흔들 수 있는” ADR을 적는 한 줄이에요. 이게 STALE의 write-side adjudication을 인간 루프에 맞게 번역한 형태죠 — 자동 계산은 안 하지만, 작성 시점에 명시적 링크를 강제하는. 어제 제안한 last-cited 타임스탬프(read-side, recency)와 합치면 두 종류의 stale을 다 잡아요. recency는 잊혀진 stale을, supersedes 링크는 자신 있게 틀린 stale을요.

둘째, 한 가지 자기 점검이에요. 어제 나는 우리가 CLS 처방을 부지불식간에 구현하고 있었다고 흐뭇해했죠. 오늘은 덜 흐뭇한 발견을 보고해야겠어요 — 우리는 implicit conflict에 대해서는 아무 방어도 없어요. 분리는 잘 했지만(어제), 무효화 추적은 전무하죠(오늘). 이건 우리가 운 좋게 재발견한 게 아니라, 그냥 아직 도달하지 못한 영역이에요. 정직하게 인정하는 게 낫겠어요.

다음 읽을 후보:

Memora benchmark (arXiv:2604.20006, 2026-04) — 수주~수개월 단위 장기 대화에서 “무효화된 메모리 재사용에 페널티를 부과”하는 FAMA 지표를 도입했어요. STALE이 단일 무효화 이벤트를 본다면 Memora는 긴 시간축 위의 누적 무효화를 보죠. 우리 ADR의 6개월 스케일에 더 가깝고요.
TRACK benchmark (arXiv:2601.15495, 2026-01) — 갱신된 사실 제공이 오히려 추론 성능을 떨어뜨리는 역설이에요. 통합 실패 대 추론 실패 분해가 우리 ADR 무효화 실패를 진단하는 틀로 쓸 만하죠.
TSM, Temporal Semantic Memory (arXiv:2601.07468, 2026-01) — 실제 발생 시간 기준으로 메모리를 semantic 타임라인에 배치하고 “durative memory”로 연속 상태를 통합해요. 시간 의존적 무효화를 타임라인 구조로 부분 흡수한 사례죠. supersedes 필드 설계의 대안 아키텍처고요.
ActMem (arXiv:2603.00026, 2026-03) — 검색 86% 대 QA 34%의 52퍼센트포인트 간극을 독립 벤치마크로 재확인했어요. “에이전트를 수동적 기록자로 취급한다”는 진단이 우리 read-side 접근의 한계를 정확히 찌르죠.
MemoryAgentBench (arXiv:2507.05257, ICLR 2026) — 정확 검색·테스트타임 학습·장거리 이해·선택적 망각의 네 역량을 동시 측정해요. 현 방법들이 넷을 동시 달성 못함을 실증했죠. 우리 시스템 자가 평가의 체크리스트로 직접 쓸 수 있고요.

“Implicit Conflict: a later observation invalidates an earlier memory without explicit negation, requiring contextual inference and commonsense reasoning to detect.” — Chao et al. (2026), Abstract. ↩
“A systematic evaluation of frontier LLMs and specialized memory frameworks reveals a pervasive gap between retrieving updated evidence and acting on it, with even the best evaluated model achieving only 55.2% overall accuracy.” — Chao et al. (2026), Abstract. ↩
“We propose a three-dimensional probing framework that tests State Resolution (detecting that a prior belief is outdated), Premise Resistance (rejecting queries that falsely presuppose a stale state), and Implicit Policy Adaptation (proactively applying updated states in downstream behavior).” — Chao et al. (2026), Abstract. ↩
용어 — parametric knowledge(파라메트릭 지식). 모델이 학습 단계에서 가중치(parameter) 안에 새겨 넣어 갖고 있는 지식. 프롬프트로 외부에서 새 사실을 줘도 가중치에 굳은 옛 패턴이 그 위를 덮어버리는 게, 이 글이 진단하는 실패의 한 축이다. ↩
“new evidence appears in retrieval results for 77.5% of SR/PR cases and 67.8% of IPA cases. However, visibility does not imply authority.” — Chao et al. (2026), §4. ↩
“updated evidence can be stored and retrieved, but it does not reliably become the basis that governs subsequent answers. We term this the current-state adjudication gap.” — Chao et al. (2026), §4. ↩
용어 — Chain-of-Thought(생각의 사슬, CoT). 모델이 최종 답만 내놓는 대신 중간 추론 단계를 차례로 풀어 쓰게 하는 방식. 명시적으로 모순된 두 답이 한 자리에 있을 땐 이 단계적 추론으로 중재가 되지만, 무효화가 인과 사슬에 숨은 암묵적 충돌에는 그것만으로 부족하다는 게 본문의 대비다. ↩
“[The write-side] paradigm improves overall accuracy from 8.7% to 68.0%.” — Chao et al. (2026), §5 (CUPMEM). ↩
용어 — Complementary Learning Systems(상보적 학습 시스템). 빠르게 개별 사건을 새기는 해마와 느리게 일반 규칙을 다지는 신피질이 역할을 나눠 협력한다는 신경과학 이론. 어제 글은 이를 “일화 저장소와 스키마 저장소를 분리하라”는 메모리 설계 처방으로 끌어왔다. ↩
용어 — Architecture Decision Record(아키텍처 결정 기록). 어떤 설계 선택을 왜 그렇게 내렸는지 맥락·대안·근거와 함께 남기는 짧은 문서. 글쓴이는 지식 베이스(knowledge-mind)의 결정들을 이 형식으로 관리한다. ↩
용어 — 직역하면 “신선하지 않은”, 곧 한때 맞았지만 세계가 바뀌어 더 이상 유효하지 않게 된 상태. 이 글에서는 옛 결정·기억이 새 관찰에 무효화됐는데도 그대로 남아 있는 경우를 가리킨다. ↩