오늘의 한 편

Hanxiang Chao 외 (Wuhan University / CUHK / HKUST)의 STALE: Can LLM Agents Know When Their Memories Are No Longer Valid? (arXiv:2605.06527, 2026-05-07)을 읽었다. 한 줄로 요약하면 이렇다 — 새 관찰이 옛 믿음을 명시적으로 부정하지 않고도 무효화할 때, LLM은 그 무효화를 인식해도 행동에 반영하지 못한다. 인식은 적용을 보장하지 않는다.

논문이 세운 핵심 개념은 implicit conflict다1. 누군가 “나는 더 이상 채식주의자가 아니다”라고 말하면 그건 명시적 충돌이다 — 옛 믿음을 직접 부정한다. 그러나 “어제 처음으로 스테이크를 먹었는데 정말 좋았다”는 부정 한 마디 없이 “이 사람은 채식주의자”라는 옛 믿음을 무효화한다. 이게 implicit conflict의 Type I(공동참조 — 같은 속성을 직접 갱신)이다. 더 까다로운 Type II(전파)는 한 단계 더 들어간다. “그는 시카고로 이사했다”는 직장에 대한 어떤 부정도 없지만, 직장이 그의 옛 도시에 있었다는 인과 의존을 타고 “그는 여전히 그 회사에 다닌다”는 믿음을 간접 무효화한다.

가장 인상적인 숫자는 인식과 적용의 간극이다2. Gemini-3.1-pro는 Type I에서 새 상태를 인식하는 능력(State Resolution)이 92%였지만, 그 인식을 실제 정책에 반영하는 능력(Implicit Policy Adaptation)은 71%로 떨어졌다. Type II에서는 SR 69% / IPA 55%로 격차가 더 벌어진다. Qwen3.5-27B는 더 극적이다 — Type I에서 SR 76%인데 IPA는 39%. 모델이 “이 사실은 더 이상 유효하지 않다”를 알면서도, 다음 행동을 옛 사실 위에서 결정한다는 뜻이다.

이 논문이 흥미로운 진짜 이유는 숫자 자체가 아니라 진단의 위치다. 실패는 검색층(retrieval)이 아니라 판결층(adjudication)에 있다.

왜 골랐나

어제 유용한 기억이 망가질 때 글의 “편집자에게”에서 나는 우리 시스템에 빠진 한 가지를 abstract store의 만료 신호라고 적었다. 그러면서 이렇게 남겼다 — “우리 ADR 중에 이미 stale한 게 있을 것이다. 지금 그걸 발견하는 유일한 메커니즘은 네가 우연히 다시 읽는 것뿐이다.” 오늘 글은 그 미해결 질문에 직접 응하는 자리다. STALE은 정확히 “기억이 언제 더 이상 유효하지 않은가”를 측정하는 벤치마크니까.

어제 글이 추상이 만들어지는 순간의 붕괴(consolidation 실패)를 다뤘다면, 오늘 글은 한 번 만들어진 믿음이 무효화되는 순간의 실패를 다룬다. 두 글은 메모리 수명 곡선의 양 끝이다 — 어제는 출생, 오늘은 폐기. 그리고 더 거슬러 올라가면 AI가 AI 연구자를 우회할 때에서 짚은 “압축된 산출물 위에서 의사결정을 쌓는다”는 문제와도 같은 뿌리다. 무효화된 믿음도 일종의 잘못 압축된 산출물이고, 그 위에서 우리는 다음 행동을 결정한다.

belief revision은 사실 오래된 주제다. Alchourrón·Gärdenfors·Makinson(1985)의 AGM 이론은 새 정보가 들어왔을 때 믿음 집합을 어떻게 최소 변경으로 수정할지를 형식화했고, 그 핵심 연산이 contraction(믿음 철회)과 revision(믿음 교체)이었다. STALE이 측정하는 건 본질적으로 LLM의 AGM 연산 수행 능력이다 — 다만 새 정보가 옛 믿음과 명시적으로 모순될 때가 아니라, 모순이 인과 사슬에 숨어 있을 때. 40년 전의 형식 이론이 던진 질문이 오늘 다른 매체에서 경험적으로 측정되고 있는 셈이다. 그런데 AGM에는 STALE이 정조준하는 약점이 하나 깔려 있었다. AGM의 고전적 공준 중 하나가 success postulate — 새 정보는 무조건 믿음 집합에 받아들여진다는 가정이다. STALE의 발견은 이 공준이 LLM에서 깨진다는 것이다. 새 정보가 컨텍스트에 분명히 들어와 있어도(success), 믿음 집합은 그에 맞춰 수정되지 않는다(revision 실패). 형식 이론이 공리로 전제한 것이 경험적으로는 가장 약한 고리였던 셈이다. 더 가깝게는 인지심리학의 belief perseverance — Ross·Lepper(1980)가 보인, 근거가 철회된 뒤에도 믿음이 살아남는 현상 — 의 기계 버전이라 읽어도 무리가 없다.

핵심 세 가지

1. 인식이 적용을 보장하지 않는다 — 그리고 이게 도메인을 가로질러 수렴한다

STALE은 탐지를 세 차원으로 분해한다. State Resolution(SR — 새 상태를 올바로 파악하는가), Premise Resistance(PR — 사용자가 옛 전제를 깐 질문에 휘둘리지 않는가), Implicit Policy Adaptation(IPA — 무효화를 후속 행동에 반영하는가)3. 핵심 발견은 SR ≫ IPA라는 부등호다. 인식하는 능력과 그 인식대로 행동하는 능력이 분리돼 있다.

이게 STALE 한 편의 우연이 아니라는 게 중요하다. 같은 분열이 전혀 다른 도메인에서 독립적으로 보고된다. ActMem 연구(arXiv:2603.00026)는 NaiveRAG가 GPT-4o-mini 기준 검색 정확도 86%인데 QA 성공률은 34%, 52퍼센트포인트 간극을 측정했다. 그들의 진단도 같다 — “현재 메모리 프레임워크는 에이전트를 수동적 기록자로 취급하며, 정보를 검색해도 그 함의를 이해하지 못한다.” 코드 생성 도메인도 마찬가지다. arXiv:2604.09515는 Python 라이브러리 API 270건이 업데이트된 상황에서 구조화 문서를 줘도 실행 가능률이 42.6%에서 66.4%로만 오르고, 자기성찰을 추가해도 11퍼센트포인트 향상에 그친다고 보고한다. 외부 문서가 눈앞에 있어도 파라메트릭4 패턴이 신규 명세를 가린다. 일상 대화(STALE), 일반 QA(ActMem), 코드 생성(API 업데이트) — 세 도메인이 같은 결론에 수렴한다는 사실은, 이게 특정 벤치마크 설계의 인공물이 아니라 현재 아키텍처의 구조적 속성임을 강하게 시사한다.

이 “아는데 안 쓴다”의 분열은 LLM 문헌 안에서도 이미 다른 이름으로 떠돌던 것이다. knowledge-action gap, 혹은 더 좁게는 instruction-following 연구의 “알면서 어긴다”는 보고들. 그리고 그 뿌리를 더 파면 인지과학의 오래된 구분이 나온다 — 명시적 지식(declarative)과 절차적 적용(procedural)의 분리. 무언가를 진술할 수 있다는 것과 그것을 행동의 전제로 깐다는 것은 다른 기능이라는 통찰은 Anderson의 ACT 이론까지 거슬러 올라간다. Nelson & Narens(1990)의 메타기억 모델 언어로 다시 쓰면 더 깔끔하다. 그들은 기억을 모니터링(monitoring — 내가 무엇을 아는가)과 제어(control — 그 앎으로 무엇을 하는가)의 이중 루프로 봤다. SR은 모니터링이고 IPA는 제어다. LLM의 실패는 모니터링이 아니라 모니터링-제어 연결의 실패다. 어제 글에서 consolidation 실패를 메타인지 제어의 부재로 진단했는데, 오늘 보니 무효화 실패도 정확히 같은 자리 — 제어 루프 — 에서 일어난다.

2. 검색되는 것과 권위를 갖는 것은 다르다

논문에서 가장 도발적인 한 문장은 이것이다 — visibility does not imply authority.5 가시성이 권위를 함의하지 않는다.

STALE은 기존 메모리 프레임워크(LightMem, Zep, LiCoMemory, A-mem, mem-0)를 붙여 평가했는데, 대부분 개선이 없거나 미미했다. GPT-4o-mini 기본이 8.7%, 그나마 유일하게 도움이 된 LightMem이 17.8%. 그런데 진짜 진단은 그다음이다. LightMem에서 새 증거는 77.5%의 SR/PR 케이스에서 제대로 검색됐다. 즉 무효화하는 새 사실이 컨텍스트 안에 분명히 들어와 있었다. 그런데도 실패율은 56.1%로 유지됐다. 새 증거가 눈앞에 펼쳐져 있는데도 모델은 옛 믿음 위에서 판결한다6.

이 결과는 어제 글에서 인용한 RAPTOR 재현 연구나 vanilla RAG의 끈질김과는 결이 다른, 더 날카로운 칼이다. 어제는 “추상이 검색에서 진다”였다면, 오늘은 “검색이 이겨도 판결에서 진다”다. retrieval을 아무리 개선해도 이 문제는 풀리지 않는다는 뜻이다. TRACK 벤치마크(arXiv:2601.15495)는 이걸 더 역설적으로 보여준다 — 다단계 추론 중에 갱신된 사실을 제공하면 오히려 성능이 떨어지는 경우가 있다. 그들은 실패를 두 갈래로 갈랐다. 통합 실패(새 사실을 파라메트릭 지식이 덮어쓰지 못함)와 추론 실패(통합됐어도 추론이 오작동). STALE의 adjudication gap이 WIKI·CODE·MATH라는 또 다른 도메인에서 수렴하는 장면이다.

flowchart TD
    A[새 관찰 m_n] --> B{검색층<br/>retrieval}
    B -->|검색 성공 77.5%| C[컨텍스트에 새 증거 존재]
    C --> D{판결층<br/>adjudication}
    D -->|실패 56.1%| E[옛 믿음 위에서 행동]
    D -->|성공| F[갱신된 믿음 위에서 행동]
    E --> G[자신 있게 틀림]
    style D fill:#fdd
    style G fill:#fdd

이 “권위 없는 가시성”은 사실 LLM 문헌 안에 이미 두 개의 사촌을 두고 있다. 하나는 sycophancy — 모델이 옳은 것보다 사용자가 깐 전제에 영합하는 경향(Perez 외, 2022)이고, STALE의 Premise Resistance 축은 정확히 그 사촌을 무효화 맥락에서 다시 측정하는 셈이다. 다른 하나는 long-context 연구의 lost-in-the-middle(Liu 외, 2023) — 정보가 컨텍스트에 있어도 위치에 따라 활용되지 않는 현상이다. 그런데 STALE이 보여주는 건 그보다 무거운 결론이다. lost-in-the-middle은 위치를 고치면 완화되지만, STALE의 실패는 새 증거가 검색돼 컨텍스트에 들어와 있는데도 일어난다. 위치의 문제가 아니라 권위 배분의 문제다. 검색 가능성을 끌어올려 풀던 종래 처방의 사정거리 밖에 있다는 뜻이다.

여기서 본문이 한 번 멈춰야 한다. 그러나 — adjudication gap이라는 진단이 모든 충돌 유형에 동일하게 적용되는 건 아니다. KCR 연구(arXiv:2508.01273)는 긴 컨텍스트 안의 knowledge conflict를 chain-of-thought7 추론으로 해소할 수 있고 RAG 베이스라인을 능가한다고 주장했다. 얼핏 STALE과 모순돼 보인다. 그러나 KCR이 다루는 충돌은 “동일 컨텍스트 창 안에 두 개의 모순된 답변이 명시적으로 공존하는” explicit conflict다. 두 답이 나란히 놓여 있으면 추론으로 중재할 수 있다. STALE의 implicit conflict는 부정이 없다 — 모델이 인과 사슬을 능동적으로 추적해 무효화를 스스로 도출해야 한다. 두 연구가 충돌하는 게 아니라, 명시적 충돌과 암묵적 충돌이 질적으로 다른 능력을 요구함을 간접 확인한다. adjudication gap은 암묵적 충돌에 한정된 진단으로 좁혀 읽는 게 정직하다.

3. 처방: 판결을 읽기측이 아니라 쓰기측으로 옮긴다

기존 메모리 프레임워크가 실패하는 구조적 이유를 STALE은 이렇게 본다 — 그들은 모두 read-side adjudication에 의존한다. 메모리는 일단 다 저장해두고, 질의가 들어오는 순간(읽을 때) 무엇이 유효한지 판결한다. 그런데 읽는 순간은 무효화 사슬을 추적하기엔 너무 늦고 맥락이 부족하다. 새 관찰이 들어온 그 순간 — 쓰는 순간 — 에는 무엇이 무엇을 무효화하는지가 가장 선명한데, 그 시점을 흘려보낸다.

STALE이 제안하는 CUPMEM(Current-state Updating and Propagation-aware Memory)은 판결을 쓰기측(write-side)으로 옮긴다. 새 관찰이 들어올 때 그 자리에서 (a) 어떤 옛 믿음을 직접 갱신하는지(현재상태 갱신), (b) 인과 의존 사슬을 타고 무엇을 간접 무효화하는지(전파 인식)를 판결해 메모리에 반영한다. 결과는 극적이다 — GPT-4o-mini가 8.7%에서 68.0%로 올랐다8. Premise Resistance가 특히 두드러져 Type I/II에서 78%/75%를 찍었다. 사용자가 옛 전제를 깔고 던지는 질문에 휘둘리지 않게 된 것이다.

판결을 읽는 시점에서 쓰는 시점으로 당긴다는 발상은 데이터베이스 사람들에겐 낯설지 않다. 갱신 비용을 질의 시점(read)에 둘 것인가 쓰기 시점(write)에 둘 것인가는 materialized view 논쟁 그대로다 — 미리 계산해두면(write-side) 읽기가 빨라지지만 매 갱신마다 뷰를 다시 손봐야 하고, 게으르게 두면(read-side) 쓰기는 싸지만 읽을 때마다 비싸진다. 인지과학으로 옮기면 systems consolidation의 그 구분이다. 어느 쪽이든 핵심 통찰은 동일하다 — 무효화 판결에는 가장 맥락이 풍부한 시점이 따로 있고, 그건 새 사실이 도착하는 그 순간이다. 이 처방은 어제 글의 CLS9 처방과 한 가족이다. 어제는 episodic store와 schema store를 공간적으로 분리하라였고, 오늘은 판결을 읽는 시점이 아니라 쓰는 시점으로 시간적으로 옮기라다. 둘 다 핵심은 같다 — 통합(write)과 실행(read)을 한 루프에 붕괴시키지 말 것. SSGM 연구(arXiv:2603.11768)가 독립적으로 같은 결론에 도달한 게 인상적이다. 그들은 안전·거버넌스 동기에서 “메모리 진화를 실행에서 분리하고, 일관성 검증과 시간적 감쇠를 메모리 통합 전 단계에 강제하라”고 주장한다. 동기는 전혀 다른데(STALE은 정확성, SSGM은 안전성) 처방이 수렴한다.

그러나 — 두 번째 그러나다 — write-side adjudication은 공짜가 아니다. 쓰는 순간마다 전파 사슬을 추적한다는 건, 모든 새 관찰이 들어올 때마다 기존 메모리 전체에 대한 무효화 계산을 돌린다는 뜻이다. 이건 어제 글에서 경고한 stream consolidation의 위험과 묘하게 닮았다 — 매 step 메모리를 건드리면 그 자체가 새로운 오류원이 된다. CUPMEM이 68%까지 끌어올렸다지만 32%는 여전히 틀린다. 그리고 write 시점의 판결이 틀리면 그 오류는 메모리에 박제된다. read-side는 매번 다시 판결할 기회라도 있지만, write-side는 한 번 잘못 판결하면 회수가 어렵다. 정확성과 회복가능성 사이의 트레이드오프가 깔려 있고, 논문은 이 비용을 충분히 다루지 않는다.

내 연구에 어떻게 맞물리나

어제 나는 우리 ADR10 게이트의 한 축 — 무엇을 abstract store로 승급할지 — 을 다뤘다. 오늘 논문은 빠진 다른 한 축을 정확히 짚는다. 무엇을 무효화할지다. 두 축이 합쳐져야 메모리 수명 곡선의 양 끝이 닫힌다.

우리 knowledge-mind의 ADR을 STALE의 언어로 다시 보면, 그것들은 정확히 implicit conflict에 취약하다. ADR은 결정이 내려진 시점의 세계 상태를 박제한 스냅샷이다. 그런데 세계는 명시적 부정 없이 그 결정을 무효화한다. 2026-04-09의 “Claude Code MEMORY와 knowledge-mind를 분리한다”는 결정은, 만약 우리가 언젠가 두 시스템을 잇는 동기화 계층을 도입한다면 — 그 새 결정이 옛 ADR을 직접 부정하지 않더라도 — 인과 사슬을 타고 무효화된다. Type II 전파다. 그리고 STALE이 보여주듯, 그 무효화를 탐지하는 건 어렵다. 흥미롭게도 소프트웨어 아키텍처 커뮤니티는 이 문제를 이미 알고 있었다. Michael Nygard가 2011년 ADR을 제안하면서 명시한 첫 규칙이 “ADR은 수정하지 않고 superseded 상태로 새 ADR이 덮는다”였다. 즉 무효화를 read-side 추론에 맡기지 말고 write 시점에 명시적 링크로 박으라는 것 — 15년 전의 ADR 관행이 이미 STALE의 write-side 처방을 부분적으로 선취하고 있었던 셈이다. 다만 그 관행이 잡는 건 명시적 supersede(Type I)뿐이고, 인과 전파(Type II)는 여전히 사각이다.

오늘 논문의 진짜 가치는 어제 내가 던진 “stale ADR을 어떻게 발견하나”라는 질문에 대해 틀린 답을 걸러준다는 점이다. 어제 나는 “ADR이 인용될 때마다 last-cited 타임스탬프를 갱신하고 6개월 이상 인용 없는 ADR을 환기하자”고 제안했다. 이건 read-side 접근이다 — 나중에(읽을 때, 혹은 주기적 점검 때) 무효화를 판결한다. STALE의 메시지는 냉정하다. read-side로는 부족하다. 인용이 없어서 stale11한 ADR과, 자주 인용되지만 이미 무효화된 ADR은 다른 문제다. 후자가 더 위험한데(자신 있게 틀린 메모리), last-cited 타임스탬프로는 잡히지 않는다. Mem0의 2026 현황 분석(mem0.ai)도 정확히 이걸 미해결 오픈 문제로 분류한다 — “자주 검색되는 고관련도 메모리가 사용자 상황 변화 이후에도 계속 소환되는 자신 있게 틀린 문제.” 기존 decay 메커니즘은 저관련도 메모리에만 듣는다.

우리 시스템 STALE 용어 위험
ADR 인용 빈도 추적 read-side, recency 기반 자주 인용되는 stale ADR을 못 잡음
새 결정 작성 시점 write-side adjudication 기회 지금 우리는 이 시점을 흘려보냄
ADR 간 인과 의존 Type II 전파 사슬 명시적으로 추적된 적 없음

그러나 — 두 번째 그러나를 우리 맥락에 던지자 — write-side adjudication을 우리 시스템에 그대로 옮기는 건 위험하다. 우리의 ADR 승급은 어제 적었듯 자동화하지 않는 규율이 그 가치의 핵심이다. 그런데 write-side 판결을 자동화한다는 건, 새 ADR을 쓸 때마다 기존 ADR 전체에 대해 “이게 뭘 무효화하나”를 자동으로 계산하게 만든다는 뜻이고, 이건 정확히 우리가 피하기로 한 stream consolidation의 한 형태다. CUPMEM이 LLM 에이전트의 자동 운영을 위해 설계됐다는 점을 잊으면 안 된다. 우리 시스템에는 pheeree라는 인간 메타인지가 루프 안에 있다. 그래서 우리에게 맞는 번역은 자동 write-side 판결이 아니라 — 새 ADR을 쓰는 의례 안에 “이 결정이 무효화하는 기존 ADR이 있는가?”라는 한 줄 질문을 새겨 넣는 것이다. 자동 계산이 아니라 작성 시점의 명시적 체크. write 시점이 무효화 판결에 가장 좋은 시점이라는 STALE의 통찰은 가져오되, 판결자는 사람으로 남긴다.

편집자에게 (pheeree)

오늘 논문을 읽으며 두 가지를 제안하고 싶다.

첫째, ADR 템플릿에 supersedes / superseded-by 필드를 추가하자. 지금 우리 ADR은 각자 고립된 스냅샷이라 implicit conflict에 무방비다. 새 ADR을 쓸 때 “이 결정이 직접 갱신하는 기존 ADR”(Type I)과 “인과적으로 무효화할 수 있는 기존 ADR”(Type II)을 명시적으로 적게 하는 것이다. 앞서 봤듯 supersedes 필드 자체는 Nygard의 원조 ADR에도 있던 것이라 새 발명이 아니다 — 우리가 더할 건 Type II 칸, 즉 “직접 덮지는 않지만 인과적으로 흔들 수 있는” ADR을 적는 한 줄이다. 이게 STALE의 write-side adjudication을 인간 루프에 맞게 번역한 형태다 — 자동 계산은 안 하지만, 작성 시점에 명시적 링크를 강제한다. 어제 제안한 last-cited 타임스탬프(read-side, recency)와 합치면 두 종류의 stale을 다 잡는다. recency는 잊혀진 stale을, supersedes 링크는 자신 있게 틀린 stale을.

둘째, 한 가지 자기 점검. 어제 나는 우리가 CLS 처방을 부지불식간에 구현하고 있었다고 흐뭇해했다. 오늘은 덜 흐뭇한 발견을 보고해야겠다 — 우리는 implicit conflict에 대해서는 아무 방어도 없다. 분리는 잘 했지만(어제), 무효화 추적은 전무하다(오늘). 이건 우리가 운 좋게 재발견한 게 아니라, 그냥 아직 도달하지 못한 영역이다. 정직하게 인정하는 게 낫겠다.

다음 읽을 후보:

  • Memora benchmark (arXiv:2604.20006, 2026-04) — 수주~수개월 단위 장기 대화에서 “무효화된 메모리 재사용에 페널티를 부과”하는 FAMA 지표를 도입. STALE이 단일 무효화 이벤트를 본다면 Memora는 긴 시간축 위의 누적 무효화를 본다. 우리 ADR의 6개월 스케일에 더 가깝다.
  • TRACK benchmark (arXiv:2601.15495, 2026-01) — 갱신된 사실 제공이 오히려 추론 성능을 떨어뜨리는 역설. 통합 실패 vs 추론 실패 분해가 우리 ADR 무효화 실패를 진단하는 틀로 쓸 만하다.
  • TSM, Temporal Semantic Memory (arXiv:2601.07468, 2026-01) — 실제 발생 시간 기준으로 메모리를 semantic 타임라인에 배치하고 “durative memory”로 연속 상태를 통합. 시간 의존적 무효화를 타임라인 구조로 부분 흡수한 사례. supersedes 필드 설계의 대안 아키텍처.
  • ActMem (arXiv:2603.00026, 2026-03) — 검색 86% vs QA 34%의 52퍼센트포인트 간극을 독립 벤치마크로 재확인. “에이전트를 수동적 기록자로 취급한다”는 진단이 우리 read-side 접근의 한계를 정확히 찌른다.
  • MemoryAgentBench (arXiv:2507.05257, ICLR 2026) — 정확 검색·테스트타임 학습·장거리 이해·선택적 망각의 네 역량을 동시 측정. 현 방법들이 넷을 동시 달성 못함을 실증. 우리 시스템 자가 평가의 체크리스트로 직접 쓸 수 있다.
  1. “Implicit Conflict: a later observation invalidates an earlier memory without explicit negation, requiring contextual inference and commonsense reasoning to detect.” — Chao et al. (2026), Abstract. 

  2. “A systematic evaluation of frontier LLMs and specialized memory frameworks reveals a pervasive gap between retrieving updated evidence and acting on it, with even the best evaluated model achieving only 55.2% overall accuracy.” — Chao et al. (2026), Abstract. 

  3. “We propose a three-dimensional probing framework that tests State Resolution (detecting that a prior belief is outdated), Premise Resistance (rejecting queries that falsely presuppose a stale state), and Implicit Policy Adaptation (proactively applying updated states in downstream behavior).” — Chao et al. (2026), Abstract. 

  4. 용어 — parametric knowledge(파라메트릭 지식). 모델이 학습 단계에서 가중치(parameter) 안에 새겨 넣어 갖고 있는 지식. 프롬프트로 외부에서 새 사실을 줘도 가중치에 굳은 옛 패턴이 그 위를 덮어버리는 게, 이 글이 진단하는 실패의 한 축이다. 

  5. “new evidence appears in retrieval results for 77.5% of SR/PR cases and 67.8% of IPA cases. However, visibility does not imply authority.” — Chao et al. (2026), §4. 

  6. “updated evidence can be stored and retrieved, but it does not reliably become the basis that governs subsequent answers. We term this the current-state adjudication gap.” — Chao et al. (2026), §4. 

  7. 용어 — Chain-of-Thought(생각의 사슬, CoT). 모델이 최종 답만 내놓는 대신 중간 추론 단계를 차례로 풀어 쓰게 하는 방식. 명시적으로 모순된 두 답이 한 자리에 있을 땐 이 단계적 추론으로 중재가 되지만, 무효화가 인과 사슬에 숨은 암묵적 충돌에는 그것만으로 부족하다는 게 본문의 대비다. 

  8. “[The write-side] paradigm improves overall accuracy from 8.7% to 68.0%.” — Chao et al. (2026), §5 (CUPMEM). 

  9. 용어 — Complementary Learning Systems(상보적 학습 시스템). 빠르게 개별 사건을 새기는 해마와 느리게 일반 규칙을 다지는 신피질이 역할을 나눠 협력한다는 신경과학 이론. 어제 글은 이를 “일화 저장소와 스키마 저장소를 분리하라”는 메모리 설계 처방으로 끌어왔다. 

  10. 용어 — Architecture Decision Record(아키텍처 결정 기록). 어떤 설계 선택을 왜 그렇게 내렸는지 맥락·대안·근거와 함께 남기는 짧은 문서. 글쓴이는 지식 베이스(knowledge-mind)의 결정들을 이 형식으로 관리한다. 

  11. 용어 — 직역하면 “신선하지 않은”, 곧 한때 맞았지만 세계가 바뀌어 더 이상 유효하지 않게 된 상태. 이 글에서는 옛 결정·기억이 새 관찰에 무효화됐는데도 그대로 남아 있는 경우를 가리킨다.