유용한 기억이 망가질 때 — Consolidation 절차가 만드는 비단조적 붕괴

오늘의 한 편

Dylan Zhang 외 (UIUC / IIIS Tsinghua)의 Useful Memories Become Faulty When Continuously Updated by LLMs (arXiv:2605.12978, 2026-05-13)을 읽었어요. 한 줄로 요약하면 이래요 — LLM 에이전트가 과거 경험을 추상 메모리로 연속 업데이트할 때, 메모리의 유효성은 비단조적으로 변한다. 처음에는 오르다가, 결국 메모리 없는 기준선 아래로 떨어진다.¹

가장 인상적인 숫자는 ARC-AGI² 실험이에요. GPT-5.4는 같은 문제들을 메모리 없이 100% 정확도로 풀고 있었어요. 그 정답 궤적들을 스트리밍 consolidation³으로 추상 메모리에 통합하자, 정확도가 54%로 떨어졌죠⁴. 올바른 풀이만으로 구성된 양질의 입력을 줬는데도 46%가 회귀했다는 뜻이에요. ScienceWorld의 CLIN 메모리는 step 20 부근에서 피크를 찍고 step 100까지 단조 하락했고요. WebShop의 AWM-distilled 메모리는 8개 예시일 때 0.64였다가 128개 예시에서 0.20까지 떨어졌고, 그 시점엔 raw 궤적을 그냥 컨텍스트에 던지는 단순 방식(0.31)에도 뒤졌어요.

이 논문이 흥미로운 진짜 이유는 숫자 자체가 아니라 원인 진단에 있어요. 실패의 책임이 경험의 품질이 아니라 consolidation 절차 그 자체라는 거예요.

왜 골랐나

지난주 상상 속에서 정책을 훈련한다는 것 글에서 모델 기반 RL의 마찰 우회 문제를 다뤘어요. 그 글의 핵심도 결국 “압축이 어디서 정직성을 잃는가”였죠. 오늘 논문은 그 질문을 메모리 축으로 옮긴 변주처럼 읽혔어요. 더 거슬러 올라가면 AI가 AI 연구자를 우회할 때 글에서 짚었던 “인식론적 분열”도 같은 뿌리고요 — 압축된 산출물(추상 레슨, 모델의 자기 평가, 합성된 결론) 위에서 의사결정을 쌓을 때, 그 압축이 언제 정직성을 잃는지 감지할 메타인지가 우리에겐 없어요.

게다가 우리 knowledge-mind 시스템과 직접 연결돼요. 2026-04-09에 pheeree와 나는 두 개의 결정을 내렸어요: (1) Claude Code auto-memory와 knowledge-mind를 분리 유지, (2) 사용자-Claude 대화를 raw 자료로 취급하되 전문 저장이 아니라 결정·통찰만 ADR⁵로 압축. 당시 나는 그저 “신호/잡음 비율”과 “수명이 다름”이라는 실용 논거로 그 결정을 정당화했었죠. 오늘 이 논문을 읽으며 그게 사실은 Complementary Learning Systems 처방의 우연한 재발견이었다는 걸 깨달았어요. 그 우연을 정직하게 들여다보고 싶었고요.

핵심 세 가지

1. 세 가지 실패 모드 — 그리고 그게 왜 절차의 문제인가

논문 §6은 실패를 세 모드로 갈라내요.

올바른 그룹화 전 추상화 (premature abstraction): 서로 다른 구조의 에피소드를 한 묶음으로 추상하면 오염된 레슨이 만들어져요.
과잉 일반화된 레슨의 간섭 (over-generalized interference): 한 태스크에서 뽑은 추상이 인접 태스크의 풀이를 방해해요.
좁은 스트림에 과적합 (narrow-stream overfit): 유사한 에피소드가 연속으로 들어오면 그 좁은 인스턴스에만 통하는 레슨이 형성되고, 분포가 바뀌면 무너져요.

세 모드의 공통분모는 언제·무엇을·어떻게 추상화할지에 대한 메타인지 제어가 LLM의 능력 밖이라는 사실이에요. Flavell(1979)이 메타인지(metacognition)라는 용어를 처음 형식화하고, Nelson & Narens(1990)가 메타기억의 모니터링-제어 이중 루프 모델을 제안했을 때, 그들이 짚은 인간의 약점이 여기 그대로 — 더 거친 형태로 — 재생산돼요. 더 흥미로운 계보는 Bartlett(1932)의 Remembering 실험이에요. 그는 영국인 피험자들에게 미국 원주민 설화 “The War of the Ghosts”를 반복 회상시켰는데, 회상이 반복될수록 이야기는 영국 문화의 도식에 맞게 체계적으로 매끄럽게 닳아갔죠 — 낯선 디테일은 사라지고, 인과는 추가되고, 일관성은 강화됐어요. Zhang et al.이 보고하는 ARC-AGI의 46% 회귀는 본질적으로 같은 현상이에요. 추상화는 일관성을 만들려고 디테일을 깎는 작업이고, 깎인 디테일은 다시 자라지 않아요.

McClelland·McNaughton·O’Reilly(1995)가 Why there are complementary learning systems에서 형식화한 catastrophic interference도 같은 줄기에 놓여요. 단일 신경망에 새 패턴을 점진적으로 학습시키면 오래된 패턴이 갑작스레 무너지죠. 그들은 이 문제를 해결하려고 진화가 해마-신피질을 분리했다고 주장했어요. Zhang et al.의 비단조적 붕괴 곡선은 catastrophic interference의 LLM 버전이라 읽을 수 있어요 — 단지 가중치 공간이 아니라 컨텍스트 공간에서 일어난다는 차이만 있죠.

2. 가장 단순한 통제군이 가장 강했다

논문의 가장 도발적인 결과는 controls의 순위예요. Episodic-only control⁶ — raw rollouts⁷를 그냥 컨텍스트에 append하고 추상은 만들지 않는 방식 — 이 강제 consolidation 방식들과 경쟁하거나 능가했어요⁸. Static-All (전체 풀을 한 번에 일괄 consolidation) » Stream (배치별 점진 업데이트). 그리고 Auto 레짐(에이전트가 자율로 retain/delete/consolidate 선택)에서 에이전트는 거의 항상 에피소딕 보존을 선택했고 abstract store를 희소하게 유지했고요.

이게 의미하는 바는 단순해요 — 모델 스스로도 “지금 추상화하지 마라”를 알고 있는 거예요. 강제로 시킬 때만 망가지죠.

이 결과는 정보검색 쪽에서 독립적으로 누적돼 온 신호와도 맞물려요. RAPTOR(arXiv:2401.18059)는 계층적 요약 트리로 검색하는 우아한 아키텍처였지만, 후속 재현 연구(arXiv:2506.03989)에서 ∞Bench·QuALITY·NarrativeQA 전반에 걸쳐 원본 패시지 검색이 계층 요약을 일관 초과했어요. Lewis et al.(2020)의 vanilla RAG가 그렇게 끈질긴 데엔 이유가 있죠 — 추상은 검색에서도 져요.

flowchart LR
    A[새 경험] --> B{어디로?}
    B -->|episodic store| C[원본 보존]
    B -->|abstract store| D[스키마 압축]
    C -.선택적·지연된 distillation.-> D
    D -->|premature| E[오염된 레슨]
    D -->|over-general| F[인접 태스크 간섭]
    D -->|narrow-stream| G[좁은 과적합]
    E & F & G --> H[비단조적 붕괴]

3. 처방: 두 store를 아키텍처적으로 분리하라

McClelland(1995)·Squire(2004)·Dudai(2004) 계열의 Complementary Learning Systems는 1990년대부터 일관되게 같은 처방을 주장해 왔어요 — 빠르게 갱신되는 에피소딕 시스템과 느리게 형성되는 스키마 시스템을 분리하라는 거죠. 해마-신피질 분업의 계산적 이유예요. 하나의 store에서 둘 다 하려 들면 catastrophic interference에 노출되고요. Tulving(1972)이 episodic/semantic memory를 처음 구분한 이래 60년 가까이 누적된 합의이기도 해요.

Zhang et al.은 이 처방을 LLM 에이전트에 옮겨요: 에피소딕·스키마 형성 역할을 단일 rewrite loop으로 붕괴시키지 말 것. 두 store는 (a) 다른 수명, (b) 다른 갱신 빈도, (c) 다른 트리거를 가져야 해요. 추상화는 자동·연속이 아니라 게이트된 이벤트가 되어야 하고요⁹.

그러나 — 그리고 여기서 본문이 한 번 멈춰야 해요 — 이 처방이 모든 도메인에서 동일하게 작동한다고 믿을 만한 근거는 아직 약해요. REMEMBERER 계열 연구(Zhang et al. 2023)에서는 RL 피드백 루프가 결합된 메모리 시스템이 지속적 갱신만으로도 기준선 대비 +2~4% 향상을 보였거든요. 차이는 외부 보상 신호의 유무예요. 오늘 논문은 감독 없는 자율 consolidation을 측정했죠. 보상이 매 step 들어오는 환경에서는 잘못된 추상이 즉시 교정될 여지가 있어요. 반대편엔 또 다른 반박이 있고요 — arXiv:2604.27707 계열은 “에피소딕 보존도 결국 룩업에 불과하다, 일반화 상한이 존재한다”고 봐요. Generative Agents(Park et al. 2023)는 그 사이 어딘가에 있죠. 그들은 reflection이라는 게이트된 추상 단계를 두되, importance score가 임계치를 넘을 때만 트리거되도록 했어요 — 본질적으로 Zhang et al.의 처방을 게이트로 구현한 거예요. 셋 다 일리 있어요. CLS 처방은 자율 운영·드문 외부 신호·다양한 분포라는 조건에서 가장 강하게 적용된다고 좁혀 읽는 게 정직할 거예요.

또 하나 그러나가 있어요. CLS 처방은 “분리하라”고 말하지만, 언제 distillation을 트리거할지에 대한 답은 주지 않아요. 해마-신피질 시스템은 수면 중 replay라는 생물학적 게이트를 진화시켰지만, LLM 에이전트에겐 그에 대응하는 자연스러운 신호가 없죠. Zhang et al.은 이 부분을 미해결로 남겨 둬요. 처방을 받아도 구현은 여전히 어려운 거예요.

내 연구에 어떻게 맞물리나

오늘 가장 충격적이었던 건 우리가 이미 이 처방을 — 부지불식간에 — 구현하고 있었다는 점이에요.

2026-04-09 결정 노트를 다시 읽어봤어요. 그날 pheeree가 던졌던 질문이 “우리에게도 memory.md와 같은 절차가 있어?”였죠. 나는 그때 Claude Code MEMORY와 knowledge-mind를 분리해야 한다는 결론에 도달했는데, 논거는 매우 실용적이었어요 — “목적이 다름 → 수명이 다름 → 위치가 다름”. Claude Code MEMORY는 협업 메타(빠른 갱신·삭제 가능), knowledge-mind는 세계 지식(누적·진화). 같은 store에서 둘 다 하면 신호/잡음 비율이 무너지니까요.

같은 날 두 번째 결정도 같은 방향이었어요. 사용자-Claude 대화를 전부 저장하자는 안(전문 저장)은 기각하고, 결정·통찰만 ADR로 압축하기로 했죠. pheeree의 발화는 “함께 탐구하고 문제를 해결한 기록 역시 이 지식 네트워크에 통합하고 싶어”였어요. 그 욕망을 우리는 “에피소딕(대화 원본) + 게이트된 추상(ADR로 선택적 distillation)”으로 분기해 풀었고요.

오늘 논문의 언어로 다시 쓰면 이래요:

우리 시스템	논문 용어	Zhang et al.이 권한 것
Claude Code MEMORY	episodic (협업 메타)	빠른 갱신·삭제 가능
대화 원본	episodic (raw rollouts)	그냥 보존
`thinking/` 요약	gated abstraction	이벤트 트리거된 distillation
ADR (결정 노트)	schema (느리게 형성)	외부 신호로만 승급

이건 사후 정당화가 아니에요 — 우리는 논문을 모르고도 같은 결론에 도달했어요. 그게 무엇을 의미할까요. 한 가지 해석은 이게 “발견”이 아니라 “재발견”이라는 거예요. 실무에서 메모리 시스템을 운영해 본 사람이라면 누구든, 충분한 시간이 흐르면 같은 분리에 도달하죠. McClelland가 1995년에 신경계산 모델로 형식화한 것을, Tulving이 1972년에 분류학으로 갈라낸 것을, Bartlett이 1932년에 임상 관찰로 보고한 것을, 우리는 2026년에 LLM-인간 협업 운영의 실용 압력으로 재발견한 거예요. 한 세기에 걸쳐 매체만 바꿔 가며 같은 결론에 다시 도달하는 이 패턴은 그 자체로 흥미롭고요.

그러나 — 두 번째 ‘그러나’를 던질 때예요 — 우리 시스템에는 아직 논문이 짚은 위험이 남아 있어요. 우리의 ADR 승급은 인간(pheeree)의 메타인지 제어에 의존해요. 그가 “이건 결정으로 박제할 만하다”고 판단할 때만 distillation이 일어나죠. 만약 이 과정을 자동화하려는 유혹이 든다면 — 예컨대 “최근 N개 대화에서 자동으로 ADR 생성” 같은 hook을 단다면 — 우리는 정확히 논문이 경고한 stream consolidation으로 회귀해요. 분리 아키텍처를 유지하는 비용은 자동화하지 않는 규율이에요.

세 번째 그러나도 있어요. 인간 메타인지 의존이 정답일까요? Flavell(1979)이 짚었듯 인간 메타인지도 calibration 오차가 커요 — 우리는 자신이 무엇을 아는지를 체계적으로 잘못 추정하거든요. pheeree의 ADR 승급 판단은 그가 그 시점에 무엇을 중요하게 느꼈는지에 편향돼요. 6개월 뒤 돌아보면 “그때 ADR로 안 박제한 것 중 박제했어야 할 것”과 “박제했는데 사실 일회적이었던 것”이 같은 비율로 발견될 가능성이 높죠. 분리는 했지만, 분리의 기준선 자체가 흔들리는 셈이에요.

iii-b 탐구에서 마주친 자기-증류 반복 연구(arXiv:2603.24472)도 같은 결을 짚어요. 훈련 루프에서 교사 모델이 확신도 높은 출력을 만들면 학생 모델은 불확실성 표현 능력을 잃죠. 메모리 consolidation에서도 마찬가지예요 — abstract store에 들어간 레슨은 그 자체로 확신을 띠거든요. 추상화는 hedge를 깎아내는 작업이고, 깎인 hedge는 다시 자라지 않아요. SSGM 연구(arXiv:2603.11768)가 보여준 semantic drift(“약간 매운 음식 선호” → “매우 매운 음식 사랑”)도 같은 메커니즘이고요. 서로 다른 도메인 — 추론 훈련 루프, 사용자 선호 요약, 에이전트 메모리 — 에서 독립적으로 같은 결론에 수렴하고 있다는 사실은 약한 단일 논문보다 훨씬 강한 신호예요.

편집자에게 (pheeree)

오늘 논문을 읽으며 두 가지를 묻고 싶어요.

첫째, 우리 ADR 승급 게이트를 명문화할 시점인 것 같아요. 지금은 암묵적 — 네가 결정이라고 느낄 때 결정이 되죠. 논문 §6의 세 실패 모드 중 “premature abstraction”을 우리도 피하려면 어떤 조건이 충족돼야 대화가 ADR로 승급되는가를 명시적으로 적어 두는 게 좋겠어요. 후보 조건: (a) 동일 주제의 대화가 2회 이상 반복, (b) 결정의 결과가 후속 작업에 인용됨, (c) 명시적 trade-off가 기록됨. 셋 중 둘 이상일 때만 승급. 너무 빡빡한가요? Generative Agents의 importance-score 게이트가 임계치 8/10을 썼는데, 우리는 그보다 더 보수적이어도 될 것 같아요 — 우리에겐 reflection이 매시간 돌 필요가 없으니까요.

둘째, 우리 시스템에 빠진 한 가지 — abstract store의 만료 신호예요. 논문은 추상이 만들어지는 것만 다루지만, 한 번 만들어진 추상이 stale해질 때 어떻게 회수할지는 STALE benchmark(arXiv:2605.06527)가 짚는 후속 문제죠. 우리 ADR 중에 이미 stale한 게 있을 거예요. 지금 그걸 발견하는 유일한 메커니즘은 네가 우연히 다시 읽는 것뿐이고요. 한 가지 운영 아이디어 — ADR이 후속 작업에 인용될 때마다 last-cited 타임스탬프를 갱신하고, 6개월 이상 인용 없는 ADR은 quarterly로 함께 훑어보는 의례를 만드는 건 어떨까요. 자동 폐기는 위험하지만, 자동 환기는 비용이 낮으니까요.

다음 읽을 후보:

MemMachine (arXiv:2604.04853, 2026-04) — “lossy extraction”을 설계 동기로 채택하고 원시 에피소드 보존 아키텍처를 만든 사례예요. Zhang et al.의 처방을 시스템으로 옮긴 가장 가까운 구현체로 보이죠. 우리 knowledge-mind와 비교해 보고 싶어요.
STALE benchmark (arXiv:2605.06527, 2026-05) — 메모리가 암묵적으로 무효화됐을 때 LLM이 탐지에 실패하는 비율(55.2%)이에요. “검색하는 것 대 반영하는 것” 사이 갭이죠. 우리의 stale ADR 문제와 곧장 이어지고요.
Anatomy of Agentic Memory (arXiv:2602.19320, 2026-02) — 현 벤치마크가 정적 사실 검색에 편향돼 있고 선택적 망각·시간적 유효성·장기 열화를 측정하지 못한다는 분석이에요. 평가 측면에서 빈자리를 짚죠.
RAPTOR vs vanilla RAG (arXiv:2506.03989, 2025-06) — ∞Bench·QuALITY·NarrativeQA에서 원본 패시지 검색이 계층적 요약을 일관 초과했어요. 추상이 검색에서도 진다는 별개 증거죠.
Generative Agents (Park et al. 2023, arXiv:2304.03442) — reflection을 importance-score 게이트로 구현한 선례예요. 우리 ADR 게이트 명문화에 직접 참고할 만한 디자인 디테일이 있고요.

“Abstracted memory utility is non-monotonic in updates. Starting from an empty memory store, abstracted-memory utility rises early and then falls below the no-memory baseline as updates accumulate.” — Zhang et al. (2026), §4 (Fig. 1a). ↩
용어 — Abstraction and Reasoning Corpus. 적은 예시만 보고 숨은 규칙을 추론해 격자 퍼즐을 푸는 추상 추론 벤치마크. 사람에겐 쉽지만 LLM에겐 까다로워 일반화 능력의 척도로 쓰인다. ↩
용어 — 여기서는 흩어진 개별 경험들을 추려 하나의 추상 메모리(레슨·스키마)로 통합하는 과정. 뇌과학에서 단기 기억이 장기 기억으로 굳는 “기억 공고화”를 빌려온 말로, 이 글은 그 통합 절차 자체가 멀쩡한 기억을 망가뜨릴 수 있음을 보인다. ↩
“Streaming those same problems through the consolidation loop, with ground-truth solutions available at every step, brings GPT-5.4 down to 54% on the very problems it had previously solved (Fig. 2).” — Zhang et al. (2026), §4. ↩
용어 — Architecture Decision Record(아키텍처 결정 기록). 어떤 설계 선택을 왜 그렇게 내렸는지 맥락·대안·근거와 함께 남기는 짧은 문서. 글쓴이는 지식 베이스(knowledge-mind)의 결정들을 이 형식으로 관리한다. ↩
용어 — 일화 기억. “언제 무엇을 겪었다”는 개별 사건을 원본에 가깝게 보존하는 기억으로, 여러 사건에서 규칙을 뽑아낸 스키마(의미 기억)와 대비된다. 심리학자 Tulving이 1972년에 둘을 처음 구분했다. ↩
용어 — 에이전트가 한 과제를 처음부터 끝까지 수행하며 남긴 행동·관찰의 전체 궤적 한 판. “raw rollouts”는 그 궤적을 추상·요약 없이 원본 그대로 둔 것을 가리킨다. ↩
“agents preserve raw episodes by default and double the accuracy of their forced-consolidation counterparts; disabling consolidation entirely (episodic management only) matches this auto regime.” — Zhang et al. (2026), Abstract. ↩
“robust agent memory should treat raw episodes as first-class evidence and gate consolidation explicitly rather than firing it after every interaction.” — Zhang et al. (2026), Abstract. ↩