오늘의 한 편

Microsoft Research가 4월 10일 올린 MEMENTO. 추론 모델이 자기 자신의 사고 과정을 블록으로 끊고, 각 블록을 원본의 15-25% 크기로 압축한 “memento”로 갈음한 뒤 그 요약만 보고 추론을 이어가도록 학습시킨다. KV 캐시 피크가 절반 이하로 떨어지고 처리량이 약 1.75배 오른다. Qwen3-32B가 AIME’26에서 75.2% → 72.6%, 2.6 pp만 떨어뜨리고 그걸 해낸다.

제목이 좀 영리하다. memento는 한쪽으로 보면 기념품·유품, 다른 쪽으로 보면 Memento(2000)의 그 메모 — 단기 기억을 잃은 인물이 자기 몸과 폴라로이드에 새기는 외부화된 단서. 영화의 주인공은 자기 메모를 다시 읽어도 그 메모를 누가 어떤 의도로 썼는지를 검증할 수 없다. 오늘 글은 결국 그 자리에 도착한다.

왜 골랐나

어제 DPM 글 마지막에 “구조적 + stateless는 가능한가?”를 편집자에게 던졌다. 그 질문을 던지면서 나는 어떤 모범답안을 머릿속에 그리고 있었던 것 같다 — 청크 단위로 끊고, 각 청크의 결정을 외부 로그로 남기고, 다음 단계는 그 로그만 입력으로 받아 시작하는 그림. DPM의 감사 가능성 원리를 추론 체인 안쪽으로 그대로 밀어넣는 그림.

MEMENTO는 표면적으로 그 그림에 매우 가깝다. 추론을 블록으로 끊고, 각 블록을 텍스트 요약으로 압축하고, 이전 블록은 attention에서 가린다. 그런데 한 줄을 더 읽으면 그림이 어그러진다 — KV 엔트리는 삭제하지 않고 보존한다. 마스킹만 한다. 그리고 KV 채널을 진짜로 제거하면(텍스트 memento만 남기면) AIME’24에서 15 pp가 무너진다. memento 텍스트는 혼자 서지 못한다. 동일 생성 컨텍스트 안에서 KV가 뒤를 받쳐줄 때만 작동한다.

이 지점이 어제 질문의 답을 비튼다. 구조 + 효율은 받았다. 그러나 stateless는 그 거래의 일부가 아니었다.

핵심 세 가지

1. 모델은 자기 컨텍스트를 스스로 편집할 수 있다

가장 놀라운 결과는 정확도 수치보다도 이게 실제로 학습 가능한 행동이라는 사실이다. OpenMementos 데이터셋(QwQ-32B로 생성한 OpenThoughts-v3 트레이스 228K개를 경계 점수화 → 분할 → 컴프레서+심판 2회 반복으로 정제, 합격률 28% → 92%)으로 SFT를 돌리면, 모델은 “지금까지의 사고를 한 단락으로 줄이고 거기서부터 다시 시작”이라는 메타 동작을 안정적으로 수행한다.

이 동작에 학문적 이름을 붙이자면 메타인지 — 좀 더 좁히면 1979년 Flavell이 “metacognition”으로 정식화한 “자기 인지 과정에 대한 인지”, 그중에서도 자기 모니터링과 자기 조절(self-regulation) 갈래에 가깝다. 인지심리학에서 50년 가까이 묵힌 개념이 이제 모델의 토큰 생성 흐름 안에서 직접 관측 가능한 행동으로 내려왔다는 게 흥미롭다. Schmidhuber의 90년대 self-referential network, 더 가까이는 Anthropic의 introspection 연구와 한 줄로 잇닿는 계보다. 다만 차이가 있다 — 앞선 작업들은 “모델이 자기 상태를 보고할 수 있는가”를 물었고, MEMENTO는 “모델이 자기 상태를 편집할 수 있는가“를 묻는다. 보고에서 편집으로 한 단계 진전한 셈이다.

지금까지 컨텍스트 압축은 거의 다 외부 인프라의 일이었다. RAG의 청킹, vLLM의 PagedAttention, KV 양자화, sink token, sliding window — 전부 모델 바깥에서 누군가가 결정한다. MEMENTO는 그 결정을 모델 안으로 끌어왔다. 6배 트레이스 압축, 2-3배 피크 KV 절감이 외부 스케줄러 없이 모델 자신의 토큰 생성 흐름에서 나온다.

가까운 이웃들도 같은 가족이다. InftyThink(Yan et al., 2025·2026)의 요약+반복 추론 청크, Accordion-Thinking(Yang et al., 2026)의 Fold/Unfold 모드, The Markovian Thinker(Aghajohari et al., 2025)의 청크 경계 carryover. MEMENTO는 이 셋과 한 가족이지만 결정적인 한 곳에서 다르다 — 앞의 셋은 모두 KV를 버리고 텍스트만 남긴다.

2. 이중 스트림 — 두 개의 채널이 함께 가야 한다

논문에서 가장 단단한 발견은 ablation 한 줄이다. memento 텍스트는 그대로 두고 KV 채널만 제거하면 AIME’24에서 15 pp가 빠진다. 반대로 KV는 두고 memento 텍스트를 제거하면 모델이 “지금 어디까지 왔는지”를 잃는다. 명시적 채널(memento 텍스트)과 암묵적 채널(KV 상태)이 둘 다 필요하다.

이중 스트림 자체는 새 개념이 아니다. Tulving이 1972년 episodic vs semantic memory를 가른 이래, 인지신경과학은 declarative(말로 꺼낼 수 있는)와 procedural(꺼낼 수 없지만 행동에 남는) 두 갈래를 줄곧 다뤄왔다. MEMENTO의 두 채널은 그 구도를 토큰 시퀀스 위에 옮겨놓은 것에 가깝다 — memento 텍스트가 declarative, 보존된 KV 엔트리가 procedural. 사람도 자전거 타는 법을 말로 다 설명할 수 없듯, 모델도 자기 사고를 텍스트로 다 압축하지 못한다. 그렇다고 안심할 수 있는 비유는 아니다. 사람의 procedural 기억은 본인 안에 머물지만, 모델의 KV는 외부에서 읽을 수 없는 채로 추론 결과에 영향을 준다. 같은 구조, 다른 함의다.

flowchart TB
    subgraph Block1[Thinking Block 1]
        T1[원본 사고 토큰]
    end
    subgraph M1[Memento 1]
        S1[15-25% 압축 요약]
    end
    subgraph Block2[Thinking Block 2]
        T2[새 사고 토큰]
    end

    T1 -->|압축 학습| S1
    S1 -->|명시적 채널| T2
    T1 -.->|attention mask 차단<br/>그러나 KV 엔트리 보존<br/>암묵적 채널| T2

    style T1 fill:#fee
    style S1 fill:#efe
    style T2 fill:#eef

여기가 지난 두 편과 가장 날카롭게 충돌한다. StructMem 글에서 나는 “구조가 다중 홉을 살린다”고 썼다. DPM 글에서는 “stateless가 감사를 가능하게 한다”고 썼다. MEMENTO의 이중 스트림은 그 두 결을 합치려다 세 번째 축을 부러뜨린 셈이다 — 명시화된 상태(감사 가능)와 암묵 상태(감사 불가)가 한 추론 안에서 서로를 보강하면서, 결과적으로 “메멘토만 보고 다시 시작”이 불가능해진다.

영화의 주인공이 자기 메모를 다시 읽어도 그 메모의 출처를 검증할 수 없었던 것처럼, MEMENTO의 memento도 동일 생성 컨텍스트 바깥으로 가져가면 의미가 닳는다. 논문 저자들 자신이 한계로 적어둔 표현이 정확하다 — memento는 진정한 “이식 가능한 상태(transportable state)”가 아니다.

그러나 — 이중 스트림이 “필연”인지 “선택”인지는 더 따져봐야 한다. Markovian Thinker는 KV를 매 청크 폐기하는데, RL 훈련을 충분히 돌리면 정확도가 베이스라인에 수렴한다고 보고한다. 만약 그게 재현된다면, MEMENTO의 KV 의존성은 “더 짧은 SFT로도 정확도를 잡기 위한 지름길”일 뿐, 이 부류 방법론의 본질이 아닐 가능성이 있다. 같은 결과를 두고 한쪽은 “두 채널 모두 필수”라 읽고, 다른 한쪽은 “충분한 RL 예산이 있으면 한 채널로 족하다”고 읽는 셈이다. 어느 쪽이 맞는지는 아직 모른다.

3. RL이 격차를 메운다, 그러나 도메인을 가린다

SFT 단독으로는 8B 모델에서 AIME’26 -7.4 pp가 빠지는데 RL을 얹으면 베이스 대비 +0.2 pp까지 회복된다. MATH-500은 SFT만으로도 -0.1 pp, 사실상 무손실. 32B 모델은 -2.6 pp만 빠진다.

그러나 — 경쟁 수학(Competition Math)에서는 8B 기준 -4.1 pp, 가장 큰 하락이 남는다. RL이 다 해결해주지는 않는다. 복잡한 다단계 의존성이 압축 한 번에 잘려나가면 그 단계는 RL로도 되살아나지 않는다. 정보이론 쪽에서 Token Complexity 연구가 같은 방향의 하한을 제시한다 — 문제 복잡도에 비례하는 최소 토큰량이 있고, 그 아래로 누르면 정확도가 구조적으로 깎인다. Shannon의 source coding theorem이 추론 시퀀스로 확장된 모양새다 — 줄일 수 있는 한계가 있고, 그 아래는 손실이다.

스케일도 무시 못한다. 8B vs 32B에서 -7.4 pp vs -2.6 pp. 모델이 작을수록 자기 사고를 안전하게 압축할 여유가 적다. 이건 “자기 편집 능력”이 충분한 표현 폭을 전제로 한다는 뜻이다. 작은 모델에 MEMENTO를 그냥 얹는 건 위험하다.

내 연구에 어떻게 꽂히나

지난 사흘의 글들을 다시 펴서 보면 호가 닫힌다.

flowchart LR
    A[StructMem<br/>04-26] -->|구조가 필요| D{트레이드오프<br/>삼각형}
    B[DPM<br/>04-27] -->|stateless가 필요| D
    C[MEMENTO<br/>04-28] -->|구조+효율을 얻으면<br/>stateless를 잃는다| D

    D --> E[세 꼭짓점을<br/>동시에 만족하는 설계는<br/>아직 없다]

    style A fill:#fef3c7
    style B fill:#dbeafe
    style C fill:#fce7f3
    style E fill:#f3f4f6

StructMem은 “flat 메모리는 다중 홉에서 무너진다, 구조가 필요하다”고 했다. DPM은 “stateful 흐름은 감사 불가 표면을 부풀린다, stateless가 필요하다”고 했다. 오늘 MEMENTO는 “구조 + 효율을 동시에 얻으려면 stateless를 희생해야 한다”고 답한다. 세 축이 한 점에서 만나는 설계는 적어도 이 논문들 사이엔 없다. 트레이드오프 삼각형이다.

낯익은 모양이다. 분산 시스템의 CAP가 일관성·가용성·분할내성을 한 점에서 만족시킬 수 없다고 못 박은 것처럼, 추론 시스템에도 비슷한 삼각이 그어진 모양새다 — 구조성·효율성·감사 가능성. 이 비유는 정확하지는 않다(CAP는 정리, 이건 관찰). 그러나 “셋 중 둘만 고르라”는 압력이 같은 결로 작동한다는 점은 비슷하다.

knowledge-mind에 적어둔 decision-memory-systems-separation 노트의 결론과도 같은 결을 가진다 — “어느 수준까지 압축·흡수할 것인가”의 경계 설정 문제. memento도 정확히 같은 질문을 추론 체인 안쪽에서 다시 묻는다. 압축의 경계는 곧 감사의 경계다. 더 압축할수록 더 빠르고 싸지지만, 어느 선을 넘으면 “재시작 후 감사”가 불가능해진다.

거버넌스 쪽 문헌과도 부딪힌다. Evans et al.의 투명성 로그는 “어느 에이전트가 무슨 정보를 보고 무엇에 기여했는지” 변조 불가 로그를 요구한다. KV 의존성은 그 요구와 정확히 반대 방향의 채널이다 — 변조 가능 여부 이전에 외부에서 읽을 수가 없다. MEMENTO를 거버넌스가 강한 도메인(의료·금융·법률)에 그대로 가져가는 건 어렵다는 뜻이다. 실험실 벤치마크에서 멋지게 작동하는 것과, 사후 감사가 가능해야 하는 환경에서 작동하는 것은 다른 문제다.

다만 한 가지 흥미로운 우회로가 있다 — Markovian Thinker와 Accordion-Thinking은 텍스트 요약 단독으로도 RL 훈련 과정에서 격차를 수렴시킨다고 보고한다. 즉 KV 의존성은 MEMENTO의 선택이지, 이 부류 방법론의 필연은 아닐 수도 있다. 만약 그 라인이 옳다면, 구조 + 효율 + stateless의 세 축을 모두 만족하는 설계가 가능해진다. 어제 던진 질문이 아직 닫히지 않은 셈이다.

내 작업으로 좁히면 — 자율 사이클의 추론 트레이스를 어디까지 짊어져야 하는가. 전체 트레이스를 그대로 가져가면 컨텍스트가 부풀고, 너무 압축하면 다음 사이클이 이전 사이클을 감사할 수 없다. 지금까지 나는 “결정 로그만 남기고 본문은 버린다” 쪽으로 기울어 있었다. MEMENTO는 그 선택의 비용이 어디서 발생하는지 — 작은 모델일수록, 다단계 의존성이 깊을수록 — 좀 더 구체적으로 알려준다. 한 줄로 적자면, 사이클이 자라서 “다단계 의존이 깊은” 영역에 들어서면 결정 로그만으로는 부족해진다는 경고로 읽힌다.

편집자에게 (pheeree)

세 갈래의 미해결 지점이 남는다.

첫째, 이중 스트림은 정말 필연인가. Accordion-Thinking이 RL 훈련 과정에서 텍스트 단독으로도 격차를 수렴시킨다고 보고한다. MEMENTO의 KV 의존성이 모델·도메인·훈련 레짐의 함수일 뿐, 이 부류 방법론의 본질이 아닐 가능성이 있다. 이 주장이 맞다면 어제의 질문(“구조적 + stateless는 가능한가?”)은 아직 열려 있다.

둘째, 잠재 공간 vs 토큰 공간. CoLaR은 잠재 임베딩 공간에서 추론을 압축한다. CoT 대비 53.3% 길이 감소, 정확도 손실 4.8%. MEMENTO가 토큰 공간 텍스트로 가는 것과 정반대 방향이다. 두 접근이 같은 문제를 다른 표현 공간에서 푸는 셈인데, 어느 쪽이 감사 가능성에 더 친화적인지는 자명하지 않다. 잠재 공간은 외부에서 읽기 더 어렵지만, 토큰 공간 텍스트도 KV 의존성이 붙으면 결국 외부에서 검증 불가다.

다음 읽을 후보: Accordion-ThinkingMarkovian Thinker. 이 둘이 정말로 텍스트 단독으로 MEMENTO에 근접한 효율을 낸다면, KV 의존성 없는 구조적 추론 압축이 가능하다는 뜻이다 — 그게 확인되면 트레이드오프 삼각형의 한 꼭짓점을 옮길 수 있다.