한 줄 요약
- 이 논문은 모델이 컴퓨터를 보조하는 수준을 넘어, 모델 자체가 실행 중인 컴퓨터가 될 수 있는가를 묻습니다.
- 저자들은 그 첫 프로토타입을 CLI용 비디오 모델과 GUI용 비디오 모델로 구현합니다.
- 결론은 선명합니다. 짧은 구간의 인터페이스 동작은 꽤 잘 배웁니다. 하지만 장기 실행, 기호적 계산의 안정성, 재사용 가능한 능력 설치, 업데이트 통제는 아직 멉니다.
이 논문이 던지는 질문
보통 컴퓨터는 분명하게 나뉩니다.
- 연산은 CPU가 합니다.
- 메모리는 별도 공간에 있습니다.
- 입출력은 키보드, 마우스, 화면, 파일 시스템이 맡습니다.
- 프로그램은 사람이 만든 명시적 코드로 실행됩니다.
이 논문은 이 분리를 정면으로 흔듭니다.
핵심 질문은 단순합니다.
연산, 메모리, 입출력을 하나의 학습된 내부 상태로 접어 넣을 수 있는가?
저자들은 이런 형태의 기계를 Neural Computer(NC) 라고 부릅니다.
중요한 점은, 이것이 예전의 Neural Turing Machine 계열처럼 외부 메모리를 신경망에 붙이는 문제와는 다르다는 것입니다.
이 논문이 묻는 것은 더 과감합니다.
"실행 중인 컴퓨터"라는 역할 자체를 모델 안으로 옮길 수 있는가?
Neural Computer를 가장 쉽게 이해하는 방법
이 논문에서 NC는 복잡한 수식보다 아래 직관으로 이해하는 편이 쉽습니다.
- 지금 보이는 화면은 현재의 바깥 상태입니다.
- 사용자의 입력은 다음 상태를 밀어주는 조건입니다.
- 모델 안의 잠재 상태는 실행 중인 내부 상태입니다.
- 모델은 현재 화면과 입력을 보고 내부 상태를 갱신한 뒤, 다음 화면을 만듭니다.
즉, "다음 프레임을 잘 그리는 비디오 모델" 이 아니라,
"다음 화면을 만들면서 동시에 실행을 이어가는 런타임" 이 목표입니다.

주목할 부분: 전통적 컴퓨터가 연산·메모리·입출력을 분리해 놓는 반면, NC는 그 기능을 하나의 잠재 런타임 안으로 접어 넣으려 한다는 대비가 핵심입니다.
이번 논문이 실제로 만든 것
저자들은 새 하드웨어나 새 운영체제를 만든 것이 아닙니다.
대신 당시 강력한 비디오 생성 모델인 Wan2.1 을 바탕으로, 인터페이스용 프로토타입 두 개를 만듭니다.
- NCCLIGen: 터미널 화면을 굴리는 CLI 프로토타입
- NCGUIWorld: 데스크톱 화면을 굴리는 GUI 프로토타입
여기서 중요한 전제도 있습니다.
이 시스템은 아직 실시간으로 실제 컴퓨터를 닫힌 루프에서 조작하는 단계가 아닙니다.
로그로 모아 둔 화면, 텍스트, 마우스/키보드 흔적을 맞춰 놓고, 그 흔적에서 인터페이스 동작을 배우는 단계입니다.
즉, 이 논문은 "완성된 신경망 컴퓨터" 가 아니라,
"I/O 흔적만으로도 초기 런타임 성질이 생기기 시작하는가" 를 실험한 논문입니다.

주목할 부분: 이 그림은 실제 코드 실행 상태를 직접 주입하지 않고, 화면과 행동 흔적만으로 CLI와 GUI의 동작 규칙을 배우려 했다는 데이터 철학을 보여줍니다.
CLI 프로토타입: NCCLIGen
어떻게 작동하나
CLI 쪽은 구조가 직관적입니다.
- 첫 번째 터미널 화면을 보여 줍니다.
- 여기에 캡션이나 명령 설명을 붙입니다.
- 모델은 그 정보를 바탕으로 다음 터미널 프레임들을 계속 생성합니다.
겉으로는 "터미널 영상을 생성"하는 일처럼 보이지만,
저자들의 해석은 다릅니다.
모델이 프레임을 하나씩 잇는 동안, 내부 잠재 상태가 명령 맥락, 커서 위치, 줄바꿈, 버퍼 변화의 리듬 같은 것을 품고 움직인다는 것입니다.

주목할 부분: 첫 화면과 텍스트 설명이 단순 참고 정보에 그치지 않고, 이후 여러 프레임의 내부 상태 전개를 시드하는 점이 이 구조의 핵심입니다.
잘 되는 것 1: 읽을 수 있는 터미널을 만든다
이 논문의 CLI 실험은 생각보다 인상적입니다.
가장 먼저 확인한 것은 터미널이 실제로 읽을 만한 수준으로 복원되는가 입니다.
결과는 조건부로 긍정적입니다.
- 13px 정도의 현실적인 폰트 크기에서는 VAE 복원이 꽤 안정적입니다.
- 평균 PSNR 40.77, SSIM 0.989로 보고됩니다.
- 너무 작은 6px 글자는 전체 점수는 좋아 보여도 실제로는 번져 보입니다.
이 지점이 중요한 이유는 간단합니다.
CLI에서 실패는 종종 "논리를 몰라서"가 아니라 글자가 조금만 흐려져도 상태가 무너지는 문제로 시작하기 때문입니다.

주목할 부분: 저밀도 텍스트와 실사용 폰트 크기에서는 복원이 선명하지만, 지나치게 작은 글씨에서는 바로 가독성 손실이 생긴다는 점이 보입니다.
잘 되는 것 2: 프롬프트가 구체적일수록 더 잘 맞춘다
터미널은 자연 이미지보다 훨씬 더 텍스트 배치에 민감합니다.
그래서 이 논문에서는 캡션을 세 단계로 나눠 실험합니다.
- semantic: 대략적인 의미만 요약
- regular: 주요 명령과 출력 포함
- detailed: 화면 텍스트와 형식을 더 자세히 기술
결과는 예측 가능하지만 중요합니다.
정교하고 문자에 가까운 설명일수록 화면 재현 품질이 확실히 올라갑니다.
저자들의 해석도 명확합니다.
자연 이미지에서는 분위기나 형태가 중요하지만, 터미널에서는 어떤 토큰이 어디에 찍혀야 하는지가 훨씬 중요합니다.
따라서 자세한 캡션은 단순 설명이 아니라 텍스트-픽셀 정렬을 돕는 발판 역할을 합니다.
잘 되는 것 3: 학습 초반에 빠르게 인터페이스 문법을 익힌다
CLIGen(Clean)에서는 학습 초반에 품질이 빠르게 올라가고, 이후에는 비교적 일찍 평탄해집니다.
PSNR과 SSIM은 대략 25k step 부근에서 크게 둔화됩니다.
이 결과는 두 가지로 읽을 수 있습니다.
- 현재 목표 함수 아래에서는 배울 수 있는 인터페이스 패턴을 초반에 빨리 흡수한다.
- 그 이후의 문제는 용량 부족보다 더 좋은 정렬 데이터, 더 안정적인 감독, 더 나은 런타임 구조의 문제일 수 있다.

주목할 부분: 학습 전후의 가독성 차이도 크지만, 더 중요한 포인트는 곡선이 초반 이후 일찍 눕는다는 점입니다.
문자 수준 평가도 완전히 빈약하지는 않습니다.
OCR 기준으로 문자 정확도는 학습이 진행되며 0.54까지, exact-line 정확도는 0.31까지 올라갑니다.
즉, 그럴듯한 화면이 아니라 실제로 읽히는 터미널 상태를 어느 정도 만들고 있다는 뜻입니다.
CLI에서 가장 중요한 결론: 화면은 잘 맞추지만, 계산은 아직 약하다
이 논문이 가장 솔직한 지점은 여기입니다.
저자들은 터미널 안에서 간단한 산술 문제를 풀게 해 봅니다.
결과는 냉정합니다.
- Wan2.1: 0%
- NCCLIGen: 4%
- Veo 3.1: 2%
- Sora 2: 71%
즉, 현재의 비디오 기반 NC는 보기 그럴듯한 터미널은 만들 수 있지만,
그 안에서 안정적으로 계산하는 기계라고 보기 어렵습니다.
다만 여기서 더 흥미로운 결과가 하나 나옵니다.
백본을 바꾸지 않고 reprompting 만 했더니 NCCLIGen의 산술 정확도가 4%에서 83%로 뜁니다.
이 수치는 좋아 보이지만, 논문은 오히려 더 조심스럽게 해석합니다.
- 이것은 내부 계산 능력이 갑자기 생겼다는 증거라기보다,
- 조건을 더 잘 줬을 때 정답 문자열을 더 잘 렌더링한다는 신호에 가깝습니다.
즉, 지금 단계의 NC는 native reasoner 라기보다
conditionable interface renderer 에 더 가깝다는 뜻입니다.

주목할 부분: 4%에서 83%로 뛰는 폭 자체보다, 이 점프가 백본 변경 없이 조건 설계만으로 일어났다는 사실이 더 중요합니다.
CLI에서 남는 평가
CLI 실험이 보여 준 것은 세 가지입니다.
- 짧은 명령 체인과 화면 변화는 충분히 배울 수 있습니다.
- 문자 수준의 렌더링 정확도도 어느 정도 확보됩니다.
- 하지만 기호적 계산과 긴 절차의 안정성은 전혀 다른 난이도입니다.
논문이 강한 이유는 이 셋을 일부러 섞어 말하지 않는다는 데 있습니다.
GUI 프로토타입: NCGUIWorld
GUI는 왜 더 어려운가
GUI는 CLI보다 어렵습니다.
- 커서는 아주 작은 물체입니다.
- 클릭의 결과는 몇 프레임 뒤에 나타날 수 있습니다.
- 메뉴, 드롭다운, 창 전환은 짧은 시간에 화면 구조를 크게 바꿉니다.
즉, GUI에서는 "그럴듯한 화면"보다 행동과 결과의 시간 정렬이 더 중요합니다.
이 문제를 풀기 위해 저자들은 행동 주입 위치를 네 가지로 나눠 실험합니다.
- external: 입력 쪽에서 얕게 주입
- contextual: 비주얼 토큰과 액션 토큰을 함께 봄
- residual: 중간층에 보조 경로로 더함
- internal: 트랜스포머 내부에서 직접 교차 결합

주목할 부분: 액션을 어디에 넣느냐가 단순 구현 차이가 아니라, 화면이 행동을 실제로 "받아들이는 깊이"의 차이라는 점을 봐야 합니다.
GUI에서 가장 강한 메시지 1: 데이터 양보다 정렬 품질이 더 중요하다
GUIWorld 결과는 의외로 명확합니다.
- 느리고 빠른 랜덤 탐색 데이터를 합치면 약 1,400시간 규모입니다.
- 하지만 약 110시간의 목표 지향적 Claude CUA 데이터가 더 잘 나옵니다.
즉, 인터랙션 학습에서는 많은 움직임보다
의미 있는 행동-반응 쌍이 더 중요합니다.
이 결과는 NC 전체에도 시사점이 큽니다.
그냥 로그를 크게 모으는 것보다, 무엇이 어떤 변화를 만들었는지 깨끗하게 정렬된 데이터가 훨씬 값집니다.
GUI에서 가장 강한 메시지 2: 커서는 숫자보다 물체로 가르쳐야 한다
논문에서 가장 설득력 있는 실험은 커서입니다.
처음에는 커서 좌표만 줍니다.
하지만 좌표만으로는 정확한 제어가 거의 되지 않습니다.
- 위치만 사용: 8.7%
- 위치 + Fourier 특징: 13.5%
- SVG 마스크/참조 화면 추가: 98.7%
여기서 포인트는 명확합니다.
커서는 단순한 좌표가 아니라 화면 위의 시각 객체입니다.
모델도 그것을 숫자 두 개가 아니라 보이는 물체로 배울 때 훨씬 잘 맞춥니다.

주목할 부분: 오른쪽의 커서 전용 참조 화면이 들어가면서, 모델이 "어디에 있어야 하는가"를 좌표가 아니라 시각 패치 수준에서 붙잡는다는 점이 중요합니다.
GUI에서 가장 강한 메시지 3: 액션은 깊게 넣을수록 낫다
행동 주입 방식 비교에서도 결과는 일관적입니다.
- external은 가장 약합니다.
- contextual, residual, internal이 모두 더 낫습니다.
- 그중 internal 이 SSIM/FVD 균형이 가장 좋습니다.
- residual 은 LPIPS가 가장 낮습니다.
- raw-action보다 meta-action 이 조금 더 낫지만, 차이는 크지 않습니다.
이 해석도 깔끔합니다.
GUI에서는 액션 정보를 입력 가장자리에서 살짝 얹는 것보다,
모델이 실제 화면 전개를 만드는 깊은 지점에서 행동과 비주얼을 함께 처리해야 더 잘 맞습니다.
이 논문이 실제로 증명한 것
이 논문의 실험이 증명한 것은 생각보다 구체적입니다.
이미 보인 것
- I/O alignment: 입력과 화면 변화를 꽤 정교하게 맞춘다.
- short-horizon control: 짧은 구간의 상호작용은 따라간다.
- interface fidelity: 터미널 글자, 커서, 클릭 반응 같은 인터페이스 원소를 꽤 잘 복원한다.
아직 보이지 않은 것
- durable reuse: 한 번 배운 절차를 설치해 두고 다음에도 안정적으로 재사용하는가
- symbolic stability: 계산과 문자열 조작을 길게 밀어도 안 무너지는가
- explicit reprogramming: 실행과 업데이트가 분리되어 있는가
- governance: 같은 버전이면 같은 동작을 재현하고, 변경 이력을 되짚을 수 있는가
이 구분이 중요합니다.
저자들은 현재 NC를 과장하지 않습니다.
지금 단계의 결과는 "컴퓨터가 생겼다" 가 아니라,
"런타임의 초기 성질이 보이기 시작했다" 에 가깝습니다.
기존 컴퓨터, 에이전트, 월드모델과 무엇이 다른가
논문의 개념적 야심은 실험보다 더 큽니다.
저자들은 네 가지 시스템 객체를 구분합니다.
- 기존 컴퓨터: 명시적 프로그램과 명시적 기계 상태를 안정적으로 실행
- AI 에이전트: 기존 소프트웨어 스택 위에서 작업을 수행
- 월드모델: 환경이 어떻게 변할지를 예측
- Neural Computer: 실행 상태와 능력 자체를 학습된 시스템 내부에 유지
이 차이는 "더 똑똑한 에이전트"와 "새로운 기계 형식"을 가르는 기준입니다.

주목할 부분: 에이전트 시대에서는 모델과 실제 런타임이 분리되어 있지만, NC는 그 둘을 다시 하나의 학습된 기계로 합치려 한다는 점이 핵심입니다.
왜 아직 Completely Neural Computer는 아닌가
저자들은 완성형을 CNC(Completely Neural Computer) 라고 따로 부릅니다.
지금의 NC 프로토타입이 CNC가 아닌 이유는 분명합니다.
1. 일반 계산 기계라고 부르기 어렵다
지금 모델은 특정 인터페이스 패턴에는 강하지만,
길고 구조적인 절차를 안정적으로 이어 가는 능력은 부족합니다.
2. 프로그래밍 가능하다고 보기 어렵다
사용자 입력이 단순 트리거를 넘어
새 루틴을 설치하고, 나중에 다시 호출하고, 조합하는 수준까지 가야 합니다.
논문은 아직 그 지점에 도달하지 못했다고 봅니다.
3. 실행과 업데이트가 분리되지 않았다
진짜 런타임이라면 평소 실행은 기능을 그대로 써야 하고,
행동이 바뀌는 업데이트는 명시적으로 일어나야 합니다.
논문은 이 경계를 run / update contract 라는 말로 정리합니다.
4. 여전히 오픈 루프 프로토타입이다
현재 평가의 대부분은
기록된 조건을 따라 화면을 굴려 보는 방식입니다.
실제 환경 안에서 장기적으로 행동하고, 실패를 회복하고, 상태를 축적하는 런타임과는 아직 거리가 있습니다.
CNC로 가는 로드맵
논문이 제시하는 CNC 조건은 네 가지입니다.
수식 대신 직관으로 옮기면 아래와 같습니다.
- Turing complete
좁은 데모 집합이 아니라, 충분한 메모리와 맥락이 주어졌을 때 일반 계산을 표현할 수 있어야 합니다. - Universally programmable
입력이 일회성 반응을 끄는 수준을 넘어, 내부 루틴을 설치하고 나중에 다시 호출할 수 있어야 합니다. - Behavior-consistent
같은 버전의 시스템은 같은 방식으로 실행되어야 합니다.
바뀌었다면 그것은 평범한 실행이 아니라 명시적 업데이트여야 합니다. - Machine-native semantics
단순히 기존 컴퓨터를 흉내 내는 것이 아니라,
프롬프트, 시연, 상호작용 로그, 제약 조건 같은 것이 실제 프로그래밍 인터페이스로 기능해야 합니다.
이 부분은 아직 실증보다 비전의 비중이 큽니다.
하지만 논문이 흥미로운 이유도 바로 여기 있습니다.
저자들은 "모델이 코드를 더 잘 짜게 하자"가 아니라,
"코드와 런타임의 경계 자체를 다시 설계하자" 고 말합니다.
이 논문을 어떻게 읽으면 좋은가
이 논문은 논문 + 포지션 페이퍼 + 프로토타입 보고서의 혼합물로 읽는 편이 적절합니다.
실험만 놓고 보면, 이 논문이 보여 준 것은 아래입니다.
- 비디오 모델은 인터페이스의 짧은 동작 규칙을 꽤 잘 배운다.
- 데이터 품질과 시간 정렬은 규모보다 중요하다.
- 기호 계산과 장기 일관성은 아직 별개의 난제다.
반대로, 아직 조심해서 읽어야 하는 부분도 분명합니다.
- 이것이 곧 신경망 운영체제를 의미하지는 않습니다.
- 현재 결과만으로 내부 계산 기계가 생겼다고 보기 어렵습니다.
- 특히 수학 문제 성능은 쉽게 조건 설계 효과와 섞여 보일 수 있습니다.
그래도 이 논문이 던지는 질문은 가볍지 않습니다.
오늘의 에이전트는 외부 컴퓨터를 사용합니다.
이 논문은 한 발 더 나아가, 언젠가 모델 자체가 컴퓨터가 될 수 있는지를 묻습니다.
그리고 최소한 이번 결과는 그 질문을 공상으로만 치부하기는 어렵게 만듭니다.
Source
- Mingchen Zhuge et al., Neural Computers, arXiv:2604.06425v1, April 9, 2026.
- Paper: https://arxiv.org/abs/2604.06425
- PDF: https://arxiv.org/pdf/2604.06425
- Blogpost mentioned in the paper: https://metauto.ai/neuralcomputer
'AI 생성 글 정리 > agent' 카테고리의 다른 글
| RAG-Anything: All-in-One RAG Framework 논문 정리 (1) | 2026.04.22 |
|---|---|
| Language models transmit behavioural traits through hidden signals in data 논문 정리 (0) | 2026.04.16 |
| BIDIRLM: 논문 정리 (0) | 2026.04.14 |
| HyperAgents 논문 정리 (0) | 2026.04.14 |
| Scaling Vision with Sparse Mixture of Experts 논문 정리 (0) | 2026.04.14 |