잘 맞히는 원장이 아니라 왜 그랬는지 말하는 원장이 신뢰받습니다

요즘 AI 이야기를 듣다 보면 누구나 한 가지를 당연하게 여깁니다. 데이터를 더 많이 먹이면, 모델이 더 커지면, 결국 사람처럼 똑똑한 AI가 된다는 것입니다. 더 큰 데이터, 더 큰 모델. 그게 지능으로 가는 외길이라고 다들 믿습니다. 그런데 저는 한 학술서의 첫 장에서 정반대의 문장과 마주쳤습니다. "머신러닝이 전부가 아니라면?" 저자들은 지금의 거대 언어 모델이 보여주는 똑똑함을 "지능의 겉치레(veneer of intelligence)"라고 부릅니다. 그럴듯한 문장을 만들어 내니 언어 문제가 풀린 것처럼 보이지만, 사실은 안 풀렸다는 겁니다. 처음엔 이게 그냥 한물간 학파의 투정인 줄 알았습니다. 끝까지 읽고 나서 생각이 바뀌었습니다. 이 책은 제가 15년간 상담실에서 풀지 못하던 한 가지를, 엉뚱하게도 정확한 말로 적어 주었습니다.

제가 이 책을 집은 건 거창한 이유 때문이 아니었습니다. 학원 업무에 AI를 어디까지 맡겨도 되나, 그 선을 긋고 싶었습니다. 상담 요약을 시켜 보고, 안내문 초안을 받아 보면서요. 잘 쓸 때는 기막히게 잘 쓰는데, 가끔 자신만만하게 틀린 사실을 적어 놓는 게 영 불안했습니다. 그래서 "AI를 믿어도 되는 기준이 뭘까"를 알고 싶어 책을 뒤지다, 이 책 한 권이 정면으로 그 질문을 다루고 있길래 붙들었습니다. 기대한 건 "이런 작업은 맡기고 저런 작업은 맡기지 마라" 정도의 체크리스트였습니다. 그런데 제가 실제로 건져 올린 것은 따로 있었습니다. 체크리스트가 아니라, 신뢰라는 단어 자체를 다시 정의하는 한 문장이었습니다.

『Agents in the Long Game of AI』는 한 사람의 주장이 아닙니다. 마조리 맥셰인, 세르게이 니렌버그, 제시 잉글리시 세 연구자가 수십 년간 함께 밀고 온 LEIA 프로그램을 집대성한 책입니다(MIT Press, 2024). LEIA는 '언어 부여 지능 에이전트(Language-Endowed Intelligent Agent)'의 약자인데, 쉽게 말하면 사람의 사고방식을 본떠 만든, 데이터에만 의존하지 않는 AI를 가리킵니다. 중요한 건 이 책이 외톨이 반론이 아니라는 점입니다. 저자들이 2004년부터 2021년까지 펴낸 책 두 권에 이은 3부작의 완결편입니다. 한 번 던지고 마는 도발이 아니라, 20년 넘게 자리를 지켜 온 학파의 결론이라는 뜻입니다. 그래서 더 귀를 기울이게 됩니다.

이 책이 지금 쏟아지는 다른 AI 책들과 갈라서는 지점은 분명합니다. 시중의 'AI 에이전트' 책 대부분은 거대 언어 모델을 어떻게 더 잘 부려 쓸까를 다룹니다. 도구를 붙이고, 검색을 연결하고, 추론을 시키는 법이죠. 이 책은 그 반대편에 섭니다. 한쪽이 "큰 모델을 잘 쓰는 법"이라면, 이 책은 "큰 모델만으로는 왜 안 되는가, 그렇다면 무엇이 더 필요한가"입니다. 저자들의 답은 온톨로지(세계를 컴퓨터가 다룰 수 있게 적어 둔 의미 지도)에 뿌리내린 의미 중심 모델입니다. 어려운 말 같지만, 핵심은 하나입니다. AI가 단어의 출현 확률을 굴리는 게 아니라, 자기가 다루는 세상의 의미를 진짜로 쥐고 있어야 한다는 것. 그래야 자기가 왜 그렇게 판단했는지 말할 수 있기 때문입니다.

바로 이 "말할 수 있다"가 이 책의 심장입니다. 저자들은 AI가 사람의 신뢰를 얻는 조건을 네 가지로 정리합니다. 첫째 정확한 결정을 내릴 것, 둘째 자기 확신의 수준을 솔직히 전할 것, 셋째 자기 판단을 인과적으로 설명할 것, 넷째 상호작용하며 시간에 걸쳐 배울 것. 여기서 제 손이 멈췄습니다. 잘 맞히는 것은 네 조건 중 첫째일 뿐입니다. 나머지 셋은 전부 "어떻게 소통하느냐"의 문제였습니다. 저자들이 든 비유가 오래 남습니다. 좋은 의사는 시술을 권할 때 두 가지를 함께 말한다는 겁니다. 왜 이 시술이 듣는지(인과의 사슬)와, 이 시술로 몇 퍼센트가 나았는지(통계). 둘을 같이 내놓을 때 환자는 비로소 의사를 믿습니다. 결과만 좋아서가 아니라, 그 결과에 닿은 길을 설명해 주기 때문입니다.

이 대목에서 저는 책장을 덮고 한참 천장을 봤습니다. 제가 상담실에서 매일 마주하던 풍경이 그대로였기 때문입니다. 한번은 같은 동네에서 비슷한 합격 실적을 낸 원장님 두 분을 따로 만난 적이 있습니다. 숫자만 보면 두 분은 거의 같은 학원이었습니다. 그런데 학부모 사이의 평판은 완전히 갈렸습니다. 한 분은 "성적은 잘 나오는데 우리 애를 왜 그 반에 넣었는지 물어보면 그냥 그게 맞다고만 하신다"는 말을 들었고, 다른 분은 "이 원장님은 우리 애를 안다"는 말을 들었습니다. 차이는 실력이 아니었습니다. 같은 결정을 내려도, 한 분은 "왜 그렇게 했는지"를 말로 풀어 줄 수 있었고 한 분은 못 했습니다. 저는 그동안 이 차이를 그냥 '소통을 잘한다'는 두루뭉술한 말로 덮어 두고 있었습니다. 이 책이 그 위에 정확한 이름을 붙여 주었습니다. 설명가능성. 신뢰는 잘 맞히는 데서 오지 않습니다. 왜 그렇게 판단했는지 말할 수 있을 때 옵니다.

여기까지면 좋은 교훈입니다. 그런데 이 책이 정말로 제 일하는 방식을 바꿔 놓은 것은 그다음 한 수였습니다. 저자들은 8장에서 묻습니다. AI는 누가 물었을 때 어떻게 자기 행동을 설명할까? 보통은 이렇게 상상합니다. 질문을 받으면, 그제야 자기 안을 뒤져 그럴듯한 이유를 만들어 낸다고요. 저자들은 그 방식을 단호히 거부합니다. 그들의 설계 원칙은 이렇습니다. 설명에 필요한 모든 정보는 결정을 내리는 그 순간에 미리 붙여 둔다. 그래서 나중에 누가 "왜 그랬어?"라고 물으면, AI는 이유를 새로 지어낼 필요 없이 이미 준비된 것을 꺼내 상황에 맞게 말로 포장하기만 하면 됩니다. 설명을 사후에 발명하지 않는다는 것. 이것이 진짜 신뢰와 그럴듯한 변명을 가르는 선이었습니다.

저는 이 문장을 읽고 제 상담 노트를 다시 펼쳤습니다. 학부모가 "왜 우리 애 반을 바꾸셨어요?"라고 물을 때, 제가 그 자리에서 머리를 굴려 이유를 만들어 내고 있었다면, 그건 설명이 아니라 변명이었던 겁니다. 학부모는 귀신같이 그 차이를 압니다. 반대로, 반을 바꾸기로 결정하던 그 순간에 이미 근거를 적어 둔 원장은 다릅니다. "3주 치 시험지에서 이 단원만 계속 틀리시고, 옆 반 진도가 이 아이 속도에 맞아서 옮겼습니다." 이 한 마디가 나오는 원장과 안 나오는 원장은, 실력이 달라서가 아니라 결정의 순간에 이유를 붙여 두었느냐로 갈립니다. 이 책은 AI 이야기를 하고 있었지만, 저에게는 상담의 문법을 다시 쓰게 했습니다. 신뢰받는 원장은 잘 맞히는 사람이 아니라, 결정의 순간마다 그 이유를 미리 적어 두는 사람입니다.

왜 학원 현장에도 똑같은 원리가 통할까요. 저자들이 든 한 가지가 답을 줍니다. 사람은 협력할 상대를 믿을 때, 그 상대의 결과만 보지 않고 '저 사람이 왜 그렇게 움직였는지'를 본능적으로 읽으려 한다는 겁니다. AI든 사람이든 마찬가지입니다. 학부모가 원장을 평가하는 자리도 결국 협력의 자리입니다. 내 아이를 함께 키울 사람을 고르는 일이니까요. 그래서 결과(성적)가 같아도, 그 결과에 닿은 길을 설명해 주는 사람과 못 하는 사람 사이에서 신뢰가 갈립니다. 똑같이 합격을 시켜도, 왜 그랬는지를 파고들면 두 원장은 전혀 다른 사람이었던 겁니다.

솔직히 이 책을 모두에게 권하긴 어렵습니다. 337쪽짜리 학술서이고, 온톨로지와 의미표현을 다루는 중간 장들은 비전공자가 읽기엔 가파릅니다. 가끔은 AI를 다루는 책인지 언어학 책인지 헷갈릴 만큼 깊이 들어갑니다. 다만 1장과 8장, 그리고 마지막 10장만 천천히 읽어도 본전을 뽑습니다. 특히 10장에는 'AI가 자동으로 학습한다'는 말이 사실은 거대한 인간 노동을 가리는 은유라는 통렬한 지적이 있습니다. AI 튜터가 사람의 인지편향에 깃발을 다는 8장의 사례도 따로 음미할 가치가 있고요. 다 말씀드리지는 않겠습니다. 이 책에는 그 외에도 곱씹을 대목이 많습니다.

책을 덮고 저는 제 상담 습관을 한 가지 바꿨습니다. 결정을 내릴 때마다, 그 자리에서 한 줄 이유를 적어 두기 시작했습니다. 나중에 학부모가 물을 때 지어내지 않으려고요. 거창한 시스템이 아닙니다. 반을 옮기든 교재를 바꾸든, 결정과 동시에 "왜"를 한 줄 남기는 것뿐입니다. 그런데 신기하게도, 이유를 미리 적기 시작하니 결정 자체가 더 또렷해졌습니다. 설명할 수 없는 결정은 사실 저도 확신이 없던 결정이었거든요. 이 책은 AI를 어디까지 믿을지 알려 주러 왔다가, 학부모가 저를 어디까지 믿을지를 가르는 선을 보여주고 떠났습니다. 신뢰는 정답의 양이 아니라, 그 정답에 닿은 길을 말할 수 있느냐에 달려 있었습니다.

Agents in the Long Game of AI — Computational Cognitive Modeling for Trustworthy, Hybrid AI
마조리 맥셰인 · 세르게이 니렌버그 · 제시 잉글리시 저
The MIT Press · 2024 (국내 번역본 별도)

"신뢰는 잘 맞히는 데서 오지 않습니다. 왜 그렇게 판단했는지 말할 수 있을 때 옵니다."

함께 읽으면 좋은 글

매끄럽게 답하는 AI를 믿어도 될까

이루고도 허전하다면, 당신이 틀린 게 아닙니다

기출은 다 맞는데 실전에서 무너지는 아이