같은 95점이어도 아이 머릿속 그림은 전부 달랐습니다

학원에서 일하는 동안 저는 점수를 거의 믿었습니다. 95점은 95점이라고요. 같은 단원에서 같은 점수를 받은 두 아이는 비슷하게 안다고 생각했습니다. 부끄럽지만 오래 그랬습니다. 그게 흔들린 건 두 아이를 나란히 앉혀 같은 오답 한 문제를 다시 풀게 했을 때였습니다. 한 아이는 공식을 떠올려 끝까지 갔고, 다른 아이는 비슷한 문제를 어디서 봤는지부터 더듬었습니다. 둘 다 결국 맞혔습니다. 그런데 그다음 주, 살짝 비틀어 낸 처음 보는 문제 앞에서 한 아이만 풀었습니다. 같은 95점인데 머릿속에 들어 있는 게 전혀 달랐던 겁니다. 저는 그 차이를 부를 말이 없었습니다. 그 말을 엉뚱하게도, AI를 만든 사람들이 쓴 두꺼운 교과서에서 주웠습니다.

제가 이 책을 펼친 건 학원 얘기를 들으려던 게 아니었습니다. 요즘 AI가 "스스로 배운다", "이미지를 알아본다"고들 하는데, 도대체 기계가 무엇을 어떻게 배운다는 건지 손에 잡히지 않아서였습니다. 그 밑바닥 원리가 적힌 가장 두꺼운 뿌리 책이라기에 집었습니다. 솔직히 기대한 건 "AI는 데이터를 많이 먹으면 똑똑해진다" 정도의 설명이었습니다. 그런데 1장 첫머리에서 저자들이 던진 질문은 제 예상과 전혀 다른 데를 찌르고 있었습니다.

『Deep Learning』은 딥러닝을 사실상 만든 당사자들이 쓴 정전(canon), 그러니까 이 분야의 표준 교과서입니다. 적대적 생성망(GAN)을 만든 이언 굿펠로, 튜링상을 받은 요슈아 벤지오, 그리고 에런 쿠르빌 세 사람의 공동 저작입니다. 한 사람의 머리가 아니라 분야를 일군 사람들이 함께 정리한 책이라는 점을 먼저 적어 둡니다. 이 책이 흔한 'AI 입문서'와 갈리는 지점이 첫 장부터 나옵니다. 보통의 입문서가 "AI로 이런 걸 할 수 있다"는 쓸모를 앞세운다면, 이 책은 "기계가 왜 어떤 일은 쉽게 하고 어떤 일은 그렇게 오래 못 했나"라는 원리부터 묻습니다.

저자들이 1장에서 짚은 역설이 제 머리를 때렸습니다. 초창기 AI는 사람에게 어려운 일을 의외로 빨리 풀었습니다. 체스처럼 규칙이 또렷해서 형식으로 적을 수 있는 문제 말입니다. 정작 컴퓨터가 오래 못 했던 건 반대쪽이었습니다. 사람은 직관적으로·자동으로 척척 해내지만 말로 규칙을 적기는 어려운 일, 그러니까 얼굴을 알아보거나 말을 알아듣는 일이었습니다. 저자들의 표현을 그대로 옮기면, AI의 진짜 난제는 "사람이 수행하기는 쉽지만 형식적으로 기술하기는 어려운 일들(the tasks that are easy for people to perform but hard for people to describe formally)"이었습니다. 저는 이 문장에서 학원 책상이 떠올랐습니다. 잘 가르치는 선생님도 "이건 그냥 척 보면 알아"라는 감을 말로 풀어 적지는 못하지 않습니까. 사람의 진짜 실력은 늘 말로 적기 어려운 자리에 숨어 있습니다.

이 난제의 해법으로 저자들이 내놓은 정의가 이 책의 심장입니다. 답은 컴퓨터가 세계를 **개념의 위계(hierarchy of concepts)**로 이해하게 하는 것입니다. 각 개념을 더 단순한 개념과의 관계로 정의하고, 그 단순한 개념을 또 더 단순한 것으로 정의해 내려갑니다. 이렇게 쌓인 관계를 그림으로 그리면 층이 아주 많은 깊은 그래프가 됩니다. 저자들이 못 박습니다. "그래프가 깊기 때문에, 우리는 이 접근을 딥러닝이라 부른다(the graph is deep ... we call this approach to AI deep learning)." 그러니까 '딥(deep)'은 데이터가 많다는 뜻도, 계산이 무겁다는 뜻도 아니었습니다. 단순한 개념을 차곡차곡 쌓아 복잡한 개념을 짓는 그 층의 깊이를 가리키는 말이었습니다.

책에 나오는 그림 한 장이 이걸 눈으로 보여 줍니다. 컴퓨터가 사진 속 사람을 알아볼 때, 곧장 "사람"을 보는 게 아닙니다. 첫 층은 그저 픽셀의 밝기 차이로 모서리를 봅니다. 다음 층은 그 모서리를 모아 구석과 윤곽을 봅니다. 그다음 층에서야 비로소 눈·코 같은 객체의 부분을 봅니다. 사람이라는 추상적인 개념은 맨 위층에서, 아래층들이 쌓아 올린 단순한 조각들 위에 얹힙니다. 아래가 없으면 위가 없습니다. 모서리를 못 보는 기계에 "사람을 알아봐"라고 시키는 건, 받침을 안 깐 채 3층을 올리려는 일과 같습니다.

여기서 저는 제 95점 두 아이를 다시 봤습니다. 한 아이의 머릿속에는 '공식'이라는 윗층 아래에 '왜 그 공식이 성립하는가'라는 받침층이 깔려 있었습니다. 다른 아이는 윗층, 그러니까 '이 유형엔 이 풀이'라는 결론만 얹혀 있고 그 아래가 비어 있었습니다. 시험지가 본 적 있는 모양이면 둘 다 맞힙니다. 점수가 같게 나옵니다. 그런데 처음 보는 문제는 윗층만으론 못 풉니다. 받침층이 깔린 아이만 아래에서부터 다시 쌓아 올라가 풀어냅니다. 95점이 같았던 게 아니라, 층의 깊이가 달랐던 겁니다.

이 책이 한 번 더 못 박는 게 있습니다. 단순한 머신러닝의 성능은 데이터를 어떻게 표현(representation)하느냐에 크게 좌우된다는 겁니다. 저자들의 예가 잊히지 않습니다. 어떤 환자에게 제왕절개가 필요한지를 예측할 때, 의사가 정리해 둔 "자궁에 흉터가 있는가" 같은 잘 손질된 정보를 주면 단순한 모델도 곧잘 맞힙니다. 그런데 똑같은 환자의 MRI 사진을 픽셀 그대로 들이밀면, 같은 모델이 쓸 만한 예측을 거의 못 합니다. 픽셀 하나하나는 합병증과 거의 상관이 없으니까요. 데이터가 부족해서가 아닙니다. 무엇으로 표현되어 있느냐가 결과를 가른 겁니다.

여기서 원장님께 렌즈 하나를 바꿔 끼워 드리고 싶습니다. 우리는 학원의 성과를 거의 '무엇을 얼마나 채웠나'로 잽니다. 진도, 문제 수, 점수. 전부 양의 언어입니다. 그런데 이 책의 눈으로 보면 진짜 봐야 할 건 따로 있습니다. 이 아이의 머릿속에 지식이 어떤 표현으로 들어가 있는가. MRI 픽셀처럼 낱낱의 문제 풀이로 흩어져 들어갔는가, 아니면 의사의 소견처럼 받침이 깔린 개념으로 정리되어 들어갔는가. 같은 진도, 같은 점수라도 이 표현의 모양이 다르면 처음 보는 문제 앞에서 완전히 다른 아이가 됩니다. 우리는 그동안 아이가 무엇을 외웠는지를 채점해 왔습니다. 정작 채점했어야 할 건 아이가 그걸 어떻게 표현하고 있는지였습니다.

현장에서 1000명 가까운 학생을 들여다보며 본 진실 하나를 보태겠습니다. 받침층 없이 윗층만 쌓은 아이일수록, 중간 성적까지는 더 빨리 오릅니다. 결론만 외우면 되니까 효율이 좋거든요. 그래서 부모도 원장도 안심합니다. 무너지는 건 늘 한 학기쯤 뒤, 단원이 한 겹 더 쌓여 윗층만으론 버틸 수 없어지는 순간입니다. 그제야 "갑자기 왜 이러지" 합니다. 갑자기가 아닙니다. 받침이 없던 게 그때 드러난 것뿐입니다. 그러니 아이 성적이 빨리 오를 때 마냥 기뻐하기 전에, 그 점수 아래에 받침층이 깔려 있는지를 한 번 의심해 보셔도 좋겠습니다.

오해는 풀어 드리고 싶습니다. 받침을 깔라는 말이 "기초부터 천천히, 진도는 느리게"라는 흔한 구호와 같지 않습니다. 이 책의 핵심은 속도가 아니라 순서와 구조입니다. 단순한 개념이 먼저 자리를 잡아야 그 위에 복잡한 개념이 얹힌다는 것, 층을 건너뛰면 위가 무너진다는 것. 그러니 느리게 가르치라가 아니라, 아이 머릿속에 아래층부터 차례로 그림이 그려지게 설계하라는 쪽에 가깝습니다.

이 책을 모든 원장님께 권하지는 않겠습니다. 분명히 공학도와 연구자를 위한 교과서입니다. 저자들 스스로 1장에서 "독자가 컴퓨터과학 배경에서 온다고 가정한다"고 못 박을 만큼, 수학과 알고리즘을 건너뛸 각오가 없으면 2부에 들어가기 전에 덮게 됩니다. 그리고 저는 이 책을 끝까지 읽지 못했습니다. 정직하게 말씀드리면 전체 20개 장 가운데 1장(서론)을 제대로 읽고, 5장과 6장은 도입부만 들췄습니다. 합성곱망이니 순환망이니 생성모델이니 하는 묵직한 장들은 목차로만 그 자리를 확인했을 뿐입니다. 그러니 이 글은 두꺼운 교과서의 첫 장을 붙들고 적은 사색 노트에 가깝습니다. 다만 이 책의 매력은, 그 첫 장 하나만으로도 학원을 보는 눈이 바뀐다는 데 있었습니다.

저는 이 책을 덮고 나서, '안다'는 말을 다시 정의하게 됐습니다. 예전엔 안다를 "맞히는 것"이라고만 봤습니다. 지금은 안다에 두 종류가 있다고 봅니다. 윗층만 얹힌 앎과, 아래층부터 쌓인 앎. 둘은 채점지 위에선 똑같은 95점으로 보입니다. 그래서 가장 속기 쉽습니다. 그러니 두 아이의 점수가 같을 때, 같다고 믿는 대신 한 번 물어보셔도 좋겠습니다. 이 아이 머릿속엔 결론만 얹혀 있을까, 아니면 그 아래 받침이 깔려 있을까. 처음 보는 문제 한 장이, 그 답을 대신 말해 줍니다.

Deep Learning
Ian Goodfellow · Yoshua Bengio · Aaron Courville 저
발행처·발행연도 원문 확인 필요 (공식 사이트 www.deeplearningbook.org)

"같은 95점이어도, 아이 머릿속에 무엇이 그려져 있느냐가 전부였습니다."

함께 읽으면 좋은 글

옆 학원을 이기려는 순간 둘 다 가난해집니다

가장 잘 가르치는 원장이 가장 위험합니다

원장님이 흔들리는 건 자질이 없어서가 아닙니다