기출은 다 맞는데 실전에서 무너지는 아이

매년 이맘때 상담실에서 같은 장면을 봅니다. 어머니가 아이의 문제집을 펼쳐 제 앞에 내려놓습니다. 빨간 동그라미가 빼곡합니다. 기출문제는 거의 다 맞았습니다. 그런데 정작 모의고사 점수는 그대로입니다. 어머니가 묻습니다. "얘가 집에서는 다 푸는데 시험만 보면 왜 이럴까요." 저는 한동안 이 질문 앞에서 아이를 봤습니다. 집중력이 부족한가, 긴장을 하나, 실수가 잦은가. 그렇게 아이의 어딘가가 고장 났다고 짐작하며 처방을 내렸습니다. 부끄럽지만 꽤 오래 그랬습니다. 그 시선이 통째로 틀렸다는 걸, 저는 엉뚱하게도 머신러닝 학습이론을 떠받치는 수학 교과서에서 깨달았습니다.

제가 이 책을 집은 건 학원 얘기를 들으려던 게 아니었습니다. 요즘 학원가에도 레벨테스트 자동 채점, 이탈 예측, 합격 가능성 점수 같은 AI 도구가 밀려들어 옵니다. 저는 그게 미덥지 않았습니다. "이 점수, 믿어도 되나." 그 의심을 풀려면 애초에 기계가 데이터로 뭘 배운다는 건지, 그 배움이 왜 맞고 왜 빗나가는지 밑바닥을 봐야 했습니다. 프랑스 국립연구소의 머신러닝 학자 프랑시스 바흐(Francis Bach)가 쓴 『Learning Theory from First Principles』(학습이론을 제1원리부터)가 그 밑바닥을 가장 단순한 형태로 모았다기에 집었습니다. 솔직히 기대한 건 "데이터가 많을수록 똑똑해진다"는 식의 설명이었습니다. 그런데 제가 책에서 주운 것은 전혀 다른 데 있었습니다. 그건 도구를 의심하는 법이 아니라, 제가 15년간 아이들을 잘못 봐 온 방식이었습니다.

바흐가 책의 거의 첫머리에서 던지는 문장이 있습니다. 풀어 옮기면 이렇습니다. "과적합은 늘 가능하다." 과적합(overfitting)이란, 본 데이터에는 기막히게 잘 맞는데 안 본 데이터에서는 무너지는 현상입니다. 학원 말로 옮기면 정확히 이겁니다. 풀어 본 문제는 다 맞는데 처음 보는 문제에서 무너지는 것. 그런데 바흐가 짚는 핵심은 이게 이상한 일이 아니라는 데 있습니다. 그의 표현대로 과적합은 '예외'가 아니라 '기본값'입니다. 입력의 세계는 넓고 우리가 본 문제는 그중 한 줌뿐이라서, 본 것에만 맞추는 답은 언제나 존재합니다. 그래서 그는 단호하게 적습니다. 학습이 가능하려면 가정이 있어야 한다고. 가정 없이 모든 경우에 잘하는 학습법은 수학적으로 불가능하다고(저자는 이를 '공짜 점심은 없다'는 정리로 증명합니다).

이 대목에서 제 상담실 장면이 다시 떠올랐습니다. 기출을 다 맞히는 아이는 고장 난 게 아니었습니다. 오히려 너무 잘 작동하고 있었던 겁니다. 그 아이의 머리는 우리가 던져 준 문제 묶음에 완벽하게 맞춰졌습니다. 다만 그 묶음을 '외운 것'과 '이해한 것'을 우리가 구별해 주지 못했을 뿐입니다. 바흐의 책에서 가장 마음을 흔든 건 여기서 한 발 더 들어가는 부분이었습니다. 그는 데이터를 셋으로 나누라고 합니다. 모델을 학습시키는 훈련셋, 설정을 고르는 검증셋, 그리고 최종 실력을 재는 테스트셋. 그리고 경고를 답니다. "테스트셋은 이론상 단 한 번만 써야 한다. 여러 번 들여다보면 안 본 데이터의 성능을 과대평가하게 된다."

저는 이 한 문장 앞에서 한참을 멈췄습니다. 우리는 정반대로 하고 있었기 때문입니다. 모의고사를 풀리고, 그걸 다시 해설하고, 비슷한 변형을 또 풀리고, 또 풀립니다. 좋은 의도였습니다. 그런데 바흐의 눈으로 보면 우리는 테스트셋을 수십 번 들춰보고 있었던 겁니다. 그렇게 하면 아이의 점수는 오릅니다. 단, 그 점수가 진짜 실력을 부풀린 점수라는 게 문제입니다. 한 번 본 시험은 더 이상 실력을 재는 자가 아니라, 외워서 점수를 올릴 또 하나의 기출이 됩니다. 아이가 실전에서 무너진 게 아닙니다. 우리가 실전을 미리 다 까먹게 만들어 놓고, 정작 처음 보는 문제 앞에서 "왜 못 푸냐"고 물었던 겁니다.

여기서 원장님께 드리고 싶은 건 공부법 한 가지가 아닙니다. 학원을 보는 자(尺) 하나를 통째로 바꾸자는 제안입니다. 우리는 그동안 '훈련에서 얼마나 맞히나'를 실력의 증거로 삼아 왔습니다. 숙제 정답률, 기출 정답률, 반복 학습 분량. 그런데 바흐의 책 전체를 관통하는 메시지는 이겁니다. 훈련에서 잘 맞는 건 실력의 증거가 아닙니다. 훈련은 원래 누구나 잘 맞게 되어 있습니다. 실력은 오직 '안 본 문제'에서만 드러납니다. 그러니 학원이 진짜로 관리해야 할 숫자는 숙제 정답률이 아니라, 한 번도 안 본 유형 앞에서의 정답률입니다. 이 자 하나를 바꾸면 보이는 게 달라집니다. 어떤 아이는 훈련 점수가 낮아도 처음 보는 문제를 침착하게 풉니다. 그 아이가 진짜로 잘하는 아이입니다. 우리는 그동안 훈련 점수만 보고 그 아이를 과소평가했을지 모릅니다.

그렇다면 안 본 문제에 강해지게 하려면 어떻게 해야 할까요. 바흐의 답은 의외로 어른들이 좋아하는 답과 반대입니다. 그는 모델에 모든 걸 다 욱여넣는 것을 '용량(capacity)이 너무 큰 상태'라 부르며, 그게 과적합의 원인이라고 봅니다. 처방은 용량을 일부러 줄이는 것, 그러니까 덜 가르치되 핵심을 깊게 잡는 쪽입니다. 너무 많은 유형을, 너무 많은 변형을, 너무 많은 양을 외우게 할수록 아이는 본 것에만 맞춰지고 안 본 것에 약해집니다. 책에 나오는 한 실험이 이걸 그림처럼 보여 줍니다. 함수 하나를 점 스무 개로 맞히는데, 식을 복잡하게 만들수록 가진 점에는 완벽히 들어맞지만 처음 보는 점에서는 오히려 오차가 치솟습니다. 더 정교하게 맞출수록 더 못 맞히게 되는 역설. 저는 이 그래프를 보며, 문제집을 다섯 권씩 돌리는데도 모의고사가 안 오르던 그 아이가 떠올랐습니다. 아이가 게을렀던 게 아닙니다. 우리가 양으로 외우게 만든 구조가, 아이를 본 것에만 강하게 묶어 둔 겁니다.

그러니 어머니의 그 질문, "집에서는 다 푸는데 시험만 보면 왜 이럴까요"에 저는 이제 다르게 답합니다. 아이가 시험에 약한 게 아니라고요. 집에서 푸는 게 너무 익숙한 문제뿐이라 강해 보였던 것이고, 시험은 처음 보는 문제라 비로소 진짜 실력이 드러난 것뿐이라고요. 고칠 것은 아이의 멘탈이 아니라, 우리가 무엇을 실력으로 쳐 왔는가입니다. 이건 아이를 탓하던 자리에서 어른이 한 걸음 물러서는 일이기도 합니다.

솔직히 이 책은 끝까지 편한 책은 아닙니다. 488쪽 분량에 수식이 빽빽한 정통 수학 교과서이고, 선형대수와 확률을 전제로 합니다. 저도 전부를 따라간 건 아닙니다. 다만 신기한 건, 수식을 다 이해하지 못해도 첫 부분의 개념들 — 과적합, 데이터 3분할, 용량 제어, 공짜 점심은 없다 — 만으로도 현장을 보는 눈이 바뀐다는 점입니다. 같은 머신러닝 책이라도 '무엇을 할 수 있나(쓸모)'를 앞세우는 책들이 많은데, 바흐의 책은 처음부터 끝까지 '왜 되고 왜 안 되나(원리)'만 집요하게 묻습니다. 그래서 도구가 아니라 사고의 틀이 남습니다. 학원 AI 도구가 내놓는 점수를 의심하던 제가, 정작 제 손으로 매기던 점수를 먼저 의심하게 됐으니까요.

이번 주에 저는 작은 걸 하나 해 보려 합니다. 어떤 반이든 좋으니, 진도와 무관한 '처음 보는 한 문제'를 시험지 맨 끝에 붙여 봅니다. 채점은 따로 합니다. 그 한 문제의 정답률이, 숙제 정답률보다 우리 학원이 진짜로 봐야 할 숫자라고 믿기 때문입니다. 기출을 다 맞히는 아이를 칭찬하는 일은 쉽습니다. 어려운 건, 한 번도 안 본 문제 앞에서 흔들리지 않는 아이를 알아보는 일입니다. 저는 이제 그 아이를 알아보는 어른이 되고 싶습니다.

[!INFO] 책 정보 제목: Learning Theory from First Principles (학습이론을 제1원리부터) 저자: Francis Bach (프랑시스 바흐) 출판: MIT Press (2024년 출간 예정 라이선스본 기준)

함께 읽으면 좋은 글

매끄럽게 답하는 AI를 믿어도 될까

이루고도 허전하다면, 당신이 틀린 게 아닙니다

잘 맞히는 원장이 아니라 왜 그랬는지 말하는 원장이 신뢰받습니다