칭찬 스티커를 모은 아이는 왜 스티커가 끊기면 멈출까요

한 초등 수학 학원에서 본 장면입니다. 벽에 커다란 스티커판이 걸려 있었고, 숙제를 다 해 오면 스티커 한 장, 시험을 잘 보면 두 장이 붙었습니다. 아이들은 스티커에 환장했습니다. 30개를 모으면 문구점 상품권을 줬거든요. 출석률도 좋고 숙제 제출률도 90퍼센트가 넘었습니다. 원장님은 뿌듯해하셨습니다. 그런데 그해 겨울, 예산 문제로 상품권을 잠깐 끊었더니 무슨 일이 벌어졌는지 아십니까. 숙제 제출률이 한 달 만에 절반으로 주저앉았습니다. 스티커가 사라지자 아이들이 공부할 이유까지 함께 사라진 겁니다. 원장님이 저에게 물으셨습니다. "분명히 잘 굴러갔는데, 왜 이렇게 한순간에 무너지죠." 저는 한참 뒤에야 답을 찾았는데, 엉뚱하게도 인공지능 교과서 한 권에서였습니다.

제가 이 책을 펼친 건 학원 얘기를 들으려던 게 아니었습니다. 요즘 알파고나 ChatGPT가 "스스로 배운다"는 말을 입에 달고들 사는데, 도대체 컴퓨터가 정답지도 없이 무엇을 어떻게 배운다는 건지 손에 잡히지 않았습니다. 그 밑바닥 원리가 적힌 책이라기에 집었습니다. 솔직히 첫 장부터 후회했습니다. 마르코프 결정 과정이니 동적계획법이니, 이름만 들어도 묵직한 말들이 줄지어 기다리고 있었거든요. 그런데 제가 거기서 발견한 건 알고리즘이 아니라, 제가 그 원장님께 못 드렸던 답이었습니다.

『Reinforcement Learning: An Introduction』은 강화학습이라는 분야를 사실상 일군 리처드 서튼과 앤드루 바토가 쓴 정전(canon) 교과서입니다. 강화학습(직접 해보며 보상을 가장 키우는 행동을 스스로 찾아내는 학습)의 표준 입문서지요. 1998년 초판이 나온 뒤 20년 만인 2018년에 2판이 나왔고, 분량이 두 배로 불었습니다. 이 책이 같은 'AI 학습' 책들과 결정적으로 다른 지점이 있습니다. 대다수 머신러닝 책이 "정답이 붙은 데이터를 잔뜩 먹여 패턴을 익히게 한다"는 지도학습을 다룬다면, 이 책은 정답을 아무도 안 주는 학습을 다룹니다. 누가 "이렇게 해라"라고 떠먹여 주지 않습니다. 학습자가 직접 부딪혀 보고, 결과로 돌아오는 보상만 보고 길을 찾아갑니다. 저자들은 첫 장에서 이걸 머신러닝의 제3의 패러다임이라 못 박고는, 곧장 의미심장한 한마디를 덧붙입니다. 모든 형태의 기계 학습 중에서 강화학습이 인간과 동물의 배움에 가장 가깝다고요. 그러니까 이 책은 컴퓨터 책의 탈을 쓴, 사실은 '배움이란 무엇인가'를 다루는 책이었습니다.

제 머리를 때린 건 1장 중반의 짧은 한 대목이었습니다. 저자들은 강화학습 시스템을 이루는 부품을 정리하면서, 그중 둘을 또렷이 구분합니다. 하나는 보상 신호(reward signal)입니다. 매 순간 환경이 보내 주는 단 하나의 숫자, 잘했으면 플러스 못했으면 마이너스인 즉각적인 신호지요. 학원으로 치면 스티커, 점수, 칭찬 한마디입니다. 다른 하나는 가치 함수(value function)입니다. 지금 이 상태에서 출발하면 앞으로 길게 봐서 얼마나 많은 보상이 쌓일지를 내다보는 판단입니다. 당장의 맛이 아니라 멀리 보는 안목이지요.

그리고 저자들은 이 두 가지의 관계를 한 문장으로 못 박습니다. 보상은 1차적이고, 가치는 2차적이다. 보상이 없으면 가치라는 것 자체가 존재할 수 없으니까요. 가치를 따지는 유일한 이유도 결국 더 많은 보상을 얻기 위해서고요. 여기까지는 "그래, 보상이 제일 중요하다는 거구나" 싶습니다. 그런데 바로 다음 문장에서 책은 방향을 홱 틉니다. 그럼에도 불구하고, 행동을 고를 때 우리가 가장 신경 써야 하는 것은 보상이 아니라 가치라고요. 즉각 보상이 작아도 가치가 높은 행동을 골라야 한다는 겁니다. 강화학습의 거의 모든 알고리즘이 매달리는 일이 바로 이 가치를 제대로 추정하는 것이라고 저자들은 말합니다.

저는 이 대목에서 스티커판을 떠올렸습니다. 그 원장님은, 그리고 솔직히 저를 포함한 많은 원장님은, 보상으로 학원을 운영합니다. 스티커를 붙이고, 등수를 매기고, 잘하면 칭찬하고 못하면 한소리 합니다. 그게 잘못이라는 게 아닙니다. 책의 말대로 보상은 1차적이니까요. 보상이 있어야 아이가 일단 움직입니다. 문제는 거기서 멈춘다는 겁니다. 우리는 보상을 설계하는 데까지만 공을 들이고, 정작 아이 안에 가치가 자라고 있는지는 들여다보지 않습니다. 스티커판이 화려할수록 그렇습니다. 숫자가 잘 나오니까요.

여기서 원장님께 렌즈 하나를 바꿔 드리고 싶습니다. 우리는 보통 학원의 성과를 "지금 아이가 얼마나 잘 따라오는가"로 봅니다. 출석률, 숙제율, 이번 시험 점수. 전부 보상의 언어입니다. 그런데 강화학습의 눈으로 보면, 진짜 봐야 할 것은 따로 있습니다. 이 아이는 보상 없이도 움직일 줄 아는가. 스티커를 떼도, 시험이 없는 방학에도, 칭찬해 줄 사람이 없어도 책상에 앉는가. 그게 가치가 자랐다는 신호입니다. 강화학습이 즉각 보상이 작아도 가치 높은 행동을 고르도록 에이전트를 키우듯, 학원도 결국 보상이 끊긴 자리에서 스스로 굴러가는 아이를 키우는 일이어야 합니다. 그 스티커판은 출석률은 올렸지만, 가치는 한 톨도 키우지 못했던 겁니다. 그래서 상품권이 끊기는 순간 모래성처럼 무너진 거고요.

오해는 풀어 드리고 싶습니다. 보상을 없애라는 말이 결코 아닙니다. 책이 분명히 말하듯 보상은 1차적입니다. 가치는 보상 없이는 생겨나지도 않습니다. 스티커를 다 떼고 "이제부터 공부의 기쁨으로 해 보자"고 하면 아이는 그냥 안 합니다. 핵심은 순서와 비중입니다. 보상으로 일단 움직이게 하되, 그 보상이 가리키는 방향이 장기 가치와 같은 쪽을 향하게 설계하는 것. 예를 들어 "시험 점수"라는 즉각 보상에만 스티커를 붙이면 아이는 점수에만 반응합니다. 그런데 "스스로 오답을 정리해 온 날", "어제 틀린 걸 오늘 맞힌 날"처럼 가치가 자라는 행동에 보상을 옮겨 붙이면, 보상이 끊긴 뒤에도 그 행동이 남습니다. 보상의 자리를 어디에 두느냐가, 아이 안에 무엇이 자랄지를 결정합니다.

이 지점에서 저는 이 책이 왜 그렇게 동물 실험과 심리학을 자주 끌어오는지 이해했습니다. 책의 뒷부분은 아예 심리학(고전적·도구적 조건형성)과 신경과학(보상을 느끼는 뇌의 도파민)을 한 장씩 할애해 다룹니다. 그러니까 "보상을 좇아 시행착오로 배운다"는 이 틀은 컴퓨터에만 있는 게 아닙니다. 강아지에게도, 비둘기에게도, 그리고 우리 학원 책상에 앉은 열 살짜리에게도 똑같이 작동하는 원리입니다. 제가 현장에서 1000명 가까운 학부모를 만나며 본 진실 하나를 보태면, 망설이는 원장님일수록 즉각 보상에 매달립니다. 숫자가 빨리 움직이니까요. 가치는 더디게 자라서, 한 학기를 들여다봐도 눈에 잘 안 보입니다. 그래서 자꾸 스티커를 한 장 더 붙이게 됩니다. 그게 안전하게 느껴지거든요.

이 책을 모든 원장님께 권하지는 않겠습니다. 분명히 공학도와 연구자를 위한 교과서입니다. 수식과 알고리즘을 건너뛸 각오가 없으면 2장을 넘기기 전에 덮게 됩니다. 그리고 저는 이 책을 끝까지 읽지 못했습니다. 정직하게 말씀드리면 전체 17개 장 가운데 1장(서론)만 제대로 읽었습니다. 저자가 책의 심장이라 직접 밝힌 6장 시간차 학습도, 알파고를 다룬 16장도 아직 펼치지 못했고, 목차로만 그 자리를 확인했을 뿐입니다. 그러니 이 글은 두꺼운 교과서의 첫 장만 읽고 적은 사색 노트에 가깝습니다. 다만 이 책의 매력은, 그 첫 장 하나만으로도 학원을 보는 눈이 바뀐다는 데 있었습니다. 같은 시기에 읽은 『넛지』가 "선택의 순간을 어떻게 설계할까"를 가르쳐 줬다면, 이 책은 한 걸음 더 안쪽, "보상이 시간을 두고 사람 안에 무엇을 빚는가"를 보여 줬습니다. 넛지가 그 한 번의 클릭을 설계한다면, 강화학습은 그 클릭이 천 번 쌓여 만드는 습관을 다룹니다.

저는 이 책을 덮고 나서, 학원에서 쓰는 '동기부여'라는 말을 다시 보게 됐습니다. 예전엔 동기부여를 "어떻게 하면 아이를 더 잘 움직이게 할까"라고만 생각했습니다. 지금은 질문이 둘로 갈라졌습니다. 나는 지금 아이를 움직이게 하고 있나, 아니면 아이를 자라게 하고 있나. 둘은 비슷해 보이지만 전혀 다른 일입니다. 그러니 학원 숫자가 좋은데도 어딘가 불안하시다면, 더 센 보상을 고민하기 전에 한 번 의심해 보셔도 좋겠습니다. 우리 아이들은 스티커가 좋아서 앉아 있는 걸까, 아니면 공부가 자기 것이 돼서 앉아 있는 걸까. 그 스티커판을 떼었을 때 비로소 답이 보입니다.

Reinforcement Learning: An Introduction (second edition)
Richard S. Sutton · Andrew G. Barto 저
The MIT Press · 2018

"보상은 아이를 움직이게 합니다. 하지만 아이를 자라게 하는 건 보상이 아니라 가치입니다."

함께 읽으면 좋은 글

옆 학원을 이기려는 순간 둘 다 가난해집니다

가장 잘 가르치는 원장이 가장 위험합니다

원장님이 흔들리는 건 자질이 없어서가 아닙니다