반 평균 82점이 같다고 두 반이 같은 게 아니었습니다

월말 성적표가 두 장 나란히 놓여 있던 날을 기억합니다. A반도 평균 82점, B반도 평균 82점이었습니다. 숫자만 보면 두 반은 같은 반이었습니다. 그런데 한 칸씩 내려가며 점수를 훑던 저는 등이 서늘해졌습니다. A반은 거의 모두가 78점에서 86점 사이에 고르게 모여 있었습니다. B반은 95점이 넉 줄, 60점 아래가 다섯 줄이었습니다. 상위권은 펄펄 날고, 아래쪽은 소리 없이 무너지는 중이었습니다. 평균 82점이 같다고, 두 반이 같은 반인 게 아니었습니다. 그런데 제 손에 들린 보고서에는 그 차이를 담을 칸이 없었습니다. '평균'이라는 칸 하나가, 가장 중요한 것을 통째로 삼키고 있었던 겁니다. 저는 그 답답함의 정체를 한참 뒤에야, 엉뚱하게도 AI 연구자들이 쓴 두꺼운 강화학습 교과서의 첫 장에서 만났습니다.

이 책을 집은 건 학원 얘기를 들으려던 게 아니었습니다. 요즘 AI가 '스스로 시행착오로 배운다'고들 하는데, 그 강화학습이라는 게 도대체 무엇을 어떻게 계산하는 건지 손에 잡히지 않아서였습니다. 솔직히 기대한 건 "AI는 보상을 최대로 받는 길을 찾는다" 정도의 깔끔한 설명이었습니다. 그런데 1장 첫머리에서 저자들이 던진 문제는, 제가 기대한 자리와 전혀 다른 데를 찌르고 있었습니다. 그들이 따지고 든 건 "어떻게 더 많이 받을까"가 아니라 "우리가 그동안 받을 것을 너무 납작하게 봐 온 건 아닐까"였습니다.

『Distributional Reinforcement Learning(분포 강화학습)』은 한 사람의 착상이 아니라, 한 갈래의 연구를 직접 연 당사자들이 함께 정리한 책입니다. 마크 벨러메어, 윌 댑니, 마크 롤런드 세 사람의 공동 저작입니다. 책 서문에 그 출발점이 적혀 있습니다. 2016년 11월 딥마인드에서 시작된 작업이 C51이라는 알고리즘으로 이어졌고, 이것이 2017년 한 학회에서 아타리 게임 최고 성능을 찍으며 한 분야의 문을 열었다고요. 한 사람의 머리가 아니라 한 흐름을 일군 사람들이 정리한 책이라는 점을 먼저 적어 둡니다.

이 책이 보통의 강화학습 교과서와 갈리는 지점은 첫 장부터 또렷합니다. 기존의 강화학습은 '앞으로 받을 보상의 합'을 기댓값, 그러니까 평균값 하나로 다룹니다. 미래가 어떻게 펼쳐지든, 결국 평균이 얼마냐는 숫자 하나로 졸여 의사결정을 내립니다. 이 책은 바로 그 자리를 건드립니다. 평균 하나가 아니라, 일어날 수 있는 결과들의 분포 전체를 다루자는 겁니다. 저자들이 1장에서 쓴 비유가 이걸 단번에 보여 줍니다. 기댓값은 흑백 사진이고, 분포는 컬러 사진입니다. 컬러 사진에서 흑백 사진은 언제든 뽑아낼 수 있습니다. 하지만 흑백 사진 한 장만 들고서는, 원래의 색을 되살릴 길이 없습니다. 평균에서는 분포를 복원할 수 없다. 이 한 문장이 책 전체의 심장입니다.

저자들은 왜 평균 하나로는 부족한지를 일상의 장면으로 짚습니다. 투자는 기대 수익만 보지 않고 변동성을 함께 잽니다. 복권은 기대 수익이 마이너스인데도, 큰 한 방의 가능성 때문에 팔립니다. 눈보라 속에서 버스를 기다릴 때, 평균 도착 간격만 믿었다가는 얼어붙기 십상입니다. 셋 다 '평균'은 같아도 그 뒤에 숨은 분포가 전혀 다른 경우입니다. 그래서 평균만 아는 AI는 그 평균을 최대로 만드는 선택밖에 못 합니다. 반면 분포를 아는 AI는 실패 확률이 높은 길을 피하거나, 출렁임이 큰 선택에 벌점을 줄 수 있습니다. 저자들은 이것을 '위험에 민감한 의사결정(risk-sensitive decision-making)'이라 부르고, 이것이 현실에서 AI를 더 믿을 만하게 만든다고 봅니다.

여기서 저는 그 두 장의 성적표를 다시 봤습니다. 제가 그동안 쥐고 있던 '반 평균 82점'은 정확히 흑백 사진이었습니다. A반과 B반은 같은 밝기로 인화됐지만, 색이 전혀 달랐습니다. 그리고 저는 흑백 사진 한 장을 들고 두 반을 같은 반으로 취급하고 있었던 겁니다. B반의 그 무너지는 다섯 줄은, 평균이라는 인화 과정에서 95점짜리들의 빛에 묻혀 사라진 색이었습니다. 제가 못나서 그 다섯 명을 놓친 게 아니었습니다. 제가 보던 지표 자체가, 그 다섯 명을 볼 수 없게 만들어진 숫자였던 겁니다.

원장님께 렌즈 하나를 바꿔 끼워 드리고 싶습니다. 우리는 학원을 거의 평균으로 봅니다. 반 평균 점수, 평균 등록률, 평균 만족도. 보고서도 그렇게 짜여 있고, 머릿속 판단도 그렇게 돌아갑니다. 그런데 이 책의 눈으로 보면, 평균은 가장 중요한 정보를 지우고 남은 재 한 줌입니다. 같은 평균 등록률 뒤에는, 모두가 고만고만하게 다니는 학원과, 핵심 몇 명이 떠받치는데 그 아래가 매달 출렁이는 학원이 함께 숨어 있습니다. 같은 평균 만족도 뒤에는, 잔잔하게 만족하는 학부모 무리와, 열광하는 절반과 떠날 준비를 하는 절반이 섞인 무리가 함께 숨어 있습니다. 평균은 그 둘을 같다고 말합니다. 분포는 그 둘이 전혀 다른 학원이라고 말합니다.

차이는 단순한 통계 지식이 아니라 무엇을 두려워하느냐에서 갈립니다. 평균만 보는 원장은 '기대 등록률을 최대로 끌어올리는 것'밖에 목표로 삼지 못합니다. 마치 평균만 아는 AI가 평균 보상 최대화밖에 못 하듯 말입니다. 반면 분포를 보는 원장은 다른 질문을 던질 수 있습니다. "이번 분기, 한꺼번에 빠질 위험이 큰 반은 어디인가." "겉보기 만족도는 높은데 변동성이 커서, 작은 사건 하나에 우르르 무너질 학부모군은 누구인가." 이게 이 책이 말하는 위험에 민감한 의사결정을, 그대로 학원 위험 관리로 옮긴 모습입니다. 평균은 '가장 좋은 경우'를 키우게 하고, 분포는 '가장 나쁜 경우'를 미리 보게 합니다. 학원에서 진짜 학원을 무너뜨리는 건, 대개 평균이 가려 놓은 그 나쁜 꼬리 쪽이었습니다.

저자들이 이걸 이론으로 받치는 출발점도 일러두고 싶습니다. 보통의 강화학습이 쓰는 핵심 등식(벨만 방정식)은 '이 상태의 기대 수익 = 당장 받을 보상의 평균 + 다음 상태의 기대 수익'처럼, 평균과 평균을 잇습니다. 이 책은 그 등식의 자리에 평균 대신 확률변수, 그러니까 '여러 결과와 그 확률 묶음'을 통째로 집어넣어, 수익의 분포끼리를 잇는 식을 핵심 대상으로 삼습니다. 이걸 컴퓨터에 담는 방법까지 책은 파고듭니다만, 저는 거기까지 따라가지 못했으니 그 입구만 열어 두겠습니다. 제가 정직하게 붙든 건 1장 하나입니다. 다만 이 책의 미덕은, 그 첫 장 하나만으로도 매달 보던 성적표가 다르게 보인다는 데 있었습니다.

이 책을 모든 원장님께 권하지는 않겠습니다. 분명히 AI 연구자와 공학도를 위한 교과서입니다. 본문에는 수식과 정리가 빼곡하고, 1부 기초를 지나 이론으로 들어가면 수학을 건너뛸 각오가 없이는 버티기 어렵습니다. 그리고 저는 이 책을 끝까지 읽지 못했습니다. 정직하게 말씀드리면 전체 열한 개 장 가운데 서문과 1장(서론)을 제대로 읽고, 나머지 장들은 목차로만 그 자리를 확인했을 뿐입니다. 그러니 이 글은 두꺼운 교과서의 첫 장을 붙들고 적은 사색 노트에 가깝습니다. 거꾸로 말하면, 본문의 어려운 수학을 다 통과하지 않아도, 이 책이 던지는 관점 하나는 첫 장에서 이미 손에 쥐여 줍니다.

저는 이 책을 덮고 나서, '안다'는 말을 다시 정의하게 됐습니다. 예전엔 학원을 안다는 걸 "지표를 챙겨 본다"로 여겼습니다. 지금은 다르게 봅니다. 평균을 챙겨 보는 것과, 그 평균 뒤의 분포를 보는 것은 전혀 다른 앎입니다. 그래서 다음 월말, 두 반의 평균이 똑같이 나오거든, 같다고 적기 전에 한 번만 그 줄을 끝까지 내려가 보시면 좋겠습니다. 78점에서 86점 사이에 모여 있는 반인지, 95점과 50점이 한 칸 건너 앉아 있는 반인지. 평균은 흑백 사진입니다. 그 한 장으로는, 무너지고 있는 반의 색을 끝내 되살릴 수 없습니다. 색을 보려면, 줄을 끝까지 내려가 보는 수밖에 없습니다.

Distributional Reinforcement Learning
Marc G. Bellemare · Will Dabney · Mark Rowland 저
The MIT Press · 2023

"평균은 흑백 사진입니다. 그 한 장으로는, 무너지고 있는 반의 색을 끝내 되살릴 수 없습니다."

반 평균 82점이 같다고 두 반이 같은 게 아니었습니다

함께 읽으면 좋은 글

매끄럽게 답하는 AI를 믿어도 될까

좁히면 손님이 준다는 건 착각이었습니다

매달 조금씩 고치는데 왜 학원은 안 나아질까요