한 영어 학원 원장님이 작년에 기막힌 한 수를 뒀습니다. 동네에서 처음으로 토요일 무료 보충반을 열었습니다. 반응이 폭발적이었습니다. 토요일 하루에 신규 상담이 몰렸고, 그해 등록이 30퍼센트 늘었습니다. 원장님은 그게 자기 학원의 필승 카드라고 믿었습니다. 그래서 올해도 똑같이, 더 크게 열었습니다. 그런데 이번엔 아무 일도 일어나지 않았습니다. 토요일에 학원이 텅 비었습니다. 원장님이 저를 찾아와 한 말이 오래 남습니다. "작년이랑 똑같이 했는데, 제가 뭘 잘못한 거죠?" 저는 한참 답을 못 드렸습니다. 그분은 아무것도 잘못하지 않았거든요. 다만 그사이, 옆 학원 세 곳이 전부 주말반을 열었던 겁니다. 작년의 무료 보충반은 '유일한 한 수'였고, 올해의 무료 보충반은 '다들 하는 흔한 것'이었습니다. 같은 행동인데 판이 달라졌습니다.
저는 이 '판이 달라진다'는 감각을 오래 설명하지 못했습니다. 그러다 엉뚱한 데서 정확한 이름을 만났습니다. 알파고나 알파스타처럼 여러 인공지능이 서로 맞붙어 배우는 기술의 밑바닥 원리가 궁금해 집어 든, 사람도 거의 안 읽을 두꺼운 인공지능 교과서에서였습니다.
『Multi-Agent Reinforcement Learning』은 에든버러대학의 세 연구자, 알브레히트와 크리스티아노스와 셰퍼가 함께 쓴 책입니다(MIT Press, 2024). 다중 에이전트 강화학습(여러 자율 행위자가 한 환경에서 서로 협력하거나 경쟁하며 시행착오로 보상을 키우도록 스스로 배우는 학습)을 정리한 첫 완성 입문 교과서입니다. 저자들이 서문에서 직접 밝힌 집필 동기가 인상적이었습니다. 2010년대 중반 딥러닝이 들어오며 이 분야가 폭발적으로 커졌는데, 정작 원리에 충실한 입문서가 없더라는 겁니다. 그 결핍을 메우려 2017년에 한 학회 강의를 토대로 책을 묶었다고 합니다. 한 사람의 통찰이 아니라, 비어 있던 자리를 채우려 셋이 머리를 맞댄 결과물이라는 점을 먼저 적어 둡니다.
제가 이 책에서 줄을 그은 대목은 화려한 알고리즘이 아니었습니다. 1장에서 저자들이 짚은, 이 분야가 단일 인공지능 학습보다 왜 그렇게 어려운가에 대한 첫 번째 난제였습니다. 그들은 그것을 비정상성(non-stationarity)이라 부릅니다. 쉽게 말하면, 판 자체가 가만히 있지 않는다는 뜻입니다. 한 명만 배우는 세계에서는 환경이 고정돼 있습니다. 어제 통한 방법은 오늘도 통합니다. 그런데 여러 행위자가 한 판에서 동시에 배우면 사정이 완전히 달라집니다. 내가 전략을 가다듬는 그 순간, 상대도 자기 전략을 가다듬습니다. 그래서 내가 어렵게 찾아낸 좋은 수가, 상대가 거기 맞춰 움직이는 순간 더는 좋은 수가 아니게 됩니다. 저자들은 이걸 움직이는 표적(moving target) 문제라고 부릅니다. 표적이 가만히 있어 줘야 조준을 하는데, 내가 조준하는 동안 표적도 같이 움직여 버리는 겁니다.
이 문장 앞에서 저는 그 영어 학원 원장님의 텅 빈 토요일을 떠올렸습니다. 그분은 작년의 자기를 표적 삼아 조준했습니다. "작년에 통한 그대로 더 크게." 그런데 그사이 옆 학원 셋이 같이 움직였습니다. 표적이 옮겨간 겁니다. 작년에 안 먹히기 시작한 게 그분 실력이 무뎌져서가 아니었습니다. 같은 행동의 가치를, 남들이 같이 움직이는 바람에 떨어뜨린 겁니다. 책의 표현이 정확합니다. 모두가 동시에, 그것도 각자 다른 속도로 배우기 때문에 어제의 정답이 오늘 오답이 됩니다.
여기서 원장님께 렌즈 하나를 바꿔 드리고 싶습니다. 우리는 보통 학원 경영을 '나 하나의 최적화'로 봅니다. 우리 학원 시간표를 다듬고, 우리 교재를 고치고, 우리 상담 멘트를 가다듬습니다. 마치 나 혼자 시험을 보듯이요. 그런데 이 책의 눈으로 보면, 학원은 나 혼자 보는 시험장이 아닙니다. 원장과 강사와 학부모와 옆 학원과 아이가 한 판에서 동시에 수를 두는 자리입니다. 그러니 "작년에 뭐가 통했나"라는 질문 자체가 반쪽짜리입니다. 진짜 질문은 "그 수가 통한 동안, 다른 사람들은 무엇을 보고 어떻게 움직였나"여야 합니다. 비정상성이라는 말은 결국 이겁니다. 고정된 정답표 같은 건 이 판에 없습니다. 정답은 남들의 수에 따라 매 학기 다시 그려집니다.
저는 이 대목에서 제가 오래 품었던 한 믿음이 증명되는 걸 봤습니다. 저는 '세상에 정해진 철길은 없다'고 믿습니다. 잘 되는 옆 학원의 방법을 그대로 깔면 나도 거기 도착할 거라는 생각은, 사실 내가 만든 상상이라고요. 이 책은 그 믿음에 수학적인 뼈대를 대 줍니다. 옆 학원의 필승 수를 내가 베끼는 순간, 그건 더는 필승 수가 아닙니다. 이미 둘이 같은 수를 두는 다른 판이 됐으니까요. 책에 나오는 단어로는, 베끼는 순간 그 수의 가치가 깎입니다. 그래서 잘 되는 학원을 따라 한 학원이 가장 안 풀리는 겁니다. 따라 한 그 순간, 판이 바뀌어 버렸기 때문입니다.
그런데 이 책이 진짜 무서운 건 다음 한 걸음입니다. 저자들은 이 여러 행위자의 판을 보상 구조에 따라 셋으로 가릅니다. 모두의 목표가 완벽히 같은 공통 보상(완전 협력), 한쪽이 따면 다른 쪽이 그만큼 잃는 제로섬 보상(완전 경쟁), 그리고 협력과 경쟁이 뒤섞인 일반합 보상(혼합 동기)입니다. 저자들은 이 셋 중 가장 어려운 게 마지막, 즉 협력과 경쟁이 섞인 판이라고 못 박습니다. 예로 든 게 자율주행입니다. 차들은 충돌은 함께 피하고 싶어 합니다. 거기까진 협력입니다. 그런데 각자 자기 주행 시간은 최소로 줄이고 싶어 합니다. 거기선 경쟁입니다. 한 판 안에 협력과 경쟁이 동시에 깔려 있는 겁니다.
이게 왜 무섭냐면, 학원이 정확히 이 일반합 판인데 우리가 자꾸 그걸 제로섬으로 착각하기 때문입니다. 한 교실 안 아이들을 떠올려 보십시오. 아이들은 서로 도우며 같이 자라기도 합니다(협력). 동시에 한정된 등수를 두고 다투기도 합니다(경쟁). 협력과 경쟁이 섞인 전형적인 일반합 판입니다. 그런데 많은 학원이 이 판을 제로섬으로 깔아 버립니다. 우열반을 가르고, 등수를 벽에 붙이고, 또래끼리 이기고 지는 구도로 몰아넣습니다. "경쟁이 실력을 키운다"는 믿음으로요. 책의 분류를 빌리면, 이건 협력의 여지가 충분한 일반합 판을 일부러 제로섬으로 좁혀 버리는 셈입니다. 그러면 어떻게 될까요. 한 아이의 +1이 반드시 다른 아이의 -1이 되는 구조에서는, 아이들이 서로 가르쳐 줄 이유가 사라집니다. 옆 친구가 모르는 게 나한테 이득이 되니까요. 협력이 가능했던 자리를, 우리가 보상을 잘못 깔아서 닫아 버린 겁니다.
저는 현장에서 이 차이를 또렷이 봤습니다. 15년간 학원을 지켜보며, 같은 동네에서 비슷한 실력으로 시작한 두 교실이 1년 뒤 완전히 갈리는 걸 여러 번 봤습니다. 한 교실은 잘하는 아이가 못하는 아이를 가르쳐 주는 분위기였고, 한 교실은 서로 점수를 숨기는 분위기였습니다. 신기하게도 1년 뒤 상위권 아이들의 성적은 두 교실이 비슷했습니다. 그런데 중하위권의 이탈률이 제로섬 교실에서 두 배 가까이 높았습니다. 등수를 두고 다투게 하는 게 잘하는 아이를 더 키운 것도 아니면서, 따라오던 아이들만 떨어뜨린 겁니다. 그 원장님이 무능해서가 아닙니다. 보상의 판을 협력이 가능한 일반합이 아니라 제로섬으로 깔았기 때문입니다.
물론 솔직히 한계도 말씀드려야겠습니다. 이 책은 학원을 위해 쓰인 책이 결코 아닙니다. 공학도와 연구자를 위한 두꺼운 교과서이고, 뒤로 갈수록 수식과 알고리즘이 빽빽합니다. 그리고 정직하게 고백하면, 저는 이 책을 다 읽지 못했습니다. 전체 11개 장 가운데 서론인 1장만 제대로 읽었고, 게임이론을 본격적으로 다루는 3·4장도, 이 책의 심장인 딥러닝 알고리즘 9장도 아직 펼치지 못했습니다. 목차로만 그 자리를 확인했을 뿐입니다. 그러니 이 글은 두꺼운 교과서의 첫 장을 읽고 적은 사색 노트에 가깝습니다. 다만 이 책의 미덕은, 그 첫 장 하나가 학원을 보는 눈의 축을 통째로 바꿔 놓는다는 데 있었습니다. 같은 인공지능 학습을 다뤄도, 서튼의 『강화학습』이 '한 명의 학습자가 보상을 좇아 자란다'를 다룬다면, 이 책은 한 칸 더 나아가 '여러 학습자가 서로를 보며 동시에 움직일 때 판이 어떻게 살아 꿈틀대는가'를 다룹니다. 학원은 늘 후자였는데, 저는 오래 전자처럼 운영하고 있었던 겁니다.
이 책을 덮고 나서, 저는 원장님들이 흔히 하는 두 가지 자책을 다시 보게 됐습니다. "작년엔 통했는데 올해 안 통하는 걸 보니 내가 감을 잃었나." "경쟁을 시켰는데 왜 애들이 더 안 크지." 둘 다 자기를 탓하는 말입니다. 그런데 이 책의 눈으로 보면 둘 다 자기 잘못이 아닙니다. 앞엣것은 그사이 모두가 같이 움직였기 때문이고, 뒤엣것은 협력이 가능한 판을 제로섬으로 깔았기 때문입니다. 판의 문제를 실력의 문제로 오해하고 있었던 거지요.
그러니 작년에 통한 전략이 올해 텅 비었다면, 더 센 전략을 짜기 전에 한 번 물어보셔도 좋겠습니다. 내가 무뎌진 걸까, 아니면 그사이 옆에서 누가 같은 수를 두기 시작한 걸까. 우리 교실의 아이들은 정말 서로 이겨야만 크는 걸까, 아니면 우리가 이겨야만 크는 판으로 깔아 둔 걸까. 이 두 질문을 던지는 순간, 비로소 판 전체가 눈에 들어오기 시작합니다. 내 전략이 작년에 안 먹히기 시작한 건 내가 무뎌져서가 아니라, 그사이 모두가 같이 움직였기 때문입니다. 그걸 먼저 보는 사람이, 흔들리는 판 위에서도 다음 수를 둘 수 있습니다.
| Multi-Agent Reinforcement Learning: Foundations and Modern Approaches |
|---|
| Stefano V. Albrecht · Filippos Christianos · Lukas Schäfer 저 |
| The MIT Press · 2024 |
"내 전략이 작년에 안 먹히기 시작한 건 내가 무뎌져서가 아니라, 그사이 모두가 같이 움직였기 때문입니다."