좋은 결정과 좋은 결과는 같은 말이 아니었습니다

우리는 보통 결정을 결과로 채점합니다. 새 강사를 뽑았는데 학생이 늘면 좋은 결정, 줄면 나쁜 결정. 광고를 돌렸는데 문의가 오면 잘한 선택, 잠잠하면 헛돈. 깔끔합니다. 그런데 저는 이 채점법이 원장님을 가장 자주 속이는 거짓말이라고 생각합니다. 한 분이 떠오릅니다. 면접을 세 번 보고, 평판을 두 군데 확인하고, 수습 한 달을 거쳐 강사를 뽑았습니다. 그런데 두 달 만에 그 강사가 개인 사정으로 그만뒀습니다. 학생 몇이 따라 빠졌고요. 그분은 자책했습니다. "내가 사람 보는 눈이 없나 봐요." 저는 그 말이 줄곧 마음에 걸렸습니다. 정말 그분의 결정이 나빴던 걸까요.

제가 그 답을 엉뚱한 데서 찾았다고 하면 믿으실까요. 학원 책도, 경영서도 아니었습니다. 스탠퍼드 공학자들이 쓴 700쪽짜리 의사결정 교과서, 『Algorithms for Decision Making』이었습니다. 제가 이 책을 집은 건 학원 고민 때문이 아니라 다른 궁금증 때문이었습니다. 요즘 AI가 "스스로 판단한다"고들 하는데, 도대체 기계가 무엇을 보고 어떻게 행동을 고른다는 건지 그 밑바닥이 알고 싶었거든요. 솔직히 첫 장의 수식과 줄리아(Julia) 코드를 보고는 잘못 펼쳤다 싶었습니다. 그런데 1장을 넘기다, 제가 그 원장님께 못 드린 답이 거기 적혀 있는 걸 발견했습니다.

이 책의 출발점은 의외로 단순한 그림 한 장입니다. 세상엔 환경이 있고, 그 안에 에이전트(관측하고 행동하는 존재 — 사람이든 로봇이든 소프트웨어든)가 있습니다. 에이전트는 매 순간 불완전한 정보를 받아 들고, 그걸 바탕으로 행동을 하나 고르고, 그 행동은 환경에 정해지지 않은 효과를 냅니다. 같은 행동을 해도 결과는 그때그때 다르게 나옵니다. 저자들은 이걸 관측–행동의 끝없는 고리라고 부릅니다. 강사를 뽑는 일도, 광고를 돌리는 일도 정확히 이 고리 위에 있습니다. 정보는 늘 모자라고, 결과는 늘 내 통제 밖에서 흔들립니다.

여기서 이 책이 다른 모든 의사결정 책과 갈라서는 지점이 나옵니다. 시중의 책들이 "어떻게 하면 옳은 결정을 내릴까"를 가르친다면, 이 책은 먼저 불확실성을 네 갈래로 해부합니다. 행동의 효과를 모르는 결과 불확실성, 문제를 보는 내 모델 자체가 틀렸을 수 있는 모델 불확실성, 지금 무슨 일이 벌어지는지 참 상태를 못 보는 상태 불확실성, 그리고 나와 함께 움직이는 다른 사람들의 수를 못 읽는 상호작용 불확실성. 700쪽 책 전체가 이 네 갈래를 하나씩 더해가며 쌓아 올린 사다리입니다. 그러니까 이 책은 "정답을 맞히는 법"이 아니라 "안 보이는 것투성이인 와중에 어떻게 행동을 고르는가"를 다룹니다. 저는 이 차이가 결정적이라고 봅니다.

자기계발서의 결정론이 "확신을 가지고 밀어붙여라"라면, 이 책의 태도는 정반대입니다. 확신할 수 없는 게 정상이고, 문제는 그 불확실성을 어떻게 다루느냐다. 저자들이 1장에서 인용한 한 대목이 인상 깊었습니다. 운용과학의 거장 단치히가 1991년에도 "불확실성 아래의 동적 계획"은 여전히 미해결 과제라고 적었다는 겁니다. 수십 년을 이 문제에 바친 석학조차 "아직 다 못 풀었다"고 고백하는 영역. 그렇다면 면접 세 번에 강사 두 달을 못 맞힌 원장님이 자기 안목을 탓하는 건, 좀 가혹한 일 아닐까요.

저자들이 이 관점에 닿은 계보를 풀어둔 대목도 좋았습니다. 강화학습(보상과 처벌로 행동을 학습하는 방식)의 뿌리가 사실은 심리학이라는 겁니다. 개에게 종을 울리던 파블로프의 보상 실험, 시행착오로 행동이 굳어진다는 손다이크의 관찰. 기계가 스스로 판단하는 원리의 밑바닥에 사람과 동물의 학습이 깔려 있다는 거지요. 알고리즘이 차갑게만 느껴졌던 제게, 이 계보는 의외의 온기였습니다. 기계의 의사결정이든 원장님의 의사결정이든, 결국 같은 질문을 푸는 다른 방언이었던 셈입니다.

그래서 저는 그 원장님께 뒤늦은 답을 이렇게 정리했습니다. 좋은 결정과 좋은 결과는 같은 말이 아닙니다. 강사가 두 달 만에 그만둔 건 나쁜 결과가 맞습니다. 하지만 면접 세 번, 평판 확인, 수습 한 달이라는 그 과정은 주어진 불확실성 아래에서 할 수 있는 좋은 결정이었습니다. 결과 불확실성, 그러니까 사람의 개인 사정이라는 통제 밖 변수가 나쁘게 굴러갔을 뿐입니다. 여기서 원장님께 렌즈 하나를 바꿔 드리고 싶습니다. 우리는 결정을 결과로 채점합니다. 그런데 이 책의 눈으로 보면, 채점해야 할 건 결과가 아니라 결정의 과정입니다. 그때 내가 가진 정보로, 그만큼의 불확실성 아래에서, 합리적으로 행동을 골랐는가. 이걸 물어야 합니다.

이 렌즈가 왜 현장에서 그대로 작동하느냐면, 학원의 거의 모든 중요한 결정이 결과가 한참 뒤에야 나오는 일이기 때문입니다. 강사 채용, 신규 과목 개설, 옆 건물로의 확장, 단가 인상. 전부 결정과 결과 사이에 몇 달의 시차와 통제 못 할 변수들이 끼어 있습니다. 결과로만 채점하면, 운 좋게 맞은 무모한 결정은 칭찬받고, 신중했지만 운 나빴던 결정은 벌받습니다. 그러면 원장님은 점점 운을 실력으로 착각하거나, 멀쩡한 자기 판단력을 의심하게 됩니다. 제가 현장에서 15년간 본 진실 하나를 보태면, 결과만 보고 자기를 채점하는 원장님일수록 결정 자체가 점점 충동적으로 바뀝니다. 어차피 운인데 뭐, 하는 마음이 슬며시 끼어들거든요.

물론 이 책을 모든 원장님께 권하지는 않겠습니다. 분명히 공학도와 연구자를 위한 두꺼운 교과서이고, 수식과 코드를 건너뛸 각오가 없으면 1장도 버겁습니다. 그리고 정직하게 밝히면, 저도 이 책을 끝까지 읽지 못했습니다. 전체 목차와 서문, 그리고 1장 서론만 제대로 읽었습니다. 마르코프 결정 과정이니 부분관측이니 다중에이전트 게임이니 하는, 이름만으로도 묵직한 스물여섯 개 장이 그 뒤에 줄지어 기다리고 있다는 것만 목차로 확인했을 뿐입니다. 그러니 이 글은 거대한 입문서의 입구에서 적은 사색 노트에 가깝습니다. 그 점은 분명히 해두겠습니다. 다만 이 책의 매력은, 앞의 한 장만으로도 결정을 보는 눈이 바뀐다는 데 있었습니다.

저는 이 책을 덮고 나서, 그 강사 사고를 다시 떠올렸습니다. 같은 결과를 두고도 두 가지 이야기가 가능합니다. "나는 사람 보는 눈이 없다"는 이야기와, "나는 그때 가진 정보로 좋은 결정을 했고, 통제 밖 변수가 나빴다"는 이야기. 결과는 똑같이 강사 한 명의 퇴사입니다. 하지만 앞의 이야기를 믿는 원장님은 다음 채용에서 위축되고, 뒤의 이야기를 믿는 원장님은 자기 채용 과정을 차분히 점검합니다. 결과만 보면 둘은 같은 실패처럼 보이지만, 왜 그랬는지를 파고들면 완전히 다른 두 사람입니다. 그러니 다음에 결정이 나쁜 결과로 돌아올 때, 자책하기 전에 한 번만 물어보면 좋겠습니다. 나는 나쁜 결정을 한 걸까, 아니면 좋은 결정을 했는데 운이 나빴던 걸까.

Algorithms for Decision Making
Mykel J. Kochenderfer · Tim A. Wheeler · Kyle H. Wray 저
The MIT Press · 2022

"좋은 결정을 했는데 결과가 나빴던 겁니다. 그 둘은 같은 말이 아니었습니다."

함께 읽으면 좋은 글

더 열심히 고치기 전에 무엇부터 고칠지를 묻는 사람

잘된다는 말과 보증된다는 말은 다릅니다

우리 학원 잘 굴러간다는 그 말이 가장 위험합니다