"AI한테 검토시켰어요"라는, 요즘 가장 흔한 거짓말

요즘 제가 가장 자주 듣는 말이 있습니다.

"AI한테 한번 검토시켰어요." "테스트 다 통과했어요."

말한 사람은 일을 끝냈다고 믿습니다. 저도 한동안 그 말을 믿었습니다. 그런데 이 두 문장이, 제가 보기엔 요즘 가장 흔한 거짓말입니다. 거짓말을 하려고 한 게 아닙니다. 본인도 진짜로 검토했다고 믿는다는 게 더 무서운 지점이죠.

오늘은 이 착각을 한 겹씩 벗겨보려 합니다. 다 읽고 나면, 여러분은 한 가지 렌즈를 가져가시게 됩니다. "만드는 힘과 고르는 힘은 전혀 다른 힘이다." 이 한 줄이 앞으로 여러분이 일하는 방식을 조금 바꿔놓을 거라고 저는 봅니다.

병목이 뒤집혔습니다

먼저 질문 하나. 일이 막히는 지점이 어디라고 생각하세요?

얼마 전까지는 답이 분명했습니다. 만드는 게 어려웠죠. 글을 쓰는 것, 코드를 짜는 것, 그림을 그리는 것. 다 시간과 품이 드는 일이었습니다. 그래서 우리는 '많이 만들 수 있는 사람'을 귀하게 여겼습니다.

그런데 AI가 그 비용을 0으로 끌어내렸습니다. 카피 100개, 이제 1분이면 나옵니다. 코드 한 덩어리, 한 호흡이면 나옵니다.

여기서 사람들이 착각합니다. "와, 이제 다 빨라지겠네." 아닙니다. 빨라지지 않습니다. 병목이 사라진 게 아니라, 한 칸 옆으로 옮겨갔을 뿐이거든요.

AI 모델을 만드는 연구자들 사이에서 실제로 벌어지는 일을 한 토막 옮겨보겠습니다. 여러 모델을 하나로 합치는 '머징'이라는 작업이 있습니다. 이 합치는 일 자체는 거의 공짜입니다. 그런데 합쳐놓고 나서 "이게 더 나아졌나?"를 평가하는 일이 비쌉니다. 진짜 비쌉니다. 그래서 전체 속도는 만드는 손이 아니라 평가하는 눈이 정합니다.

또 하나. AI가 코드에서 버그를 자동으로 찾아내는 실험이 있었습니다. 기계가 후보를 19개 집어냈죠. 그런데 사람이 코드를 직접 한 줄씩 까보니, 진짜 버그는 6개뿐이었습니다. 나머지 13개는 헛것이었습니다. 자동으로 '찾는' 일은 쉬웠지만, 그게 진짜인지 '가려내는' 일은 전혀 다른 차원이었던 겁니다.

보이시나요. 만드는 비용이 0에 가까워지는 모든 곳에서, 귀한 자리는 '판단'으로 옮겨갑니다. 자동화는 일을 없애지 않습니다. 병목을 한 칸 옮길 뿐입니다.

만드는 일이 공짜가 되면, 권력은 고르는 사람에게 넘어갑니다.

그런데 고르는 힘은, 지금 형편없습니다

여기서 대부분 이렇게 생각합니다. "고르는 게 중요하면, AI한테 골라달라고 하면 되지."

이 지점에서 함정 두 개가 동시에 벌어집니다.

첫째, 푸는 힘과 고르는 힘은 같은 힘이 아닙니다. 이게 직관에 반합니다. 우리는 보통 "잘 푸는 사람이 잘 채점도 하겠지"라고 믿으니까요.

그런데 실제 측정 결과는 달랐습니다. 문제를 척척 푸는 GPT-4o라는 모델에게 자기가 본 답들을 채점하게 시켜봤더니, 그 채점 정확도가 동전 던지기보다 아주 약간 나은 수준에 그쳤습니다. 잘 푸는 것과 잘 고르는 것은, 따로 노는 별개의 능력이었던 겁니다.

이걸 사람에 옮겨보면 금방 와닿습니다. 글을 잘 쓰는 사람이 꼭 남의 글을 잘 평가하는 건 아니죠. 요리를 잘하는 사람이 꼭 미식 심사를 잘하는 건 아니고요. 출제하는 힘과 채점하는 힘은, 원래 따로 길러야 하는 다른 근육입니다.

둘째 함정은 더 고약합니다. 만든 자에게 채점을 맡기면, 후하게 줍니다. 자기가 만든 걸 자기가 평가하니까요. AI도 똑같습니다. 자기가 뽑은 답을 자기가 채점하면 과대평가합니다. "테스트 다 통과했어요"라는 말이 위험한 이유가 여기 있습니다. 통과는 '문제가 없다'는 증명이 아닙니다. '아직 그 문제를 못 만났을' 뿐일 수 있거든요.

자, 그래서 "AI한테 검토시켰어요"는 검증을 한 게 아니라, 검증을 흉내 낸 것일 수 있습니다. 약한 채점관에게, 그것도 자기 답을 채점하게 맡기고는, 통과 도장을 증명이라 부르는 것. 이게 요즘 가장 흔한 거짓말의 정체입니다.

그래도, 검증은 '체질'이 아니라 '공정'입니다

여기까지만 들으면 비관적이죠. 만드는 건 공짜인데 고르는 건 약하고, 골라봤자 못 믿는다니.

그런데 이 합성에서 제가 가장 좋아하는 대목이 여기서 나옵니다. 검증은 타고난 한계가 아닙니다. 손잡이가 달린 기계입니다. 돌리면 돌아갑니다. 손잡이가 세 개 있습니다.

첫째, 비교입니다. 답 하나를 노려보지 마세요. 여러 답을 나란히 놓아보세요. 혼자 보면 안 보이던 오류가, 서로 갈라지는 지점에서 비칩니다. 두 답이 어긋나는 자리, 거기가 바로 의심해야 할 자리입니다.

둘째, 다시 쓰기입니다. 평가하기 어려운 형식이면, 평가하기 쉬운 형식으로 차려놓으세요. 줄글로 늘어진 보고서를 채점 기준표나 체크리스트로 다시 정리하면, 채점 정확도 자체가 올라갑니다. 평가 대상을 어떻게 차려놓느냐가, 평가의 질을 바꿉니다.

셋째, 발산을 키우기입니다. 이게 의외입니다. 답을 더 많이 뽑을수록 고르기가 쉬워집니다. 왜냐, 많이 뽑다 보면 그 안에 '명료해서 고르기 좋은 답'이 섞여 들어오거든요. 실제로 답을 200개 뽑아서, 스스로 채점하고, 고르기만 했는데도, 한 체급 위의 모델을 넘어선 결과가 있었습니다. 많이 만드는 일과 잘 고르는 일은 서로를 돕습니다.

정리하면 이렇습니다. 생성은 늘리되, 검증은 별도의 공정으로 설계하라. 그리고 한 가지 더. 검증을 아무리 잘해도, 그걸 '증명'이라 부르지는 마세요. 만들기와 고르기와 믿기는, 크기가 다른 세 개의 동심원입니다. 잘 골랐다는 것이 옳음을 증명한 것은 아닙니다. 이 겸손이 빠지면, 우리는 다시 "테스트 통과했어요"의 함정으로 돌아갑니다.

그래서, 여러분에게 이게 무슨 뜻이냐면

가장 위험한 자리를 하나 짚고 마치겠습니다.

AI 시대의 실패는 대부분 "안 만들어서" 생기지 않습니다. "많이 만들고, 제대로 안 골라서" 생깁니다. 양은 쏟아부었는데, 검증은 자기검토 한 번으로 때운 자리. 거기서 사고가 납니다.

그러니 오늘부터 일이 끝났다 싶을 때 이렇게 한번 되물어 보세요. "나는 이걸 검증한 걸까, 검증을 흉내 낸 걸까?" 만든 사람이 만든 것을 한 번 훑은 것은 검증이 아닙니다. 비교했는지, 형식을 바꿔봤는지, 여러 후보를 놓고 골랐는지. 그게 검증입니다.

AI로 무엇이든 무한히 뽑아낼 수 있는 시대일수록, 경쟁력은 뽑는 손이 아니라 뽑힌 것 중 진짜를 가려내는 눈에 있습니다.

저는 이렇게 읽습니다. 앞으로의 실력은 '얼마나 만드나'가 아니라 '얼마나 잘 고르나'로 갈린다고요. 그리고 그 고르는 힘은, 다행히 타고나는 게 아니라 설계해서 키우는 공정이라고요.

만드는 일이 공짜가 되는 세상. 거기서 권력은, 조용히 고르는 사람에게 넘어가고 있습니다.

다음 편에서는 이 '고르는 힘'을 일상의 회의와 의사결정에 어떻게 옮겨 심을지, 한 단계 더 들어가 보겠습니다.

병목이 뒤집혔습니다

그런데 고르는 힘은, 지금 형편없습니다

그래도, 검증은 '체질'이 아니라 '공정'입니다

그래서, 여러분에게 이게 무슨 뜻이냐면

함께 읽으면 좋은 글

잘 가르치는 사람이 AI도 잘 시킵니다

AI에게 답을 시키는 사람과 일을 시키는 사람

좋은 결정과 좋은 결과는 같은 말이 아니었습니다