매끄럽게 답하는 AI를 믿어도 될까
며칠 전, 저는 챗봇에게 어떤 통계의 출처를 물었습니다. 답이 막힘없이 흘러나왔습니다. 연구기관 이름, 연도, 수치까지 또렷했습니다. 너무 깔끔해서 그대로 옮겨 적을 뻔했습니다. 그런데 그 연구를 찾아보니, 세상에 존재하지 않는 논문이었습니다.
저를 속인 건 틀린 답이 아니었습니다. 그 답이 너무 매끄러웠다는 사실이었습니다.
여기서 한 가지 질문이 생깁니다. 우리는 AI가 더 똑똑해지면 더 믿게 될 거라고 생각합니다. 더 정확하고, 더 유창하고, 더 자신 있게 답할수록 신뢰가 쌓일 거라고요. 그런데 정말 그럴까요. 매끄러움이 쌓일수록 우리가 진짜로 손에 쥐는 건 신뢰일까요, 아니면 신뢰처럼 보이는 무언가일까요.
저는 이 질문을 붙잡고 서로 다른 두 분야의 책을 뒤졌습니다. 한쪽은 '설명 가능한 AI'를 연구하는 진영이었고, 다른 한쪽은 'AI 안전 검증'을 연구하는 진영이었습니다. 둘은 출발점도, 쓰는 언어도 완전히 달랐습니다. 그런데 묘하게도 같은 결론에 가서 닿았습니다.
매끄러운 답은 지능의 겉치레라는 겁니다. 한 진영은 이렇게 말합니다. 유창한 대답 안에는 정작 '이유'가 들어 있지 않다고요. 다른 진영은 이렇게 말합니다. 몇 번 잘했다고 해서 그 시스템이 안전한 건 아니라고요. 표현은 달라도 두 경고는 한 곳을 가리킵니다. 이유를 나중에 지어내는 것, 그것을 경계하라.
그래서 두 진영이 함께 도달한 결론은 이것입니다. 신뢰는 '얼마나 잘하는가(능력)'에서 오지 않습니다. '왜 그렇게 했는지를 따라갈 수 있는가(추적 가능성)'에서 옵니다.
이게 왜 중요한지 한 겹 더 들어가 보겠습니다. 능력은 흉내 낼 수 있습니다. 자신 있는 말투도 흉내 낼 수 있습니다. 똑똑해 보이는 것까지는 어렵지 않습니다. 하지만 "왜 그렇게 판단했는가"를 그 자리에서 지어내지 않고, 결정하던 바로 그 순간에 남겨 둔 근거로 답하는 것 — 이건 흉내 낼 수 없습니다. 미리 기록해 두는 구조가 있어야만 가능하기 때문입니다.
설명을 추궁당한 다음에 만들어내는 것과, 결정하는 그 순간에 남겨 두는 것. 둘은 결과만 보면 비슷해 보입니다. 하지만 완전히 다른 일입니다. 앞엣것은 사후 합리화이고, 뒤엣것만이 진짜 추적 가능성입니다.
여기서 저는 흠칫했습니다. 이건 AI 이야기만이 아니었기 때문입니다.
우리는 매끄럽게 말하는 사람을 능력 있는 사람으로 착각합니다. 결정을 내린 직후가 아니라, 누군가 따져 물을 때가 되어서야 그럴듯한 이유를 만들어 붙입니다. 몇 번 잘한 사람을 두고 "저 사람은 믿을 만하다"고 전체를 단정합니다. AI가 빠지는 함정을 사람도 똑같이 밟고 있었던 겁니다. 사후에 꾸며낸 이유는, 그게 사람의 것이든 기계의 것이든, 신뢰의 겉치레일 뿐입니다.
그래서 저는 이 두 진영의 결론을 이렇게 한 줄로 읽습니다. 믿을 만한 것은 똑똑한 것이 아니라, 자기 판단을 따라갈 수 있게 남겨 둔 것이다.
당신이 다음에 어떤 AI 도구를 — 혹은 어떤 사람을, 어떤 제안을 — 믿을지 말지 고민할 때, 잣대를 하나 바꿔 보시면 좋겠습니다. "이게 얼마나 잘하지?"가 아니라 "왜 그렇게 판단했는지 내가 따라갈 수 있나?"를 물어보는 겁니다. 매끄러움에 멈추지 않고, 그 매끄러움 뒤에 따라갈 수 있는 길이 있는지를 보는 겁니다.
답이 매끄럽다는 건 능력의 인상일 뿐입니다. 신뢰는 그 인상이 아니라, 거슬러 올라갈 수 있는 길의 유무에서 결정됩니다.
다음 편에서는, 이 '따라갈 수 있는 길'을 어떻게 직접 점검하는지 — 다섯 칸짜리 사다리를 거꾸로 짚어 보는 법을 풀어 보겠습니다.