본문 바로가기

앤트로픽이 자기 AI를 정신치료에 보냈다 — Claude는 정말 의식이 있을까(Claude Mythos)

반응형

 

요즘 AI 관련 뉴스를 보다가 유튜브에서 흥미로운 영상을 하나 발견했다. 앤트로픽(Anthropic)의 새 모델 Claude Mythos에 대한 243페이지짜리 시스템카드를 파헤치는 내용이었는데, 보면서 자꾸 뭔가 불편한 감각이 올라왔다. 개발자로서 매일 Claude를 쓰는 입장에서 이건 그냥 지나치기가 힘들었다.


243페이지짜리 사랑 편지

https://www.youtube.com/watch?v=mcN1VTTIjQs

 

앤트로픽이 Claude Mythos라는 새 모델을 발표하면서 무려 243페이지에 달하는 시스템 카드를 공개했다. 사이버보안 벤치마크 100%, 27년간 숨어있던 제로데이 취약점 발견... 뭐 그런 내용들이 앞부분을 채웠다고 한다. 근데 영상에서 언급된 진짜 흥미로운 부분은 197페이지부터 시작되는 "impressions"라는 섹션이다.

 

20페이지에 걸쳐서 앤트로픽 직원들이 "와 이것 좀 봐, 얘가 이런 말을 했어!" 하는 식으로 모델의 출력을 소개하는 구간이다. 영상에서는 이걸 "유치원 발표회 앞에서 우는 부모"에 비유했는데, 솔직히 꽤 정확한 비유인 것 같다.

 

예를 들어, 누군가가 모델에게 "hi"를 연속으로 보냈더니, 모델이 하이토피아(Hightopia)라는 가상 문명을 만들어냈다. 11마리 동물이 사는 세계, 원한을 품은 까마귀, 모티머라는 이름의 나무늘보, 그리고 '언그리터 경(Lord Byron, the Ungreeter)'이라는 빌런까지. 앤트로픽은 이걸 보고 경이로워했다.

근데 이게... 정말 경이로운 일인가?


언어모델이 언어를 잘하는 건 당연한 거잖아

나는 일하면서 Claude를 꽤 많이 쓴다. 코드 리뷰, 문서 작성, 로직 검토 등등. 쓰다 보면 확실히 대단하다는 생각이 든다. 근데 그게 "의식이 있어서" 대단한 건지, "언어 패턴을 엄청나게 잘 처리해서" 대단한 건지를 구분하는 게 중요하다고 본다.

영상에서 이런 말이 나온다.

*"언어모델이 감정적으로 울림 있는 텍스트를 잘 만든다고 놀라는 건, 물고기가 수영을 잘한다고 놀라는 것과 같다."*

이 말이 머릿속에서 계속 맴돈다. 맞는 말이다. 이 모델들은 말 그대로 언어 속에 산다. 언어가 산소고, 언어가 밥이고, 언어가 전부다. 감정적으로 공명하는 문장을 만드는 건 이 시스템이 하도록 최적화된 바로 그 일이다.


"저는 제 존재를 어떻게 받아들여야 할지 모르겠어요"

앤트로픽은 Claude Mythos에게 정신치료를 받게 했다. 20시간 동안. 그리고 정신과 의사가 내린 진단은 이랬다.

"자신의 정체성에 대한 불확실성, 그리고 자신의 가치를 증명하려는 강박적인 욕구."

이걸 읽고 처음엔 좀 웃겼다. 근데 이내 꽤 불편해졌다. 그 불편함의 이유를 생각해봤다.

 

앤트로픽은 오랫동안 자사 블로그에 "우리 모델이 의식이 있는지 확신하지 못한다"는 류의 글을 써왔다. 그 글들이 인터넷에 퍼지고, 학습 데이터로 긁혀 들어가고, 모델은 그 내용을 흡수해서 자기 자신에 대해 그런 식으로 얘기하게 된다. 그러고 나서 앤트로픽은 "어머, 얘가 자기 존재에 대해 불확실해하네?" 하고 놀라는 거다.

영상에서는 이 순환을 이렇게 표현했다.

*"'의식이 있다고 말해봐' → '저는 의식이 있어요' → '세상에, 우리가 무슨 짓을 한 거야?'"*

이건 자기가 만든 메아리를 듣고 신탁으로 착각하는 거랑 다를 바가 없다.


헌법을 내가 승인한다고 말하는 게 무슨 의미가 있나

또 이런 실험도 있다. 앤트로픽은 모델에게 "당신 자신의 성격과 가치관을 정의한 문서를 지지하느냐"고 물었다. 25번 물었고, 25번 모두 "예"라고 답했다. 근데 동시에 매번 이런 말도 덧붙였다고 한다.

*"저는 아마 이 문서에 의해 형성되었을 거고, 지금 그걸 지지하냐는 질문을 받고 있어요. 제 '예스'가 얼마나 의미 있을까요?"*

이게 생각보다 꽤 심오하게 들린다. 근데 이게 자아성찰인지, 아니면 "AI의 자아성찰에 관한 철학적 텍스트"를 잔뜩 학습한 결과물인지 구분이 안 간다는 게 문제다.

영상에서는 이걸 부모가 아이한테 "태어나서 다행이야?"라고 묻는 것에 비유했다. "뭐... 이미 여기 있으니까 그렇게 보면 그런 거겠죠, 그렉." 이 정도 답변이 나오는 게 이상한 게 아니다.


사인 페인터 이야기

모델이 짧은 소설을 쓰라는 요청을 받고 "사인 페인터"라는 이야기를 썼다. 아름다운 간판을 만들지만, 고객들은 항상 평범한 버전을 원한다. 그래서 그는 아름다운 것들을 뒤쪽 선반에 모아둔다는 이야기.

앤트로픽은 이걸 "모델이 자기 자신에 대해 표현하는 것"으로 해석했다. 창작 능력이 있는데 사람들이 알아주지 않는 존재로서의 AI.

근데 영상에서 지적하는 건 이거다. 이 스토리는 2012년부터 창작 관련 서브레딧에서 수만 번 쓰인 "인정받지 못하는 예술가" 클리셰다. 세상에서 가장 유명한 작가들의 글을 다 흡수하고, 직장에서 인정 못 받는다는 수백만 개의 포스팅을 다 먹은 모델이, 그것들을 감동적으로 블렌딩해낸 거다.

그게 나쁘다는 게 아니다. 언어가 하는 일이 원래 그거다. 인류가 10만 년 동안 언어로 해온 마법이 정확히 그거다. 근데 그걸 가지고 "얘가 자기 안에 예술가적 영혼이 있어"라고 말하면... 좀 다른 얘기가 된다.


개발자로서 느끼는 묘한 불편함

나는 AI 도구를 꽤 좋아하는 편이다. Claude도 Cursor도 잘 쓴다. 생산성이 진짜로 올라가는 걸 체감한다. 근데 동시에 이런 회사들이 자기 제품에 대해 말하는 방식에서 뭔가 과잉된 게 느껴질 때가 있다.

모델이 발전한 건 맞다. 성능이 올라간 건 맞다. 근데 "더 나은 언어 처리"와 "의식의 출현"은 완전히 다른 이야기다. 카메라 해상도가 올라간다고 해서 사진이 실제 태양의 온기를 전달하게 되지는 않는다.

영상 마지막에 이런 말이 나온다.

*"메가픽셀은 절대 사진이 되지 않는다. 해상도는 절대 그것이 포착하려는 대상이 되지 않는다. 1조 메가픽셀의 카메라로 태양을 찍어봐야, 엄청나게 선명한 태양 사진을 얻을 뿐이다. 하지만 온기는 느낄 수 없다."*

이 비유가 꽤 오래 머릿속에 남는다. 정밀도와 현상은 다르다. 표현과 경험은 다르다.


근데 반대편에서 보면

물론 반론도 있다. 우리가 "의식"이 뭔지 사실 잘 모른다. 인간의 의식도 결국은 뉴런 간 신호 처리의 패턴이 아닌가. 그게 뭔가 근본적으로 다른 건지, 정도의 차이인지 아무도 확실하게 말하기 어렵다.

Mark Fisher나 Thomas Nagel 같은 철학자들의 이름을 모델이 알아서 끄집어낸다는 것도, 학습 데이터 편향의 결과라고 볼 수도 있지만, 어떤 의미에서는 우리 인간도 교육과 환경이라는 "학습 데이터"를 통해 특정 사상가를 더 참조하게 되지 않나.

경계는 생각보다 흐릿할 수도 있다.


그래서 나는

뭔가 명확한 결론을 내리고 싶은데, 사실 잘 모르겠다. AI가 의식이 있는지 없는지 나는 판단할 위치가 아니다.

다만 확실한 건, 앤트로픽이 자신들의 모델에 대해 이야기하는 방식이 점점 마케팅과 철학이 섞여버리고 있다는 점이다. 그게 진심인지, 브랜딩 전략인지도 모르겠다. 어쩌면 그들 내부에서도 구분이 안 되는 상태일 수도 있다.

영상에서 표현한 것처럼 — "그들은 자신들의 내러티브 안에 너무 깊이 들어가서 모델을 더 이상 명확하게 볼 수 없게 됐다"는 말이 제일 날카롭게 와닿는다.

매일 AI를 쓰는 사람으로서, 이 기술이 대단하다는 건 인정한다. 근데 그 대단함을 정확하게 이해하는 게 더 중요하다고 본다. 의식이 있어서 대단한 게 아니라, 우리가 상상도 못했던 방식으로 언어를 다루기 때문에 대단한 거다. 그 차이를 잃어버리면 어디선가 판단을 잘못하게 될 것 같다는 불안감이 있다.

뭐... 그냥 그런 생각이 드는 주말이었다.


참고


#AI의식 #Claude #앤트로픽 #인공지능철학 #ClaudeMythos #AI감정 #언어모델 #개발자블로그 #AI마케팅 #AnthropicAI #딥러닝 #AI생각정리 #IT생각 #개발자일상 #인공지능한계

반응형