AI, 현실을 창조하다: DALL-E, Sora, 그리고 로봇의 시대
1. 붓을 든 AI: 이미지 생성과 편집 (DALL-E 3)
지난 시간에 이어, 그림을 그리는 인공지능 DALL-E 3에 대해 더 깊이 알아보겠습니다. 이제 AI가 그린 그림은 단순한 흉내를 넘어 예술의 영역에 도전하고 있습니다.
아래 그림은 제이슨 앨런(Jason Allen)이 AI를 이용해 제작한 '스페이스 오페라 극장'이라는 작품입니다. 이 작품은 2022년 콜로라도 주 박람회 미술대회에서 디지털 아트 부문 1위를 차지하며 전 세계에 큰 충격과 논쟁을 불러일으켰습니다.
이제는 저처럼 그림에 소질이 없는 사람도 과제나 발표 자료에 필요한 이미지를 직접 생성해서 사용할 수 있는 시대가 되었습니다. 심지어 기존 이미지를 자유자재로 편집하는 것도 가능합니다. 자동차 색을 바꾸거나, 없던 잔디를 깔고, 사람의 얼굴에 주름을 넣는 등, 말 한마디면 몇 초 만에 이미지가 바뀝니다.
2. 현실을 찍는 AI: 동영상 생성, Sora의 충격
만약 AI가 1초에 30장의 이미지를 연속적으로 그려낼 수 있다면 무엇이 될까요? 바로 동영상이 됩니다. OpenAI가 2024년 상반기에 발표한 동영상 생성 AI, Sora는 이 상상을 현실로 만들었습니다.
Sora가 생성한 영상들은 실제 촬영 영상과 구분하기 어려울 정도로 정교합니다. 눈밭을 뛰어노는 골든 리트리버의 흩날리는 털, 드론으로 찍은 듯한 해안가의 풍경, 커피잔 속에서 전투를 벌이는 해적선 등, 현실과 초현실을 넘나드는 영상들을 프롬프트 입력만으로 만들어냅니다.
Sora의 등장은 영상 제작, 광고, 모델 산업에 거대한 위기이자 기회입니다. 이제 값비싼 장비와 인력 없이도 블록버스터급 영상을 만들 수 있는 시대가 열리고 있습니다.
3. 영혼을 담는 그릇: 로봇과 물리적 AI
AI가 영혼이라면, 그 영혼을 담아 현실 세계와 상호작용하는 그릇은 로봇입니다. 최근 휴머노이드 로봇 기술은 AI와 결합하여 폭발적으로 발전하고 있습니다.
테슬라 옵티머스 (Tesla Optimus)
테슬라의 옵티머스는 인간과 비슷한 170cm 정도의 크기로 설계되었습니다. 이는 기존의 공장 설비를 바꾸지 않고, 일하던 사람의 자리에 로봇을 바로 투입하기 위함입니다. 옵티머스는 자율주행 기술을 기반으로 주변 환경을 인식하고, 섬세한 손가락 센서로 계란을 깨뜨리지 않고 옮기는 등 놀라운 완성도를 보여주고 있습니다.
피규어 01 (Figure 01 with OpenAI)
로봇 스타트업 Figure AI는 OpenAI의 인공지능을 탑재한 '피규어 01'을 선보였습니다. 이 로봇은 "내가 먹을 만한 것을 줘"라는 말에 사과를 인식해 건네주고, 쓰레기를 정확히 골라 분리하는 등, 인간의 말을 이해하고 복잡한 작업을 수행하는 능력을 보여주며 AI와 로봇공학의 융합이 어디까지 왔는지 증명했습니다.
4. 모든 것의 시작: 트랜스포머 아키텍처
이 모든 놀라운 기술들의 중심에는 2017년 구글이 발표한 논문, 'Attention Is All You Need'에서 소개된 트랜스포머(Transformer) 아키텍처가 있습니다. 이 모델은 현대 AI의 근간을 이루고 있습니다.
트랜스포머는 크게 두 부분으로 나뉩니다.
- 인코더 (Encoder): 사람의 말(입력)을 이해하고 문맥과 의도를 파악하여 컴퓨터가 이해할 수 있는 숫자의 형태로 변환합니다.
- 디코더 (Decoder): 인코더가 파악한 의도를 바탕으로 새로운 결과물을 생성합니다.
이 구조는 다양한 형태로 응용됩니다.
- 디코더가 텍스트를 생성하면 → ChatGPT
- 디코더가 이미지를 생성하면 → DALL-E
- 디코더가 동영상을 생성하면 → Sora
우리가 흔히 말하는 GPT, 즉 Generative Pre-trained Transformer는 '미리 학습된 생성형 트랜스포머'라는 뜻으로, 이 핵심 알고리즘의 이름을 담고 있습니다.
5. AI의 통화(通貨): 토큰(Token)의 비밀
AI는 어떻게 그 방대한 데이터를 처리할까요? 그 비밀은 '토큰(Token)'에 있습니다. 과거 AI가 문법을 코딩하여 언어를 이해하려다 실패한 것과 달리, 현대 AI는 인간처럼 말을 통해 말을 배웁니다. 이때 AI가 의미를 처리하는 기본 단위를 '토큰'이라고 합니다.
토큰의 개념은 과거 우리나라의 '시내버스 토큰'을 생각하면 쉽습니다. 현금을 일일이 계산하는 대신, '버스 1회 탑승'이라는 가치를 가진 토큰 하나로 빠르고 효율적인 교환이 가능했습니다. AI의 토큰도 마찬가지로, 언어 모델이 의미를 처리하는 가장 기본적인 '가치 교환의 수단'입니다.
토큰화(Tokenization)의 실제
OpenAI의 토크나이저를 통해 직접 확인해볼 수 있습니다. 'I love you'는 3개의 단어, 3개의 토큰으로 처리됩니다. 하지만 한글 '안녕하세요'는 5글자인데 5개의 토큰을 소모하며, 각 글자가 분리되어 비효율적으로 처리됩니다. (최신 모델인 GPT-4o에서는 이 부분이 크게 개선되었습니다.)
GPT-3는 약 4,100억 개의 토큰으로 구성된 데이터를 학습했습니다. 이처럼 토큰은 AI 학습의 규모와 비용을 결정하는 중요한 단위입니다.
6. AI는 어떻게 '생각'하는가? - 확률적 단어 예측
그렇다면 AI는 정말로 '이해'를 할까요? 그렇지 않습니다. AI는 정답을 아는 것이 아니라, 다음에 올 단어를 확률적으로 예측할 뿐입니다.
예를 들어, 한국인에게 '무한'이라는 단어를 주면 대부분 '도전'을 떠올릴 것입니다. 이는 '무한도전'이라는 콘텐츠를 통해 '무한' 다음에는 '도전'이 올 확률이 가장 높게 학습(가중치 설정)되었기 때문입니다. 하지만 과학자라면 '무한 동력', 배고픈 사람이라면 '무한 리필'을 떠올릴 수 있듯이, 문맥에 따라 가중치는 달라집니다.
AI 언어 모델은 이와 같이 방대한 텍스트 데이터를 학습하여, 단어와 단어 사이의 확률적 관계망을 구축합니다. 그리고 사용자의 질문에 대해 가장 그럴듯한, 즉 확률이 높은 단어들을 순서대로 나열하여 대답을 만들어내는 것입니다. 이 과정에서 사실이 아닌 그럴듯한 거짓말(환각, Hallucination)이 발생하기도 합니다.
'AI' 카테고리의 다른 글
생성형 AI 정리 4 (2) | 2025.06.24 |
---|---|
생성형 AI 정리 3 (1) | 2025.06.24 |
생성형 AI 정리 1 (5) | 2025.06.24 |
Microsoft Copilot 정리 3 (1) | 2025.06.23 |
Microsoft Copilot 정리 2 (0) | 2025.06.23 |