본문 바로가기
일상 수학 과학

🧠 자연어 처리의 수학: GPT는 어떻게 말을 배우나?

by 나무눈 2025. 4. 16.

🧠 자연어 처리의 수학: GPT는 어떻게 말을 배우나?

🧩 도입 – 기계는 어떻게 ‘언어’를 이해하는가?

"GPT가 이 글을 썼다"는 문장을 접할 때, 사람들은 종종 놀라움을 감추지 못합니다. 불과 몇 년 전까지만 해도 사람이 아닌 존재가 자연스럽게 문장을 만들고, 문맥을 파악하며, 대화를 이어나간다는 것은 공상과학에 가까운 일이었습니다. 그러나 지금은 AI가 작성한 이메일, 기사, 소설 초고까지 일상적으로 접할 수 있는 시대가 되었습니다.

그렇다면 질문이 생깁니다.
기계는 어떻게 사람의 말을 ‘배우는’ 것일까요?
기계는 인간처럼 감정을 느끼지 못하고, 단어의 뉘앙스나 맥락을 직관적으로 이해하지 못합니다. 그럼에도 불구하고 GPT는 놀랍도록 자연스러운 문장을 생성합니다. 이것은 전적으로 수학적 원리와 알고리즘 덕분입니다. 자연어 처리는 단순한 언어 기술이 아니라, 선형대수, 확률, 미적분, 최적화 이론이 총동원된 복합 수학 시스템 위에 구축되어 있습니다.


🔢 확률로 이해하는 언어 – 다음 단어를 예측하는 방식

GPT는 기본적으로 확률 모델을 기반으로 작동합니다. 사람의 언어를 이해하는 것이 아니라, 패턴을 학습하여 다음에 어떤 단어가 올지를 예측하는 구조입니다. 이를 위해 GPT는 수많은 텍스트 데이터를 기반으로 통계적 규칙을 학습합니다.

예를 들어 "나는 오늘 아침에 커피를"이라는 문장이 입력되었을 때, GPT는 그 다음에 올 수 있는 단어로 "마셨다", "마시고", "사러", "끓였다" 등의 다양한 가능성을 상상합니다. 그리고 과거 학습 데이터를 기반으로 각 단어가 등장할 확률을 계산한 후, 가장 가능성이 높은 단어를 선택합니다.

이러한 과정은 모든 문장에서 반복되며, 단어 하나하나가 이전 단어들과의 조건부 확률에 따라 생성됩니다. 마치 언어를 확률 게임처럼 다루는 방식이며, 그 안에는 통계학의 중심 개념들이 작동하고 있는 것입니다.


🧮 단어를 수학적으로 표현하다 – 워드 임베딩과 벡터 공간

기계가 언어를 다루기 위해서는 텍스트를 숫자로 변환하는 과정이 필요합니다. 인간은 '사과'라는 단어를 보면 과일을 떠올리지만, 컴퓨터는 문자 그대로의 '사과'를 이해할 수 없습니다. 따라서 AI는 단어를 벡터 형태로 수치화하여 학습하게 됩니다.

이것이 바로 워드 임베딩(Word Embedding) 이라는 기술입니다. 각 단어는 고차원 벡터 공간에서의 한 점으로 표현되며, 이 벡터는 수백 개의 숫자로 구성됩니다. 예를 들면 다음과 같습니다:

  • "king" → [0.51, 1.34, -0.72, …]
  • "queen" → [0.53, 1.36, -0.70, …]
  • "apple" → [0.14, -0.92, 0.80, …]

흥미로운 점은 이러한 벡터 공간에서 단어 간의 관계가 수학적으로 표현된다는 사실입니다. 예를 들어 "king - man + woman ≈ queen" 이라는 벡터 연산이 실제로 가능하며, 이는 AI가 단어 간의 의미적 관계를 일정 수준까지는 파악하고 있다는 것을 의미합니다.

GPT는 이러한 벡터들을 활용하여 단어와 문장의 맥락을 수학적으로 해석하고, 단어들 간의 유사성과 의미 흐름을 계산합니다. 선형대수고차원 기하학이 언어를 수학으로 변환하는 핵심 도구가 되는 것입니다.


🧠 트랜스포머와 어텐션 – GPT의 두뇌 구조

GPT 모델의 핵심은 **트랜스포머(Transformer)**라는 딥러닝 구조입니다. 이 구조의 핵심 개념 중 하나는 바로 **어텐션 메커니즘(Attention Mechanism)**입니다. 이는 기계가 문장 안의 중요한 단어에 ‘집중’하도록 하는 수학적 메커니즘입니다.

예를 들어 문장 “영희가 지수에게 선물을 줬다”에서 ‘줬다’의 주체를 파악하려면, '영희'라는 단어에 집중해야 합니다. GPT는 이 과정을 **어텐션 스코어(attention score)**라는 수학적 수치를 통해 해결합니다. 이 스코어는 **행렬 연산과 내적(dot product)**을 통해 계산되며, 문장 안의 단어들 사이의 연관성을 수치화합니다.

어텐션의 작동 원리는 다음과 같습니다:

  1. 각 단어를 벡터로 변환한다.
  2. 이 벡터들을 사용해 '쿼리', '키', '값'이라는 세 가지로 변환한다.
  3. 쿼리와 키의 내적을 통해 중요도를 계산한다.
  4. 이 중요도를 기반으로 값 벡터를 가중 평균하여 다음 출력으로 사용한다.

이 과정을 통해 GPT는 문장의 흐름을 파악하고, 맥락에 맞는 단어를 더 정교하게 선택할 수 있습니다.


📐 수학으로 학습한다 – 손실함수와 최적화

GPT는 단순히 데이터만 주입한다고 작동하지 않습니다. 수많은 문장을 입력한 뒤, **정답과 예측값의 차이(오차)**를 계산하고 이를 최소화하기 위한 반복 학습을 거칩니다. 이때 사용되는 것이 바로 **손실 함수(loss function)**와 **경사 하강법(gradient descent)**입니다.

  • 손실 함수는 현재 예측이 얼마나 틀렸는지를 수치로 나타냅니다.
  • 경사 하강법은 이 오차를 줄이기 위해 편미분을 통해 가중치를 조정합니다.
  • 이 과정은 수백만~수십억 번 반복되며, 점차 정확한 모델로 수렴하게 됩니다.

이 전체 과정은 미분, 선형대수, 확률분포와 같은 고급 수학의 집합입니다. GPT가 언어를 ‘이해’하는 듯한 능력을 갖게 된 것은 결국 수학적으로 정교하게 설계된 알고리즘 덕분인 것입니다.


🔍 결론 – 기계가 말을 배우는 방식은 수학의 예술이다

GPT는 인간처럼 감정을 느끼거나 의도를 갖고 언어를 사용하는 존재는 아닙니다. 그러나 수학이라는 도구를 이용하여 언어의 구조와 패턴을 극도로 정밀하게 분석하고 예측하는 능력을 갖추게 되었습니다.

우리는 이 글을 통해,

  • 언어 예측이 확률 기반 모델에 의해 이루어지고,
  • 단어가 고차원 벡터 공간에서 수치화되며,
  • GPT의 구조가 트랜스포머와 어텐션 메커니즘으로 이루어졌고,
  • 학습 과정이 수학적 최적화 문제로 작동한다는 사실을 살펴보았습니다.

즉, GPT가 말을 '배운다'는 것은 곧 수학적으로 언어를 모델링하고, 예측하며, 최적화하는 과정입니다. AI가 언어를 다룰 수 있게 된 이 모든 과정의 바탕에는 수학이라는 보이지 않는 뼈대가 존재합니다.