GPT-1

주요 대규모 언어 모델(LLM) 목록
제작사	모델명 (출시순)
OpenAI	GPT‑1 GPT‑2 GPT‑3 GPT‑3.5 GPT‑3.5 Turbo GPT‑4 GPT‑4 Turbo GPT‑4o GPT‑4.5 GPT‑4.1 GPT‑4.1 mini GPT‑4o mini o1‑mini o1 o1‑pro o3‑mini o3 o3‑pro o4‑mini
Google	BERT PaLM PaLM 2 Gemini 1.0 Gemini 1.5 Gemini 1.5 Pro Gemini 1.5 Flash Gemini 2.0 Gemini 2.0 Flash Gemini 2.0 Flash Thinking Gemini 2.0 Pro Gemini 2.0 Flash Lite Gemini 2.5 Pro Gemini 2.5 Flash Gemini 2.5 Flash Lite Gemma Gemma 2 Gemma 3 Gemma 3n
xAI	Grok‑1 Grok‑1.5 Grok‑1.5 Vision Grok‑2 Grok‑2 mini Grok‑3 Grok‑4
Meta	BART OPT Galactica LLaMA LLaMA 2 LLaMA 3 LLaMA 3.1 LLaMA 3.2 LLaMA 3.3 Llama 4 Scout Llama 4 Maverick
Anthropic	Claude Claude 2 Claude 3 Claude 3.5 Claude 3.7
Mistral AI	Mistral 7B Mixtral 8×7B Mistral Large Mistral Small 3
Naver	HyperCLOVA X HyperCLOVA X SEED
LG	ExaONE ExaONE 3 ExaONE 3.5 ExaONE 4.0
DeepSeek	DeepSeek LLM DeepSeek‑MoE DeepSeek‑V2 DeepSeek‑V2.5 DeepSeek‑V3 DeepSeek‑R1 DeepSeek‑R1 0528
Microsoft	Orca Orca 2 Phi‑1 Phi‑2 Phi‑3 Phi‑3.5 Phi‑4 Phi‑4 Reasoning Phi‑4‑mini Flash Reasoning

개요[편집 / 원본 편집]

GPT-1(Generative Pre-trained Transformer 1)은 OpenAI에서 2018년에 발표한 트랜스포머 기반의 언어 모델이다.^[1]

GPT-1은 현재 우리가 알고 있는 ChatGPT의 할아버지뻘 되는 모델로, 생성형 사전 훈련 트랜스포머의 첫 번째 버전이다. ~~지금 보면 엄청 귀여운 수준이지만~~ 당시로서는 혁신적인 접근 방식을 제시했다.

이 모델의 핵심 아이디어는 비지도 사전 훈련(Unsupervised Pre-training)과 지도 미세 조정(Supervised Fine-tuning)을 결합한 것이다. 쉽게 말해서, 먼저 엄청난 양의 텍스트로 "언어가 뭔지" 배우게 한 다음, 특정 작업에 맞게 추가로 훈련시키는 방식이다.

상세[편집 / 원본 편집]

모델 구조[편집 / 원본 편집]

GPT-1은 트랜스포머 디코더만을 사용한 구조로 되어 있다.^[2]

주요 사양[편집 / 원본 편집]

레이어 수: 12개
어텐션 헤드: 12개
임베딩 차원: 768차원
파라미터 수: 약 1억 1700만 개^[3]
컨텍스트 길이: 512 토큰

토크나이저[편집 / 원본 편집]

BPE(Byte Pair Encoding) 방식을 사용했다. 40,000개의 어휘를 가지고 있었다.

훈련 과정[편집 / 원본 편집]

1단계: 비지도 사전 훈련[편집 / 원본 편집]

BooksCorpus 데이터셋을 사용해서 훈련했다.^[4] 이 단계에서는 다음 단어를 예측하는 언어 모델링 작업을 수행한다.

목적 함수는 다음과 같다:

[math]\displaystyle{ L_1(\mathcal{U}) = \sum_i \log P(u_i | u_{i-k}, ..., u_{i-1}; \Theta) }[/math]

여기서:

[math]\displaystyle{ \mathcal{U} = \{u_1, ..., u_n\} }[/math]은 토큰 시퀀스
[math]\displaystyle{ k }[/math]는 컨텍스트 윈도우 크기
[math]\displaystyle{ \Theta }[/math]는 모델 파라미터

2단계: 지도 미세 조정[편집 / 원본 편집]

특정 작업에 맞는 라벨이 있는 데이터로 추가 훈련을 진행한다. 이때는 다음과 같은 목적 함수를 사용한다:

[math]\displaystyle{ L_2(\mathcal{C}) = \sum_{(x,y)} \log P(y | x^1, ..., x^m) }[/math]

최종 목적 함수는 두 손실을 결합한다:

[math]\displaystyle{ L_3(\mathcal{C}) = L_2(\mathcal{C}) + \lambda \cdot L_1(\mathcal{C}) }[/math]

~~수식이 어렵다고? 그냥 "언어 배우기 + 특정 작업 배우기"라고 생각하면 된다.~~

입력 변환[편집 / 원본 편집]

GPT-1은 다양한 NLP 작업을 수행하기 위해 입력을 특별한 방식으로 변환한다.

작업별 입력 형식[편집 / 원본 편집]

분류(Classification): [Start] Text [Extract]
함의(Entailment): [Start] Premise [Delim] Hypothesis [Extract]
유사도(Similarity): [Start] Text1 [Delim] Text2 [Extract] 및 [Start] Text2 [Delim] Text1 [Extract]
다중 선택(Multiple Choice): [Start] Context [Delim] Answer_i [Extract] (각 선택지마다)

여기서 [Start], [Delim], [Extract]는 특수 토큰이다.^[5]

성능[편집 / 원본 편집]

평가 데이터셋[편집 / 원본 편집]

GPT-1은 다음과 같은 벤치마크에서 평가되었다:

자연어 추론[편집 / 원본 편집]

SNLI (Stanford Natural Language Inference): 89.9% 정확도
MultiNLI: 82.1% 정확도
QNLI (Question Natural Language Inference): 88.1% 정확도
RTE (Recognizing Textual Entailment): 56.0% 정확도^[6]

질의응답[편집 / 원본 편집]

RACE (Reading Comprehension from Examinations): 59.0% 정확도

문장 유사도[편집 / 원본 편집]

STS-B (Semantic Textual Similarity Benchmark): 피어슨 상관계수 0.85

분류[편집 / 원본 편집]

SST-2 (Stanford Sentiment Treebank): 91.3% 정확도^[7]
CoLA (Corpus of Linguistic Acceptability): 45.4% 매튜 상관계수

당시 기준 성능[편집 / 원본 편집]

GPT-1은 12개 작업 중 9개에서 당시 최고 성능(State-of-the-Art)을 달성했다. ~~지금은 옛날 얘기지만~~ 2018년 당시로는 엄청난 성과였다.

의의[편집 / 원본 편집]

기술적 혁신[편집 / 원본 편집]

전이 학습의 성공적 적용[편집 / 원본 편집]

GPT-1은 컴퓨터 비전 분야에서 성공했던 전이 학습(Transfer Learning) 개념을 자연어처리에 성공적으로 적용한 첫 번째 사례 중 하나다.^[8]

최소한의 작업별 구조[편집 / 원본 편집]

기존 모델들과 달리, GPT-1은 작업마다 별도의 네트워크 구조를 만들 필요가 없었다. 단지 입력 형식만 바꿔주면 다양한 작업을 수행할 수 있었다.

스케일링의 가능성 제시[편집 / 원본 편집]

더 많은 데이터와 더 큰 모델로 성능을 향상시킬 수 있다는 스케일링 법칙의 가능성을 보여줬다.^[9]

한계[편집 / 원본 편집]

작은 모델 크기[편집 / 원본 편집]

1억 1700만 개의 파라미터는 현재 기준으로는 매우 작은 모델이다. ~~GPT-4한테는 새발의 피~~

제한된 컨텍스트[편집 / 원본 편집]

512 토큰의 컨텍스트 길이는 긴 문서를 처리하기에는 부족했다.^[10]

단방향 어텐션[편집 / 원본 편집]

BERT와 달리 단방향 어텐션만 사용해서, 양방향 문맥을 활용하지 못했다.

미세 조정 필요[편집 / 원본 편집]

모든 작업에 대해 미세 조정이 필요했다. ~~지금처럼 "그냥 물어보면 알아서 해줘"가 아니었다~~

후속 연구에 미친 영향[편집 / 원본 편집]

GPT 시리즈의 시작[편집 / 원본 편집]

GPT-2 (2019): 15억 개 파라미터, "너무 위험해서 공개 안 함"^[11]
GPT-3 (2020): 1750억 개 파라미터, Few-shot learning의 등장
GPT-4 (2023): 파라미터 수 비공개, 멀티모달 지원

다른 모델들에게 준 영향[편집 / 원본 편집]

BERT: 양방향 트랜스포머의 중요성 인식
T5: Text-to-Text 통합 프레임워크
PaLM, LaMDA 등: 대규모 언어 모델 경쟁 시작

여담[편집 / 원본 편집]

GPT-1 논문의 제목은 "Improving Language Understanding by Generative Pre-Training"이다.
당시 OpenAI는 아직 비영리 조직이었다.^[12]
GPT-1의 코드는 TensorFlow로 작성되었다.
훈련에는 8개의 GPU가 사용되었다. ~~지금 기준으로는 개인 컴퓨터 수준~~
BooksCorpus 데이터셋은 현재 사용할 수 없다.^[13]

각주[편집 / 원본 편집]

↑ Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training.
↑ BERT와 달리 인코더 부분은 사용하지 않았다.
↑ 현재 기준으로는 정말 작은 모델이다. GPT-4는 1조 개가 넘는 파라미터를 가지고 있다.
↑ 약 7,000권의 책으로 구성된 데이터셋이다.
↑ 지금의 프롬프트 엔지니어링의 원조라고 볼 수 있다.
↑ RTE는 데이터가 적어서 성능이 낮았다.
↑ 감정 분석 작업이다.
↑ ELMo도 있었지만, GPT-1이 더 일반화된 접근법을 제시했다.
↑ 이후 GPT-2, GPT-3, GPT-4로 이어지는 발전의 토대가 되었다.
↑ 현재는 수십만 토큰도 처리할 수 있다.
↑ 나중에 공개했지만
↑ 지금은... 엄밀히 따지면 비영리이긴 한데, 뭐 복잡하다.
↑ 저작권 문제로 접근이 제한되었다.

외부 링크[편집 / 원본 편집]

[1] Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training.

[2] BERT와 달리 인코더 부분은 사용하지 않았다.

[3] 현재 기준으로는 정말 작은 모델이다. GPT-4는 1조 개가 넘는 파라미터를 가지고 있다.

[4] 약 7,000권의 책으로 구성된 데이터셋이다.

[5] 지금의 프롬프트 엔지니어링의 원조라고 볼 수 있다.

[6] RTE는 데이터가 적어서 성능이 낮았다.

[7] 감정 분석 작업이다.

[8] ELMo도 있었지만, GPT-1이 더 일반화된 접근법을 제시했다.

[9] 이후 GPT-2, GPT-3, GPT-4로 이어지는 발전의 토대가 되었다.

[10] 현재는 수십만 토큰도 처리할 수 있다.

[11] 나중에 공개했지만

[12] 지금은... 엄밀히 따지면 비영리이긴 한데, 뭐 복잡하다.

[13] 저작권 문제로 접근이 제한되었다.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

GPT-1

목차

개요[편집 / 원본 편집]

상세[편집 / 원본 편집]

모델 구조[편집 / 원본 편집]

주요 사양[편집 / 원본 편집]

토크나이저[편집 / 원본 편집]

훈련 과정[편집 / 원본 편집]

1단계: 비지도 사전 훈련[편집 / 원본 편집]

2단계: 지도 미세 조정[편집 / 원본 편집]

입력 변환[편집 / 원본 편집]

작업별 입력 형식[편집 / 원본 편집]

성능[편집 / 원본 편집]

평가 데이터셋[편집 / 원본 편집]

자연어 추론[편집 / 원본 편집]

질의응답[편집 / 원본 편집]

문장 유사도[편집 / 원본 편집]

분류[편집 / 원본 편집]

당시 기준 성능[편집 / 원본 편집]

의의[편집 / 원본 편집]

기술적 혁신[편집 / 원본 편집]

전이 학습의 성공적 적용[편집 / 원본 편집]

최소한의 작업별 구조[편집 / 원본 편집]

스케일링의 가능성 제시[편집 / 원본 편집]

한계[편집 / 원본 편집]

작은 모델 크기[편집 / 원본 편집]

제한된 컨텍스트[편집 / 원본 편집]

단방향 어텐션[편집 / 원본 편집]

미세 조정 필요[편집 / 원본 편집]

후속 연구에 미친 영향[편집 / 원본 편집]

GPT 시리즈의 시작[편집 / 원본 편집]

다른 모델들에게 준 영향[편집 / 원본 편집]

여담[편집 / 원본 편집]

관련 문서[편집 / 원본 편집]

각주[편집 / 원본 편집]

외부 링크[편집 / 원본 편집]

최근 바뀜

GPT-1

1. 개요[편집 / 원본 편집]#

2. 상세[편집 / 원본 편집]#

2.1 모델 구조[편집 / 원본 편집]#

2.1.1 주요 사양[편집 / 원본 편집]#

2.1.2 토크나이저[편집 / 원본 편집]#

2.2 훈련 과정[편집 / 원본 편집]#

2.2.1 1단계: 비지도 사전 훈련[편집 / 원본 편집]#

2.2.2 2단계: 지도 미세 조정[편집 / 원본 편집]#

2.3 입력 변환[편집 / 원본 편집]#

2.3.1 작업별 입력 형식[편집 / 원본 편집]#

3. 성능[편집 / 원본 편집]#

3.1 평가 데이터셋[편집 / 원본 편집]#

3.1.1 자연어 추론[편집 / 원본 편집]#

3.1.2 질의응답[편집 / 원본 편집]#

3.1.3 문장 유사도[편집 / 원본 편집]#

3.1.4 분류[편집 / 원본 편집]#

3.2 당시 기준 성능[편집 / 원본 편집]#

4. 의의[편집 / 원본 편집]#

4.1 기술적 혁신[편집 / 원본 편집]#

4.1.1 전이 학습의 성공적 적용[편집 / 원본 편집]#

4.1.2 최소한의 작업별 구조[편집 / 원본 편집]#

4.1.3 스케일링의 가능성 제시[편집 / 원본 편집]#

4.2 한계[편집 / 원본 편집]#

4.2.1 작은 모델 크기[편집 / 원본 편집]#

4.2.2 제한된 컨텍스트[편집 / 원본 편집]#

4.2.3 단방향 어텐션[편집 / 원본 편집]#

4.2.4 미세 조정 필요[편집 / 원본 편집]#

5. 후속 연구에 미친 영향[편집 / 원본 편집]#

5.1 GPT 시리즈의 시작[편집 / 원본 편집]#

5.2 다른 모델들에게 준 영향[편집 / 원본 편집]#

6. 여담[편집 / 원본 편집]#

7. 관련 문서[편집 / 원본 편집]#

8. 각주[편집 / 원본 편집]#

9. 외부 링크[편집 / 원본 편집]#

개요[편집 / 원본 편집]

상세[편집 / 원본 편집]

모델 구조[편집 / 원본 편집]

주요 사양[편집 / 원본 편집]

토크나이저[편집 / 원본 편집]

훈련 과정[편집 / 원본 편집]

1단계: 비지도 사전 훈련[편집 / 원본 편집]

2단계: 지도 미세 조정[편집 / 원본 편집]

입력 변환[편집 / 원본 편집]

작업별 입력 형식[편집 / 원본 편집]

성능[편집 / 원본 편집]

평가 데이터셋[편집 / 원본 편집]

자연어 추론[편집 / 원본 편집]

질의응답[편집 / 원본 편집]

문장 유사도[편집 / 원본 편집]

분류[편집 / 원본 편집]

당시 기준 성능[편집 / 원본 편집]

의의[편집 / 원본 편집]

기술적 혁신[편집 / 원본 편집]

전이 학습의 성공적 적용[편집 / 원본 편집]

최소한의 작업별 구조[편집 / 원본 편집]

스케일링의 가능성 제시[편집 / 원본 편집]

한계[편집 / 원본 편집]

작은 모델 크기[편집 / 원본 편집]

제한된 컨텍스트[편집 / 원본 편집]

단방향 어텐션[편집 / 원본 편집]

미세 조정 필요[편집 / 원본 편집]

후속 연구에 미친 영향[편집 / 원본 편집]

GPT 시리즈의 시작[편집 / 원본 편집]

다른 모델들에게 준 영향[편집 / 원본 편집]

여담[편집 / 원본 편집]

관련 문서[편집 / 원본 편집]

각주[편집 / 원본 편집]

외부 링크[편집 / 원본 편집]