귀하는 로그인되어 있지 않습니다. 이대로 편집하면 귀하의 IP 주소가 편집 기록에 남게 됩니다.스팸 방지 검사입니다. 이것을 입력하지 마세요!== BERT의 특징 == === 양방향성(Bidirectionality) === 기존의 언어 모델(예: Word2Vec, GloVe, ELMo)이나 순차적 모델(예: RNN, LSTM)은 단어의 맥락을 한 방향(왼쪽에서 오른쪽 또는 오른쪽에서 왼쪽)으로만 학습하는 한계가 있었다. 반면, BERT는 트랜스포머의 자기 주의(self-attention) 메커니즘을 활용하여 문장 내 모든 단어가 서로 상호작용할 수 있도록 설계되었다. 이는 주어진 단어가 문장 내에서 앞뒤 단어의 맥락을 동시에 고려함으로써, 보다 정확한 의미 파악을 가능하게 한다. 예를 들어, "은행"이라는 단어는 문맥에 따라 "금융기관" 또는 "강둑"을 의미할 수 있다. BERT는 문장의 전체 맥락을 이해함으로써 이러한 모호성을 효과적으로 해결한다. 이러한 양방향성은 BERT가 기존 모델 대비 더 풍부한 언어 표현을 학습할 수 있게 해주는 핵심 요소이다. === 전이 학습(Transfer Learning) === BERT는 전이 학습 개념을 기반으로 작동한다. 먼저, 대량의 라벨링되지 않은 데이터<ref>예: 위키피디아, BookCorpus 등</ref>를 활용하여 사전 학습을 진행한다. 이 과정에서 모델은 일반적인 언어 이해 능력을 학습한다. 이후, 특정 NLP 작업(예: 문장 분류, 질의 응답, 개체명 인식 등)에 맞게 추가 학습(fine-tuning)을 수행한다. 추가 학습 과정에서는 해당 작업과 관련된 라벨링된 데이터(labeled data)를 사용하여 모델을 최적화한다. 이러한 구조 덕분에 BERT는 다양한 다운스트림 태스크(downstream task)에서 높은 유연성과 성능을 보여준다. 특히, 추가 학습에 필요한 데이터와 컴퓨팅 자원이 비교적 적다는 점에서 효율적이다. 예를 들어, 질의 응답 작업에서는 SQuAD(Stanford Question Answering Dataset)와 같은 데이터셋을 사용하여 모델을 추가 학습시킬 수 있다. === 트랜스포머 기반 === BERT는 트랜스포머(Transformer) 모델을 기반으로 설계되었다. 트랜스포머는 Vaswani 등이 2017년 논문 [https://arxiv.org/abs/1706.03762 Attention Is All You Need]에서 제안한 아키텍처로, 자기 주의(self-attention) 메커니즘을 사용하여 문장 내 단어 간 복잡한 관계를 학습한다. 기존의 RNN(Recurrent Neural Network) 기반 모델은 순차적 처리로 인해 병렬화가 어렵고 학습 시간이 오래 걸리는 반면, 트랜스포머는 병렬 처리가 가능하여 학습 속도가 빠르고 장거리 의존성(long-range dependency)을 효과적으로 처리할 수 있다. BERT는 트랜스포머의 인코더(encoder) 부분만을 사용하며, 이는 입력 문장의 표현을 학습하는 데 최적화되어 있다. 트랜스포머의 자기 주의 메커니즘은 각 단어가 문장 내 다른 모든 단어와의 관계를 계산함으로써, 단어 간 복잡한 상호작용을 모델링한다. 편집 요약 가온 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는 가온 위키:저작권 문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요. 또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다. 저작권이 있는 내용을 허가 없이 저장하지 마세요! 취소 편집 도움말 (새 창에서 열림)