귀하는 로그인되어 있지 않습니다. 이대로 편집하면 귀하의 IP 주소가 편집 기록에 남게 됩니다.스팸 방지 검사입니다. 이것을 입력하지 마세요!=== 트랜스포머 블록 === BERT의 핵심 구성 요소는 트랜스포머의 인코더 블록이다. BERT는 여러 개의 트랜스포머 블록을 쌓아 모델을 구성하며, 각 블록은 다음과 같은 레이어를 포함한다. * '''자기 주의(Self-Attention) 레이어''': ** 문장 내 모든 단어 사이의 관계를 학습한다. ** 자기 주의 메커니즘은 입력 벡터를 쿼리(Query), 키(Key), 값(Value)로 변환한 후, 단어 간 유사도를 계산하여 주의를 분배한다. ** 멀티헤드 자기 주의(multi-head self-attention)를 사용하여 다양한 관점에서 단어 간 관계를 학습한다. * '''피드포워드 신경망(Feed-Forward Neural Network, FFNN)''': ** 자기 주의 레이어의 출력을 처리하여 다음 레이어로 전달한다. ** 각 단어에 대해 독립적으로 작동하며, 비선형 활성화 함수(ReLU)를 포함한다. ** FFNN은 다음과 같은 수식으로 정의된다: <math>FFNN(x) = \max(0, xW_1 + b_1)W_2 + b_2</math> * '''정규화 및 잔차 연결(Layer Normalization and Residual Connection)''': ** 각 레이어의 출력은 정규화(Layer Normalization)를 거치며, 잔차 연결(residual connection)을 통해 입력과 출력이 더해진다. ** 이는 학습의 안정성과 성능을 향상시킨다. BERT는 모델 크기에 따라 두 가지 변형을 제공한다. * '''BERT-Base''': 12개의 트랜스포머 블록, 768차원 임베딩, 110M 파라미터. * '''BERT-Large''': 24개의 트랜스포머 블록, 1024차원 임베딩, 340M 파라미터. 편집 요약 가온 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는 가온 위키:저작권 문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요. 또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다. 저작권이 있는 내용을 허가 없이 저장하지 마세요! 취소 편집 도움말 (새 창에서 열림)