NLP/트랜스포머 뜯어보기 2

[트랜스포머 뜯어보기-2] Self-Attention 이해하기

앞서 트랜스포머의 전체적인 구조에 관해 알아보았습니다. 그러면서 트랜스포머는 Recurrence, Convolution 연산 대신에 Self-Attention 연산만을 사용한다는 점을 짚었는데요. 짐작하셨겠지만 Self-Attention 연산은 트랜스포머를 알고자 한다면 필히 공부해야 할 주요 부품입니다. 1. Self-Attention 연산의 전체적인 구조 위의 그림은 Self-Attention 연산에 관한 이해를 돕기 위해 직접 그린 그림입니다. 맨 왼쪽에 (B, T, C)라고 쓰여진 직육면체 한 개가 있는 것이 보이실 텐데요. 직육면체는 Self-Attention 연산을 하기 위해 들어가는 Input 행렬이고, 3개 차원을 가지며 행렬의 사이즈가 (B, T, C)입니다. 첫 번째 차원은 배치 번호를..

[트랜스포머 뜯어보기-1] 트랜스포머를 소개합니다

1. 트랜스포머 소개 본 시리즈에서는 2017년에 논문 Attention is All You Need에서 처음 제안한 모델, 트랜스포머를 소개하려고 합니다! 트랜스포머는 자연어처리를 공부하려고 한다면 필히 눈여겨보아야 할 딥러닝 모델입니다. 요즘 한창 뜨는 OpenAI의 ChatGPT는 GPT-3.5 기반으로 만들어진 모델인데, 이 GPT 시리즈도 트랜스포머 기반의 모델입니다. 트랜스포머는 위에서 언급한 논문 Attention is All You Need(2017)에서 제안된 딥러닝 모델입니다. 입력 시퀀스를 집어넣으면 모델 내부에서 처리하여 출력 시퀀스를 반환하죠. 시퀀스는 단어들이 쭉 이어진 글 비스무리한 것으로 생각하시면 됩니다. 사용자가 글을 입력하면 글로 답변하는 ChatGPT를 생각하시면 쉽습..

1