NLP 3

ChatGPT 인기의 비결은 무엇일까?

ChatGPT의 사용법, 활용 예시에 관한 글은 많지만 ChatGPT라는 서비스가 어떻게 이렇게까지 선풍적인 인기를 끌 수 있었는지에 관한 분석은 많지 않은 것 같아 몇가지 포인트에서 생각해보았습니다. 원래는 동아리 토론용으로 작성한 글인데 버리기 아까워서 블로그에 올립니다. 읽으시는 분께서는 제 뇌피셜인 부분이 많으니 감안하시고 지적할 부분 댓글 남겨주시면 감사하겠습니다. 1. ChatGPT는 GPT-3에 RLHF를 적용하고 대화 데이터셋을 학습시켜 더 인간답고 자연스러운 답변을 내보낼 수 있다는 점에서 GPT-3와 구분됩니다. - GPT-3과 ChatGPT의 기술적 차이 GPT-3와 ChatGPT의 기술적 기반은 비슷하지만, GPT-3에 비해 ChatGPT가 훨씬 폭발적인 반응을 이끌어냈습니다. 그 ..

NLP 2023.03.06

[트랜스포머 뜯어보기-2] Self-Attention 이해하기

앞서 트랜스포머의 전체적인 구조에 관해 알아보았습니다. 그러면서 트랜스포머는 Recurrence, Convolution 연산 대신에 Self-Attention 연산만을 사용한다는 점을 짚었는데요. 짐작하셨겠지만 Self-Attention 연산은 트랜스포머를 알고자 한다면 필히 공부해야 할 주요 부품입니다. 1. Self-Attention 연산의 전체적인 구조 위의 그림은 Self-Attention 연산에 관한 이해를 돕기 위해 직접 그린 그림입니다. 맨 왼쪽에 (B, T, C)라고 쓰여진 직육면체 한 개가 있는 것이 보이실 텐데요. 직육면체는 Self-Attention 연산을 하기 위해 들어가는 Input 행렬이고, 3개 차원을 가지며 행렬의 사이즈가 (B, T, C)입니다. 첫 번째 차원은 배치 번호를..

[트랜스포머 뜯어보기-1] 트랜스포머를 소개합니다

1. 트랜스포머 소개 본 시리즈에서는 2017년에 논문 Attention is All You Need에서 처음 제안한 모델, 트랜스포머를 소개하려고 합니다! 트랜스포머는 자연어처리를 공부하려고 한다면 필히 눈여겨보아야 할 딥러닝 모델입니다. 요즘 한창 뜨는 OpenAI의 ChatGPT는 GPT-3.5 기반으로 만들어진 모델인데, 이 GPT 시리즈도 트랜스포머 기반의 모델입니다. 트랜스포머는 위에서 언급한 논문 Attention is All You Need(2017)에서 제안된 딥러닝 모델입니다. 입력 시퀀스를 집어넣으면 모델 내부에서 처리하여 출력 시퀀스를 반환하죠. 시퀀스는 단어들이 쭉 이어진 글 비스무리한 것으로 생각하시면 됩니다. 사용자가 글을 입력하면 글로 답변하는 ChatGPT를 생각하시면 쉽습..

1