전체 글 6

ChatGPT 인기의 비결은 무엇일까?

ChatGPT의 사용법, 활용 예시에 관한 글은 많지만 ChatGPT라는 서비스가 어떻게 이렇게까지 선풍적인 인기를 끌 수 있었는지에 관한 분석은 많지 않은 것 같아 몇가지 포인트에서 생각해보았습니다. 원래는 동아리 토론용으로 작성한 글인데 버리기 아까워서 블로그에 올립니다. 읽으시는 분께서는 제 뇌피셜인 부분이 많으니 감안하시고 지적할 부분 댓글 남겨주시면 감사하겠습니다. 1. ChatGPT는 GPT-3에 RLHF를 적용하고 대화 데이터셋을 학습시켜 더 인간답고 자연스러운 답변을 내보낼 수 있다는 점에서 GPT-3와 구분됩니다. - GPT-3과 ChatGPT의 기술적 차이 GPT-3와 ChatGPT의 기술적 기반은 비슷하지만, GPT-3에 비해 ChatGPT가 훨씬 폭발적인 반응을 이끌어냈습니다. 그 ..

NLP 2023.03.06

[트랜스포머 뜯어보기-2] Self-Attention 이해하기

앞서 트랜스포머의 전체적인 구조에 관해 알아보았습니다. 그러면서 트랜스포머는 Recurrence, Convolution 연산 대신에 Self-Attention 연산만을 사용한다는 점을 짚었는데요. 짐작하셨겠지만 Self-Attention 연산은 트랜스포머를 알고자 한다면 필히 공부해야 할 주요 부품입니다. 1. Self-Attention 연산의 전체적인 구조 위의 그림은 Self-Attention 연산에 관한 이해를 돕기 위해 직접 그린 그림입니다. 맨 왼쪽에 (B, T, C)라고 쓰여진 직육면체 한 개가 있는 것이 보이실 텐데요. 직육면체는 Self-Attention 연산을 하기 위해 들어가는 Input 행렬이고, 3개 차원을 가지며 행렬의 사이즈가 (B, T, C)입니다. 첫 번째 차원은 배치 번호를..

[트랜스포머 뜯어보기-1] 트랜스포머를 소개합니다

1. 트랜스포머 소개 본 시리즈에서는 2017년에 논문 Attention is All You Need에서 처음 제안한 모델, 트랜스포머를 소개하려고 합니다! 트랜스포머는 자연어처리를 공부하려고 한다면 필히 눈여겨보아야 할 딥러닝 모델입니다. 요즘 한창 뜨는 OpenAI의 ChatGPT는 GPT-3.5 기반으로 만들어진 모델인데, 이 GPT 시리즈도 트랜스포머 기반의 모델입니다. 트랜스포머는 위에서 언급한 논문 Attention is All You Need(2017)에서 제안된 딥러닝 모델입니다. 입력 시퀀스를 집어넣으면 모델 내부에서 처리하여 출력 시퀀스를 반환하죠. 시퀀스는 단어들이 쭉 이어진 글 비스무리한 것으로 생각하시면 됩니다. 사용자가 글을 입력하면 글로 답변하는 ChatGPT를 생각하시면 쉽습..

[Paper] GloVe: Global Vectors for Word Representation

지난번 논문에 이어 Word Representation Model에 관한 또다른 유명한 논문, ```GloVe: Global Vectors for Word Representation```을 읽었다. 논문을 두세 편 읽으면서 word vector representation model들의 원리를 조금이나마 익혔지만, 이론 습득만을 위해 논문을 읽는 건 아니다. 연구자의 관점에서 새롭게 개발한 하나의 기법을 바라볼 수 있게 된달까. 원문을 읽지 않고 블로그 글이나 유튜브로 공부했다면 알고리즘 자체의 내용과 이론적 배경 정도만 공부했을 것이다. 원문을 읽으니 모델의 성능을 테스트할 수 있는 여러가지 방법, 다른 모델과 변인 통제를 해가며 비교하는 방법, 모델의 성능 외에 모델에 관련된 다른 지표 등에 대해서도 ..

NLP Papers 2023.02.21

[Paper] Efficient Estimation of Word Representations in Vector Space

`Efficient Estimation of Word Representations in Vector Space`이라는 NLP에서의 기초 논문 중 하나를 읽었다. 완독하는 데에는 2시간 정도가 걸린 것 같다. Google에서 CBOW와 Skip-Gram이라는 이제는 모르는 사람이 없을(?) 두 가지 유명한 워드 임베딩 모델을 제안한 논문이다. 고등학교 때부터 이 모델들 이름을 들어봤는데, 이게 처음 제안된 논문을 이제와서야 읽게 된다는 게 우습기도 하지만 꽤 뜻깊다. 논문을 많이 읽어보지는 않아서 완전히 이해하지도 못했고 잘못 이해한 부분이 있을지도 모르겠지만, 여러가지로 더 많이 공부하다보면 이 논문을 다시 읽을 때 이해가 절로 깊어질 거라고 믿는다. 앞으로는 이 모델을 내가 직접 구현해 볼 수 있었으면..

NLP Papers 2023.02.21

[머신러닝] 파이썬 단순 선형 회귀분석 & 비선형 회귀분석 예제 소스코드

※ 전체 소스코드는 글 최하단에 있습니다 ※ Levenberg Method 및 Levenberg-Marquardt Method의 경우 damping factor를 계속 update해야 하는데 update하지 않도록 코드를 짰다.. 수정할 예정입니다!!!! 간단 이론 정리 선형 회귀는 주어진 데이터에 가장 잘 fit하는 선형 모델을 구하는 것이다. 모델이 주어진 데이터에 가장 잘 fit할 때 잔차(=추정값-실제값)의 합은 최소가 되며, 이때 likelihood/우도/가능도는 최대가 된다. likelihood/우도/가능도는 모델이 주어졌을 때 데이터가 관측될 확률을 말한다. 이를 응용하여, 우도/가능도를 최대화하여 선형 회귀를 하는 방법을 MLE(Maximum Likelihood Estimation)/최대 ..

예전 글 2021.08.20