NLP Papers

[Paper] Efficient Estimation of Word Representations in Vector Space

gyuuuna 2023. 2. 21. 00:24

`Efficient Estimation of Word Representations in Vector Space`이라는 NLP에서의 기초 논문 중 하나를 읽었다. 완독하는 데에는 2시간 정도가 걸린 것 같다. Google에서 CBOW와 Skip-Gram이라는 이제는 모르는 사람이 없을(?) 두 가지 유명한 워드 임베딩 모델을 제안한 논문이다. 고등학교 때부터 이 모델들 이름을 들어봤는데, 이게 처음 제안된 논문을 이제와서야 읽게 된다는 게 우습기도 하지만 꽤 뜻깊다. 논문을 많이 읽어보지는 않아서 완전히 이해하지도 못했고 잘못 이해한 부분이 있을지도 모르겠지만, 여러가지로 더 많이 공부하다보면 이 논문을 다시 읽을 때 이해가 절로 깊어질 거라고 믿는다. 앞으로는 이 모델을 내가 직접 구현해 볼 수 있었으면 한다.

1. Introduction

1. 본 논문에서는 단어를 다차원 벡터로 나타내면서 단어 간의 유사도를 반영하도록 하는 두 가지 기법을 제안한다. 
2. 연구에서는 Syntactic 및 Semantic Regularity를 측정하기 위한 테스트 데이터셋을 설계하였으며, 이 테스트 데이터셋으로 각 기법을 테스트했을 때의 소요 시간 및 정확도를 논문에 수록했다. 해당 소요 시간 및 정확도가 임베딩 벡터의 차원 및 훈련 데이터셋과 어떻게 관계되는지도 밝혔다.
3. 본 논문에서 제안하는 기법은 NNLM (Neural Network Language Model)의 일종으로, 선행 연구에서도 다양한 모델들이 제안된 바가 있다.


2. Model Architecture

1. 본 논문에서는 계산복잡도를 최소화하고 정확도를 최대화할 수 있는 모델 아키텍쳐를 제안하고자 하였다.
2. 기존의 모델 아키텍쳐로 Feedforward Neural Net Language Model (NNLM)과 Recurrent Neural Net Language Model (RNNLM)을 제안했다.


3. New Log-linear Models

1. Continuous Bag-of-Words Model (CBOW)은 중심 단어를 기준으로 앞뒤 4개씩의 단어를 input으로 하여 중심 단어를 예측하는 모델이다. 단어의 순서와 관계 없이 모든 단어를 Projection Layer에서 projection한 후 평균을 취한다.
2. Continuous Skip-Gram Model (Skip Gram)은 중심 단어를 input으로 하여 앞뒤로 나오는 주변 단어를 예측하는 모델이다.


4. Results

1. 단어들 간의 관계가 단어를 나타내는 벡터들 간의 관계에 반영되는 것을 확인했다. 이는 기계번역, 정보검색, 질의응답 시스템 등 다양한 문제 해결에 활용할 수 있다.
2. 임베딩 벡터의 질을 측정하기 위해 유사한 단어들의 리스트를 수동 제작하였고 이 리스트에서 임의의 단어쌍을 뽑아가며 5개 타입의 질문들을 제작했다.
3. 임베딩 단어의 차원을 높게 할수록, 훈련 데이터셋의 양을 많게 할수록 예측 정확도가 향상되리라는 가설을 검증할 수 있었다.
4. (Table3) DistBelief Parallel Training을 같은 조건에서 수행하며 실험했을 때, RNNLM보다는 NNLM이, NNLM보다는 CBOW와 Skip Gram의 예측 정확도가 더 높게 나타났다. CBOW는 Syntactic Accuracy에서, Skip Gram은 Semantic Accuracy에서 비교우위를 점했다.
5. (Table5) CPU만을 사용하여 훈련한 결과, CBOW의 훈련 시간은 1일이 나왔으며 이는 3일이 걸린 Skip Gram의 경우보다 훨씬 짧았다. 또한, 에폭시를 1로 정하고 훈련 단어의 개수를 2배 이상으로 늘렸을 때의 정확도가 에폭시가 3이었을 때보다 더 높았다.
6. Microsoft Research Sentence Completion Challenge에서는 Skip Gram과 RNNLM을 합쳐서 쓸 때의 정확도가 가장 높게 나왔다.


5. Conclusion

1. DistBelief 분산 네트워크에서 CBOW와 Skip Gram을 활용하면 큰 크기의 데이터셋을 사용하여 더 빠르고 높은 정확도로 학습할 수 있다는 것을 확인했다.
2. Word Vector Representation이 다양한 NLP Tasks에 적용되며 다양한 Application의 초석이 될 것으로 기대된다.

'NLP Papers' 카테고리의 다른 글

[Paper] GloVe: Global Vectors for Word Representation  (0) 2023.02.21