논문 3

[논문] Attention is All you need

1. Sequence model 의 한계 Transformer 모델은 recurrency와 convolution 을 배제한 attention 기반의 모델이다. 이는 sequence transduction 모델과 달리 병렬화가 가능하며 모델 훈련에 적은 시간이 소요된다는 특징이 있다. 이러한 sequence model 의 예시로 RNN, LSTM, GRU 가 주축으로 사용되는데 이는 순차적으로 입력값을 넣어주어야 하기 때문에 sequence 길이가 긴 인풋에 대해 메모리와 계산량에 부담이 생기는 문제가 있다. 2. Attention 설명 Attention 은 입력과 출력 sequence 의 거리에 무관하게 종속성을 모델링한다. 기존 모델은 recurrent network 와 attention 을 섞어 사용..

논문 2025.01.05

[논문] From Word Embeddings To Document Distances

논문 "From Word Embeddings to Document Distances"는 http://proceedings.mlr.press/v37/kusnerb15.html  단어 임베딩을 사용해서 문서 간 유사성을 계산하는 방법론을 제시합니다. 이 논문에서 사용한 WMD (Word Mover's Distance) 는 문서간 유사성을 측정하는 거리함수로, 한 문서의 단어들이 다른 문서들의 단어들로 이동하는 "비용"을 최소화해서 두 문서간 거리를 계산합니다. 이는 기존의 Earth Mover's Distance (EMD) 문제와 유사한 최적화 문제로 다룰 수 있습니다. 기존 BOW (Bag of Words) 나 TF-IDF 모델은 단어 간 의미적 유서성을 충분히 반영하지 못한 문제가 있습니다. 예를 들어 ..

논문 2024.11.16

페이지랭크 알고리즘 (PageRank algorithm)

Page Rank 알고리즘은 유저가 검색한 키워드가 아닌 웹사이트간 관계로 스코어를 측정하고, 순서를 나열해 결과를 보여줌으로써 가능성이 높은 페이지들을 보여주게 됩니다. 이 페이지랭크는 Google 검색엔진의 핵심 알고리즘입니다. 대학원생이였던 세르게이 브린과 래리 페이지가 쓴 논문(The Anatomy of a Large-Scale Hypertextual Web Search Engine) 이 Google 의 시작점이였기에 꽤 유명한 알고리즘이기도 한데요. 이 링크에서 한 문단을 인용하자면 Academic citation literature has been applied to the web, largely by counting citations or backlinks to a given page. Th..

논문 2024.11.03