Gom3rye

기말고사 정리 본문

Artificial Intelligence

기말고사 정리

Gom3rye 2022. 6. 26. 11:54

재귀 신경망

  • Attention은 번역하고자 하는 단어와 연관된 중요한 단어들에 대해 주목(attend) 한다
  • RNN은 길이가 가변적인 sequence를 처리한다.
  • RNN의 Gradient Vanishing Problem을 해결하고자 LSTM이 등장하였다.
  • LSTM을 이용한 seq2seq 모델의 information bottleneck을 해결하고자 Attention이 등장하였다.
  • LSTM은 총 3개의 gate로 이루어져 있다.

자연어 처리

  • Modified n-gram precision은 문장의 길이가 길수록 낮아지는 경향이 있다.
  • Language model에서 input one-hot vector의 크기는 vocabulary 개수와 같다.
  • RNN 기반의 seq2seq 모델에서 beam search를 사용하면 연산량이 늘어난다
  • Embedding table도 컴퓨터가 만들어 준다.
  • BLEU 점수는 높을 수록 좋다.

트랜스포머 모델

  • Attention은 RNN 계열 모델이나 트랜스포머 모델 외 다른 모델에서도 사용 가능하다.
  • 트랜스포머 모델의 Layer normalization은 한 input 내의 토큰들을 normalization 한다.
  • BERT의 pre-training은 supervised learning으로 이루어진다.
  • 트랜스포머 모델은 기존 순차적 모델과는 다르게 병렬 처리를 위해 등장하였다.
  • Multi-head attention은 다양한 관점에서 attention을 수행하기 위해 필요하다.

GAN (생성적 적대 신경망) 에서 generator의 목적

  • log(D(G(z)))를 최대화한다.
  • log(1 - D(G(z)))를 최소화 한다.
  • Real data의 probability distribution을 모사한다.
  • logD(x)를 최대화 한다.
  • Discriminator의 classification accuracy를 낮춘다.

중요

  • 추천 시스템 - Content-based filtering은 item만을 사용하여 추천을 수행한다.
  • 그래프 신경망 - 그래프 신경망의 입력은 그래프이다.
  • 강화 학습 - 주어진 문제를 Markov Decision Process 형태로 모델링 할 수 있다면 강화 학습으로 해결 가능하다.
  • 전이 학습 - Knowledge distillation은 전이 학습에 속하지 않는다.
  • 연합 학습 - 여러 군데에서 생성된 데이터로 하나의 모델을 학습하는 것
    장점 :
         1. Decentralized되어 있는, 즉 분산되어 있는 데이터를 사용하는 것이 가능하다는 것이다.

         2. 분산되어 있는 데이터를 하나의 서버로 보내지 않고도 학습이 가능하다.
         3. 데이터를 보내지 않기 때문에 프라이버시를 보장할 수 있다.
         4. 학습 시에도 데이터가 아닌 weight gradient를 보내기 때문에 데이터의 전송은 일어나지 않는다.
    단점 :
         데이터가 비독립적이고 동일하게 분산되어 있지 않을 때 (non-IID) Global하게 최적화된 모델을 만드는 것이 어렵다.
  • Data Parallel - 하나의 모델을 학습 하는 데에 하나의 training set을 쪼개 각 데이터들을 분산시킨다.
  • BLEU Score - BLEU는 기계 번역의 정량적인 질을 평가해야 하는데 문장의 길이가 짧을수록 precision이 높아지는 경향성을 가지기 때문에 이에 대한 Penalty를 부여하게 된다. (Brevity Penalty란 길이가 짧은 문장의 modified n-gram precision를 평가할 때 패널티를 부여하는 것이다.)
  • 메타 학습 - 학습을 위한 학습으로 메타 학습을 통해서 모델은 아는 것과 모르는 것을 구분하는 것이 가능해진다. 즉, 전통적인 딥러닝 모델처럼 학습하지 않은 데이터를 잘못 분류하는 것이 아닌 알지 못한다고 분류하는 것이 가능해진다. 메타 학습 모델은 여러 보지 못한 (unseen) 태스크에 대해서 일반화할 수 있다. 이를 사용하는 이유는 현실에는 데이터가 매우 부족하고 Training에 소모되는 Computation power를 모두 감당할 수 없는 경우가 발생하기 때문이다.
728x90
반응형

'Artificial Intelligence' 카테고리의 다른 글

인공지능 중간 총정리  (0) 2022.05.06
MLP(Multi-Layer Perception)  (0) 2022.04.17
What is Artificial Intelligence?  (0) 2022.03.22