Skip to content

Very Deep CNN(VDCNN) for NLP

hwkim94 edited this page Jan 16, 2018 · 28 revisions

Abstract

  • character level의 연산
  • 적은 convolution과 pooling 사용으로 메모리 절약
  • 모델을 깊게 만들어 성능의 향상(29 convolution layers)

Introduction

간략한 배경 설명

  • neural network를 NLP에 적용하면 효과가 좋다

  • NLP의 단어들은 sequential하다고 생각되어 RNN으로 처리되는 경우가 많음

  • RNN 중 LSTM이 좋은 성능을 가지고 있다. 하지만, generic learning machine for sequence proccesing which is lacking task-specific structure

  • word embedding이 좋은 결과를 내고 있음

  • convNet은 원래 이미지의 특징을 뽑아내고 분류하기 위하여 사용되는 것이지만, NLP에도 적용

  • 좋은 모델의 경우 layer의 수가 계속 증가하는 추세

  • NLP에서는 문장의 계층적 구조를 잘 파악하는 것이 관건

Related Work

이전 연구들에 대한 간략한 설명

  • cbow, n-gram, TF-IDF

  • RNN

  • CNN

  • 최근엔 RNN과 CNN을 혼합한 모델도 활발하게 연구되고 있음

  • CNN을 더 깊데 만들어보자!!

VDCNN architecture

architecture convoulutional block result1 result2

결론

NLP에 CNN을 적용할 때에도, residual Network 를 활용해 점점 깊은 모델을 만드는 것이 성능에 좋다.

Clone this wiki locally