TIL 38. 딥러닝 - 자연어처리 (NLP) 3

Notice

Recent Posts

Tags more

Archives

관리 메뉴

초봉5센티미터

교육/멋쟁이사자처럼 AI School 7기

삶은돼지고기 2022. 12. 15. 00:49

728x90

시퀀스 데이터는 연관된 연속의 데이터로 순서가 있는 자료
- 시계열 자료나 영상, 텍스트 자료가 대표적이다.
실제 사용하는 데이터들 중에는 시퀀스 데이터가 대부분을 차지(음성인식, 자연어, 주가 등)
연속된 데이터이므로 순서가 매우 중요하게 작용하며, 과거의 영향을 받기 때문에 과거 정보의 맥락을 고려하는 새로운 모델이 필요하게 되었다. (CNN → RNN)

- 단어, 문장, 문서의 vector를 모델의 입력으로 넣어주기 위해 데이터 전처리를 수행한다.

EDA - 데이터를 불러온 후 문장 또는 문서들을 눈으로 확인하며 특수문자, 불용어 그리고 문장 구조에 대한 감을 잡는다.
문제의 목적과 분석자의 재량에 따라 불용어를 설정하고 리스트에 저장한다.
불용어 이외의 특수 문자들을 제거한다.
- 정규표현식(re)을 사용하면 한글과 영어 소문자를 제외한 모든 글자들을 쉽게 제거할 수 있다.
형태소 분석을 통해 문장을 형태소 단위의 *토큰**으로 분리한다.
- 설정한 불용어들을 결과로 반환해주는 형태소 분석기를 사용할 수 있다.
형태소 단위의 토큰들을 기반으로 리스트에 저장된 불용어를 제거한다.

형태소 분석(Stemming)

Python에서 사용 가능한 형태소 분석기

NLP를 컴퓨터가 이해할 수 있게 수치로 바꾸는 작업
- vocabulary란 ? : 벡터로 변환된 고유의 토큰들이 모인 집합
  - vocabulary가 크면 클수록 학습이 오래 걸린다.
토큰들을 벡터화하기 이전에 형태소 분석기를 사용하여 문장을 원하는 토큰들로 분리한다.

벡터화 과정

문장의 길이를 맞춰주기 위해 부족한 길이만큼 0을 채우는 것
- 문장 1의 길이와 2의 길이가 서로 다를 때 뒤쪽에 0을 padding해주어 같은 길이로 맞춰줄 수 있다.
가변 길이의 입력을 받는 모형들이 존재하지만 문장의 길이를 동일하게 맞춰줄 필요가 있다

입력 개수와 출력 개수에 따른 유형

'교육/멋쟁이사자처럼 AI School 7기' Related Articles

Comments