본문 바로가기
  • 머킹이의 머신로그

AI51

[용어정리] 토큰화, 어휘, BEP [자연어 용어정리] 토큰화, 어휘, BEP 토큰화(Tokenization) 토큰화란 문장을 토큰 시퀀스로 나누는 과정입니다. 수행 대상에 따라 문자, 단어, 서브워드 등 세 가지 방법이 있습니다. 토큰화를 수행하는 프로그램을 토크나이저라고 합니다. 대표적인 한국어 토크나이저는 kkma, mecab 등이 있습니다. 토큰화뿐만 아니라 품사부착 까지 수행하므로 토큰화 개념을 넓은 의미로 해석할 때는 토큰 나누기에 품사 부착까지 일컫는 경우도 있습니다. 단어 단위 토큰화 토큰화 방식에는 여러 가지가 있습니다. 우선 단어(어절) 단위로 토큰화를 수행할 수 있습니다. 가장 쉬운 방법으로는 공백으로 분리할 수 있습니다. 공백으로 분리하면 별도의 토크나이저가 사용되지 않는다는 장점이 있지만, 어휘 집합의 크기가 매우 .. 2024. 1. 31.
[용어정리] 자연어 처리 [딥러닝 용어정리] 자연어 처리 트랜스퍼 러닝(Transfer learning) 특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용 하는 기법 모델이 태스크를 수행해봤던 경험을 재활용한다. 기존보다 모델의 학습속도가 빨라지고 더 잘 수행하는 경향이 있다. 업스트림 태스크 자연어의 풍부한 문맥을 모델에 내재화하고 모델을 다양한 다운스트림 태스크에 적용해 성능을 대폭 끌어올림 대표적인 업스트림 태스크 중 하나는 "다음 단어 맞히기"이다. 모델이 대규모 말뭉치를 가지고 과정을 수행하면 이전 문맥을 고려했을 때 어떤 단어가 그 다음에 오는 것이 자연스러운지 알 수 있게 됩니다. 언어 모델에서는 학습 대상 언어의 어휘 수만큼 분류할 범주가 늘어납니다. 또 다른 업스트림 태스크로는 "빈칸 채우기"가 있습니다. .. 2024. 1. 29.
[용어 정리]모델 경량화, ViT, Transformer, GPT, BERT [딥러닝 용어 정리]딥러닝 모델 경량화, 학생모델, ViT, Transformer, GPT, BERT 모델 경량화 가중치 개수가 많은 교사 모델의 출력과, 가중치 개수가 적은 학생 모델의 출력이 비슷해지도록 학습하는 것을 말합니다. 인공 신경망이 비슷한 성능을 갖되, 더 적은 가중치를 갖도록 하는 기법을 의미합니다. 지식증류 알고리즘 가중치가 많은 교사 모델을 이용해 가중치가 적은 학생 모델을 학습하는 알고리즘입니다. 1. 먼저 교사 모델과 학생 모델은 같은 입력값을 갖게 됩니다. 2. 이때 두 모델은 서로 다른 예측값을 출력합니다. ( 예측값의 차이를 '소프트라벨'이라고 합니다. ) 3. 정답 데이터와 학생 모델의 예측값의 차이는 '하드 라벨'이라고 부릅니다. 하드 라벨은 학생모델의 학습이 올바른 방향.. 2024. 1. 26.
[용어정리]SRGAN 모델 [딥러닝 용어정리]SRGAN 모델 정리 SRGAN(Super Resolution GAN) CNN이 비슷한 특징을 추출하도로 생성자가 학습됩니다. 생성자, 감별자와 별도로 특징 추출기가 필요합니다. 화질을 높이기 위해 제안된 모델입니다. 특정 공간 상의 점을 입력으로 받는 GAN과 달리 SRGAN은 이미지를 입력으로 받습니다. 1. 생성자는 이미지로부터 특징을 추출하고, 추출된 특징을 바탕으로 해상도를 높인 이미지를 출력으로 내보냅니다. 2. 감별자는 기존과 마찬가지로 실제의 이미지와 생성자가 만들어낸 이미지를 구별하도록 학습합니다. 3. 사전에 학습된 CNN을 준비해서 생성자가 만든 이미지와 실제 이미지가 CNN의 입력으로 들어갔을 때, 특징이 비슷하게 추출되도록 학습이 이루어집니다. L1 손실, L2 .. 2024. 1. 25.
728x90