본문 바로가기
  • 머킹이의 머신로그

분류 전체보기135

[용어정리] 문서 분류 모델, 감성 분석 [자연어 용어정리] 문서 분류 모델, 감성 분석 문서 분류(document classification) 문서가 주어졌을 때 해당 문서의 범주를 분류하는 과제 영화 리뷰가 긍정/부정 등 어떤 극성을 가지는지 분류하는 작업이 대표적이다. NSMC 네이버 영화 리뷰 말뭉치 BERT 모델의 특징 세그먼트 정보를 입력하는 건 BERT 모델의 특징입니다. BERT 모델 프리트레인 과제는 '빈칸 맞히기' 외에 '이어진 문서인지 맞히기'도 있습니다. 문서 2개를 입력하고 2개의 문서가 이어진 것인지, 아닌지를 분류하는 과정에서 프리트레인을 수행합니다. BERT의 세그먼트 정보는 첫 번째 문서에 해당하는 토큰 시퀀스가 0, 두 번째 문서의 토큰 시퀀스가 1이 되도록 만듭니다. SequentialSampler 평가용 데이.. 2024. 2. 6.
[용어정리]GPT와 BERT 비교 [자연어 용어정리]GPT와 BERT 비교하기 BERT와 GPT GPT는 언어 모델입니다. 이전 단어들이 주어졌을 때 다음 단어가 무엇인지 맞히는 과정에서 프리트레인 합니다. 문장 왼쪽부터 오른쪽으로 순차적으로 계산한다는 점에서 일방향(unidirectional)입니다. BERT는 마스크 언어 모델입니다. 문장 중간에 빈칸을 만들고 해당 빈칸에 어떤 단어가 적절할지 맞히는 과정에서 프리트레인합니다. 빈칸 앞뒤 문맥을 모두 살필 수 있다는 점에서 양방향(bidirectional) 성격을 가집니다. GPT는 문장 생성에, BERT는 문장의 의미를 추출하는 데 강점을 가집니다. 또한 트랜스포머에서 BERT는 인코더, GPT는 디코더만 취해 사용하는 것도 다릅니다. GPT의 구조 GPT는 트랜스포머에서 인코더를 .. 2024. 2. 4.
[용어정리] 언어 모델, 셀프 어텐션, GPT, 벡터 [자연어 용어정리] 언어 모델, 셀프 어텐션, GPT, 벡터 언어 모델(language model) 단어 시퀀스에 확률을 부여하는 모델입니다. 다시 말해 시퀀스를 입력 받아 해당 시퀀스가 얼마나 그럴듯한지 확률을 출력하는 모델입니다. 이전 단어를이 주어졌을 때 다음 단어가 나타날 확률을 부여하는 모델 순방향 언어 모델 문장 앞부터 뒤로, 사람이 이해하는 순서대로 계산하는 모델을 순방향 언어 모델이라고 합니다. GPT, ELMo 모델이 이런 방식으로 프리트레인을 수행합니다. 역방향 언어 모델 문장 뒤부터 앞으로 계산하는 모델입니다. ELMo 같은 모델이 이런 방식으로 프리트레인을 수행합니다. ( ELMo 모델은 순방향, 역방향을 모두 활용합니다) 마스크 언어 모델 학습 대상 문장에 빈칸을 만들어 놓고 해당.. 2024. 2. 2.
[용어정리] 토큰화, 어휘, BEP [자연어 용어정리] 토큰화, 어휘, BEP 토큰화(Tokenization) 토큰화란 문장을 토큰 시퀀스로 나누는 과정입니다. 수행 대상에 따라 문자, 단어, 서브워드 등 세 가지 방법이 있습니다. 토큰화를 수행하는 프로그램을 토크나이저라고 합니다. 대표적인 한국어 토크나이저는 kkma, mecab 등이 있습니다. 토큰화뿐만 아니라 품사부착 까지 수행하므로 토큰화 개념을 넓은 의미로 해석할 때는 토큰 나누기에 품사 부착까지 일컫는 경우도 있습니다. 단어 단위 토큰화 토큰화 방식에는 여러 가지가 있습니다. 우선 단어(어절) 단위로 토큰화를 수행할 수 있습니다. 가장 쉬운 방법으로는 공백으로 분리할 수 있습니다. 공백으로 분리하면 별도의 토크나이저가 사용되지 않는다는 장점이 있지만, 어휘 집합의 크기가 매우 .. 2024. 1. 31.
728x90