본문 바로가기
  • 머킹이의 머신로그

AI37

[자연어 용어 정리]sentence generation, prompt [자연어 용어 정리]sentence generation, prompt 안녕하세요 머킹입니다. 이래저래 현생에 치여 개발을 살짝 놓게 되었네요. 정말 꾸준히 무언가를 하는건 어려운 것 같습니다. 그래도 다시 열심히 해보겠습니다. 문장 생성(sentence generation) 문장을 만들어 내는 과제. 이전 단어들, 즉 컨텍스트가 주어졌을 때 다음 단어로 어떤 단어가 오는게 적절한지 분류하는 것 문장 생성 과제에서 모델의 입력은 컨텍스트, 출력은 컨텍스트 다음 토큰의 등장확률이 됩니다. 문장 생성 방식 1. 컨텍스트를 모델에 입력에 다음 토큰 확률 즉, p(w|context)를 출력한 뒤 다음 토큰을 선택합니다. 2. 기존 컨텍스트에 (1)에서 선택한 다음 토큰을 이어붙인 새로운 컨텍스트를 모델에 입력해서.. 2024. 3. 2.
[용어정리]개체명 인식 모델, 시퀀스 레이블링, 시퀀스 데이터 [자연어 용어정리]개체명 인식 모델, 시퀀스 레이블링, 시퀀스 데이터 개체명 인식(named entity recognition) 문장을 토큰화 한 뒤 토큰 각각에 인명, 지명, 기관명 등 개체명 태그를 붙여 주는 과제 개체명 태그 수와 종류는 데이터를 제작할 때 자유롭게 정할 수 있습니다. 시퀀스 레이블링의 댚 과제인 개체명 인식 모델의 시퀀스 레이블링은 개별 입력 토큰 각각의 범주를 가려낸다는 점에서 차이가 있습니다. 범주 수가 m개이고 입력 토큰이 n개일 때 문서 분류, 문장 쌍 분류 모델 출력은 m차원의 확률 벡터 1개입니다. 반면 시퀀스 레이블링은 m차원 확률 벡터가 n개 만들어집니다. 방법 : 문서 분류 입력 : 문서(혹은 문장) 1개 출력 : 토큰 각각의 범주 확률 대표 과제 : 개체명 인식 2024. 2. 12.
[용어정리] 자연어 용어 정리 [자연어 용어 정리] 자연어 용어 인퍼런스(inference) 학습을 마친 모델로 실제 과제를 수행하는 행위나 그 과정 모델을 실전에 투입하는 것 ClassificationDataset 클래스 인스턴스들은 input_ids, attention_mask, token_type_ids, label 4가지 필드를 가리킨다. Random Seed 난수 생성 알고리즘을 실행하기 위해 쓰는 수 자연어 논문 추천 1. RoBERTa https://arxiv.org/abs/1907.11692 RoBERTa: A Robustly Optimized BERT Pretraining Approach Language model pretraining has led to significant performance gains but c.. 2024. 2. 7.
[용어정리] 문서 분류 모델, 감성 분석 [자연어 용어정리] 문서 분류 모델, 감성 분석 문서 분류(document classification) 문서가 주어졌을 때 해당 문서의 범주를 분류하는 과제 영화 리뷰가 긍정/부정 등 어떤 극성을 가지는지 분류하는 작업이 대표적이다. NSMC 네이버 영화 리뷰 말뭉치 BERT 모델의 특징 세그먼트 정보를 입력하는 건 BERT 모델의 특징입니다. BERT 모델 프리트레인 과제는 '빈칸 맞히기' 외에 '이어진 문서인지 맞히기'도 있습니다. 문서 2개를 입력하고 2개의 문서가 이어진 것인지, 아닌지를 분류하는 과정에서 프리트레인을 수행합니다. BERT의 세그먼트 정보는 첫 번째 문서에 해당하는 토큰 시퀀스가 0, 두 번째 문서의 토큰 시퀀스가 1이 되도록 만듭니다. SequentialSampler 평가용 데이.. 2024. 2. 6.
728x90