728x90
[자연어 용어정리]개체명 인식 모델, 시퀀스 레이블링, 시퀀스 데이터
개체명 인식(named entity recognition)
문장을 토큰화 한 뒤 토큰 각각에 인명, 지명, 기관명 등 개체명 태그를 붙여 주는 과제
개체명 태그 수와 종류는 데이터를 제작할 때 자유롭게 정할 수 있습니다.
시퀀스 레이블링의 댚 과제인 개체명 인식 모델의
시퀀스 레이블링은 개별 입력 토큰 각각의 범주를 가려낸다는 점에서 차이가 있습니다.
범주 수가 m개이고 입력 토큰이 n개일 때 문서 분류, 문장 쌍 분류 모델 출력은 m차원의 확률 벡터 1개입니다.
반면 시퀀스 레이블링은 m차원 확률 벡터가 n개 만들어집니다.
방법 : 문서 분류
입력 : 문서(혹은 문장) 1개
출력 : 토큰 각각의 범주 확률
대표 과제 : 개체명 인식
'AI' 카테고리의 다른 글
'Cuda out of Memory' Error 해결하기 (0) | 2024.08.22 |
---|---|
[자연어 용어 정리]sentence generation, prompt (0) | 2024.03.02 |
[용어정리] 자연어 용어 정리 (0) | 2024.02.07 |
[용어정리] 문서 분류 모델, 감성 분석 (0) | 2024.02.06 |
[용어정리]GPT와 BERT 비교 (0) | 2024.02.04 |