본문 바로가기
  • 머킹이의 머신로그
AI

[용어정리]개체명 인식 모델, 시퀀스 레이블링, 시퀀스 데이터

by 머킹 2024. 2. 12.
728x90

[자연어 용어정리]개체명 인식 모델, 시퀀스 레이블링, 시퀀스 데이터

 

개체명 인식(named entity recognition)

문장을 토큰화 한 뒤 토큰 각각에 인명, 지명, 기관명 등 개체명 태그를 붙여 주는 과제

개체명 태그 수와 종류는 데이터를 제작할 때 자유롭게 정할 수 있습니다.

 

시퀀스 레이블링의 댚 과제인 개체명 인식 모델의

시퀀스 레이블링은 개별 입력 토큰 각각의 범주를 가려낸다는 점에서 차이가 있습니다.

범주 수가 m개이고 입력 토큰이 n개일 때 문서 분류, 문장 쌍 분류 모델 출력은 m차원의 확률 벡터 1개입니다.

반면 시퀀스 레이블링은 m차원 확률 벡터가 n개 만들어집니다.

 

방법 : 문서 분류

입력 : 문서(혹은 문장) 1개

출력 : 토큰 각각의 범주 확률

대표 과제 : 개체명 인식