본문 바로가기
  • 머킹이의 머신로그
프로젝트/개인 프로젝트

[자연어 개인 프로젝트] 제주도 사투리를 번역하자 (1)

by 머킹 2023. 9. 18.
728x90

자연어 NLP 양방향 번역 모델 생성하기

 

안녕하세요 머킹입니다.

프로젝트를 진행하면서 얻는 것 또한 많았지만

개인 프로젝트를 (어떻게든) 완성해서 의미 있는 결과를 얻고 싶다는 생각이 들었습니다.

 

저는 정말 초보고 무언가를 처음부터 끝까지 해보려면

뭐든지 부딪혀야 하는 상황이었기 때문에 

일단 원하는 걸 해보자 그리고 배우자!라는 생각으로 개인 프로젝트를 기획했습니다.

 

저는 사투리를 쓰는 지역이 고향인 사람입니다.

여러분들은 사투리를 얼마나 쓰시나요?

아무래도 요즘은 사투리의 경계도 많이 허물어서 예전만큼 자주 사용하지는 않는 것 같습니다.

 

하지만 저는 사투리가 좋습니다.

독특하고 재미있어서 개인적으로 유지됐으면 하는 바람이 있습니다.

그래서 사투리 중에서 가장 독특하고 문화적으로 남았으면 하는 

제주도 사투리 번역 모델을 만들고자 기획하였습니다.

 


[프로젝트 기획]

1. 유행하는 밈처럼 제주도 사투리를 사용하면서 널리 알리고 싶다.

2. 사투리를 하나의 문화처럼 자리 잡아서 우리의 언어로 남기고 싶다.

 

이 두 가지의 목적을 가지고 프로젝트를 기획했습니다.

저는 제주도 사투리를 표준어로,

표준어를 제주도 사투리로 바꾸는 양방향 번역을 원하며 데이터를 수집했습니다.

 

[사용할 데이터]

https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=realm&dataSetSn=121 

 

AI-Hub

※ 내국인만 데이터 신청이 가능합니다. 데이터 개요 데이터 변경이력 데이터 변경이력 버전 일자 변경내용 비고 1.2 2021-11-22 데이터 품질 보완 1.1 2021-09-09 데이터 품질 보완 및 추가 개방 1.0 2021-

www.aihub.or.kr

다행히도 AI-Hub에 한국어 방언 발화(제주도) 데이터 셋이 있었습니다.

한 가지 아쉬운 것은 '중, 노년층 한국어 방언 데이터'도 있었는데 아직 베타 버전이라 10월에 나온다고 합니다.

추후에 추가해서 모델의 성능을 더 높이고 싶습니다.

아무래도 청년층에 비해서 중, 노년층은 사투리를 더 다양하게 구사하기 때문에 꼭! 추가하고 싶습니다.

 

제가 사용할 데이터 셋의 구조는 이렇습니다.

  • 조용한 환경에서 제주도 지역 2000명 이상의 10대 ~ 60대 의 연령별 화자가 발화한 3000 시간 이상의 음성 데이터와 맵핑된 담화 텍스트 말뭉치 
  • 원본 방언 텍스트 및 방언에 대응하는 표준어 대응쌍을 포함하여 전사한 50만 건 이상 어절 데이터 셋 
  • 위의 내용이 메타 정보와 데이터화되어 구성된 JSON 포맷의 학습 데이터 파일

이 데이터들은 가공이 아주 잘 되어있었습니다.

이렇게 standar_form에는 표준어가, dialect_form 에는 사투리가 들어있습니다.

form에서 표준어와 사투리를 구분하고 

그 안에서 한 번 더 문장을 쪼개서 eojeol(사투리) standard(표준어)로 단어를 나누었습니다.

그리고 사투리라면 isDialect가 True로 나오는 값이 있습니다.

 

데이터를 크게 정제할 부분은 보이지 않지만

굉장히 적은 데이터인데도 많은 작업이 필요하겠다는 생각이 들었습니다...

 


저의 제주도 사투리 번역 프로젝트는 계속됩니다!

지금도 꾸준히 하고 있으니 열심히 올리겠습니다 ㅎㅎ

다음에는 제가 굉장~~ 히 많은 시간을 공들였지만 실패한..

환경설정에 대해서 적겠습니다.