프로젝트/개인 프로젝트9 [자연어 개인 프로젝트] 제주도 사투리 번역기 중간발표 Transformer 제주도 사투리 번역기 중간발표 안녕하세요 머킹입니다. 이 글을 쓰다가 날아가서 조금.. 조심하면서 쓰겠습니다... 많이 안 써서 참 다행이네요. 저는 오늘 학원에서 발표를 했습니다. 모델이 돌아가지 않아서 아쉽지만 저는 이 프로젝트 발표 뒤에도 최종 목표로 계속할 거니까요! 데이터를 1000000개로 쪼개니까 그래도 하루종일 토큰화 하지는 않았습니다. 저는 왜 항상 토큰화에서 뒤로 갔다가 앞으로 갔다가 할까요? 어제 이런 논문을 발견하게 되었습니다. https://koreascience.kr/article/CFKO201930060758842.page Parallel Corpus Filtering and Korean-Optimized Subword Tokenization for Mac.. 2023. 10. 11. [자연어 개인 프로젝트] Transformer 전처리 하기, KoBART Transformer 데이터 전처리 하기, 코랩 안 끊기게 설정하기 안녕하세요 머킹입니다. 정말 오랜만에 프로젝트 이슈를 들고 왔습니다. 왜 이렇게 늦었냐! 하면 지난 글부터 이어져있는 문제인데요. 저는 로컬로 드디어 okt를 돌릴 수 있게 됐고 기쁜 마음에 (구린 장비인 것도 잊고) 연휴를 다녀왔습니다. 그리고 제가 확인해 본 결과 토큰화 된 데이터는 3백만 개가 맞았습니다. 그래서 엄청나게 방대한 양을 병렬처리하고, PAD 같은 특별한 토큰을 씌우고, 텐서화를 진행시키는데..!!!!!! 엄청난 길이 이슈로 결국 로컬로 돌리는 것을 포기했습니다. 이게 말이 되는 시간인가요 ㅎㅎㅋㅋㅋㅋㅋ 그래서 동료분들의 조언으로 다시 코랩으로 돌아갔습니다. 그리고 코랩에 돌아가서 코랩이 계속 유지되는 코드를 개발자도구.. 2023. 10. 6. [자연어 개인 프로젝트] konlpy 환경설정과 Transformer 모델 만들기 konlpy 윈도우에서 사용하기 및 제주도 사투리 불용어 처리하기 안녕하세요. 머킹입니다. 오늘은 드디어 한국어 형태소 분석기인 konlpy를 로컬에서 사용하는 기록을 가져왔습니다. 드디어 로컬에서 돌릴 수 있다니 너무 기뻐요... 그리고 제주도 사투리 불용어 처리와 마지막으로 간략하게 모델에 대해서 말하고자 합니다. 일단 저는 이런 문제점이 있었습니다. 1. 불용어를 처리하지 않았음 2. 토큰화가 된 데이터를 제대로 사용하는지 의문이 들었음 (데이터 수가 너무 줄어서) 3. 기존의 모델을 사용하느라 변수가 달라서 어떤 부분이 어떤 변수인지 모르겠음 4. 임베딩과 positional encoding가 제대로 되지 않음 간단하게는 이렇게 문제였는데요. 제가 계속 헷갈렸던 것은 '진짜 제대로 데이터를 처리하.. 2023. 9. 27. [자연어 개인 프로젝트] 임베딩과 Transformer 구현 제주도 사투리 후처리 로직과 Transformer 구현하기 안녕하세요 머킹입니다. 오늘은 한 게 많아서 코드 위주의 글이 될 것 같습니다. 근데 제가 모델을 다시 처음부터 해야 할 것 같다는 생각이 들어서 조금 막막하지만 그래도 오늘 오류를 많이 경험해서 배우는 게 많았습니다. 저번에 병렬 구조 쌍으로 데이터를 저장했고 잘 저장되었습니다. 다음으로 토큰을 추가하는 후처리 로직을 해야 하는데요. 각 언어 쌍의 평균 길이와 최대 길이를 계산하고, PAD 토큰을 추가하여 모든 문장을 최대 길이로 맞추는 작업을 수행합니다. 그리고 모든 데이터 셋을 텐서형 데이터로 변환합니다. ### 샘플 50개 수행 import csv import torch from torch.utils.data import DataLoade.. 2023. 9. 26. 이전 1 2 3 다음 728x90