본문 바로가기
  • 머킹이의 머신로그

프로젝트/개인 프로젝트9

[자연어 개인 프로젝트] Okt로 토큰화 하기 제주도 사투리 Okt 토큰화와 원문 & 번역 병렬 문장 구조 쌍으로 정리하기 안녕하세요 머킹입니다. 오늘에서야 드디어 토큰화가 끝났는데요. 별로 없던 데이터가 토큰화를 마치니 3백만 개가 넘어가서 깜짝 놀랐습니다. 일단 저는 Okt 를 사용하기로 하고, 이제 모든 문장을 토큰화했는데요. 저처럼 하시면 나중에 후회하니까 고생 두 번 하지 않기를 바랍니다.. import csv import json from konlpy.tag import Okt import os from tqdm import tqdm # Okt 형태소 분석기 초기화 okt = Okt() # 데이터 디렉토리 경로 base_directory = '/content/drive/MyDrive/jeju/' # 모든 데이터 폴더 선택 (Training.. 2023. 9. 25.
[자연어 개인 프로젝트] 제주도 사투리에 어울리는 형태소 찾기 제주도 사투리에 어울리는 형태소 비교 안녕하세요 머킹입니다. 오늘은 드디어 코드가 다 돌아가서! 한국어 형태소 중에서 제주도 사투리를 가장 잘 토큰화 한 형태소를 비교 분석해 보겠습니다! Kakao Khaiii, KoNLPy의 다양한 형태소 분석기, 그리고 파파고 번역 API를 비교해 보면 어떨까?라는 생각으로 저는 형태소 분석기들을 비교해보고 싶었는데요. 대신 이런 에러가 있었습니다. - kakao나 파파고는 개인 애플리케이션 정보가 있어야 해서 어려울 것 같음 (나중에 비교 분석해보기) - 대신 KoNLPy안에 4가지 형태소 분석기를 비교해 보기로 함 그래서 4개의 형태소 분석기를 비교해 보겠습니다. 맨 밑에 결과가 있고 위에는 제 코드들의 시행착오입니다. 결과만 말하자면 Okt가 가장 적합했습니다... 2023. 9. 22.
[자연어 개인 프로젝트] 한국어를 활용한 Byte-Pair Encoding 형태소 없이 Byte-Pair Encoding 하기 안녕하세요 머킹입니다. 오늘은 형태소 없이 Byte-Pair encoding 하는 코드를 적어보고자 합니다! 개념 정리를 제대로 하고 싶어서 개인 프로젝트 외에 자연어 / 음성 / 이미지 알아야 할 용어나 개념들을 따로 적어두려고 합니다. 개인적으로 지금 배우고 있는 NLP에서 많이 헷갈리는 부분들이 많은데 특히 모르는 용어가 많다 보니까 굉장히 어려운 것 같습니다. LSTM 정의를 배우는 순간부터 좀 무너진 것 같지만.. 차근차근 정리하고 코드를 많이 쳐봐야겠습니다! 시간이 된다면 제가 읽은 책들도 정리해 두겠습니다. 밑바닥부터 시작하는 딥러닝, StatQuest 머신러닝 강의, 혼공머신 등... 머신러닝 강의 외에는 거의 코드위주라 코드만 잔뜩 적힌.. 2023. 9. 21.
[자연어 개인 프로젝트] 제주도 사투리를 번역하자 (2) 안녕하세요 머킹입니다. 지난번 포스팅에 이어 개인 프로젝트를 적어보고자 합니다. 사실 저는 그동안 개발을 하면서 아직까지 환경설정을 제대로 해본 적이 없습니다. 그래서 그랬을까요... 정말 너무 힘들었습니다... 일단 환경설정을 하게 된 계기부터 말씀드리겠습니다. 자연어 처리를 위해서 저는 한국어 형태소 분석기를 사용하고자 했습니다. 형태소 분석 이란 형태소를 비롯하여, 어근, 접두사/접미사, 품사(POS, part-of-speech) 등 다양한 언어적 속성의 구조를 파악하는 것입니다. 한국어는 토큰화(Tokenization)가 매우 어렵습니다. 한국어는 '조사', '어미' 등이 있고 띄어쓰기도 매우 복잡합니다. '콜라'에 조사가 붙으면 '콜라가', '콜라를', '콜라는' 등처럼 붙게 되지만 모두 '콜라.. 2023. 9. 19.
728x90