본문 바로가기
  • 머킹이의 머신로그

전체 글114

[자연어 개인 프로젝트] Okt로 토큰화 하기 제주도 사투리 Okt 토큰화와 원문 & 번역 병렬 문장 구조 쌍으로 정리하기 안녕하세요 머킹입니다. 오늘에서야 드디어 토큰화가 끝났는데요. 별로 없던 데이터가 토큰화를 마치니 3백만 개가 넘어가서 깜짝 놀랐습니다. 일단 저는 Okt 를 사용하기로 하고, 이제 모든 문장을 토큰화했는데요. 저처럼 하시면 나중에 후회하니까 고생 두 번 하지 않기를 바랍니다.. import csv import json from konlpy.tag import Okt import os from tqdm import tqdm # Okt 형태소 분석기 초기화 okt = Okt() # 데이터 디렉토리 경로 base_directory = '/content/drive/MyDrive/jeju/' # 모든 데이터 폴더 선택 (Training.. 2023. 9. 25.
[코드 실습]Transformer 직접 코딩해보기 The Annotated Transformer 보다 친절한 트랜스포머 튜토리얼, 2023 최신 오류 수정 버전 안녕하세요 머킹입니다. 오늘은 트랜스포머 튜토리얼을 직접 코딩해 보면서 발견한 오류를 수정하며 기록을 남겨보려고 합니다. 일단 저는 VS code를 사용했고 사용 데이터는 AI Hub에서 한국어-영어 번역 말뭉치 데이터 다운로드를 해야 합니다. cf. 현재 AI Hub에서는 다양한 한영 번역 데이터셋을 구축해 총 160만 쌍의 데이터를 제공해주고 있지만, 모든 문장을 훈련시키기에는 데이터가 과도하므로 본 튜토리얼에서는 구어체 데이터 1 & 2만을 사용하도록 합니다. 코드 실습 import pandas as pd import openpyxl xls_a = pd.read_excel('C:/Users.. 2023. 9. 25.
[오늘부터 코딩테스트]프로그래머스 코딩 기초 프로그램 풀기 프로그래머스 Lv.0단계 문제풀이 [Python] 안녕하세요 머킹입니다 오늘도 조금이지만 코딩을 해보았습니다. 문자열의 뒤의 n글자 문제 설명 문자열 my_string과 정수 n이 매개변수로 주어질 때, my_string의 뒤의 n글자로 이루어진 문자열을 return 하는 solution 함수를 작성해 주세요. 제한사항 my_string은 숫자와 알파벳으로 이루어져 있습니다. 1 ≤ my_string의 길이 ≤ 1,000 1 ≤ n ≤ my_string의 길이 내 코드 # my_string에서 n만큼 뒤에서 빼기 my_string.pop([:n]) len(my_string).pop(len(n)) def solution(my_string, n): return my_string[-n:] 이번 문제는 나름 문.. 2023. 9. 23.
[자연어 개인 프로젝트] 제주도 사투리에 어울리는 형태소 찾기 제주도 사투리에 어울리는 형태소 비교 안녕하세요 머킹입니다. 오늘은 드디어 코드가 다 돌아가서! 한국어 형태소 중에서 제주도 사투리를 가장 잘 토큰화 한 형태소를 비교 분석해 보겠습니다! Kakao Khaiii, KoNLPy의 다양한 형태소 분석기, 그리고 파파고 번역 API를 비교해 보면 어떨까?라는 생각으로 저는 형태소 분석기들을 비교해보고 싶었는데요. 대신 이런 에러가 있었습니다. - kakao나 파파고는 개인 애플리케이션 정보가 있어야 해서 어려울 것 같음 (나중에 비교 분석해보기) - 대신 KoNLPy안에 4가지 형태소 분석기를 비교해 보기로 함 그래서 4개의 형태소 분석기를 비교해 보겠습니다. 맨 밑에 결과가 있고 위에는 제 코드들의 시행착오입니다. 결과만 말하자면 Okt가 가장 적합했습니다... 2023. 9. 22.
728x90