본문 바로가기
  • 머킹이의 머신로그

전체 글114

[자연어 개인 프로젝트] konlpy 환경설정과 Transformer 모델 만들기 konlpy 윈도우에서 사용하기 및 제주도 사투리 불용어 처리하기 안녕하세요. 머킹입니다. 오늘은 드디어 한국어 형태소 분석기인 konlpy를 로컬에서 사용하는 기록을 가져왔습니다. 드디어 로컬에서 돌릴 수 있다니 너무 기뻐요... 그리고 제주도 사투리 불용어 처리와 마지막으로 간략하게 모델에 대해서 말하고자 합니다. 일단 저는 이런 문제점이 있었습니다. 1. 불용어를 처리하지 않았음 2. 토큰화가 된 데이터를 제대로 사용하는지 의문이 들었음 (데이터 수가 너무 줄어서) 3. 기존의 모델을 사용하느라 변수가 달라서 어떤 부분이 어떤 변수인지 모르겠음 4. 임베딩과 positional encoding가 제대로 되지 않음 간단하게는 이렇게 문제였는데요. 제가 계속 헷갈렸던 것은 '진짜 제대로 데이터를 처리하.. 2023. 9. 27.
[오늘부터 코딩테스트]프로그래머스 코딩 기초 프로그램 풀기 프로그래머스 Lv0. 문자열 뒤집기, 세로 읽기, qr code 안녕하세요 머킹입니다. 드디어 목요일부터 추석이네요. 추석에는 또 어떻게 알고리즘을 풀고 프로젝트를 할 수 있을지.. 고민입니다. 문제 설명 문자열 my_string과 정수 s, e가 매개변수로 주어질 때, my_string에서 인덱스 s부터 인덱스 e까지를 뒤집은 문자열을 return 하는 solution 함수를 작성해 주세요. 제한사항 my_string은 숫자와 알파벳으로만 이루어져 있습니다. 1 ≤ my_string의 길이 ≤ 1,000 0 ≤ s ≤ e 2023. 9. 26.
[자연어 개인 프로젝트] 임베딩과 Transformer 구현 제주도 사투리 후처리 로직과 Transformer 구현하기 안녕하세요 머킹입니다. 오늘은 한 게 많아서 코드 위주의 글이 될 것 같습니다. 근데 제가 모델을 다시 처음부터 해야 할 것 같다는 생각이 들어서 조금 막막하지만 그래도 오늘 오류를 많이 경험해서 배우는 게 많았습니다. 저번에 병렬 구조 쌍으로 데이터를 저장했고 잘 저장되었습니다. 다음으로 토큰을 추가하는 후처리 로직을 해야 하는데요. 각 언어 쌍의 평균 길이와 최대 길이를 계산하고, PAD 토큰을 추가하여 모든 문장을 최대 길이로 맞추는 작업을 수행합니다. 그리고 모든 데이터 셋을 텐서형 데이터로 변환합니다. ### 샘플 50개 수행 import csv import torch from torch.utils.data import DataLoade.. 2023. 9. 26.
[오늘부터 코딩테스트]프로그래머스 코딩 기초 프로그램 풀기 프로그래머스 Lv.0단계 문제풀이 [Python] 안녕하세요 머킹입니다! 요즘 프로젝트가 우선순위가 돼서 자꾸 늦지만 그래도 하나씩은 꼭 풀겠습니다. 문자열의 앞의 n글자 문제 설명 문자열 my_string과 정수 n이 매개변수로 주어질 때, my_string의 앞의 n글자로 이루어진 문자열을 return 하는 solution 함수를 작성해 주세요. 내 코드 def solution(my_string, n): answer = '' my_string(len[:n]) return answer 풀이 def solution(my_string, n): if n = len(my_string): return my_string else: return my_string[:n] 이렇게 길게 길게 풀었는데 생각해보니 더 짧게.. 2023. 9. 26.
728x90