본문 바로가기
  • 머킹이의 머신로그

전체 글135

[자연어 개인 프로젝트] 제주도 사투리에 어울리는 형태소 찾기 제주도 사투리에 어울리는 형태소 비교 안녕하세요 머킹입니다. 오늘은 드디어 코드가 다 돌아가서! 한국어 형태소 중에서 제주도 사투리를 가장 잘 토큰화 한 형태소를 비교 분석해 보겠습니다! Kakao Khaiii, KoNLPy의 다양한 형태소 분석기, 그리고 파파고 번역 API를 비교해 보면 어떨까?라는 생각으로 저는 형태소 분석기들을 비교해보고 싶었는데요. 대신 이런 에러가 있었습니다. - kakao나 파파고는 개인 애플리케이션 정보가 있어야 해서 어려울 것 같음 (나중에 비교 분석해보기) - 대신 KoNLPy안에 4가지 형태소 분석기를 비교해 보기로 함 그래서 4개의 형태소 분석기를 비교해 보겠습니다. 맨 밑에 결과가 있고 위에는 제 코드들의 시행착오입니다. 결과만 말하자면 Okt가 가장 적합했습니다... 2023. 9. 22.
[오늘부터 코딩테스트]프로그래머스 코딩 기초 프로그램 풀기 프로그래머스 Lv.0단계 문제풀이 [Python] 안녕하세요 머킹입니다! 오늘도 프로그래머스 코딩테스트를 풀어보았습니다. 형태소를 비교해보고 싶어서 샘플 데이터 100개로 해보고 있는데 굉장히 느리네요..ㅎㅎ 아무튼 오늘의 문제 보겠습니다. 글자 이어 붙여 문자열 만들기 문제 설명 문자열 `my_string`과 정수 배열 `index_list`가 매개변수로 주어집니다. `my_string`의 `index_list`의 원소들에 해당하는 인덱스의 글자들을 순서대로 이어 붙인 문자열을 return 하는 solution 함수를 작성해 주세요. 제한사항 - 1 ≤ `my_string`의 길이 ≤ 1,000 - `my_string`의 원소는 영소문자로 이루어져 있습니다. - 1 ≤ `index_list`의 길이 ≤.. 2023. 9. 21.
[자연어 개인 프로젝트] 한국어를 활용한 Byte-Pair Encoding 형태소 없이 Byte-Pair Encoding 하기 안녕하세요 머킹입니다. 오늘은 형태소 없이 Byte-Pair encoding 하는 코드를 적어보고자 합니다! 개념 정리를 제대로 하고 싶어서 개인 프로젝트 외에 자연어 / 음성 / 이미지 알아야 할 용어나 개념들을 따로 적어두려고 합니다. 개인적으로 지금 배우고 있는 NLP에서 많이 헷갈리는 부분들이 많은데 특히 모르는 용어가 많다 보니까 굉장히 어려운 것 같습니다. LSTM 정의를 배우는 순간부터 좀 무너진 것 같지만.. 차근차근 정리하고 코드를 많이 쳐봐야겠습니다! 시간이 된다면 제가 읽은 책들도 정리해 두겠습니다. 밑바닥부터 시작하는 딥러닝, StatQuest 머신러닝 강의, 혼공머신 등... 머신러닝 강의 외에는 거의 코드위주라 코드만 잔뜩 적힌.. 2023. 9. 21.
[오늘부터 코딩테스트]프로그래머스 코딩 기초 프로그램 풀기 프로그래머스 주사위 게임 3 [python] 안녕하세요 머킹입니다! 오늘 자연어 처리 프로젝트도 올리고 싶었는데 아직도 코랩이 돌아가는 중이라서 못 올릴 것 같습니다.ㅎㅎ 그래서 오늘은 코딩테스트만 올리겠습니다. 저는 지금 0단계부터 차근차근 풀고 있는데요. (아마도) 0단계에서 가장 어려운 문제를 마주쳤습니다... 문제 설명 1부터 6까지 숫자가 적힌 주사위가 네 개 있습니다. 네 주사위를 굴렸을 때 나온 숫자에 따라 다음과 같은 점수를 얻습니다. - 네 주사위에서 나온 숫자가 모두 p로 같다면 1111 × p점을 얻습니다. - 세 주사위에서 나온 숫자가 p로 같고 나머지 다른 주사위에서 나온 숫자가 q(p ≠ q)라면 (10 × p + q) 2 점을 얻습니다. - 주사위가 두 개씩 같은 값이 나오고,.. 2023. 9. 20.
728x90