언어모델

·부트캠프/LG U+
오늘은 SOYNLP, 여러 언어 모델, 그리고 BoW, DTM, TF-IDF에 대한 이론들을 배우고 관련 실습(WordCloud 생성)도 진행했습니다.  🎁 한국어 전처리 패키지 ✨ SOYNLP를 이용해서 단어 토큰화하기SOYNLP는 비지도 학습 기반의 단어 토크나이저로, 형태소 분석기와 달리 사전에 등록되지 않은 단어(신조어 등)도 효과적으로 처리할 수 있게 해주는 패키지입니다. 💡 기존 형태소 분석기의 한계는?일반적인 형태소 분석기는 신조어나 미등록 단어를 정확하게 구분하지 못하는 경우가 대부분입니다.예를 들면, 저번에 사용했던 Okt 형태소 분석기를 사용하게 된다면 다음과 같은 결과가 나옵니다.from konlpy.tag import Okttokenizer = Okt()print(tokenize..
ReJoy
'언어모델' 태그의 글 목록