오늘은 SOYNLP, 여러 언어 모델, 그리고 BoW, DTM, TF-IDF에 대한 이론들을 배우고 관련 실습(WordCloud 생성)도 진행했습니다. 🎁 한국어 전처리 패키지 ✨ SOYNLP를 이용해서 단어 토큰화하기SOYNLP는 비지도 학습 기반의 단어 토크나이저로, 형태소 분석기와 달리 사전에 등록되지 않은 단어(신조어 등)도 효과적으로 처리할 수 있게 해주는 패키지입니다. 💡 기존 형태소 분석기의 한계는?일반적인 형태소 분석기는 신조어나 미등록 단어를 정확하게 구분하지 못하는 경우가 대부분입니다.예를 들면, 저번에 사용했던 Okt 형태소 분석기를 사용하게 된다면 다음과 같은 결과가 나옵니다.from konlpy.tag import Okttokenizer = Okt()print(tokenize..
NLP
오늘은 어제에 이어서 자연어를 전처리하는 방법 중, 정규 표현식, 인코딩, 패딩, 데이터 분할 방법에 대해서 배워보았습니다. ✍🏻 정규 표현식정규 표현식은 모든 언어에서 공통적으로 사용되고, 쓰임새도 유사하니 익혀두면 추후에도 넓게 사용할 수 있을 것 같습니다. ✨ 기본적인 문법 정리아래 표는 정규 표현식에서 사용되는 문자들인데, 이 기호들을 이용해서 특정 단어들이나 기호 등을 쉽게 표현할 수 있습니다. 특수문자 설명 . 임의의 한 문자를 의미합니다. 단, 줄바꿈 문자(\n)는 제외됩니다.?앞의 문자가 있을 수도, 없을 수도 있음을 나타냅니다 (즉, 0개 또는 1개).*앞의 문자가 0개 이상, 즉 없어도 되고 무한히 있을 수도 있음을 의미합니다.+앞의 문자가 1개 이상 반드시 있어야 함을 의미합니다...