오늘은 벡터의 유사도와 관련해서 잠깐 오전에 배운 뒤에, 바로 머신러닝을 와다다 쏟아내며 배워보았습니다. 🏹 벡터의 유사도문서의 유사성을 평가할 때 일반적으로 사용되는 기준은 두 문서가 얼마나 많은 공통 단어를 공유하는지이며, 이건 사람의 직관적인 판단 방식과 유사하게 진행됩니다.ML 기반의 자연어 처리에서도 동일한 원리가 적용되는데,단어를 효과적으로 수치화하여 표현하는 방법(DTM, TF-IDF, Word2Vec 등)과이러한 벡터 표현 간 유사도를 정량적으로 측정하는 방법(유클리드 거리, 코사인 유사도 등)이 핵심적인 역할을 해줍니다.그 중에서 먼저 코사인 유사도를 살펴보겠습니다. ✨ 코사인 유사도(Cosine Similarity)두 벡터 간 각도의 코사인 값을 사용하여 유사성을 측정하는 방법입니다...
오늘은 자연어 처리(NLP)의 첫 시작을 알리며, 그를 위한 준비와 텍스트 전처리 과정의 일부(토큰화, 정제, 정규화 등)를 배우게 되었습니다. 🌳 자연어 처리 전 준비 단계🌱 자연어 처리는?자연어는 일상 생활에서 사용하는 언어를 의미하고, 그래서 자연어 처리(NLP)는 이 자연어의 의미를 분석해 컴퓨터가 이해하고 처리할 수 있도록 하는 기술을 의미합니다.이 자연어 처리를 활용할 수 있는 분야는 엄청나게 다양한데 음성 인식, 내용 요약, 번역, 감성 분석, 텍스트 분류 (예를 들면, 스팸 메일이나 뉴스 기사 카테고리 분류하는 등), 질의 응답 시스템, 챗봇 등과 같은 분야에서 주로 사용되고 있습니다. ⚙️ 머신 러닝 실습 환경 세팅하기🐍 아나콘다와 구글 코랩아나콘다는 Python의 배포판으로, Nu..
이번에는 꼭 알아야하는 머신러닝 알고리즘 중 하나인 "선형 회귀(Linear Regression)"에 대해 알아보려고 합니다. 선형 회귀는 데이터의 경향성을 가장 잘 설명할 수 있는 직선 형태의 모델을 찾는 기법으로, 여러분들을 위해 자세한 내용을 소개하겠습니다. 선형 회귀의 개념선형 회귀는 종속 변수와 한 개 이상의 독립 변수 간의 관계를 모델링하는 방법입니다. 주어진 데이터를 기반으로 최적의 직선을 찾아 예측 및 분석에 활용합니다. 선형 회귀는 단순 선형 회귀(Simple Linear Regression)와 다중 선형 회귀(Multiple Linear Regression)로 나뉩니다. 단순 선형 회귀: 단순 선형 회귀(Simple Linear Regression)는 종속 변수(Y)와 한 개의 독립 변..