분류 전체보기

·부트캠프/LG U+
오늘은 벡터의 유사도와 관련해서 잠깐 오전에 배운 뒤에, 바로 머신러닝을 와다다 쏟아내며 배워보았습니다. 🏹 벡터의 유사도문서의 유사성을 평가할 때 일반적으로 사용되는 기준은 두 문서가 얼마나 많은 공통 단어를 공유하는지이며, 이건 사람의 직관적인 판단 방식과 유사하게 진행됩니다.ML 기반의 자연어 처리에서도 동일한 원리가 적용되는데,단어를 효과적으로 수치화하여 표현하는 방법(DTM, TF-IDF, Word2Vec 등)과이러한 벡터 표현 간 유사도를 정량적으로 측정하는 방법(유클리드 거리, 코사인 유사도 등)이 핵심적인 역할을 해줍니다.그 중에서 먼저 코사인 유사도를 살펴보겠습니다. ✨ 코사인 유사도(Cosine Similarity)두 벡터 간 각도의 코사인 값을 사용하여 유사성을 측정하는 방법입니다...
·부트캠프/LG U+
오늘은 SOYNLP, 여러 언어 모델, 그리고 BoW, DTM, TF-IDF에 대한 이론들을 배우고 관련 실습(WordCloud 생성)도 진행했습니다.  🎁 한국어 전처리 패키지 ✨ SOYNLP를 이용해서 단어 토큰화하기SOYNLP는 비지도 학습 기반의 단어 토크나이저로, 형태소 분석기와 달리 사전에 등록되지 않은 단어(신조어 등)도 효과적으로 처리할 수 있게 해주는 패키지입니다. 💡 기존 형태소 분석기의 한계는?일반적인 형태소 분석기는 신조어나 미등록 단어를 정확하게 구분하지 못하는 경우가 대부분입니다.예를 들면, 저번에 사용했던 Okt 형태소 분석기를 사용하게 된다면 다음과 같은 결과가 나옵니다.from konlpy.tag import Okttokenizer = Okt()print(tokenize..
·Projects/LG U+
이번에는 국내 항공기들을 대상으로 운항했던 기록 데이터를 가지고 분석했던 내용들을 정리해보고자 합니다. ✈️ 항공기 운항 실태 조사오후부터는 강사님께서 제공해주신 국내노선 여객 이용률 데이터를 가지고 분석해보며, 시각화까지 해보는 시간을 가져보았습니다.중간에는 MySQL에 해당 데이터를 저장하는 실습도 포함되어 있으니 차근차근 정리해보겠습니다. ✨ 항공기 운항에 어떤 실태가 드러나있을까?어떤 국내 노선이 가장 많은 여객을 수송할까?여객 수 기준으로 가장 인기 있는 노선을 파악한 다음, 해당 노선의 특징을 분석해보자!반대로 수요가 낮아 좌석이 많이 남는 비효율적인 노선은 어디일까?여객 수가 낮거나 이용률이 떨어지는 노선을 식별해보자!특정 노선에서의 탑승률(좌석 대비 실제 이용률)은 어떤 식으로 변동될까?노..
·Projects/LG U+
이번에는 특정 병원에서의 No-show 데이터로 분석했던 내용들을 정리해보고자 합니다. 🏥 No-show 환자를 줄이자! 프로젝트특정 A 병원에서는 예약한 환자들이 오지 않아 진료가 원활히 이루어지지 않는 일이 종종 발생한다고 합니다.문제를 해결하기 위해서 예약하고 오지 않는 환자들의 특징을 파악하고, 'No Show'의 발생률을 줄일 수 있는 아이디어를 제시해보고자 데이터를 분석하려고 합니다! ✨ 데이터 읽어보고 확인데이터의 컬럼명을 확인해보니 다음과 같은 컬럼들이 존재하고 있었습니다.속성타입설명PatientIdfloat환자IDAppointmentIDint예약IDGenderF or M성별ScheduledDaydatetime병원 예약 날짜AppointmentDaydatetime실제 병원 방문 날짜Age..
·Projects/LG U+
해당 글에서는 전에 진행되었던 심부전 데이터로 분석했던 내용들을 정리해보고자 합니다. 🏥 심부전 데이터 분석 프로젝트 🩺 심부전 데이터셋 변수 파악변수명변수 설명Age나이Sex성별ChestPainType흉통 유형RestingBP안정된 상태에서 측정된 혈압Cholesterol혈액 내 콜레스테롤 농도FastingBS공복 상태에서 측정된 혈당RestingECG안정된 상태에서 측정된 심전도MaxHR최대 심박수ExerciseAngina운동 시 협심증을 경험했는지 여부HeartDisease심장병 보유 여부 🩺 심부전 데이터셋 필터링심장병이 있는 사람들의 데이터만 추출하는 방법은 논리형 인덱싱을 사용하면 간단하게 해결할 수 있습니다.H = heart[heart['HeartDisease'] == 1]위와 같이 T..
·Projects/LG U+
부트캠프 기간 중 진행되었던 데이터 분석 프로젝트들은 따로 분리해서 관리하고자 합니다!우선 전에 진행했던 프로젝트들을 정리한 후, 추후 진행될 프로젝트들도 정기적으로 올려보도록 하겠습니다. :)해당 글에서는 전에 진행되었던 한국복지패널 데이터로 한국인의 삶을 파악해보는 프로젝트를 정리하겠습니다. 😀 한국복지패널 데이터로 '한국인의 삶 파악해보기'💭 데이터 준비 및 기본 탐색패키지 로드 및 데이터 불러오기원본 데이터 파일(.sav)를 읽어와 복사본을 생성하여 분석에 활용하였습니다..sav 파일은 spss에서부터 제공되는 파일이기에 read_spss() 함수로 읽어들여야 합니다.기본 탐색데이터의 앞부분(head())과 뒷부분(tail())을 확인해 전체적인 구조를 먼저 파악해 봤습니다.shape, inf..
·부트캠프/LG U+
오늘은 어제에 이어서 자연어를 전처리하는 방법 중, 정규 표현식, 인코딩, 패딩, 데이터 분할 방법에 대해서 배워보았습니다. ✍🏻 정규 표현식정규 표현식은 모든 언어에서 공통적으로 사용되고, 쓰임새도 유사하니 익혀두면 추후에도 넓게 사용할 수 있을 것 같습니다. ✨ 기본적인 문법 정리아래 표는 정규 표현식에서 사용되는 문자들인데, 이 기호들을 이용해서 특정 단어들이나 기호 등을 쉽게 표현할 수 있습니다. 특수문자 설명 . 임의의 한 문자를 의미합니다. 단, 줄바꿈 문자(\n)는 제외됩니다.?앞의 문자가 있을 수도, 없을 수도 있음을 나타냅니다 (즉, 0개 또는 1개).*앞의 문자가 0개 이상, 즉 없어도 되고 무한히 있을 수도 있음을 의미합니다.+앞의 문자가 1개 이상 반드시 있어야 함을 의미합니다...
·부트캠프/LG U+
오늘은 자연어 처리(NLP)의 첫 시작을 알리며, 그를 위한 준비와 텍스트 전처리 과정의 일부(토큰화, 정제, 정규화 등)를 배우게 되었습니다. 🌳 자연어 처리 전 준비 단계🌱 자연어 처리는?자연어는 일상 생활에서 사용하는 언어를 의미하고, 그래서 자연어 처리(NLP)는 이 자연어의 의미를 분석해 컴퓨터가 이해하고 처리할 수 있도록 하는 기술을 의미합니다.이 자연어 처리를 활용할 수 있는 분야는 엄청나게 다양한데 음성 인식, 내용 요약, 번역, 감성 분석, 텍스트 분류 (예를 들면, 스팸 메일이나 뉴스 기사 카테고리 분류하는 등), 질의 응답 시스템, 챗봇 등과 같은 분야에서 주로 사용되고 있습니다. ⚙️ 머신 러닝 실습 환경 세팅하기🐍 아나콘다와 구글 코랩아나콘다는 Python의 배포판으로, Nu..
ReJoy
'분류 전체보기' 카테고리의 글 목록 (4 Page)