데이터분석

·부트캠프/LG U+
오늘은 역전파, 워드 임베딩에 이어 관련된 Word2Vec 모델을 구축해보는 작업까지 실습해보았습니다.   ⚽ 역전파에 대해서 더 자세히 알아보잡!지금까지 배운 내용을 정리해보면, 신경망 학습에서의 핵심은 입력값이 들어와서 은닉층, 그리고 출력층을 거쳐 최종 예측값을 내고,이 예측값이 실제값과 얼마나 차이(오차)가 있는지를 계산한 뒤,이 오차를 줄이기 위해 가중치를 계속 업데이트해나가는 과정이라고 할 수 있습니다. ✨ 역전파를 준비하기 위한 순전파순전파에 대해서는 전에도 간단히 배운 적이 있었지만, 몇 가지 예를 들어보며 더 깊게 살펴보았습니다.가중합을 계산하기먼저, 입력층($x1, \, x2$)에서 은닉층($h1, \, h2$)으로 이동하면서, $z_1 = x_1 w_1 + x_2 w_2, \, z_2..
·부트캠프/LG U+
오늘은 SOYNLP, 여러 언어 모델, 그리고 BoW, DTM, TF-IDF에 대한 이론들을 배우고 관련 실습(WordCloud 생성)도 진행했습니다.  🎁 한국어 전처리 패키지 ✨ SOYNLP를 이용해서 단어 토큰화하기SOYNLP는 비지도 학습 기반의 단어 토크나이저로, 형태소 분석기와 달리 사전에 등록되지 않은 단어(신조어 등)도 효과적으로 처리할 수 있게 해주는 패키지입니다. 💡 기존 형태소 분석기의 한계는?일반적인 형태소 분석기는 신조어나 미등록 단어를 정확하게 구분하지 못하는 경우가 대부분입니다.예를 들면, 저번에 사용했던 Okt 형태소 분석기를 사용하게 된다면 다음과 같은 결과가 나옵니다.from konlpy.tag import Okttokenizer = Okt()print(tokenize..
·Projects/LG U+
이번에는 특정 병원에서의 No-show 데이터로 분석했던 내용들을 정리해보고자 합니다. 🏥 No-show 환자를 줄이자! 프로젝트특정 A 병원에서는 예약한 환자들이 오지 않아 진료가 원활히 이루어지지 않는 일이 종종 발생한다고 합니다.문제를 해결하기 위해서 예약하고 오지 않는 환자들의 특징을 파악하고, 'No Show'의 발생률을 줄일 수 있는 아이디어를 제시해보고자 데이터를 분석하려고 합니다! ✨ 데이터 읽어보고 확인데이터의 컬럼명을 확인해보니 다음과 같은 컬럼들이 존재하고 있었습니다.속성타입설명PatientIdfloat환자IDAppointmentIDint예약IDGenderF or M성별ScheduledDaydatetime병원 예약 날짜AppointmentDaydatetime실제 병원 방문 날짜Age..
·Projects/LG U+
해당 글에서는 전에 진행되었던 심부전 데이터로 분석했던 내용들을 정리해보고자 합니다. 🏥 심부전 데이터 분석 프로젝트 🩺 심부전 데이터셋 변수 파악변수명변수 설명Age나이Sex성별ChestPainType흉통 유형RestingBP안정된 상태에서 측정된 혈압Cholesterol혈액 내 콜레스테롤 농도FastingBS공복 상태에서 측정된 혈당RestingECG안정된 상태에서 측정된 심전도MaxHR최대 심박수ExerciseAngina운동 시 협심증을 경험했는지 여부HeartDisease심장병 보유 여부 🩺 심부전 데이터셋 필터링심장병이 있는 사람들의 데이터만 추출하는 방법은 논리형 인덱싱을 사용하면 간단하게 해결할 수 있습니다.H = heart[heart['HeartDisease'] == 1]위와 같이 T..
·Projects/LG U+
부트캠프 기간 중 진행되었던 데이터 분석 프로젝트들은 따로 분리해서 관리하고자 합니다!우선 전에 진행했던 프로젝트들을 정리한 후, 추후 진행될 프로젝트들도 정기적으로 올려보도록 하겠습니다. :)해당 글에서는 전에 진행되었던 한국복지패널 데이터로 한국인의 삶을 파악해보는 프로젝트를 정리하겠습니다. 😀 한국복지패널 데이터로 '한국인의 삶 파악해보기'💭 데이터 준비 및 기본 탐색패키지 로드 및 데이터 불러오기원본 데이터 파일(.sav)를 읽어와 복사본을 생성하여 분석에 활용하였습니다..sav 파일은 spss에서부터 제공되는 파일이기에 read_spss() 함수로 읽어들여야 합니다.기본 탐색데이터의 앞부분(head())과 뒷부분(tail())을 확인해 전체적인 구조를 먼저 파악해 봤습니다.shape, inf..
·Projects/LG U+
오늘은 파이썬과 MySQL을 둘 다 이용해서 야후 파이낸스 주식 데이터를 가지고 분석해보는 시간을 가져보았습니다.참고로 중간중간 제작된 이미지는 https://www.napkin.ai/에서 생성한 이미지로, 앞으로도 유용하게 사용할 것 같습니다. 👍🏻 Napkin AI - The visual AI for business storytellingJust type, copy-paste or generate your text and Napkin will instantly transform it into insightful visuals. Make your communication more effective with Napkin.www.napkin.ai 🫙 크롤러로 데이터 수집 후 저장하기분석하기 전에 분석..
·Projects/LG U+
오늘은 MySQL 과정을 마무리하며, ASA(american Standards Association: 미국 규격 협회)에서 2009년에 공개한 미국 항공편 운항 통계 데이터를 가지고 분석 프로젝트를 진행했습니다. ✈️ 미국의 항공기 운항 실태 조사저희는 아래 8가지 공통 주제와 1가지의 선택 주제를 가지고 데이터 분석을 진행해보았습니다. 지연을 최소화하려면 비행에 가장 적합한 시간대 / 요일 / 시간은 언제일까?오래된 비행기일수록 지연이 더 잦을까?시간이 지남에 따라서 다양한 장소들을 비행하는 사람의 수는 어떻게 변할까?날씨는 비행기 지연을 얼마나 잘 예측할 수 있을까?한 공항의 지연으로 인해 다른 공항의 지연이 발생하는 연쇄적 실패를 감지할 수 있을까? 9/11 사건의 이전과 이후 비행 패턴을 비교해보..
·부트캠프/LG U+
오늘은 SQL에서 JOIN의 유형들, 서브쿼리, CTE 관련 내용들을 배우며 실습을 진행했고, 후반부에는 sakila DB를 통해 데이터 분석 프로젝트를 수행하였습니다. 👨🏻‍👩🏻‍👧🏻‍👦🏻 JOINSQL에서 JOIN은 테이블 A의 열을 테이블 B에 포함하여 조회하고 싶을 때 사용되는 아주 중요한 요소입니다!데이터를 모델링할 때는 데이터의 중복을 최소화하는 것이 중요하기 때문에 조인을 사용해서 테이블 2개 이상을 조합한 결과를 조회하는 것이 효과적이라고 할 수 있습니다. ✨ JOIN의 종류이런 JOIN에 어떤 종류가 있는지 알아보겠습니다. 💡 INNER JOINSELECT [열]FROM [테이블 1] INNER JOIN [테이블 2] ON [테이블 1.열] = [테이블 2.열]..
ReJoy
'데이터분석' 태그의 글 목록