이번에는 국내 항공기들을 대상으로 운항했던 기록 데이터를 가지고 분석했던 내용들을 정리해보고자 합니다. ✈️ 항공기 운항 실태 조사오후부터는 강사님께서 제공해주신 국내노선 여객 이용률 데이터를 가지고 분석해보며, 시각화까지 해보는 시간을 가져보았습니다.중간에는 MySQL에 해당 데이터를 저장하는 실습도 포함되어 있으니 차근차근 정리해보겠습니다. ✨ 항공기 운항에 어떤 실태가 드러나있을까?어떤 국내 노선이 가장 많은 여객을 수송할까?여객 수 기준으로 가장 인기 있는 노선을 파악한 다음, 해당 노선의 특징을 분석해보자!반대로 수요가 낮아 좌석이 많이 남는 비효율적인 노선은 어디일까?여객 수가 낮거나 이용률이 떨어지는 노선을 식별해보자!특정 노선에서의 탑승률(좌석 대비 실제 이용률)은 어떤 식으로 변동될까?노..
이번에는 특정 병원에서의 No-show 데이터로 분석했던 내용들을 정리해보고자 합니다. 🏥 No-show 환자를 줄이자! 프로젝트특정 A 병원에서는 예약한 환자들이 오지 않아 진료가 원활히 이루어지지 않는 일이 종종 발생한다고 합니다.문제를 해결하기 위해서 예약하고 오지 않는 환자들의 특징을 파악하고, 'No Show'의 발생률을 줄일 수 있는 아이디어를 제시해보고자 데이터를 분석하려고 합니다! ✨ 데이터 읽어보고 확인데이터의 컬럼명을 확인해보니 다음과 같은 컬럼들이 존재하고 있었습니다.속성타입설명PatientIdfloat환자IDAppointmentIDint예약IDGenderF or M성별ScheduledDaydatetime병원 예약 날짜AppointmentDaydatetime실제 병원 방문 날짜Age..
해당 글에서는 전에 진행되었던 심부전 데이터로 분석했던 내용들을 정리해보고자 합니다. 🏥 심부전 데이터 분석 프로젝트 🩺 심부전 데이터셋 변수 파악변수명변수 설명Age나이Sex성별ChestPainType흉통 유형RestingBP안정된 상태에서 측정된 혈압Cholesterol혈액 내 콜레스테롤 농도FastingBS공복 상태에서 측정된 혈당RestingECG안정된 상태에서 측정된 심전도MaxHR최대 심박수ExerciseAngina운동 시 협심증을 경험했는지 여부HeartDisease심장병 보유 여부 🩺 심부전 데이터셋 필터링심장병이 있는 사람들의 데이터만 추출하는 방법은 논리형 인덱싱을 사용하면 간단하게 해결할 수 있습니다.H = heart[heart['HeartDisease'] == 1]위와 같이 T..
부트캠프 기간 중 진행되었던 데이터 분석 프로젝트들은 따로 분리해서 관리하고자 합니다!우선 전에 진행했던 프로젝트들을 정리한 후, 추후 진행될 프로젝트들도 정기적으로 올려보도록 하겠습니다. :)해당 글에서는 전에 진행되었던 한국복지패널 데이터로 한국인의 삶을 파악해보는 프로젝트를 정리하겠습니다. 😀 한국복지패널 데이터로 '한국인의 삶 파악해보기'💭 데이터 준비 및 기본 탐색패키지 로드 및 데이터 불러오기원본 데이터 파일(.sav)를 읽어와 복사본을 생성하여 분석에 활용하였습니다..sav 파일은 spss에서부터 제공되는 파일이기에 read_spss() 함수로 읽어들여야 합니다.기본 탐색데이터의 앞부분(head())과 뒷부분(tail())을 확인해 전체적인 구조를 먼저 파악해 봤습니다.shape, inf..
오늘은 파이썬과 MySQL을 둘 다 이용해서 야후 파이낸스 주식 데이터를 가지고 분석해보는 시간을 가져보았습니다.참고로 중간중간 제작된 이미지는 https://www.napkin.ai/에서 생성한 이미지로, 앞으로도 유용하게 사용할 것 같습니다. 👍🏻 Napkin AI - The visual AI for business storytellingJust type, copy-paste or generate your text and Napkin will instantly transform it into insightful visuals. Make your communication more effective with Napkin.www.napkin.ai 🫙 크롤러로 데이터 수집 후 저장하기분석하기 전에 분석..
오늘은 MySQL 과정을 마무리하며, ASA(american Standards Association: 미국 규격 협회)에서 2009년에 공개한 미국 항공편 운항 통계 데이터를 가지고 분석 프로젝트를 진행했습니다. ✈️ 미국의 항공기 운항 실태 조사저희는 아래 8가지 공통 주제와 1가지의 선택 주제를 가지고 데이터 분석을 진행해보았습니다. 지연을 최소화하려면 비행에 가장 적합한 시간대 / 요일 / 시간은 언제일까?오래된 비행기일수록 지연이 더 잦을까?시간이 지남에 따라서 다양한 장소들을 비행하는 사람의 수는 어떻게 변할까?날씨는 비행기 지연을 얼마나 잘 예측할 수 있을까?한 공항의 지연으로 인해 다른 공항의 지연이 발생하는 연쇄적 실패를 감지할 수 있을까? 9/11 사건의 이전과 이후 비행 패턴을 비교해보..
오늘은 오전에 간단히 다나와 무선 청소기 제품 관련 데이터를 분석해봤고, 오후에는 미세먼지, 행복 지수 데이터를 가지고 놀았습니다! 🧹 다나와 무선 청소기 데이터 분석다나와 사이트에서 제공하는 무선 청소기 데이터 300개 가량을 가지고 분석을 진행해보았습니다.보통 실무에서는 이런 제품 데이터를 분석해서 마케팅이나 상품 전략 기획 등에 사용한다고 합니다. ✨ 데이터 전처리💡 회사명과 상품명 분리우선, 상품명 데이터가 'LG전자 코드제로 A9 A978' 이런 식으로 들어가 있었기에 이를 회사명과 상품명으로 분리해 다시 저장하는 작업을 실시했습니다.이 작업에 split() 함수가 사용되었는데, 이때 split() 함수에 인자값으로 1을 추가로 넣어주게 되면 즉, split(' ', 1)처럼 실행하게 되면,..
오늘은 커피 매장들에 대한 데이터를 각 홈페이지에서 크롤링으로 수집 후, folium으로 버블 지도 및 단계 구분도로 시각화하여 여러 데이터와 비교 분석을 진행해보았습니다. 🧑🏼 외국인 방문객 데이터 시각화🕰️ 연도에 따른 관광객 수 시계열어제 마지막 부근에 통합했었던 외국인 방문객 데이터를 가지고 오늘은 간단한 시각화 작업을 진행해보았습니다!먼저 기준년월에 따른 여러 국가의 관광객 수를 시계열 차트로 시각화했습니다.관광객 수가 가장 많은 나라 Top 5(중국, 일본, 대만, 미국, 홍콩)를 지정해서 시각화했고, 방문 목적은 '관광'으로만 추려서 진행했습니다. 🔥 관광객 히트맵그리고 두 번째로는 중국인 관광객을 대상으로 히트맵을 그려보았습니다.만들기 전에 우선 데이터에는 기준년월만 컬럼으로 설정되..