오늘부터 ! (사실 어제부터) SQL을 본격적으로 들어가게 되었습니다. 실습 환경은 MySQL이고, 오늘은 간단하게 기본적인 문법 몇 가지와 관련 SQL 문제를 풀게 되었습니다. 🌱 SQL의 기본적인 문법어제 드디어 기나긴 학부 생활이 종료되고, 졸업식이 있었던 날이었습니다! 😀 그래서 어제 하루는 수업을 듣지 못해 GROUP BY부터 진행하게 되는 점 양해 부탁드립니다. 🙇🏻♂️ 시간이 되면 앞부분도 정리해서 추가로 올리도록 하겠습니다. ✨ GROUP BYSELECT [열] FROM [테이블] WHERE [열] = [조건값] GROUP BY [열] HAVING [열] = [조건값]GROUP BY는 하나의 열, 혹은 2개 이상의 열을 기준으로 그룹화를 가능하게 해주는 명령어입니다.데이터를 그룹화..
오늘은 오전에 데이터 전처리와 관련하여 총 정리해보는 시간을 가져보았고, 병원 No-show 환자 데이터, 그리고 시계열 데이터인 애플 주식 데이터를 가지고 분석해보았습니다!No-show 데이터 관련하여 분석한 과정은 다음 글에 기술되어 있습니다! [Data Analysis] 병원 No-Show 데이터이번에는 특정 병원에서의 No-show 데이터로 분석했던 내용들을 정리해보고자 합니다. 🏥 No-show 환자를 줄이자! 프로젝트특정 A 병원에서는 예약한 환자들이 오지 않아 진료가 원활히 이루어지injoycode.tistory.com 🤨 데이터 전처리를 하는 이유데이터 전처리 과정에 따라 분석 결과가 유의미하거나 무의미한 결과를 도출할 수 있습니다.그리고 전처리는 자동화하기 어려워서 거의 다 코드(수..
오늘은 오전에 간단히 다나와 무선 청소기 제품 관련 데이터를 분석해봤고, 오후에는 미세먼지, 행복 지수 데이터를 가지고 놀았습니다! 🧹 다나와 무선 청소기 데이터 분석다나와 사이트에서 제공하는 무선 청소기 데이터 300개 가량을 가지고 분석을 진행해보았습니다.보통 실무에서는 이런 제품 데이터를 분석해서 마케팅이나 상품 전략 기획 등에 사용한다고 합니다. ✨ 데이터 전처리💡 회사명과 상품명 분리우선, 상품명 데이터가 'LG전자 코드제로 A9 A978' 이런 식으로 들어가 있었기에 이를 회사명과 상품명으로 분리해 다시 저장하는 작업을 실시했습니다.이 작업에 split() 함수가 사용되었는데, 이때 split() 함수에 인자값으로 1을 추가로 넣어주게 되면 즉, split(' ', 1)처럼 실행하게 되면,..
오늘은 커피 매장들에 대한 데이터를 각 홈페이지에서 크롤링으로 수집 후, folium으로 버블 지도 및 단계 구분도로 시각화하여 여러 데이터와 비교 분석을 진행해보았습니다. 🧑🏼 외국인 방문객 데이터 시각화🕰️ 연도에 따른 관광객 수 시계열어제 마지막 부근에 통합했었던 외국인 방문객 데이터를 가지고 오늘은 간단한 시각화 작업을 진행해보았습니다!먼저 기준년월에 따른 여러 국가의 관광객 수를 시계열 차트로 시각화했습니다.관광객 수가 가장 많은 나라 Top 5(중국, 일본, 대만, 미국, 홍콩)를 지정해서 시각화했고, 방문 목적은 '관광'으로만 추려서 진행했습니다. 🔥 관광객 히트맵그리고 두 번째로는 중국인 관광객을 대상으로 히트맵을 그려보았습니다.만들기 전에 우선 데이터에는 기준년월만 컬럼으로 설정되..
오늘은 Selenium 패키지를 이용해서 동적인 페이지(스트리밍 사이트, 유튜브 랭킹 페이지 등)를 크롤링하고 관련 시각화를 진행해보았습니다. 후반부에는 여러 엑셀 파일들을 통합해보는 실습도 추가적으로 완료했습니다. 🗞️ SeleniumSelenium 패키지는 chromedriver를 제어하거나 원하는 정보(동적 HTML)를 크롤링하기 위해서 사용됩니다.또한, 코드로 브라우저를 제어하고, 웹 애플리케이션을 테스트하거나 데이터를 스크래핑할 수도 있습니다.그 중에서도 Selenium의 webdriver 모듈은 웹 브라우저를 자동화하는 역할을 합니다. 🌐 Webdriverwebdriver.Chrome()크롬 브라우저를 실행해주는 Selenium WebDriver 객체를 생성할 때 사용되는 클래스입니다.dr..
오늘은 심부전 관련 의료 데이터를 가지고 전처리, 통계 처리 및 연관된 여러 시각화 작업을 진행했습니다. 또 오후에는 야후 파이낸스 페이지를 크롤링하며 실시간 데이터를 가지고 간단한 시각화도 해보았습니다!심부전 데이터를 통한 분석 프로젝트는 아래 글에 자세히 작성되어 있습니다. [Data Analysis] 심부전 데이터해당 글에서는 전에 진행되었던 심부전 데이터로 분석했던 내용들을 정리해보고자 합니다. 🏥 심부전 데이터 분석 프로젝트 🩺 심부전 데이터셋 변수 파악변수명변수 설명Age나이Sex성별Chesinjoycode.tistory.com 🗞️ 크롤링 데이터 분석 프로젝트✨ 크롤링과 스크래핑크롤링이 데이터를 찾는 작업이라면, 스크래핑은 데이터를 추출하는 작업을 뜻합니다.크롤링과 스크래핑은 "원하는 ..
오늘은 Netflix 데이터를 가지고 변수들의 특징 파악, 전처리, Feature Engineering, 마지막으로 관련된 여러 시각화 작업을 진행했습니다. 🎥 Netflix Data Analysis Project 🍿 개요데이터를 빠르게 파악하고, 전처리를 수행한 후 여러 인사이트 도출하는 것이 데이터 분석가가 해야할 일입니다.이번 프로젝트의 데이터 전처리 과정에서는 결측치를 처리하고 피처 엔지니어링을 통해 파생 변수를 생성했습니다.그리고 시각화 과정에서는 요청 기업의 브랜드 색상을 사용하여 여러 가지를 시각화 해보았습니다. 브랜드 색상데이터를 시각화하기 전에 해당 요청 기업의 색상을 미리 정해주는 것이 중요합니다!!색상을 데이터의 성격에 맞게 선택하고, 중요도에 따라서 강조 방법을 계획해 시각화 효..
오늘은 초반부에 통계에서 기본적인 가설 검정(t-검정, 상관 분석)을 배우고, plotly 모듈로 간단히 인터렉티브 시각화를 진행해본 뒤, 마지막으로 어제 사용한 데이터를 가지고 자체 분석해보는 시간을 가졌습니다. 🧑🏻⚖️ 가설 검정통계 분석은 크게 기술 통계와 추론 통계로 분류됩니다. 그 중에서도 기술 통계는 데이터를 요약해서 설명하는 통계 분석 기법을 의미합니다.예를 들어, 월급을 집계해서 월급의 평균을 계산하는 기법이 기술 통계라고 할 수 있습니다.이에 비해, 추론 통계는 어떤 값이 발생할 확률을 계산하는 통계 분석 기법입니다.예를 들어, 성별에 따른 월급 차이가 있는 것으로 나타났을 때, 이 차이가 우연히 발생할 확률을 계산하는 기법입니다.만약에 이 차이가 우연히 발생할 확률이 적다면, '성..