오늘은 Netflix 데이터를 가지고 변수들의 특징 파악, 전처리, Feature Engineering, 마지막으로 관련된 여러 시각화 작업을 진행했습니다. 🎥 Netflix Data Analysis Project 🍿 개요데이터를 빠르게 파악하고, 전처리를 수행한 후 여러 인사이트 도출하는 것이 데이터 분석가가 해야할 일입니다.이번 프로젝트의 데이터 전처리 과정에서는 결측치를 처리하고 피처 엔지니어링을 통해 파생 변수를 생성했습니다.그리고 시각화 과정에서는 요청 기업의 브랜드 색상을 사용하여 여러 가지를 시각화 해보았습니다. 브랜드 색상데이터를 시각화하기 전에 해당 요청 기업의 색상을 미리 정해주는 것이 중요합니다!!색상을 데이터의 성격에 맞게 선택하고, 중요도에 따라서 강조 방법을 계획해 시각화 효..
분류 전체보기
오늘은 초반부에 통계에서 기본적인 가설 검정(t-검정, 상관 분석)을 배우고, plotly 모듈로 간단히 인터렉티브 시각화를 진행해본 뒤, 마지막으로 어제 사용한 데이터를 가지고 자체 분석해보는 시간을 가졌습니다. 🧑🏻⚖️ 가설 검정통계 분석은 크게 기술 통계와 추론 통계로 분류됩니다. 그 중에서도 기술 통계는 데이터를 요약해서 설명하는 통계 분석 기법을 의미합니다.예를 들어, 월급을 집계해서 월급의 평균을 계산하는 기법이 기술 통계라고 할 수 있습니다.이에 비해, 추론 통계는 어떤 값이 발생할 확률을 계산하는 통계 분석 기법입니다.예를 들어, 성별에 따른 월급 차이가 있는 것으로 나타났을 때, 이 차이가 우연히 발생할 확률을 계산하는 기법입니다.만약에 이 차이가 우연히 발생할 확률이 적다면, '성..
항해 99에서 자체적으로 새롭게 제작한 크롬 익스텐션 '탭고리즘'이라는 서비스가 최근 공개되었습니다.이 '탭고리즘'에서 출제되는 문제들이 백준 골드나 플레티넘 티어 정도였기 때문에 머리를 깨우는 겸 살짝씩 풀어보고 블로그에 해당 문제들을 리뷰해보고자 합니다! 👉🏻 2206번: 벽 부수고 이동하기☀️ 오늘의 문제from collections import dequedef bfs(n, m, grid): directions = [(0, 1), (1, 0), (0, -1), (-1, 0)] visited = [[[False] * 2 for _ in range(m)] for _ in range(n)] # 3차원 방문 배열 queue = deque([(0, 0, 0, 1)]) # (x, y, ..
👉🏻 2294번: 동전 2n, k = map(int, input().split())money = [int(input()) for _ in range(n)]dp = [float('inf')] * (k+1)dp[0] = 0for i in range(1, k+1): for coin in money: if i - coin >= 0: dp[i] = min(dp[i], dp[i-coin] + 1)print(-1 if dp[k] == float('inf') else dp[k]) 🤔 왜 이렇게 풀었을까?전형적인 DP 문제입니다. 사실 처음에는 아래처럼 '거스름돈 문제다!!' 생각해서 냅다 그리디로 풀어봤는데, 당연하게도 시간이 초과했습니다.n, k = map(int, inpu..
오늘은 앞 시간에 파이썬 이론 중 다루지 못했던 Iterator, Generator 관련 내용을 간단히 배우고, 이후부터는 쭉 하나의 데이터를 통해 분석하고 시각화하는 과정을 진행해보았습니다.이 날 진행되었던 데이터 분석 프로젝트는 다음 글에 상세히 작성되어 있습니다! [데이터 분석] 한국복지패널 데이터부트캠프 기간 중 진행되었던 데이터 분석 프로젝트들은 따로 분리해서 관리하고자 합니다!우선 전에 진행했던 프로젝트들을 정리한 후, 추후 진행될 프로젝트들도 정기적으로 올려보도록 하injoycode.tistory.com ♾️ Iterator✨ Iterator가 뭐시냐면...데이터를 순차적으로 접근할 수 있는 객체입니다.일반적으로 for 문과 함께 사용되며, 한 번에 하나의 요소를 반환하면서 다음 요소로 이동..
오늘은 그동안 배웠던 파이썬 이론들 중에서 보완이 필요한 부분을 추가로 배우고, 실습하는 과정을 통해 주요 함수들의 사용법, 패키지나 예외 처리 등에 대해 깊게 알아갈 수 있었습니다. 🔖 문자열 포매팅문자열 포매팅은 은행권, 통신사, 청구서 등에 주로 사용되는 기법입니다.문자열을 포매팅할 때는 다음과 같은 여러 코드들이 사용될 수 있습니다.코드설명%s문자열(string)%c문자 1개(character)%d정수(integer)%f부동소수(floating-point)%o8진수%x16진수%%Literal %(문자 % 자체) ✨ 정렬과 공백"%10s"는 전체 길이가 10개인 문자열 공간에서 대입되는 값을 오른쪽으로 정렬하고 그 앞의 나머지는 공백으로 남기라는 의미로 사용됩니다. 반대로 왼쪽 정렬은 "%-10s..
오늘은 Numpy 라이브러리의 주요 연산 및 함수들, Seaborn 라이브러리로 데이터를 다양하게 시각화하는 방법들을 배우고 Pandas 라이브러리와 통합하여 실습을 진행했습니다. 🤯 NumpyNumpy(Numerical Python)는 다차원 배열 객체를 지원하는 파이썬의 핵심적인 라이브러리입니다.또한, 대용량의 배열과 행렬 연산(이미지, 영상 분석)을 수행할 때 주로 사용되는 라이브러리입니다. ✨ ndarray 특징 및 속성💡 ndarray의 특징Python의 기본 리스트보다 빠르고, 메모리를 효율적으로 사용하며, 벡터 연산이 가능한 데이터 구조입니다.ndarray 객체는 동일한 자료형의 항목들만 저장이 가능합니다.💡 ndarray의 기본 속성ndarray 객체는 기본적으로 다음과 같은 속성들을..
오늘은 어제에 이어 Matplotlib 라이브러리를 가지고 여러 유형의 차트를 그려보며, 주어진 데이터를 시각화해보는 작업을 거쳤습니다. 📈 matplotlib.pyplotmatplotlib, 그 중에서도 pyplot 라이브러리는 파이썬에서 데이터를 시각화할 때 사용하는 대표적인 라이브러리입니다.특히 MATLAB 스타일의 인터페이스를 제공하며, 간단한 코드로 그래프를 쉽게 만들 수 있습니다.앞으로 이 matplotlib.pyplot을 간단히 plt로 줄여 설명드리겠습니다. ✨ plt의 특징plt는 다양한 그래프(선 그래프, 막대 그래프, 산점도 그래프 등)을 지원해줍니다.또한, 커스텀 함수들이 정말 다양하기 때문에 손쉽게 차트의 변형이 가능합니다.또 생성한 차트를 그래프로 출력하거나 이미지로 저장하는 ..