부트캠프 기간 중 진행되었던 데이터 분석 프로젝트들은 따로 분리해서 관리하고자 합니다!우선 전에 진행했던 프로젝트들을 정리한 후, 추후 진행될 프로젝트들도 정기적으로 올려보도록 하겠습니다. :)해당 글에서는 전에 진행되었던 한국복지패널 데이터로 한국인의 삶을 파악해보는 프로젝트를 정리하겠습니다. 😀 한국복지패널 데이터로 '한국인의 삶 파악해보기'💭 데이터 준비 및 기본 탐색패키지 로드 및 데이터 불러오기원본 데이터 파일(.sav)를 읽어와 복사본을 생성하여 분석에 활용하였습니다..sav 파일은 spss에서부터 제공되는 파일이기에 read_spss() 함수로 읽어들여야 합니다.기본 탐색데이터의 앞부분(head())과 뒷부분(tail())을 확인해 전체적인 구조를 먼저 파악해 봤습니다.shape, inf..
오늘은 어제에 이어서 자연어를 전처리하는 방법 중, 정규 표현식, 인코딩, 패딩, 데이터 분할 방법에 대해서 배워보았습니다. ✍🏻 정규 표현식정규 표현식은 모든 언어에서 공통적으로 사용되고, 쓰임새도 유사하니 익혀두면 추후에도 넓게 사용할 수 있을 것 같습니다. ✨ 기본적인 문법 정리아래 표는 정규 표현식에서 사용되는 문자들인데, 이 기호들을 이용해서 특정 단어들이나 기호 등을 쉽게 표현할 수 있습니다. 특수문자 설명 . 임의의 한 문자를 의미합니다. 단, 줄바꿈 문자(\n)는 제외됩니다.?앞의 문자가 있을 수도, 없을 수도 있음을 나타냅니다 (즉, 0개 또는 1개).*앞의 문자가 0개 이상, 즉 없어도 되고 무한히 있을 수도 있음을 의미합니다.+앞의 문자가 1개 이상 반드시 있어야 함을 의미합니다...
오늘은 자연어 처리(NLP)의 첫 시작을 알리며, 그를 위한 준비와 텍스트 전처리 과정의 일부(토큰화, 정제, 정규화 등)를 배우게 되었습니다. 🌳 자연어 처리 전 준비 단계🌱 자연어 처리는?자연어는 일상 생활에서 사용하는 언어를 의미하고, 그래서 자연어 처리(NLP)는 이 자연어의 의미를 분석해 컴퓨터가 이해하고 처리할 수 있도록 하는 기술을 의미합니다.이 자연어 처리를 활용할 수 있는 분야는 엄청나게 다양한데 음성 인식, 내용 요약, 번역, 감성 분석, 텍스트 분류 (예를 들면, 스팸 메일이나 뉴스 기사 카테고리 분류하는 등), 질의 응답 시스템, 챗봇 등과 같은 분야에서 주로 사용되고 있습니다. ⚙️ 머신 러닝 실습 환경 세팅하기🐍 아나콘다와 구글 코랩아나콘다는 Python의 배포판으로, Nu..
오늘은 파이썬과 MySQL을 둘 다 이용해서 야후 파이낸스 주식 데이터를 가지고 분석해보는 시간을 가져보았습니다.참고로 중간중간 제작된 이미지는 https://www.napkin.ai/에서 생성한 이미지로, 앞으로도 유용하게 사용할 것 같습니다. 👍🏻 Napkin AI - The visual AI for business storytellingJust type, copy-paste or generate your text and Napkin will instantly transform it into insightful visuals. Make your communication more effective with Napkin.www.napkin.ai 🫙 크롤러로 데이터 수집 후 저장하기분석하기 전에 분석..
오늘은 저번 주에 배우지 못했던 SQL의 나머지 부분을 배워보면서 SQL에서도 심화 내용이지만, 꼭 알고 넘어가야하는 개념들을 짚고 넘어가보았습니다. 👏🏻 SQL 실력 높여보기!✨ 스토어드 프로시저스토어드 프로시저는 SQL로 프로그래밍하여 DB에 저장하고 그 내용을 재사용할 수 있도록 만들어주는 기능을 합니다.복잡한 쿼리들을 이 프로시저 내부에 저장하고 호출해 사용함으로써 다양한 이점이 존재합니다. 💡 프로시저의 장점절차적인 기능 구현이 가능해, IF나 WHILE 같은 제어 문장으로 프로그래밍을 할 수가 있습니다.호출한 곳에서는 별도의 수정 작업이 필요하지 않기 때문에 유지보수에 용이합니다.한 번의 요청으로 여러 SQL 문을 실행할 수 있어서 트래픽이 감소됩니다.MySQL의 스토어드 프로시저는 자체..
오늘은 MySQL 과정을 마무리하며, ASA(american Standards Association: 미국 규격 협회)에서 2009년에 공개한 미국 항공편 운항 통계 데이터를 가지고 분석 프로젝트를 진행했습니다. ✈️ 미국의 항공기 운항 실태 조사저희는 아래 8가지 공통 주제와 1가지의 선택 주제를 가지고 데이터 분석을 진행해보았습니다. 지연을 최소화하려면 비행에 가장 적합한 시간대 / 요일 / 시간은 언제일까?오래된 비행기일수록 지연이 더 잦을까?시간이 지남에 따라서 다양한 장소들을 비행하는 사람의 수는 어떻게 변할까?날씨는 비행기 지연을 얼마나 잘 예측할 수 있을까?한 공항의 지연으로 인해 다른 공항의 지연이 발생하는 연쇄적 실패를 감지할 수 있을까? 9/11 사건의 이전과 이후 비행 패턴을 비교해보..
오늘은 SQL의 여러 가지 관련 함수들을 배우고, 항공 여객 데이터를 분석하고 시각화하며 개인 프로젝트를 진행하게 되었습니다.국내 항공 데이터를 분석한 과정은 다음 글에 작성되어 있습니다! [Data Analysis] 국내 항공기 운항 데이터이번에는 국내 항공기들을 대상으로 운항했던 기록 데이터를 가지고 분석했던 내용들을 정리해보고자 합니다. ✈️ 항공기 운항 실태 조사오후부터는 강사님께서 제공해주신 국내노선 여객injoycode.tistory.com 🤷🏻 여러 가지 함수들SQL에서 함수는 크게 문자열, 숫자, 날짜, 집계, 수학 관련 함수로 나눌 수 있는데, 저희는 수학 관련 함수는 따로 다루진 않았습니다! ❌ 문자열 함수💡 문자열을 연결할 때SELECT CONCAT('I', 'Love ', '..
오늘은 SQL에서 JOIN의 유형들, 서브쿼리, CTE 관련 내용들을 배우며 실습을 진행했고, 후반부에는 sakila DB를 통해 데이터 분석 프로젝트를 수행하였습니다. 👨🏻👩🏻👧🏻👦🏻 JOINSQL에서 JOIN은 테이블 A의 열을 테이블 B에 포함하여 조회하고 싶을 때 사용되는 아주 중요한 요소입니다!데이터를 모델링할 때는 데이터의 중복을 최소화하는 것이 중요하기 때문에 조인을 사용해서 테이블 2개 이상을 조합한 결과를 조회하는 것이 효과적이라고 할 수 있습니다. ✨ JOIN의 종류이런 JOIN에 어떤 종류가 있는지 알아보겠습니다. 💡 INNER JOINSELECT [열]FROM [테이블 1] INNER JOIN [테이블 2] ON [테이블 1.열] = [테이블 2.열]..