본문 바로가기

KT AIVLE SCHOOL

KT aivle school 미니프로젝트 2차

3.2~3.3 이틀에 걸쳐 미니프로젝트 2차가 진행되었습니다.

 

주제: 서울시 생활정보 기반 대중교통 수요 분석

데이터 출처: 서울시 열린 데이터 광장

목표: 데이터 구조파악, 데이터 전처리, 단변량, 이변량, 상관분석을 통해 비즈니스 인사이트를 도출

 

 

 

목표과제: 버스노선 추가 지점 선정

 

1번데이터: 서울 버스 승하차 이용 데이터

2번데이터: 서울 구별 유동 인구 데이터

3번데이터: 서울 구별 주민 등록 인구 데이터

4번데이터: 서울 구별 업종 등록 데이터

 

위 4가지 데이터를 활용하여 버스노선 추가가 필요한 지역을 정하는 프로젝트였습니다.

 

 

1번데이터: 서울 버스 승하차 이용 데이터

데이터 전처리

1. 구별로 나타내기위해 ARS번호의 앞두자리를 주목해보면 구별 코드를 나타냄을 알수있습니다.

2. 역명 열에 보면 '가상'이라는 정류장이 있는데 이부분은 제거해줍니다.

2번데이터: 서울 구별 유동 인구 데이터

데이터 전처리

1. 결측치 처리

2. 출발 및 도착 시,군,구 코드가 20000이하인 경우 서울데이터입니다.

 

데이터를 통해 얻을수 있는 Tip -> 출발 및 도착 시군구 코드와 이동인구를 groupby할 경우 유출 및 유입 인구수를 볼 수 있습니다.

 

3번데이터: 서울 구별 주민 등록 인구 데이터

데이터 전처리

위 데이터는 따로 전처리 작업이 필요하지 않았습니다.

4번데이터: 서울 구별 업종 등록 데이터

데이터전처리

위와같이 데이터의 컬럼이 많은 경우 iloc를 이용해 필요한 컬럼만 추출할수있다.

seoul_business = seoul_business.iloc[:,[0,1,5,13,17]]

seoul_business.head()

 

loc vs iloc에 대한 구체적인 내용은 다음 블로그를 참고하였습니다.
https://blog.naver.com/urban_ist/223023017765

데이터 전처리가 다 끝난후

3가지 가설을 설정해보았습니다.

그리고 각각의 변수들을 단변량 분석을 통해 변수 데이터들의 이상치 유무를 판단해보았습니다.

그 다음으로 이변량 분석을 통해 두 변수간의 상관관계를 시각화해보았고

pvalue를 구하여 상관계수를 측정해보았습니다.

 

최종적으로 저희 조에서는 버스 노선 추가 개설 구로는

강남구가 적절하다는 결론을 맺게되었습니다.

 

지금까지 배운 내용을 바탕으로 처음부터 끝까지 진행해보았고 여러가지 데이터들을 합치고 쪼개고 그룹화시키는 작업들을 해보니 코드를 잘짜는것도 중요하지만 도메인에 대한 지식이 무엇보다 중요하다는것을 알게되었습니다.

 


 

힘들지만 알찬 미프가 끝나니 배가 너무 고팠는데!!!

다행히도 DX9반 첫 회식이 있는 날 이었습니다

전대후문 삼일집에서 맛있는 고기 먹고 집으로 복귀완료했슴니당!

 

아쉽게도 자차를 끌고가서 술을 먹지못해 분위기를 제대로 즐기지 못하였지만!!!

다음 회식때는 꼭 차를 냅두고가서 DX9반 에이블러님들과 함께 술까지 즐기고오겠습니당!