Kaggle Brazilian E-Commerce Public Dataset by Olist
Brazilian E-Commerce Public Dataset by Olist
100,000 Orders with product, customer and reviews info
www.kaggle.com
위 데이터를 바탕으로 패스트캠퍼스 부트캠프에서 4인 팀 프로젝트를 진행하였습니다.
Olist 물류 혁신: 데이터 분석으로 배송 지연 문제 해결하기
- Olist는 브라질의 대표적인 이커머스 플랫폼이지만, 많은 고객들이 '배송' 문제로 불편을 겪고 있습니다.
- Olist의 방대한 데이터를 분석하여 이 문제를 해결하고, 고객 만족과 비용 효율성을 동시에 달성할 수 있는 물류 개선 전략을 제안하려 합니다.
1. 문제 정의: "조기 배송"의 함정과 진짜 문제
Olist의 데이터를 살펴보면 흥미로운 점을 발견할 수 있습니다.

- 91.9%는 조기 배송: 대부분의 주문은 예상 배송일보다 빨리 도착합니다.
- 6.8%는 지연 배송: 하지만 약 7%의 주문은 약속된 날짜보다 늦게 도착합니다.
언뜻 보면 큰 문제가 아닌 것 같지만, 고객 리뷰를 살펴보면 이야기가 달라집니다.
"아들 생일 파티를 위해 주문했는데, 제때 오지 않았습니다. 다시는 안 삽니다."
"배송일보다 이미 2일 늦었고, 아무도 답하지 않습니다."

실제로 배송 상태별 평균 리뷰 점수를 보면, 지연 배송의 경우 평점은 2.27점으로 매우 낮았습니다.
반면 조기 배송(4.29점), 정시 배송(4.04점)은 상대적으로 높았습니다.
| 조기 배송 | 정시배송 | 지연 배송 |
| ★ 4.29 | ★ 4.04 | ★ 2.27 |
그런데 한 가지 이상한 점이 있습니다.

91.9%나 되는 '조기 배송' 건들도 평균 10.3일이나 걸렸습니다. 왜일까요?
바로 애초에 예상 배송일이 평균 24일로 너무 길게 설정되어 있었기 때문입니다.
고객 입장에서는 '조기 배송'이라도 체감상으로는 '느린 배송'으로 느껴질 수 있는 것입니다.
결론적으로 Olist의 문제는 ① 절대적인 배송 시간 단축과 ② 배송 지연율 감소라는 두 가지 과제를 안고 있습니다.
이를 해결하기 위한 가장 효과적인 방법은 바로 '물류 거점(허브) 구축'입니다.
2. 분석 과정: 최적의 물류 허브는 어디일까?
저희는 최적의 물류 허브 위치를 찾기 위해 두 가지 관점에서 데이터를 분석했습니다.
1) 기업(판매자) 관점
물류 리스크가 크고, 거래 가치가 높으며, 수요가 많은 지역을 파악했습니다.
- 분석 지표: 배송지연율, 구매단가, 주문수

- 분석 결과: 브라질의 북부·동북부 10개 주가 인프라가 취약해 물류센터 신설 시 투자 대비 효과(ROI)가 가장 클 것으로 예상되었습니다. 또한 매출 비중이 압도적인 남동부 2개 주(SP, RJ)도 후보군에 포함했습니다.

2) 고객 관점
배송이 느리고, 배송비 부담이 크며, 서비스 만족도가 낮은 지역을 파악했습니다.
- 분석 지표: 평균배송일, 무게당 운임, 리뷰점수, 주문 취소율

- 분석 결과: 역시 북부·동북부 10개 주에서 긴 배송 시간과 높은 주문 취소율 등 고객 불편이 집중되는 것으로 나타났습니다.

최종 후보군 선정
두 관점의 분석 결과를 종합(교집합)하여, 물류 개선이 가장 시급한 최종 10개 주를 타겟 후보군으로 선정했습니다.

3. 분석 결과: 4개의 허브와 놀라운 개선 효과
최종 후보군 10개 주를 대상으로, 몇 개의 물류센터를 어디에 지어야 가장 효율적일지 분석했습니다.
몇 개의 허브를 지을까?
K-means 클러스터링의 최적 군집 수를 찾는 Elbow Method를 사용한 결과, 4개의 허브를 구축하는 것이 가장 효율적이라는 결론을 얻었습니다.

어디에 허브를 지을까?
10개의 주를 4개의 그룹으로 묶는 K-means 군집 분석을 통해 각 허브가 담당할 최적의 관할 구역을 설정했습니다.

기대 효과: 배송 거리 77% 단축!
4개의 물류 허브를 신설할 경우, 다음과 같은 놀라운 개선 효과를 기대할 수 있습니다.
- 주문 단위: 판매자 → 구매자 평균 거리 1834.9km에서 센터 → 구매자 평균 거리 428.2km로, 주문당 약 1400km 절감
- 거리 자체: 기존 대비 평균 배송 거리가 약 77% 단축됩니다.
이는 곧 배송 시간 단축, 물류비 절감, 고객 만족도 향상으로 이어질 것입니다.

4. 최종 결론: 데이터가 제안하는 4개의 물류 거점
데이터 분석과 함께 각 지역의 인구, GDP, 지리적 특성, 신규 고객 유입 추이 등을 종합적으로 고려하여 4개 클러스터의 허브 유형과 추천 도시를 최종 선정했습니다.


마치며
이번 분석은 Olist의 배송 문제를 해결하기 위해 데이터를 기반으로 구체적인 솔루션을 제시했다는 점에서 의미가 있습니다.
제안된 4개의 물류 허브 구축을 통해 Olist는 비용을 절감하고 고객 만족도를 획기적으로 높여 브라질 최고의 이커머스 플랫폼으로 한 단계 더 도약할 수 있을 것입니다.
발표 후 질문 및 강사님 피드백
- cluster의 군집들을 어떤 기준으로 나눈건지
- 10개 최종 후보군은 어떤 지표들이 사용되었는지
- 정기/조기배송 낮은 리뷰에 대한 원인으로 배송 외의 것들은 고려하지 않았는지
- 고려했다면 다른 인사이트를 얻을 수 있었을 것 같음
- 선정 이후 각 cluster state를 조사한 것은 굉장히 좋았음
- 다만, 지리적 부동산가격 등의 다양한 지표들을 고려했다면 더 좋았을 것 같음
- 맨 앞장에 olist가 어떤 업체이고 어떤 서비스를 하는지 회사 및 서비스에 대한 조사 1페이지 정도 소개되었으면 좋았을 것
- 지도 시각화를 활용한 것은 좋았음(글자로 표시한것보다 훨씬 이해하기 쉬웠음)
<<4Ls 회고법>>
1. Liked 좋았던 것 : 혼자가 아닌 여러명과 함께 프로젝트를 진행하니 다양한 아이디어들과 PPT 제작 과정에서도 끊임없이 논의하고 수정 보완하며 결과물의 퀄리티를 높일 수 있었음
2. Lacked 아쉬웠던 것 : 일주일이라는 시간안에 문제를 정의하고, 분석하고 도출한 시각화 자료들을 정리해 발표자료를 만들면서 단순 직선거리가 아닌 도로교통 상황들을 고려해 단축거리를 계산해 보지 못한 것
3. Learned 배운 것 : 지난 프로젝트에 비해 무조건 데이터를 분석해보기 보다는 문제정의 단계에서 방향성을 잡고 시작한 것이 굉장히 중요하다는 것, 프로젝트를 진행하면서 변수들에 유연하게 대처해 방향을 조정해 나가는 것
4. Longed for 앞으로 바라는 것 : 공모전 및 부트캠프 프로젝트를 통해 프로젝트 경험을 늘려 나갈 것
'[패스트캠퍼스] 데이터분석 부트캠프' 카테고리의 다른 글
| [12주차 학습일지] 패스트캠퍼스 최정민 강사님 태블로 필터 강의 (1) | 2025.09.14 |
|---|---|
| [11주차 학습일지] 패스트캠퍼스 박조은 강사님 생성형AI 활용법 강의(웹스크래핑) (0) | 2025.09.07 |
| [9주차 학습일지] 패스트캠퍼스 박두진 강사님 SQL 강의 (3) (0) | 2025.08.19 |
| [8주차 학습일지] 패스트캠퍼스 박두진 강사님 SQL 강의 (2) (7) | 2025.08.14 |
| [8주차 학습일지] 패스트캠퍼스 박두진 강사님 SQL 기초 정보 (1) (7) | 2025.08.13 |