- ๋ถ์คํธ์บ ํ AI Tech 1๊ธฐ ๊ณผ์ ์ค, P stage 2 ๊ธฐ๊ฐ ๋์ ์ฐธ์ฌํ ์ ํ๋ฐ์ดํฐ ๋ถ๋ฅ ๊ฒฝ์ง๋ํ ์์ค์ฝ๋ ์ ๋๋ค.
- ๋ํ๊ธฐ๊ฐ:
2021.04.
(2 weeks)
- ์จ๋ผ์ธ ๊ฑฐ๋ ๊ณ ๊ฐ log ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ ๊ณ ๊ฐ๋ค์ ๋ฏธ๋ ์๋น๋ฅผ ์์ธก ๋ถ์ํ๋ ํ๋ก์ ํธ์ ๋๋ค.
- 5914๋ช
์
2009๋ 11์ ~ 2011๋ 11์
๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ ๊ฐ ๊ณ ๊ฐ๋ค์2011๋ 12์
์ ์ด ๊ตฌ๋งค์ก์ด 300์ ๋์์ง์ ํ๋ฅ ๊ฐ์ ์์ธกํ๋ ์ด์ง ๋ถ๋ฅ ๋ฌธ์ ์ ๋๋ค. - 2011๋ 12์ ์ด ๊ตฌ๋งค์ก์ด 300์ ๋์ผ๋ฉด 1, ๋์ง ์์ผ๋ฉด 0์ผ๋ก ์์ธกํ๋ ๋ฌธ์ ์ ๋๋ค. (๊ณ ๊ฐ๋ณ ์์ธก ์ค์)
- ROC-AUC:
0.8601
- ๋ฑ์: 18๋ฑ
(18/96)
- 2009๋ 12์๋ถํฐ 2011๋ 11์๊น์ง์ ์จ๋ผ์ธ ์์ ์ ๊ฑฐ๋ ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ง
- 2011๋ 11์ ๊น์ง ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ 2011๋ 12์์ ๊ณ ๊ฐ ๊ตฌ๋งค์ก 300์ด๊ณผ ์ฌ๋ถ๋ฅผ ์์ธกํด์ผ ํจ
- Unique Customer_idย : 5914๋ช
- Customer ๋น ๋ก๊ทธ ์ย : 1๊ฐ ~ 12714๊ฐ
- order_id : ์ฃผ๋ฌธ ๋ฒํธ. ๋ฐ์ดํฐ์์ ๊ฐ์ ์ฃผ๋ฌธ๋ฒํธ๋ ๋์ผ ์ฃผ๋ฌธ์ ๋ํ๋
- product_id : ์ํ ๋ฒํธ
- description : ์ํ ์ค๋ช
- quantity : ์ํ ์ฃผ๋ฌธ ์๋
- order_date : ์ฃผ๋ฌธ ์ผ์
- price : ์ํ ๊ฐ๊ฒฉ
- customer_id : ๊ณ ๊ฐ ๋ฒํธ
- country : ๊ณ ๊ฐ ๊ฑฐ์ฃผ ๊ตญ๊ฐ
- total : ์ด ๊ตฌ๋งค์ก(quantity X price)
- AUC(Area Under Curve)
- ์ฌ์ฉ๋ ML ์๊ณ ๋ฆฌ์ฆ: LightGBM
- ํ์ดํผํ๋ผ๋ฏธํฐ
model_params = { 'objective': 'binary', # ์ด์ง ๋ถ๋ฅ 'boosting_type': 'gbdt', 'metric': 'auc', # ํ๊ฐ ์งํ ์ค์ 'feature_fraction': 0.8, # ํผ์ฒ ์ํ๋ง ๋น์จ 'bagging_fraction': 0.8, # ๋ฐ์ดํฐ ์ํ๋ง ๋น์จ 'bagging_freq': 1, 'n_estimators': 10000, # ํธ๋ฆฌ ๊ฐ์ 'early_stopping_rounds': 100, 'seed': SEED, 'verbose': -1, 'n_jobs': -1, }
Index | Feature | Description | Intention |
---|---|---|---|
1 | cumsum | - ๊ธฐ์กด์ ๊ฐ feature์ ๋ํ ๋์ ํฉ์ ๊ณ์ฐ | - ํ์ฌ ์์ ์์๋ ๋ฏธ๋์ ์๋น๋ฅผ ์ ์ ์์ผ๋, ํ๊ท ์ด๋ ํฉ ๋ฑ์ aggregation function์ ํ์ฌ ์ด์ ์ ๊ฐ๋ค์๋ง ์ํฅ์ ๋ฐ์์ผํจ ๋ฐ๋ผ์ ํ์ฌ ์ด์ ์ ๊ฐ ๋ง์ ํ์ฉํ feature๊ฐ ์ ์ ํ ๊ฒ์ด๋ผ ์๊ฐํ์ฌ ์ถ๊ฐํจ |
2 | order_ts | - ๊ฐ์ฅ ์ต๊ทผ์ ๊ตฌ๋งคํ total sum(last) - ๊ฐ์ฅ ์ฒ์์ ๊ตฌ๋งคํ total sum(first) |
- ๊ฐ์ฅ ์ต๊ทผ์ ๊ตฌ๋งคํ ์ด์ก(total)์ด ํ์ผ month์ ์ํฅ์ ์ค ๊ฒ์ด๋ผ๊ณ ์๊ฐํจ |
3 | order_ts_plus | - ๊ฐ์ฅ ์ต๊ทผ์ ๊ตฌ๋งคํ ๊ธ์ก ์ค, ์์์ธ ๊ฐ๋ค์ total sum(last) - ๊ฐ์ฅ ์ฒ์์ ๊ตฌ๋งคํ ๊ธ์ก ์ค, ์์์ธ ๊ฐ๋ค์ total sum(first) |
- ์์์ธ ๊ฐ๋ค์ด ๋ค์ด๊ฐ๋ ๊ฒ์ด ์ด๋ค ์ํฅ์ ๋ผ์น๋์ง ํ์ธํ๊ณ ์ feature๋ฅผ ์ถ๊ฐ |
4 | mode | - ๊ฐ feature ๋น ๊ฐ์ฅ ๋ง์ด ๋์จ ๊ฐ(์ต๋น๊ฐ)์ ๋ค์ feature๋ก ์ผ์ | |
5 | cycle_1224 | - ๊ฐ ์ฌ์ฉ์๊ฐ 1๋
์ (12๊ฐ์ ์ )๊ณผ 2๋
์ (24๊ฐ์ ์ )์ ๊ตฌ๋งคํ ์ด์ก์ ํ๊ท ์ feature๋ก ์ผ์ - aggregation function์ ์ ์ฉํ์ง ์์ |
- ๋งค๋ OO์์ 300์ด์ ๊ตฌ๋งคํ ํ๋ฅ ์ ์ ์ ์์ผ๋ฏ๋ก, feature๋ก์ ์ ์ ํ๋ค๊ณ ์๊ฐํจ |
6 | trend | - OO๊ฐ์ ์ ์ ๋ฐ์ดํฐ์ ๋ํด์ customer ๋ณ๋ก ๊ฐ๊ฐ aggregation function์ ์ ์ฉํ ๊ฒฐ๊ณผ๋ฅผ feature๋ก ์ผ์ - price, quantity, total์ ๋ํด์๋ง ์ ์ฉ - ๋์: [1, 2, 3, 5, 7, 12, 20, 23] - ๊ธฐ์กด aggregation function์ ํจ๊ป ์ ์ฉํ๋ ๊ฒ์ด ์๋, ๋ฐ๋ก aggregation function์ ์ ์ฉํ๊ณ , ๋ง์ง๋ง์ ๋ฐ์ดํฐํ๋ ์์ ์ถ๊ฐํ๋ ํ์์ผ๋ก ์ฌ์ฉ |
- ์ฅ๊ธฐ์ ์ธ ๊ด์ ์์ ๋ดค์๋ ๊ทธ๋ํ๊ฐ ์ฆ๊ฐํ๋์ง, ๊ฐ์ํ๋์ง, ๋๋ ์ ์ฒด๋์ด ์๋์ง ๋ฑ์ ์ถ์ธ๋ฅผ ์๊ธฐ์ํด์ ์ฌ์ฉํจ - ๊ทธ๋ฌ๋ ์ด์ ์ ๋ฐ์ดํฐ๋ฅผ ์ ๋ถ ๋ค ๋ํ๋ ๊ฒ์ด ์๋, ์ต๊ทผ OO๊ฐ์์ ๋ฐ์ดํฐ๋ง์ ๋ณธ๋ค๋ ์ ์์ ๊ธฐ์กด feature์ ๋ค๋ฆ |
7 | seasonality | - ์ฃผ๊ธฐ์ฑ์ ๋ชจ๋ธ์ด ํ์ตํ ์ ์๋๋ก, ๊ตฌ๊ฐ์ ๋๋์ด aggregation function์ ์ ์ฉํจ - (1~3๊ฐ์์ ), (6-8๊ฐ์์ ), (12-14๊ฐ์์ ), (18-20๊ฐ์์ ) ์ด๋ฐ ์์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ฌถ์ด์ aggregation์ customer ๋ณ๋ก ํ ์ ์๋๋ก ํจ - ์ฃผ๊ธฐ: [1, 6, 12, 18] |
- ์์ธกํ๊ณ ์ ํ๋ 12์์๋ ๋ณ๋ํญ์ด ๊ฝค ์ปค์ ํด๋น ์ฃผ๊ธฐ์ฑ์ ๋ชจ๋ธ์ด ํ์ตํ๋ ๊ฒ ๋ํ ์ค์ํ๋ค๊ณ ์๊ฐํจ |
- ์ด์ธ ์ ์ฉํ ๊ฒ: Quantile Transform
- not feature, ์ ์ฒ๋ฆฌ
- ๋ฐ์ดํฐ ์ค์ผ์ผ๋ง์ ์ํด์ ์ฌ์ฉ
- ๋ณ์๋ค์ ์ค์ผ์ผ์ 0~1 ์ฌ์ด๋ก ์กฐ์ ํ๋ฏ๋ก, ์๋๊ฐ ๋นจ๋ผ์ง๋ค๋ ์ฅ์ ์ด ์์
๊ฒฝ์ง๋ํ ๊ณผ์ ์ ๋ํ ๊ธฐ๋ก, ์ฌ์ฉํ ์ํคํ ์ฒ๋ Notion์
wrap-up report
๋ก ์ฌ๋ ค๋์์ต๋๋ค.