本次比赛采用Python语言,python版本 >= 3.5 。开发环境采用Jupyter notebook 。
本次比赛所需的python依赖库包括: numpy, pandas, scikit-learn, matplotlib, xgboost。其他库依据个人电脑自行安装。
Root/
1. 训练集数据初步处理.ipynb
2. 测试集时间转换.ipynb
3. TrainData/
4. TestData/
5. temp/
1. 数据清洗.ipynb
2. 时间转换.ipynb
3. 数据集合并.ipynb
4. xbg/
1. model/
2. submit/
3. TestData/
4. tmp/
5. xgboost预测.ipynb
6. 测试集预测_xgboost.ipynb
- 训练集数据初步处理.ipynb 该文件主要对原始训练集做一些初步探索需要的处理,包括按时间顺序排序,增加新一列表示一个工况下的行驶里程。处理后的文件会保存在
temp/
目录下。一共五个训练集文件,需要对该文件调用5次,每次改变加载文件名和保存文件名即可。 - 测试集时间转换.ipynb 该文件主要是将测试的时间一列转换成时间间隔的形式,原始的时间表示形式我们无法直接利用,因此需要对其加以转换。转换后的文件以原始文件目录下的原始文件名存储。
- 数据清洗.ipynb 该文件主要对训练集进行数据清洗,一共五个训练集文件,需要对该文件调用5次,每次改变加载文件名和保存文件名即可。
- 时间转换.ipynb 该文件主要对训练集的时间格式进行转换,具体使用可参考测试集时间转换.ipynb文件。
- 数据集合并.ipynb 该文件主要对数据经过清洗后的5个训练集文件进行合并。
- xgboost预测.ipynb 该文件是训练模型的核心文件。主要包括训练集验证集划分,调用xgboost模型 训练模型,模型保存。
- 测试集预测_xgboost.ipynb 该文件主要是利用训练好的模型对测试集进行行驶里程预测,将其结果自动保存成可以提交的格式。