业务目标：更好的进行本地服务推荐

admin 实时赛事 2024-02-13 92 0

　　因为比赛早就结束了，我们选择的是延迟提交。所以我们提交的结果虽然会打分，但是不会真正进入排行榜榜单。

　　公榜得分：3.67611

　　私榜得分：3.60352

　　公榜排行：top4%

　　160/4110 = 0.038929440389294405

　　私榜排行：top1%

　　34/4110 = 0.00827250608272506

　　在官方给出的说明中，我们不难发现，Elo使用机器学习算法技术的核心目的，是为了更

　　好的在App内为用户推荐当地吃穿住行的商家服务，包括热门餐厅展示、优惠折扣提醒等。也就是说，其根本目的是为了推荐，或者说为每个

　　用户进行更加个性化的推荐，也就是赛题标题中的所写的：Merchant Category

　　Recommendation（商户类别推荐），比赛链接：https://www.kaggle.com/competitions/elo-merchant-category-recommendation

　　所谓用户忠诚度评分，通过后续查看Evaluation不难发现，其实就是对每个用户的评分进行预测，本质上是个回归问题。

　　原始数据可以直接通过上面的链接获取，原始数据大约3GB大小。

　　Data_Dictionary.xlsx：数据目录，包含每个数据文件的字段含义的介绍（包含匿名字段）

　　sample_submission.csv：比赛提交实例

　　train.csv：训练集

　　test.csv：测试集

　　merchants.csv：商户数据

　　historical_transactions.csv：信用卡交易记录数据集，交易数据量接近2000万

　　new_merchant_transactions.csv：与historical_transactions一样，只是记录了不同时间区间的信用卡消费情况。

　　data_exploration(1.0).py:数据分布探索，数据规律一致性分析

　　data_exploration(1.1).py:训练测试数据预处理

　　data_exploration(1.2).py:商户数据和交易数据的数据探索与数据清洗：方案一在合并的过程中：对缺失值进行-1填补，然后将所有离散型字段化为字符串类型（为了后续字典合并做准备）

　　data_exploration(1.3).py:商户数据和交易数据的数据探索与数据清洗：方案二在合并的过程中：新增两列，分别是purchase_day_diff和purchase_month_diff，其数据为交易数据以card_id进行groupby并最终提取出purchase_day/month并进行差分的结果。大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!

　　feature_engineering(2.1).py:基于transaction数据集创建通用组合特征

　　feature_engineering(2.2).py:基于transaction数据集创建业务统计特征创建

　　data_merge(2.3).py:对不同方式衍生出来的特征做拼接

　　random_forest(2.4).py:用随机森林跑baseline大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!

　　Filter_RF_GridSearchCV(3).py:相关系数选择top300特征，随机森林建模+网格搜索超参数优化（巨耗时）

　　Wrapper_Lightgbm_TPE(4.1).py：用lightgbm模型的feature_importance筛选top300特征，lightgbm建模+贝叶斯超参数优化

　　nlp_xgboost_bayes(4.2).py：在数据集中存在大量的ID相关的列（除了card_id外），可以考虑采用NLP中CountVector和TF-IDF两种方法来进行进一步特征衍生，其中CountVector可以挖掘类似某用户钟爱某商铺的信息，

　　nlp_xgboost_bayes(4.3).py：xgboost建模+贝叶斯产参数优化（耗时较久）

　　Voting(4.4).py：考虑对random_forest、lightgbm、xgboost做Voting模型融合，如平均融合，加权融合等

　　Stacking(4.5).py：考虑对random_forest、lightgbm、xgboost做Stacking模型融合

　　feature_optimization(5.1).py：进一步更加精细化地挖掘特征，并增加target离群值标记特征，1.针对业务字段含义进一步做手动特征衍生，2.进一步挖掘交易数据的时序特征，3对部分特征考虑二阶交叉特征衍生

　　LightGBM_XGBoost_CatBoost(5.2).py：用优化后的特征，分别跑lightgbm、xgboost、catboost模型(5折交叉验证)

　　LightGBM_XGBoost_CatBoost_Voting(5.3).py：用优化后的特征，分别跑lightgbm、xgboost、catboost的结果做Voting模型融合

　　LightGBM_XGBoost_CatBoost_Stacking(5.4).py：用优化后的特征，分别跑lightgbm、xgboost、catboostStacking模型融合，并考虑二阶段建模：增加一个分类器判断用户是否异常，针对异常的用户输出特定的值大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!

　　1.关于上面所使用到模型：Random_Forest、LightGBM、XGBoost、CatBoost。

　　其中Random_Forest预测效果最差，并且内存和时间较久，尤其是Random_Forest + GridSearchCV简直就是灾难……

　　2.模型LightGBM、XGBoost、CatBoost对比：

　　由上图可以看出LightGBM模型不仅预测效果好，而且速度快、占内存小。比较适合用来搭建baseline

　　3.关于超参数优化

　　常用的产参数优化工具有sklearn.model_selection自带的：网格搜索、对半网格搜索、随机搜索。

　　hyperopt中的贝叶斯优化(tpe)

　　其他，如遗传算法（产参数进化）

　　推荐使用贝叶斯优化，相对来说又快又准。

　　4.常用的特征衍生方法：

业务目标：更好的进行本地服务推荐