类别目标变量分类预测
在Prediction模块下,单击Classification按钮。
进入Classification模块,页面弹出如下图所示的.csv文件上传框。
Classification- Data Information模块:
上传数据之后,Data Table功能显示加载所上传的.csv文件的数据,可通过调节rows调整显示的数据表的行数。
Features vs Targets功能显示数据集的特征变量和目标变量,默认.csv文件中的最后一列为目标变量,可通过input target调节目标变量的个数。
Choose Target功能选择目标特征
在Regressor功能下选择model,在Hyper Parameters中可调节每个算法的超参数
1:
DecisionTreeClassifier- 决策树2:
LogisticRegression- 逻辑回归3:
RandomForestClassifier- 随机森林4:
SupportVectorClassifier- 支持向量机
集成学习
1:
AdaBoostClassifier- 自适应提升集成分类2:
BaggingClassifier- 自主聚合集成分类3:
CatBoostClassifier- 类别提升集成分类4:
GradientBoosingClassifier- 梯度提升集成分类5:
LGBMClassifier- 轻量梯度提升集成分类6:
XGBClassifier- 极限梯度提升集成分类
data preprocess中可选择
- StandardScaler - 标准化
- MinMaxScaler - 归一化
StandardScaler - 标准化
均值为0,标准差为1的标准化数学表达式为:
其中\(\mu=\frac{1}{n}\Sigma x_i\),注意此处标准差使用的是总体标准差\(\sigma=\sqrt{\frac{\Sigma(x_i-\mu)^2}{n}}\)
MinMaxScaler - 归一化
线性归一化数学表达式为:
这种归一化方法比较适用在数值比较集中的情况。这种方法有个缺陷,如果\(max\)和\(min\)不稳定,很容易使得归一化结果不稳定,此时最好选用标准差标准化。
在operator可选择train test split, cross val score两种验证模型性能方法。
train test split:
点击train按钮,根据所选择的算法和超参数对划分的测试集类别预测,绘制混淆矩阵,并给真值和预测值表格,点击download可下载。
cross val score:
可选择交叉验证的折数,推荐5~10折,点击train按钮,根据所选择的算法和超参数进行类别预测,给出预测结果的R2和真值预测值表格,点击download可下载。