类别目标变量分类预测

在Prediction模块下，单击Classification按钮。

进入Classification模块，页面弹出如下图所示的.csv文件上传框。

Classification- Data Information模块:

上传数据之后，Data Table功能显示加载所上传的.csv文件的数据，可通过调节rows调整显示的数据表的行数。

Features vs Targets功能显示数据集的特征变量和目标变量，默认.csv文件中的最后一列为目标变量，可通过input target调节目标变量的个数。

Choose Target功能选择目标特征

在Regressor功能下选择model，在Hyper Parameters中可调节每个算法的超参数

1:DecisionTreeClassifier- 决策树

2:LogisticRegression - 逻辑回归

3:RandomForestClassifier - 随机森林

4:SupportVectorClassifier - 支持向量机

集成学习

1:AdaBoostClassifier- 自适应提升集成分类

2:BaggingClassifier - 自主聚合集成分类

3:CatBoostClassifier - 类别提升集成分类

4:GradientBoosingClassifier - 梯度提升集成分类

5:LGBMClassifier - 轻量梯度提升集成分类

6:XGBClassifier - 极限梯度提升集成分类

data preprocess中可选择 - StandardScaler - 标准化 - MinMaxScaler - 归一化

StandardScaler - 标准化

均值为0，标准差为1的标准化数学表达式为：

\[x^*=\frac{x-\mu}{\sigma}\]

其中\(\mu=\frac{1}{n}\Sigma x_i\)，注意此处标准差使用的是总体标准差\(\sigma=\sqrt{\frac{\Sigma(x_i-\mu)^2}{n}}\)

MinMaxScaler - 归一化

线性归一化数学表达式为：

\[x^*=\frac{x-min(x)}{max(x)-min(x)}\]

这种归一化方法比较适用在数值比较集中的情况。这种方法有个缺陷，如果\(max\)和\(min\)不稳定，很容易使得归一化结果不稳定，此时最好选用标准差标准化。

在operator可选择train test split, cross val score两种验证模型性能方法。

train test split：

点击train按钮，根据所选择的算法和超参数对划分的测试集类别预测，绘制混淆矩阵，并给真值和预测值表格，点击download可下载。

cross val score：

可选择交叉验证的折数，推荐5~10折，点击train按钮，根据所选择的算法和超参数进行类别预测，给出预测结果的R2和真值预测值表格，点击download可下载。