类别目标变量分类预测
在Prediction
模块下,单击Classification
按钮。
进入Classification模块,页面弹出如下图所示的.csv
文件上传框。
Classification- Data Information
模块:
上传数据之后,Data Table
功能显示加载所上传的.csv
文件的数据,可通过调节rows
调整显示的数据表的行数。
Features vs Targets
功能显示数据集的特征变量和目标变量,默认.csv
文件中的最后一列为目标变量,可通过input target
调节目标变量的个数。
Choose Target
功能选择目标特征
在Regressor
功能下选择model
,在Hyper Parameters
中可调节每个算法的超参数
1:
DecisionTreeClassifier
- 决策树2:
LogisticRegression
- 逻辑回归3:
RandomForestClassifier
- 随机森林4:
SupportVectorClassifier
- 支持向量机
集成学习
1:
AdaBoostClassifier
- 自适应提升集成分类2:
BaggingClassifier
- 自主聚合集成分类3:
CatBoostClassifier
- 类别提升集成分类4:
GradientBoosingClassifier
- 梯度提升集成分类5:
LGBMClassifier
- 轻量梯度提升集成分类6:
XGBClassifier
- 极限梯度提升集成分类
data preprocess
中可选择
- StandardScaler
- 标准化
- MinMaxScaler
- 归一化
StandardScaler
- 标准化
均值为0,标准差为1的标准化数学表达式为:
其中\(\mu=\frac{1}{n}\Sigma x_i\),注意此处标准差使用的是总体标准差\(\sigma=\sqrt{\frac{\Sigma(x_i-\mu)^2}{n}}\)
MinMaxScaler
- 归一化
线性归一化数学表达式为:
这种归一化方法比较适用在数值比较集中的情况。这种方法有个缺陷,如果\(max\)和\(min\)不稳定,很容易使得归一化结果不稳定,此时最好选用标准差标准化。
在operator
可选择train test split, cross val score
两种验证模型性能方法。
train test split
:
点击train
按钮,根据所选择的算法和超参数对划分的测试集类别预测,绘制混淆矩阵,并给真值和预测值表格,点击download
可下载。
cross val score
:
可选择交叉验证的折数,推荐5~10折,点击train
按钮,根据所选择的算法和超参数进行类别预测,给出预测结果的R2和真值预测值表格,点击download
可下载。