连续目标变量回归预测
在Prediction模块下,单击Regression按钮。
进入Regression模块,页面弹出如下图所示的.csv文件上传框。
Regression - Data Information模块:
上传数据之后,Data Table功能显示加载所上传的.csv文件的数据,可通过调节rows调整显示的数据表的行数。
Features vs Targets功能显示数据集的特征变量和目标变量,默认.csv文件中的最后一列为目标变量,可通过input target调节目标变量的个数。
Choose Target功能选择目标特征
在Regressor功能下选择model,在Hyper Parameters中可调节每个算法的超参数
1:
DecisionTreeRegressosr- 决策树2:
KNeighborsRegressor- K紧邻3:
LassoRegressor- Lasso4:
LinearRegressor- 线性回归5:
MLPRegressor- 多层感知机6:
RandomForestRegressor- 随机森林7:
RidgeRegressor- 岭回归8:
SupportRegressor- 支持向量机
集成学习
1:
AdaboostRegressosr- 自适应提升集成回归2:
BaggingRegressor- 自主聚合集成回归3:
CatBoostRegressor- 类别提升集成回归4:
GradientBoostingRegressor- 梯度提升集成回归5:
LGBMRegressor- 轻量梯度提升集成回归6:
XGBRegressor- 极限梯度提升集成回归
data preprocess中可选择
- StandardScaler - 标准化
- MinMaxScaler - 归一化
StandardScaler - 标准化
均值为0,标准差为1的标准化数学表达式为:
其中\(\mu=\frac{1}{n}\Sigma x_i\),注意此处标准差使用的是总体标准差\(\sigma=\sqrt{\frac{\Sigma(x_i-\mu)^2}{n}}\)
MinMaxScaler - 归一化
线性归一化数学表达式为:
这种归一化方法比较适用在数值比较集中的情况。这种方法有个缺陷,如果\(max\)和\(min\)不稳定,很容易使得归一化结果不稳定,此时最好选用标准差标准化。
operator中可选择train test split, cross val score, leave one out三种验证模型性能方法。
train test split:
点击train按钮,根据所选择的算法和超参数对划分的测试集回归预测,绘制真值和预测值比较图,并给真值和预测值表格,点击download可下载。
cross val score:
可选择交叉验证的折数,推荐5~10折,点击train按钮,根据所选择的算法和超参数进行回归预测,给出预测结果的R2和真值预测值表格,点击download可下载。
leave one out:
点击train按钮,根据所选择的算法和超参数进行回归预测,绘制整个数据集真值和预测值比较图,并给真值和预测值表格,点击download可下载。