连续目标变量回归预测
在Prediction
模块下,单击Regression
按钮。
进入Regression模块,页面弹出如下图所示的.csv
文件上传框。
Regression - Data Information
模块:
上传数据之后,Data Table
功能显示加载所上传的.csv
文件的数据,可通过调节rows
调整显示的数据表的行数。
Features vs Targets
功能显示数据集的特征变量和目标变量,默认.csv
文件中的最后一列为目标变量,可通过input target
调节目标变量的个数。
Choose Target
功能选择目标特征
在Regressor
功能下选择model
,在Hyper Parameters
中可调节每个算法的超参数
1:
DecisionTreeRegressosr
- 决策树2:
KNeighborsRegressor
- K紧邻3:
LassoRegressor
- Lasso4:
LinearRegressor
- 线性回归5:
MLPRegressor
- 多层感知机6:
RandomForestRegressor
- 随机森林7:
RidgeRegressor
- 岭回归8:
SupportRegressor
- 支持向量机
集成学习
1:
AdaboostRegressosr
- 自适应提升集成回归2:
BaggingRegressor
- 自主聚合集成回归3:
CatBoostRegressor
- 类别提升集成回归4:
GradientBoostingRegressor
- 梯度提升集成回归5:
LGBMRegressor
- 轻量梯度提升集成回归6:
XGBRegressor
- 极限梯度提升集成回归
data preprocess
中可选择
- StandardScaler
- 标准化
- MinMaxScaler
- 归一化
StandardScaler
- 标准化
均值为0,标准差为1的标准化数学表达式为:
其中\(\mu=\frac{1}{n}\Sigma x_i\),注意此处标准差使用的是总体标准差\(\sigma=\sqrt{\frac{\Sigma(x_i-\mu)^2}{n}}\)
MinMaxScaler
- 归一化
线性归一化数学表达式为:
这种归一化方法比较适用在数值比较集中的情况。这种方法有个缺陷,如果\(max\)和\(min\)不稳定,很容易使得归一化结果不稳定,此时最好选用标准差标准化。
operator
中可选择train test split, cross val score, leave one out
三种验证模型性能方法。
train test split
:
点击train
按钮,根据所选择的算法和超参数对划分的测试集回归预测,绘制真值和预测值比较图,并给真值和预测值表格,点击download
可下载。
cross val score
:
可选择交叉验证的折数,推荐5~10折,点击train
按钮,根据所选择的算法和超参数进行回归预测,给出预测结果的R2和真值预测值表格,点击download
可下载。
leave one out
:
点击train
按钮,根据所选择的算法和超参数进行回归预测,绘制整个数据集真值和预测值比较图,并给真值和预测值表格,点击download
可下载。