连续目标变量回归预测


Prediction模块下,单击Regression按钮。

进入Regression模块,页面弹出如下图所示的.csv文件上传框。


Regression - Data Information模块:

上传数据之后,Data Table功能显示加载所上传的.csv文件的数据,可通过调节rows调整显示的数据表的行数。

Features vs Targets功能显示数据集的特征变量和目标变量,默认.csv文件中的最后一列为目标变量,可通过input target调节目标变量的个数。


Choose Target功能选择目标特征

Regressor功能下选择model,在Hyper Parameters中可调节每个算法的超参数

1:DecisionTreeRegressosr - 决策树

2:KNeighborsRegressor - K紧邻

3:LassoRegressor - Lasso

4:LinearRegressor - 线性回归

5:MLPRegressor - 多层感知机

6:RandomForestRegressor - 随机森林

7:RidgeRegressor - 岭回归

8:SupportRegressor - 支持向量机

集成学习

1:AdaboostRegressosr - 自适应提升集成回归

2:BaggingRegressor - 自主聚合集成回归

3:CatBoostRegressor - 类别提升集成回归

4:GradientBoostingRegressor - 梯度提升集成回归

5:LGBMRegressor - 轻量梯度提升集成回归

6:XGBRegressor - 极限梯度提升集成回归

data preprocess中可选择 - StandardScaler - 标准化 - MinMaxScaler - 归一化

StandardScaler - 标准化

均值为0,标准差为1的标准化数学表达式为:

\[x^*=\frac{x-\mu}{\sigma}\]

其中\(\mu=\frac{1}{n}\Sigma x_i\),注意此处标准差使用的是总体标准差\(\sigma=\sqrt{\frac{\Sigma(x_i-\mu)^2}{n}}\)

MinMaxScaler - 归一化

线性归一化数学表达式为:

\[x^*=\frac{x-min(x)}{max(x)-min(x)}\]

这种归一化方法比较适用在数值比较集中的情况。这种方法有个缺陷,如果\(max\)\(min\)不稳定,很容易使得归一化结果不稳定,此时最好选用标准差标准化。

operator中可选择train test split, cross val score, leave one out三种验证模型性能方法。

  • train test split

点击train按钮,根据所选择的算法和超参数对划分的测试集回归预测,绘制真值和预测值比较图,并给真值和预测值表格,点击download可下载。

  • cross val score

可选择交叉验证的折数,推荐5~10折,点击train按钮,根据所选择的算法和超参数进行回归预测,给出预测结果的R2和真值预测值表格,点击download可下载。

  • leave one out

点击train按钮,根据所选择的算法和超参数进行回归预测,绘制整个数据集真值和预测值比较图,并给真值和预测值表格,点击download可下载。