特征工程


特征变量缺失值处理

Feature Engineering模块-Missing Features

丢弃特征变量缺失值

单击Drop Missing Fearures按钮,上传.csv文件之后,可以在Drop Missing Features功能下拉动Missing Threshold进度条,选择丢弃的缺失值特征的阈值,点击download可下载处理之后的数据。

填补特征变量缺失值

单击Fill Missing Features按钮,上传.csv文件之后,可以在Fill Missing Features功能下进行缺失值数据填补。fill method 选择填补方法,missing feature选择填补的特征,可以选择多个特征。 fill method-fill in normal method中可以选择mean, constant, median, most frequent特征均值、常数(默认为0),中位数和众数四种填补方式。

fill method-fill in RandomForestRegression中使用随机森林算法进行所有特征的空缺值填补,其中mean, constant, median, most frequent表示随机森林训练时填补特征的方式。 点击download可下载处理之后的数据。

特征变量唯一值处理


Feature Engineering模块- Drop Nunique Features模块下:

单击Drop Nuniqe Fearures按钮,上传.csv文件之后,在Drop Nunqiue Features功能下拉动drop unique counts进度条,选择丢弃的数值唯一性的特征的阈值,count=1代表丢弃数值在所有样本中都相同的特征,count=2代表丢弃数值在所有样本中只有两个值的特征,依次类推count=3...,在drop unique counts进度条下方的nunqiue表格中显示特征唯一值的统计数量。右侧表格显示处理之后的数据,点击download可下载。 Plot扩展栏中绘制了特征数据唯一值数量统计直方图,可调节图像的颜色、字体、标题和刻度大小

特征变量与目标变量相关性


Feature Engineering模块- Correlation of Features vs Targets模块下: 点击Drop Low Correlation Features vs Target按钮, 上传.csv文件之后,在Drop Low Correlation Features vs Target功能下choose target选择目标变量,显示特征与所选择目标的相关性横向直方图。correlation method中选择相关性方法中选择pearson,spearman,kendall,MIR 皮尔森相关性系数、斯皮尔曼相关性系数、肯德尔相关性系数(类别变量)、互信息方法。corr thershold f_t进度条中选择特征数据和目标的相关性阈值,低于阈值的特征将被丢弃。Processed Data中可点击download下载处理之后的数据。

特征变量与特征变量相关性


Feature Engineering模块- Correlation of Features vs Features模块下:

点击Drop Collinear Features按钮, 上传.csv文件之后,在Drop Collinear Features功能下choose target选择目标变量,显示特征与所选择目标的相关性系数热力图。correlation method中选择相关性方法中选择pearson,spearman,kendall, 皮尔森相关性系数、斯皮尔曼相关性系数、肯德尔相关性系数(类别变量)。在correlation threshold进度条中选择特征数据和特征数据之间的相关性阈值,高于阈值的两个特征将被筛选出来,丢弃其中与目标相关性更低的特征。在Processed Data中可点击download下载处理之后的数据。is mask功能选择是否将热力图进行掩码展示。drop features中显示丢弃的特征。Processed Data中可点击download下载处理之后的数据。

类别特征变量one-hot编码


Feature Engineering模块- One-hot Encoding Features模块下: 点击One-hot Encoding按钮,上传.csv文件之后,在One-hot encoding Features中将会显示one-hot编码之后的数据,如类别特征Sex中值femalemale将被转换为0,11,0,并删除旧特征Sex,创建新特征Sex_femaleSex_male添加到数据集中。Processed Data中可点击download下载处理之后的数据。

特征变量重要性排序


Feature Engineering模块- Features Importance模块下: 点击Feature Importance按钮,上传.csv文件之后,在Choose Target功能下选择目标特征。在Selector功能下选择model,其中RandomForestClassifier负责分类目标数据的特征重要性排序。LassoRegressor, LinearRegressor,RandomForestRegressor, RidgeRegressor负责连续目标数据的特征重要性排序。Hyper Parameters中选择不同算法的超参数,cumulative importance选择按照特征重要性从大到小排列加和的阈值,舍弃阈值之后的特征。点击Embedded method将使用嵌入法按照特征从到小的顺序依次添加训练模型,可视化不同重要性的特征对模型的影响,cv可选择交叉验证的折数。 点击train按钮,根据所选择的算法和超参数进行特征重要性排序,给出特征重要性计算表格,并绘制特征重要性直方图。Processed Data中可下载经过dropped zero importance的数据和经过dropped low importance的数据。