特征工程
特征变量缺失值处理
Feature Engineering模块-Missing Features
丢弃特征变量缺失值
单击Drop Missing Fearures
按钮,上传.csv
文件之后,可以在Drop Missing Features
功能下拉动Missing Threshold
进度条,选择丢弃的缺失值特征的阈值,点击download
可下载处理之后的数据。
填补特征变量缺失值
单击Fill Missing Features
按钮,上传.csv
文件之后,可以在Fill Missing Features
功能下进行缺失值数据填补。fill method
选择填补方法,missing feature
选择填补的特征,可以选择多个特征。
fill method
-fill in normal method
中可以选择mean, constant, median, most frequent
特征均值、常数(默认为0),中位数和众数四种填补方式。
fill method
-fill in RandomForestRegression
中使用随机森林算法进行所有特征的空缺值填补,其中mean, constant, median, most frequent
表示随机森林训练时填补特征的方式。
点击download
可下载处理之后的数据。
特征变量唯一值处理
在Feature Engineering模块- Drop Nunique Features
模块下:
单击Drop Nuniqe Fearures
按钮,上传.csv
文件之后,在Drop Nunqiue Features
功能下拉动drop unique counts
进度条,选择丢弃的数值唯一性的特征的阈值,count=1
代表丢弃数值在所有样本中都相同的特征,count=2
代表丢弃数值在所有样本中只有两个值的特征,依次类推count=3...
,在drop unique counts
进度条下方的nunqiue
表格中显示特征唯一值的统计数量。右侧表格显示处理之后的数据,点击download
可下载。
Plot
扩展栏中绘制了特征数据唯一值数量统计直方图,可调节图像的颜色、字体、标题和刻度大小
特征变量与目标变量相关性
在Feature Engineering模块- Correlation of Features vs Targets
模块下:
点击Drop Low Correlation Features vs Target
按钮, 上传.csv
文件之后,在Drop Low Correlation Features vs Target
功能下choose target
选择目标变量,显示特征与所选择目标的相关性横向直方图。correlation method
中选择相关性方法中选择pearson,spearman,kendall,MIR
皮尔森相关性系数、斯皮尔曼相关性系数、肯德尔相关性系数(类别变量)、互信息方法。corr thershold f_t
进度条中选择特征数据和目标的相关性阈值,低于阈值的特征将被丢弃。Processed Data
中可点击download
下载处理之后的数据。
特征变量与特征变量相关性
在Feature Engineering模块- Correlation of Features vs Features
模块下:
点击Drop Collinear Features
按钮, 上传.csv
文件之后,在Drop Collinear Features
功能下choose target
选择目标变量,显示特征与所选择目标的相关性系数热力图。correlation method
中选择相关性方法中选择pearson,spearman,kendall,
皮尔森相关性系数、斯皮尔曼相关性系数、肯德尔相关性系数(类别变量)。在correlation threshold
进度条中选择特征数据和特征数据之间的相关性阈值,高于阈值的两个特征将被筛选出来,丢弃其中与目标相关性更低的特征。在Processed Data
中可点击download
下载处理之后的数据。is mask
功能选择是否将热力图进行掩码展示。drop features
中显示丢弃的特征。Processed Data
中可点击download
下载处理之后的数据。
类别特征变量one-hot编码
在Feature Engineering模块- One-hot Encoding Features
模块下:
点击One-hot Encoding
按钮,上传.csv
文件之后,在One-hot encoding Features
中将会显示one-hot编码之后的数据,如类别特征Sex
中值female
和male
将被转换为0,1
和1,0
,并删除旧特征Sex
,创建新特征Sex_female
和Sex_male
添加到数据集中。Processed Data
中可点击download
下载处理之后的数据。
特征变量重要性排序
在Feature Engineering模块- Features Importance
模块下:
点击Feature Importance
按钮,上传.csv
文件之后,在Choose Target
功能下选择目标特征。在Selector
功能下选择model
,其中RandomForestClassifier
负责分类目标数据的特征重要性排序。LassoRegressor, LinearRegressor,RandomForestRegressor, RidgeRegressor
负责连续目标数据的特征重要性排序。Hyper Parameters
中选择不同算法的超参数,cumulative importance
选择按照特征重要性从大到小排列加和的阈值,舍弃阈值之后的特征。点击Embedded method
将使用嵌入法按照特征从到小的顺序依次添加训练模型,可视化不同重要性的特征对模型的影响,cv
可选择交叉验证的折数。
点击train
按钮,根据所选择的算法和超参数进行特征重要性排序,给出特征重要性计算表格,并绘制特征重要性直方图。Processed Data
中可下载经过dropped zero importance
的数据和经过dropped low importance
的数据。