sklearn

notion image
  • 数据集
  • 数据预处理
  • 特征选择
  • 特征降维
  • 分类模型
  • 回归模型
  • 聚类模型
  • 模型评估
  • 模型优化
 
notion image


sklearn.datasets

  1. 获取小数据集(本地加载):datasets.load_xxx( )
  1. 获取大数据集(在线下载):datasets.fetch_xxx( )
  1. 本地生成数据集(本地构造):datasets.make_xxx( )
  • datasets.all()
    • .all 属性用于检查数组中的所有元素是否都为True。具体来说,在这里它被用于检查 features 数组中的所有元素是否为True,但由于 features 数组不是布尔类型的数组,所以 .all 将返回True,表示所有元素都被视为True。这通常用于检查数组中是否没有零值或空值。
       
notion image
数据集
介绍
load_iris( )
鸢尾花数据集:3类、4个特征、150个样本
load_boston( )
波斯顿房价数据集:13个特征、506个样本
load_digits( )
手写数字集:10类、64个特征、1797个样本
load_breast_cancer( )
乳腺癌数据集:2类、30个特征、569个样本
load_diabets( )
糖尿病数据集:10个特征、442个样本
load_wine( )
红酒数据集:3类、13个特征、178个样本
load_files( )
加载自定义的文本分类数据集
load_linnerud( )
体能训练数据集:3个特征、20个样本
load_sample_image( )
加载单个图像样本
load_svmlight_file( )
加载svmlight格式的数据
make_blobs( )
生成多类单标签数据集
make_biclusters( )
生成双聚类数据集
make_checkerboard( )
生成棋盘结构数组,进行双聚类
make_circles( )
生成二维二元分类数据集
make_classification( )
生成多类单标签数据集
make_friedman1( )
生成采用了多项式和正弦变换的数据集
make_gaussian_quantiles( )
生成高斯分布数据集
make_hastie_10_2( )
生成10维度的二元分类数据集
make_low_rank_matrix( )
生成具有钟形奇异值的低阶矩阵
make_moons( )
生成二维二元分类数据集
make_multilabel_classification( )
生成多类多标签数据集
make_regression( )
生成回归任务的数据集
make_s_curve( )
生成S型曲线数据集
make_sparse_coded_signal( )
生成信号作为字典元素的稀疏组合
make_sparse_spd_matrix( )
生成稀疏堆成的正定矩阵
make_sparse_uncorrelated( )
使用稀疏的不相关设计生成随机回归问题
make_spd_matrix( )
生成随机堆成的正定矩阵
make_swiss_roll( )
生成瑞士卷曲线数据集


数据预处理

notion image
函数
功能
preprocessing.scale( )
标准化
preprocessing.MinMaxScaler( )
最大最小值标准化
preprocessing.StandardScaler( )
数据标准化
preprocessing.MaxAbsScaler( )
绝对值最大标准化
preprocessing.RobustScaler( )
带离群值数据集标准化
preprocessing.QuantileTransformer( )
使用分位数信息变换特征
preprocessing.PowerTransformer( )
使用幂变换执行到正态分布的映射
preprocessing.Normalizer( )
正则化
preprocessing.OrdinalEncoder( )
将分类特征转换为分类数值
preprocessing.LabelEncoder( )
将分类特征转换为分类数值
preprocessing.MultiLabelBinarizer( )
多标签二值化
preprocessing.OneHotEncoder( )
独热编码
preprocessing.KBinsDiscretizer( )
将连续数据离散化
preprocessing.FunctionTransformer( )
自定义特征处理函数
preprocessing.Binarizer( )
特征二值化
preprocessing.PolynomialFeatures( )
创建多项式特征
preprocesssing.Normalizer( )
正则化
preprocessing.Imputer( )
弥补缺失值