sklearn API 文档 - 0.18 中文翻译-白红宇

sklearn API 文档 - 0.18 中文翻译

阅读量：5971 次

发布时间：2019-06-19

本文共 17642 字，大约阅读时间需要 58 分钟。

所有函数和类的确切API，由docstrings给出。API会为所有功能提供预期类型和允许的功能，以及可用于的所有参数。

原文链接 :

译文链接 :

贡献者 :

这是scikit学习的类和函数参考。有关详细信息，请参阅，因为类和功能原始规格可能不足以给出其使用的完整指导。

: Base classes and utility functions（基类和效用函数）

所有估计量的基类。

基础类

	scikit学习中所有估计的基础类
	所有分类器的混合类在scikit学习
	所有聚类估计器的混合类在scikit学习中
	所有回归估计器的混合类在scikit学习
	所有变压器的混合类在scikit学习

函数

(estimator[, safe])

构造具有相同参数的新估计器

: Clustering（聚类）

该模块收集流行的无监督聚类算法。

用户指南：有关详细信息，请参阅“ 部分。

类

([damping, ...])	执行亲和度传播数据聚类
([...])	集聚聚类
([threshold, branching_factor, ...])	实现Birch聚类算法
([eps, min_samples, metric, ...])	从矢量阵列或距离矩阵执行DBSCAN聚类
([n_clusters, ...])	聚集特征
([n_clusters, init, n_init, ...])	K均值聚类
([n_clusters, init, ...])	小批量K均值聚类
([bandwidth, seeds, ...])	使用平坦内核的平均移位聚类
([n_clusters, ...])	将聚类应用于对规范化拉普拉斯算子的投影

函数

(X[, quantile, ...])	估计与平均移位算法一起使用的带宽
(X, n_clusters[, init, ...])	K均值聚类算法
(X[, connectivity, ...])	基于特征矩阵的区域聚类
(S[, ...])	执行亲和度传播数据聚类
(X[, eps, min_samples, ...])	从矢量阵列或距离矩阵执行DBSCAN聚类
(X[, bandwidth, seeds, ...])	使用平坦的内核执行数据的平均移位聚类
(affinity[, ...])	将聚类应用于对规范化拉普拉斯算子的投影

: Biclustering（双聚类）

光谱双聚类算法。

作者：Kemal Eren许可证：BSD 3条款

用户指南：有关详细信息，请参阅部分。

类

([n_clusters, method, ...])	光谱双聚类（Kluger，2003）
([n_clusters, ...])	光谱共聚焦算法（Dhillon，2001）

: Covariance Estimators（协方差估计）

该模块包括方法和算法，以鲁棒地估计给定一组点的特征的协方差。定义为协方差的倒数的精度矩阵也被估计。协方差估计与高斯图形模型的理论密切相关。

用户指南：有关详细信息，请参见部分。

([...])	最大似然协方差估计
([...])	用于检测高斯分布数据集中异常值的对象
([alpha, mode, tol, ...])	具有l1惩罚估计量的稀疏逆协方差估计
([alphas, ...])	稀疏逆协方差与交叉验证的l1罚款的选择
([store_precision, ...])	LedoitWolf估计
([store_precision, ...])	最小协方差决定因素（MCD）：协方差的robust估计
([store_precision, ...])	Oracle近似收缩估计
([...])	协变量估计与收缩

(X[, ...])	计算最大似然协方差估计
(X[, assume_centered, ...])	估计缩小的Ledoit-Wolf协方差矩阵
(emp_cov[, ...])	计算对角线上收缩的协方差矩阵
(X[, assume_centered])	使用Oracle近似收缩算法估计协方差
(emp_cov, alpha[, ...])	l1惩罚协方差估计

: Model Selection（模型选择）

用户指南：请参阅，和部分以获取更多详细信息。

分割器类

([n_splits, shuffle, ...])	K-折叠交叉验证器
([n_splits])	具有非重叠组的K-fold迭代器变体
([n_splits, ...])	分层K-折叠交叉验证器
()	离开一组交叉验证器
(n_groups)	离开P组交叉验证器
()	一次性交叉验证器
(p)	Leave-P-Out交叉验证器
([n_splits, ...])	随机置换交叉验证器
([...])	随机组 - 交叉验证迭代器
([...])	分层ShuffleSplit交叉验证器
(test_fold)	预定义分裂交叉验证器
([n_splits])	时间序列交叉验证器

分割函数

(\*arrays, ...)	将阵列或矩阵拆分成随机列和测试子集
([cv, y, classifier])	用于构建交叉验证器的输入检查器实用程序

超参数优化

(estimator, ...)	对估计器的指定参数值进行详尽搜索
(...[, ...])	随机搜索超参数
(param_grid)	每个参数的网格具有离散数量的值
(...[, ...])	发电机对从给定分布采样的参数

(X, y, ...[, ...])

适合一组参数

模型验证

(estimator, X)	通过交叉验证评估分数
(estimator, X)	为每个输入数据点生成交叉验证的估计
(...)	评估具有置换的交叉验证分数的意义
(estimator, X, y)	学习曲线
(estimator, ...)	验证曲线

: Datasets（数据集）

该模块包括用于加载数据集的实用程序，包括加载和获取流行参考数据集的方法。它还具有一些人工数据生成器。

用户指南：有关详细信息，请参阅部分。

装载机

([data_home])	删除数据家庭缓存的所有内容
([data_home])	返回scikit-learn数据目录的路径
([data_home, ...])	加载20个新闻组数据集中的文件名和数据
([...])	加载20个新闻组数据集并将其转换为tf-idf向量
([return_X_y])	加载并返回波士顿房价数据集（回归）
([return_X_y])	加载并返回乳腺癌威斯康星数据集（分类）
([return_X_y])	加载并返回糖尿病数据集（回归）
([n_class, return_X_y])	加载并返回数字数据集（分类）
(container_path[, ...])	加载具有子文件夹名称类别的文本文件
([return_X_y])	加载并返回虹膜数据集（分类）
([subset, ...])	在野外（LFW）对数据集中的标记面的装载程序
([data_home, ...])	野外（LFW）人物数据集中的标记面的装载程序
([return_X_y])	加载并返回linnerud数据集（多元回归）
(dataname)	转换文件名中的数据集的原始名称
(dataname[, ...])	获取数据集
([data_home, ...])	Olivetti的装载机面向AT＆T的数据集
([...])	来自StatLib的加州住房数据集的装载机
([data_home, ...])	加载封面类型数据集，必要时下载
([subset, shuffle, ...])	加载并返回kddcup 99数据集（分类）
([data_home, subset, ...])	加载RCV1 multilabel数据集，必要时下载
(name_or_id[, set_, ...])	加载从下载的数据集
(image_name)	加载单个样本图像的numpy数组
()	加载样品图像进行图像处理
([...])	来自Phillips等的物种分布数据集的装载机
(f[, n_features, ...])	将svmlight / libsvm格式的数据集加载到稀疏的CSR矩阵中
(files[, ...])	从SVMlight格式的多个文件加载数据集
(X, y, f[, ...])	以svmlight / libsvm文件格式转储数据集

样本生成器

([n_samples, n_features, ...])	生成用于聚类的各向同性高斯斑点
([n_samples, ...])	生成随机n类分类问题
([n_samples, shuffle, ...])	在2d中制作一个包含较小圆的大圆
([n_samples, ...])	产生“Friedman＃1”回归问题
([n_samples, noise, ...])	产生“Friedman＃2”回归问题
([n_samples, noise, ...])	产生“Friedman＃3”回归问题
([mean, ...])	通过分位数生成各向同性高斯和标签样本
([n_samples, ...])	生成Hastie等人使用的二进制分类数据
([n_samples, ...])	生成具有钟形奇异值的大多数低阶矩阵
([n_samples, shuffle, ...])	使两个交错半圈
([...])	产生一个随机多标签分类问题
([n_samples, ...])	产生随机回归问题
([n_samples, noise, ...])	生成S曲线数据集
(n_samples, ...)	生成信号作为字典元素的稀疏组合
([dim, ...])	产生一个稀疏的对称确定正矩阵
([...])	生成稀疏不相关设计的随机回归问题
(n_dim[, random_state])	产生一个随机对称，正定矩阵
([n_samples, noise, ...])	生成瑞士卷数据集
(shape, n_clusters)	生成一个具有恒定块对角线结构的阵列，用于二聚体
(shape, n_clusters)	生成具有块棋盘结构的数组，用于双向聚集

: Matrix Decomposition（矩阵分解）

该模块包括矩阵分解算法，其中包括PCA，NMF或ICA。该模块的大多数算法可以被认为是降维技术。

用户指南：有关详细信息，请参阅的部分。

([n_components, copy, ...])	主成分分析（PCA）
([n_components, ...])	增量主成分分析（IPCA）
(\*args, ...)	非负矩阵因子分解（NMF）
([n_components, ...])	内核主成分分析（KPCA）
([n_components, ...])	因子分析（FA）
([n_components, ...])	FastICA：独立分量分析的快速算法。
([n_components, ...])	使用截断的SVD（也称为LSA）进行尺寸缩小
([n_components, init, ...])	非负矩阵因子分解（NMF）
([n_components, ...])	稀疏主成分分析（SparsePCA）
([...])	小批量稀疏主成分分析
(dictionary[, ...])	稀疏编码
([...])	词典学习
([...])	小批量字典学习
([...])	潜在的Dirichlet分配与在线变分贝叶斯算法

(X[, n_components, ...])	执行快速独立成分分析
(X, n_components, ...)	解决词典学习矩阵分解问题
(X[, ...])	在线解决词典学习矩阵分解问题
(X, dictionary[, ...])	稀疏编码

: Dummy estimators（虚拟估计）

用户指南：有关详细信息，请参阅部分部分。

([strategy, ...])	DummyClassifier是使用简单规则进行预测的分类器
([strategy, constant, ...])	DummyRegressor是使用简单规则进行预测的倒数

: Ensemble Methods（集成方法）

该模块包括用于分类，回归和异常检测的基于集成的方法。

用户指南：有关详细信息，请参阅“ ”部分。

([...])	一个AdaBoost分类器
([base_estimator, ...])	AdaBoost回归器
([base_estimator, ...])	Bagging分类器
([base_estimator, ...])	Bagging回归器
([...])	一个额外的树分类器
([n_estimators, ...])	一个额外的树回归器
([loss, ...])	梯度提升分类
([loss, ...])	渐变提升回归
([n_estimators, ...])	隔离森林算法
([...])	随机森林分类器
([...])	一个完全随机的树的集成
([...])	随机森林回归器
(estimators[, ...])	软投票/多数规则分类器

部分依赖

树组合的部分依赖图

(...)	部分依赖`target_variables`
(...)	部分依赖图`features`

: Exceptions and warnings（异常和警告）

该模块包括在scikit学习中使用的所有自定义警告和错误类。

	如果在拟合前使用估计器，则提升异常类
	用于通知用户任何行为变化的警告类
	捕捉收敛问题的自定义警告
	警告用于通知代码中发生的隐式数据转换
	自定义警告，以通知数据维度的潜在问题
	用于通知用户效率低下的警告
	如果在拟合估计器时出现错误，则使用警告类
	点操作不使用BLAS时使用的警告
	度量无效时使用的警告

: Feature Extraction（特征提取）

该模块处理原始数据的特征提取。它目前包括从文本和图像中提取特征的方法。

用户指南：有关详细信息，请参阅部分。

([dtype, ...])	将特征值映射列表转换为向量
([...])	实现哈希功能，又称哈希技巧

从图像

该子模块收集实用程序从图像中提取特征。

(img[, ...])	像素到像素梯度连接的图形
(n_x, n_y)	像素到像素连接的图形
(...)	将2D图像重新整理成一组补丁
(...)	从所有补丁重构图像
([...])	从图像集中提取补丁

从文本

该子模块收集实用程序从文本文档建立特征向量。

([...])	将文本文档的集合转换为令牌计数矩阵
([...])	将文本文档的集合转换为令牌发生的矩阵
([...])	将计数矩阵转换为标准化的tf或tf-idf表示
([...])	将原始文档的集合转换为TF-IDF功能的矩阵

: Feature Selection（特征选择）

该模块实现特征选择算法。它目前包括单变量筛选方法和递归特征消除算法。

用户指南：有关详细信息，请参阅部分。

([...])	具有可配置策略的单变量特征选择器
([...])	根据最高分数百分位数选择功能
([score_func, k])	根据k最高分选择功能
([score_func, alpha])	过滤器：根据FPR测试选择低于alpha的p值
([score_func, alpha])	过滤器：为估计的错误发现率选择p值
(estimator)	元变压器，用于根据重要性权重选择特征
([score_func, alpha])	过滤器：选择对应于同系误差率的p值
(estimator[, ...])	功能排序与递归功能消除
(estimator[, step, ...])	功能排序与递归功能消除和交叉验证选择最佳数量的功能
([threshold])	功能选择器可删除所有低方差特征

(X, y)	计算每个非负特征和类之间的平方统计
(X, y)	计算提供的样本的方差分析F值
(X, y[, center])	单变量线性回归测试
(X, y)	估计离散目标变量的互信息
(X, y)	估计连续目标变量的互信息

: Gaussian Processes（高斯过程）

该模块实现了基于高斯过程的回归和分类。

用户指南：有关详细信息，请参阅部分。

([...])	高斯过程回归（GPR）
([...])	基于拉普拉斯逼近的高斯过程分类（GPC）

内核:

	所有内核的基类
(k1, k2)	两个内核k1和k2的和核k1 + k2
(k1, k2)	两个内核k1和k2的产品内核k1 * k2
(...)	通过给定指数来指定内核
([...])	恒定内核
([...])	白内核
([length_scale, ...])	径向基函数核（又称平方指数核）
([...])	Matern 内核.
([...])	理性二次内核
([...])	正弦平方内核
([...])	Dot-Product内核
([...])	在sklearn.metrics.pairwise中的内核包装器
(kernels)	内核由一组其他内核组成
	内核超参数的指定形式为namedtuple

: Isotonic regression（等式回归）

用户指南：有关详细信息，请参阅部分。

([y_min, y_max, ...])

等渗回归模型

(y[, ...])	求解等渗回归模型:
(x, y)	确定y是否与x单调相关

Kernel Approximation（内核近似）

该模块基于傅里叶变换实现几个近似核特征图。

用户指南：有关更多详细信息，请参阅部分。

([...])	加性chi2核的近似特征图
([kernel, ...])	使用训练数据的子集近似一个内核映射
([gamma, ...])	通过其傅立叶变换的Monte Carlo近似近似RBF核的特征图
([...])	通过其傅立叶变换的蒙特卡罗近似近似的“偏斜卡方”核的特征图

Kernel Ridge Regression（内核岭回归）

模块实现内核脊回归。

用户指南：有关更多详细信息，请参阅部分。

([alpha, kernel, ...])

内核岭回归

: Discriminant Analysis（判别分析）

线性判别分析和二次判别分析

用户指南：有关详细信息，请参阅部分。

([...])	线性判别分析
([...])	二次判别分析

: Generalized Linear Models（广义线性模型）

该模块实现广义线性模型。它包括利用最小角度回归和坐标下降计算的岭回归，贝叶斯回归，套索和弹性网估计。它还实现随机梯度下降相关算法。

用户指南：有关详细信息，请参阅“ 一节。

([n_iter, tol, ...])	贝叶斯ARD回归
([n_iter, tol, ...])	贝叶斯脊回归
([alpha, l1_ratio, ...])	线性回归与组合L1和L2先验作为正则化器
([l1_ratio, eps, ...])	弹性网模型沿正则化路径迭代拟合
([epsilon, ...])	线性回归模型，对离群值是robust
([fit_intercept, verbose, ...])	最小角度回归模型
([fit_intercept, ...])	交叉验证的最小二乘回归模型
([alpha, fit_intercept, ...])	线性模型训练用L1作为矫正器（又名拉索）
([eps, n_alphas, ...])	拉索线性模型，沿正则化路径迭代拟合
([alpha, ...])	Lasso模型也适合最小角度回归
([fit_intercept, ...])	使用LARS算法进行交叉验证的Lasso
([criterion, ...])	Lasso模型适合Lars使用BIC或AIC进行型号选择
([...])	普通最小二乘线性回归
([penalty, ...])	Logistic回归（又名logit，MaxEnt）分类器
([Cs, ...])	Logistic回归CV（又名logit，MaxEnt）分类器
([alpha, ...])	用L1 / L2混合规范训练的多任务Lasso模型作为正则化器
([alpha, ...])	用L1 / L2混合规范训练的多任务ElasticNet模型作为正则化程序
([eps, ...])	多任务L1 / L2 Lasso内置交叉验证
([...])	多任务L1 / L2 ElasticNet内置交叉验证
([...])	正交匹配追踪模型（OMP）
([...])	交叉验证的正交匹配追踪模型（OMP）
([...])	被动侵略分类器
([C, ...])	被动侵略者
([penalty, alpha, ...])	在“ 阅读更多内容。
([alpha, ...])	随机拉索
([...])	随机逻辑回归
([...])	RANSAC（RANdom SAmple Consensus）算法
([alpha, fit_intercept, ...])	具有l2正则化的线性最小二乘法
([alpha, ...])	分类器使用Ridge回归
([alphas, ...])	里奇分类器内置交叉验证
([alphas, ...])	里奇回归与内置交叉验证
([loss, penalty, ...])	线性分类器（SVM，逻辑回归，ao）与SGD训练
([loss, penalty, ...])	通过使用SGD最小化正则化经验损失拟合的线性模型
([...])	Theil-Sen估计：强大的多变量回归模型

(X, y[, Xy, Gram, ...])	使用LARS算法计算最小角度回归或套索路径[1]
(X, y[, eps, ...])	计算具有坐标下降的Lasso路径
(X, y[, ...])	基于随机拉索估计的稳定性路径
(X, y)	为正则化参数列表计算逻辑回归模型
(X, y[, ...])	正交匹配追踪（OMP）
(Gram, Xy[, ...])	革命正交匹配追踪（OMP）

: Manifold Learning（歧管学习）

该模块实现数据嵌入技术。

用户指南：有关详细信息，请参阅部分。

([...])	局部线性嵌入
([n_neighbors, n_components, ...])	Isomap嵌入
([n_components, metric, n_init, ...])	多维缩放
([n_components, ...])	用于非线性维数降低的光谱嵌入
([n_components, perplexity, ...])	t分布随机相邻嵌入

(X, ...[, ...])	对数据进行局部线性嵌入分析
(adjacency[, ...])	将样本投影在拉普拉斯算子的第一个特征向量上

: Metrics（指标）

有关详细信息，请参阅用户指南部分部分和部分。

该模块包括分数函数，性能度量和成对度量和距离计算。

选型接口

有关详细信息，请参阅用户指南的部分。

(score_func[, ...])	从表现指标或损失函数中取得记分员
(scoring)

分类度量

有关详细信息，请参阅用户指南的“ 部分。

(y_true, y_pred[, ...])	准确度分级得分
(x, y[, reorder])	曲线下的计算面积（AUC）使用梯形规则
(y_true, y_score)	从预测分数计算平均精度（AP）
(y_true, y_prob[, ...])	计算Brier分数
(y_true, y_pred)	构建一个显示主要分类指标的文本报告
(y1, y2[, labels, ...])	科恩的kappa：衡量标注者间协议的统计
(y_true, y_pred[, ...])	计算混淆矩阵来评估分类的准确性
(y_true, y_pred[, labels, ...])	计算F1分数，也称为平衡F分数或F度量
(y_true, y_pred, beta[, ...])	计算F-beta分数
(y_true, y_pred[, ...])	计算平均汉明损失
(y_true, pred_decision[, ...])	平均铰链损失（非正规化）
(y_true, y_pred)	Jaccard相似系数得分
(y_true, y_pred[, eps, ...])	对数损失，又称物流损失或交叉熵损失
(y_true, y_pred[, ...])	计算二进制类的马修斯相关系数（MCC）
(y_true, ...)	计算不同概率阈值的 precision-recall 对
(...)	计算每个课程的precision，recall，F度量和支持
(y_true, y_pred[, ...])	计算precision
(y_true, y_pred[, ...])	计算recall
(y_true, y_score[, ...])	曲线下的计算面积（AUC）来自预测分数
(y_true, y_score[, ...])	计算接收器工作特性（ROC）
(y_true, y_pred[, ...])	零分类损失

回归指标

有关详细信息，请参阅用户指南的“”部分。

(y_true, y_pred)	解释方差回归分数函数
(y_true, y_pred)	平均绝对误差回归损失
(y_true, y_pred[, ...])	均方误差回归损失
(y_true, y_pred)	中值绝对误差回归损失
(y_true, y_pred[, ...])	R^2（测定系数）回归分数函数

多标签排名指标

有关更多详细信息，请参阅用户指南的“ 部分。

(y_true, y_score[, ...])	覆盖误差测量
(...)	计算基于排名的平均精度
(y_true, y_score)	计算排名损失量

聚类指标

有关详细信息，请参阅用户指南的部分。

该子模块包含了聚类分析的结果评价指标。有两种形式的评估：

监督，它为每个样本使用地面真值类别值。

无监督，不对和衡量模型本身的“质量”。

(...)	两个集群之间调整的相互信息
(labels_true, ...)	兰德指数调整机会
(X, labels)	计算Calinski和Harabaz得分
(labels_true, ...)	给定一个地面真相的集群标签的完整度量
(labels_true, ...)	测量一组点的两个聚类的相似度
(...)	一次计算同质性和完整性和V-Measure分数
(labels_true, ...)	给出了一个地面事实的集群标签的均匀性度量
(labels_true, ...)	两个集群之间的相互信息
(...)	两个集群之间的归一化互信息
(X, labels[, ...])	计算所有样本的平均轮廓系数
(X, labels[, metric])	计算每个样本的剪影系数
(labels_true, labels_pred)	V-measure集群标签给出了一个基本的真相

二聚体指标

有关详细信息，请参阅用户指南的部分。

(a, b[, similarity])

两组双核的相似性

成对指标

有关更多详细信息请参阅用户指南的“ 部分。

(X[, Y])	计算X和Y中观测值之间的加性卡方核
(X[, Y, gamma])	计算指数卡方核X和Y
()	pairwise_distances的有效指标
(X[, Y, ...])	考虑X（和Y = X）的行作为向量，计算每对向量之间的距离矩阵
()	pairwise_kernels的有效指标
(X[, Y])	计算X和Y之间的线性内核
(X[, Y, ...])	计算X和Y中向量之间的L1距离
(X[, Y, ...])	从矢量数组X和可选Y计算距离矩阵
(X[, Y, ...])	计算阵列X和可选阵列Y之间的内核
(X[, Y, ...])	计算X和Y之间的多项式内核
(X[, Y, gamma])	计算X和Y之间的rbf（高斯）内核
(X[, Y, ...])	计算X和Y之间的S形内核
(X[, Y, ...])	计算X和Y中样本之间的余弦相似度
(X[, Y])	计算X和Y中样本之间的余弦距离
(X[, Y, gamma])	计算X和Y之间的拉普拉斯核
(X[, Y, metric, ...])	从矢量数组X和可选Y计算距离矩阵
(X, Y[, ...])	计算一点与一组点之间的最小距离
(X, Y)	计算一点与一组点之间的最小距离
(X, Y)	计算X与Y之间的配对欧氏距离
(X, Y)	计算X和Y中向量之间的L1距离
(X, Y)	计算X和Y之间的配对余弦距离
(X, Y[, metric])	计算X和Y之间的配对距离

: Gaussian Mixture Models（高斯混合模型）

该模块实现混合建模算法。

用户指南：有关详细信息，请参阅部分。

([n_components, ...])	高斯混合
([...])	高斯混合变分贝叶斯估计

: Multiclass and multilabel classification（多类和多标签分类）

多类和多标签分类策略

该模块实现了多类学习算法：

one-vs-the-rest / one-vs-all

one-vs-one

纠错输出代码

该模块中提供的估计量是元估计器：它们需要在其构造函数中提供基本估计器。例如，可以使用这些估计器将二进制分类器或回归器转换为多类分类器。也可以将这些估计器与多类估计器一起使用，希望它们的准确性或运行时性能得到改善。

scikit-learn中的所有分类器实现多类分类; 您只需要使用此模块即可尝试使用自定义多类策略。

一对一的元分类器也实现了一个predict_proba方法，只要这种方法由基类分类器实现即可。该方法在单个标签和多重标签的情况下返回类成员资格的概率。注意，在多重标签的情况下，概率是给定样本落在给定类中的边际概率。因此，在多标签情况下，这些概率在一个给定样本的所有可能的标签的总和不会和为1，因为他们在单个标签的情况下做的。

用户指南：有关详细信息，请参阅部分。

(estimator[, ...])	One-vs-the-rest (OvR) 多类/多标签策略
(estimator[, ...])	One-vs-one 多类策略
(estimator[, ...])	（错误校正）输出代码多类策略

: Multioutput regression and classification（多输出回归和分类）

该模块实现多输出回归和分类。

该模块中提供的估计量是元估计器：它们需要在其构造函数中提供基本估计器。元估计器将单输出估计器扩展到多输出估计器。

用户指南：有关详细信息，请参阅部分。

(estimator)	多目标回归
(estimator)	多目标分类

: Naive Bayes（朴素贝叶斯）

该模块实现朴素贝叶斯算法。这些是基于应用贝叶斯定理与强（天真）特征独立假设的监督学习方法。

用户指南：有关详细信息，请参阅“ 部分。

([priors])	高斯朴素贝叶斯（GaussianNB）
([alpha, ...])	朴素贝叶斯分类器多项式模型
([alpha, binarize, ...])	朴素贝叶斯分类器多变量伯努利模型

: Nearest Neighbors（最近邻）

该模块实现了k-最近邻居算法。

用户指南：有关更多详细信息，请参阅部分。

([n_neighbors, ...])	无监督学习者实施邻居搜索
([...])	执行k-最近邻居的分类器投票
([...])	分类器在给定半径内的邻居中执行投票
([n_neighbors, ...])	基于k最近邻的回归
([radius, ...])	基于固定半径内的邻居的回归
([metric, ...])	最重心分类器
	BallTree用于快速泛化N点问题
	KDTree用于快速泛化的N点问题
([n_estimators, radius, ...])	使用LSH森林执行近似最近邻搜索
	DistanceMetric类
([bandwidth, ...])	核密度估计

(X, n_neighbors[, ...])	计算X中k个邻居的（加权）图
(X, radius)	计算X中的点的邻居的（加权）图

: Neural network models（神经网络模型）

该模块包括基于神经网络的模型。

用户指南：有关详细信息，请参阅和部分。

([n_components, ...])	伯努利限制玻尔兹曼机（RBM）
([...])	多层感知器分类器
([...])	多层感知器回归

: Probability Calibration（概率校准）

校准预测概率。

用户指南：有关详细信息，请参阅部分。

([...])	等渗回归或乙状结构的概率校准
(y_true, y_prob)	计算校准曲线的真实和预测概率

: Cross decomposition（交叉分解）

用户指南：有关详细信息，请参阅部分。

([...])	PLS回归
([...])	PLSCanonical实现了原始Wold算法的2块规范PLS [Tenenhaus 1998] p.204，在[Wegelin 2000]中被称为PLS-C2A
([n_components, ...])	CCA规范相关分析
([n_components, ...])	部分最小二乘SVD

: Pipeline（管道）

该模块实现实用程序来构建复合估计器，作为变换链和估计器链。

(steps)	最终估计量的变换管道
(transformer_list[, ...])	连接多个变压器对象的结果
(\*steps)	从给定的估计量构建管道
(\*transformers)	从给定的变压器构造一个FeatureUnion

: Preprocessing and Normalization（预处理和规范化）

该模块包括缩放，定心，归一化，二值化和插补方法。

用户指南：有关详细信息，请参阅部分。

([threshold, copy])	根据阈值对数据进行二值化（将特征值设置为0或1）
([func, ...])	从任意可调用的构造一个变压器
([missing_values, ...])	用于完成缺失值的插补变压器
	中心一个内核矩阵
([neg_label, ...])	以一对一的方式对标签进行二值化
	在0和n_classes-1之间编码标签
([classes, ...])	在迭代迭代和多标签格式之间进行转换
([copy])	按每个特征的最大绝对值进行缩放
([feature_range, copy])	通过将每个功能缩放到给定范围来转换功能
([norm, copy])	将样品归一化为单位范数
([n_values, ...])	使用一个单一的一个K方案来编码分类整数特征
([degree, ...])	生成多项式和交互特征
([with_centering, ...])	使用对异常值可靠的统计信息来缩放特征
([copy, ...])	通过删除平均值和缩放到单位方差来标准化特征

(X[, value])	增强数据集，带有额外的虚拟功能
(X[, threshold, copy])	数组式或scipy.sparse矩阵的布尔阈值
(y, classes[, ...])	以 one-vs-all 的方式对标签进行二值化
(X[, axis, copy])	将每个特征缩放到[-1,1]范围，而不破坏稀疏度
(X[, ...])	通过将每个功能缩放到给定范围来转换功能
(X[, norm, axis, ...])	将输入向量分别缩放到单位范数（向量长度）
(X[, axis, ...])	沿着任何轴标准化数据集
(X[, axis, with_mean, ...])	沿着任何轴标准化数据集

: Random projection（随机投影）

随机投影变压器

随机投影是一种简单且计算有效的方法，通过交易控制的精确度（作为附加方差）来减少数据的维度，以实现更快的处理时间和更小的模型大小。

控制随机投影矩阵的维数和分布，以保留数据集的任意两个样本之间的成对距离。

随机投影效率背后的主要理论结果是：

在数学方面，Johnson-Lindenstrauss引理是从高维度到低维度欧几里德空间的低失真嵌入点的结果。引理指出，高维度空间中的一小部分点可以嵌入到较低维度的空间中，使得点之间的距离几乎保持不变。用于嵌入的地图至少为Lipschitz，甚至可以被视为正交投影。

用户指南：有关详细信息，请参阅部分。

([...])	通过高斯随机投影降低维数
([...])	通过稀疏随机投影降低维数
(...)	找到一个“安全”数量的组件随机投影到

Semi-Supervised Learning（半监督学习）

该模块实现半监督学习算法。这些算法使用少量的标记数据和大量未标记的分类任务数据。该模块包括标签传播。

用户指南：有关详细信息，请参阅部分。

([kernel, ...])	标签传播分类器
([kernel, ...])	用于半监督学习的LabelSpread模型

: Support Vector Machines（支持向量机）

该模块包括支持向量机算法。

用户指南：有关详细信息，请参阅部分。

评估者

([C, kernel, degree, gamma, coef0, ...])	C支持向量分类
([penalty, loss, dual, tol, C, ...])	线性支持向量分类
([nu, kernel, degree, gamma, ...])	Nu支持向量分类
([kernel, degree, gamma, coef0, tol, ...])	Epsilon支持向量回归
([epsilon, tol, C, loss, ...])	线性支持向量回归
([nu, C, kernel, degree, gamma, ...])	Nu支持向量回归
([kernel, degree, gamma, ...])	无监督异常检测
(X, y[, loss, fit_intercept, ...])	返回C的最低边界，使得对于C（l1_min_C，无穷大），模型保证不为空

低级方法

	使用libsvm（低级方法）训练模型
	预测余量（这是libsvm的名称是predict_values）
	给定模型预测X的目标值（低级方法）
	预测概率
	交叉验证程序的绑定（低级程序）

: Decision Trees（决策树）

该模块包括用于分类和回归的基于决策树的模型。

用户指南：有关详细信息，请参阅部分。

([criterion, ...])	决策树分类器
([criterion, ...])	决策树倒数
([criterion, ...])	一个非常随机的树分类器
([criterion, ...])	一个非常随机的树倒数
	以DOT格式导出决策树

: Utilities（工具）

该模块包括各种实用程序。

开发人员指南：有关详细信息，请参阅页面。

(seed)	将种子转换成np.random.RandomState实例
(Estimator)	检查估计是否符合scikit学习惯例
(\arrays, \\*options)	以一致的方式重新采样数组或稀疏矩阵
(\arrays, \\*options)	以一致的方式排列数组或稀疏矩阵

([solver, shrinkage, priors, ...])	别名 .
([priors, reg_param, ...])	别名 .

(\args, \\*kwargs)	DEPRECATED：函数'load_lfw_pairs'已经在0.17中被弃用，将在0.19中删除。请改用fetch_lfw_pairs（download_if_missing = False）
(\args, \\*kwargs)	DEPRECATED：函数'load_lfw_people'在0.17中已被弃用，将在0.19中删除。请改用fetch_lfw_people（download_if_missing = False）

(param_grid)	每个参数的网格具有离散数量的值
(...[, random_state])	发电机对从给定分布采样的参数
(estimator, param_grid)	对估计器的指定参数值进行详尽搜索
(estimator, ...)	随机搜索超参数
(n)	一次性交叉验证迭代器
(n, p)	Leave-P-Out交叉验证迭代器
(n[, n_folds, ...])	K-fold交叉验证迭代器
(labels[, n_folds])	具有非重叠标签的K-fold迭代器变体
(labels)	Leave-One-Label_Out交叉验证迭代器
(labels, p)	Leave-P-Label_Out交叉验证迭代器
(labels[, ...])	Shuffle-Labels-Out交叉验证迭代器
(y[, ...])	分层K-折叠交叉验证迭代器
(n[, n_iter, ...])	随机置换交叉验证迭代器
(y[, ...])	分层ShuffleSplit交叉验证迭代器
(test_fold)	预定义的分割交叉验证迭代器
(\args, \\*kwargs)	主成分分析（PCA）使用随机SVD
(\args, \\*kwargs)	遗留高斯过程模型类
(\args, \\*kwargs)	传统高斯混合模型
(\args, \\*kwargs)	Dirichlet过程高斯混合模型
(\args, \\*kwargs)	高斯混合模型的变分推理

(X, y, estimator, ...)	适合一组参数
(estimator, X, y)	学习曲线
(estimator, ...)	验证曲线
(estimator, X)	为每个输入数据点生成交叉验证的估计
(estimator, X)	通过交叉验证评估分数
(cv[, X, y, classifier])	输入检查器实用程序以用户友好的方式构建简历
(...)	评估具有置换的交叉验证分数的意义
(\*arrays, ...)	将阵列或矩阵拆分成随机列和测试子集

: Base classes and utility functions（基类和效用函数）

基础类

函数

: Clustering（聚类）

类

函数

: Biclustering（双聚类）

类

: Covariance Estimators（协方差估计）

: Model Selection（模型选择）

分割器类

分割函数

超参数优化

模型验证

: Datasets（数据集）

装载机

样本生成器

: Matrix Decomposition（矩阵分解）

: Dummy estimators（虚拟估计）

: Ensemble Methods（集成方法）

部分依赖

: Exceptions and warnings（异常和警告）

: Feature Extraction（特征提取）

从图像

从文本

: Feature Selection（特征选择）

: Gaussian Processes（高斯过程）

: Isotonic regression（等式回归）

Kernel Approximation（内核近似）

Kernel Ridge Regression（内核岭回归）

: Discriminant Analysis（判别分析）

: Generalized Linear Models（广义线性模型）

: Manifold Learning（歧管学习）

: Metrics（指标）

选型接口

分类度量

回归指标

多标签排名指标

聚类指标

二聚体指标

成对指标

: Gaussian Mixture Models（高斯混合模型）

: Multiclass and multilabel classification（多类和多标签分类）

多类和多标签分类策略

: Multioutput regression and classification（多输出回归和分类）

: Naive Bayes（朴素贝叶斯）

: Nearest Neighbors（最近邻）

: Neural network models（神经网络模型）

: Probability Calibration（概率校准）

: Cross decomposition（交叉分解）

: Pipeline（管道）

: Preprocessing and Normalization（预处理和规范化）

: Random projection（随机投影）

Semi-Supervised Learning（半监督学习）

: Support Vector Machines（支持向量机）

评估者

低级方法

: Decision Trees（决策树）

: Utilities（工具）

最近弃用

要在0.19中删除

在0.20中删除