所有函数和类的确切API,由docstrings给出。API会为所有功能提供预期类型和允许的功能,以及可用于的所有参数。
原文链接 :
译文链接 :
贡献者 :
这是scikit学习的类和函数参考。有关详细信息,请参阅,因为类和功能原始规格可能不足以给出其使用的完整指导。
: Base classes and utility functions(基类和效用函数)
所有估计量的基类。
基础类
scikit学习中所有估计的基础类 | |
所有分类器的混合类在scikit学习 | |
所有聚类估计器的混合类在scikit学习中 | |
所有回归估计器的混合类在scikit学习 | |
所有变压器的混合类在scikit学习 |
函数
(estimator[, safe]) | 构造具有相同参数的新估计器 |
: Clustering(聚类)
该模块收集流行的无监督聚类算法。
用户指南:有关详细信息,请参阅“ 部分。
类
([damping, ...]) | 执行亲和度传播数据聚类 |
([...]) | 集聚聚类 |
([threshold, branching_factor, ...]) | 实现Birch聚类算法 |
([eps, min_samples, metric, ...]) | 从矢量阵列或距离矩阵执行DBSCAN聚类 |
([n_clusters, ...]) | 聚集特征 |
([n_clusters, init, n_init, ...]) | K均值聚类 |
([n_clusters, init, ...]) | 小批量K均值聚类 |
([bandwidth, seeds, ...]) | 使用平坦内核的平均移位聚类 |
([n_clusters, ...]) | 将聚类应用于对规范化拉普拉斯算子的投影 |
函数
(X[, quantile, ...]) | 估计与平均移位算法一起使用的带宽 |
(X, n_clusters[, init, ...]) | K均值聚类算法 |
(X[, connectivity, ...]) | 基于特征矩阵的区域聚类 |
(S[, ...]) | 执行亲和度传播数据聚类 |
(X[, eps, min_samples, ...]) | 从矢量阵列或距离矩阵执行DBSCAN聚类 |
(X[, bandwidth, seeds, ...]) | 使用平坦的内核执行数据的平均移位聚类 |
(affinity[, ...]) | 将聚类应用于对规范化拉普拉斯算子的投影 |
: Biclustering(双聚类)
光谱双聚类算法。
作者:Kemal Eren许可证:BSD 3条款
用户指南:有关详细信息,请参阅部分。
类
([n_clusters, method, ...]) | 光谱双聚类(Kluger,2003) |
([n_clusters, ...]) | 光谱共聚焦算法(Dhillon,2001) |
: Covariance Estimators(协方差估计)
该模块包括方法和算法,以鲁棒地估计给定一组点的特征的协方差。定义为协方差的倒数的精度矩阵也被估计。协方差估计与高斯图形模型的理论密切相关。
用户指南:有关详细信息,请参见部分。
([...]) | 最大似然协方差估计 |
([...]) | 用于检测高斯分布数据集中异常值的对象 |
([alpha, mode, tol, ...]) | 具有l1惩罚估计量的稀疏逆协方差估计 |
([alphas, ...]) | 稀疏逆协方差与交叉验证的l1罚款的选择 |
([store_precision, ...]) | LedoitWolf估计 |
([store_precision, ...]) | 最小协方差决定因素(MCD):协方差的robust估计 |
([store_precision, ...]) | Oracle近似收缩估计 |
([...]) | 协变量估计与收缩 |
(X[, ...]) | 计算最大似然协方差估计 |
(X[, assume_centered, ...]) | 估计缩小的Ledoit-Wolf协方差矩阵 |
(emp_cov[, ...]) | 计算对角线上收缩的协方差矩阵 |
(X[, assume_centered]) | 使用Oracle近似收缩算法估计协方差 |
(emp_cov, alpha[, ...]) | l1惩罚协方差估计 |
: Model Selection(模型选择)
用户指南:请参阅,和 部分以获取更多详细信息。
分割器类
([n_splits, shuffle, ...]) | K-折叠交叉验证器 |
([n_splits]) | 具有非重叠组的K-fold迭代器变体 |
([n_splits, ...]) | 分层K-折叠交叉验证器 |
() | 离开一组交叉验证器 |
(n_groups) | 离开P组交叉验证器 |
() | 一次性交叉验证器 |
(p) | Leave-P-Out交叉验证器 |
([n_splits, ...]) | 随机置换交叉验证器 |
([...]) | 随机组 - 交叉验证迭代器 |
([...]) | 分层ShuffleSplit交叉验证器 |
(test_fold) | 预定义分裂交叉验证器 |
([n_splits]) | 时间序列交叉验证器 |
分割函数
(\*arrays, ...) | 将阵列或矩阵拆分成随机列和测试子集 |
([cv, y, classifier]) | 用于构建交叉验证器的输入检查器实用程序 |
超参数优化
(estimator, ...) | 对估计器的指定参数值进行详尽搜索 |
(...[, ...]) | 随机搜索超参数 |
(param_grid) | 每个参数的网格具有离散数量的值 |
(...[, ...]) | 发电机对从给定分布采样的参数 |
(X, y, ...[, ...]) | 适合一组参数 |
模型验证
(estimator, X) | 通过交叉验证评估分数 |
(estimator, X) | 为每个输入数据点生成交叉验证的估计 |
(...) | 评估具有置换的交叉验证分数的意义 |
(estimator, X, y) | 学习曲线 |
(estimator, ...) | 验证曲线 |
: Datasets(数据集)
该模块包括用于加载数据集的实用程序,包括加载和获取流行参考数据集的方法。它还具有一些人工数据生成器。
用户指南:有关详细信息,请参阅部分。
装载机
([data_home]) | 删除数据家庭缓存的所有内容 |
([data_home]) | 返回scikit-learn数据目录的路径 |
([data_home, ...]) | 加载20个新闻组数据集中的文件名和数据 |
([...]) | 加载20个新闻组数据集并将其转换为tf-idf向量 |
([return_X_y]) | 加载并返回波士顿房价数据集(回归) |
([return_X_y]) | 加载并返回乳腺癌威斯康星数据集(分类) |
([return_X_y]) | 加载并返回糖尿病数据集(回归) |
([n_class, return_X_y]) | 加载并返回数字数据集(分类) |
(container_path[, ...]) | 加载具有子文件夹名称类别的文本文件 |
([return_X_y]) | 加载并返回虹膜数据集(分类) |
([subset, ...]) | 在野外(LFW)对数据集中的标记面的装载程序 |
([data_home, ...]) | 野外(LFW)人物数据集中的标记面的装载程序 |
([return_X_y]) | 加载并返回linnerud数据集(多元回归) |
(dataname) | 转换文件名中的数据集的原始名称 |
(dataname[, ...]) | 获取数据集 |
([data_home, ...]) | Olivetti的装载机面向AT&T的数据集 |
([...]) | 来自StatLib的加州住房数据集的装载机 |
([data_home, ...]) | 加载封面类型数据集,必要时下载 |
([subset, shuffle, ...]) | 加载并返回kddcup 99数据集(分类) |
([data_home, subset, ...]) | 加载RCV1 multilabel数据集,必要时下载 |
(name_or_id[, set_, ...]) | 加载从下载的数据集 |
(image_name) | 加载单个样本图像的numpy数组 |
() | 加载样品图像进行图像处理 |
([...]) | 来自Phillips等的物种分布数据集的装载机 |
(f[, n_features, ...]) | 将svmlight / libsvm格式的数据集加载到稀疏的CSR矩阵中 |
(files[, ...]) | 从SVMlight格式的多个文件加载数据集 |
(X, y, f[, ...]) | 以svmlight / libsvm文件格式转储数据集 |
样本生成器
([n_samples, n_features, ...]) | 生成用于聚类的各向同性高斯斑点 |
([n_samples, ...]) | 生成随机n类分类问题 |
([n_samples, shuffle, ...]) | 在2d中制作一个包含较小圆的大圆 |
([n_samples, ...]) | 产生“Friedman#1”回归问题 |
([n_samples, noise, ...]) | 产生“Friedman#2”回归问题 |
([n_samples, noise, ...]) | 产生“Friedman#3”回归问题 |
([mean, ...]) | 通过分位数生成各向同性高斯和标签样本 |
([n_samples, ...]) | 生成Hastie等人使用的二进制分类数据 |
([n_samples, ...]) | 生成具有钟形奇异值的大多数低阶矩阵 |
([n_samples, shuffle, ...]) | 使两个交错半圈 |
([...]) | 产生一个随机多标签分类问题 |
([n_samples, ...]) | 产生随机回归问题 |
([n_samples, noise, ...]) | 生成S曲线数据集 |
(n_samples, ...) | 生成信号作为字典元素的稀疏组合 |
([dim, ...]) | 产生一个稀疏的对称确定正矩阵 |
([...]) | 生成稀疏不相关设计的随机回归问题 |
(n_dim[, random_state]) | 产生一个随机对称,正定矩阵 |
([n_samples, noise, ...]) | 生成瑞士卷数据集 |
(shape, n_clusters) | 生成一个具有恒定块对角线结构的阵列,用于二聚体 |
(shape, n_clusters) | 生成具有块棋盘结构的数组,用于双向聚集 |
: Matrix Decomposition(矩阵分解)
该模块包括矩阵分解算法,其中包括PCA,NMF或ICA。该模块的大多数算法可以被认为是降维技术。
用户指南:有关详细信息,请参阅的部分。
([n_components, copy, ...]) | 主成分分析(PCA) |
([n_components, ...]) | 增量主成分分析(IPCA) |
(\*args, ...) | 非负矩阵因子分解(NMF) |
([n_components, ...]) | 内核主成分分析(KPCA) |
([n_components, ...]) | 因子分析(FA) |
([n_components, ...]) | FastICA:独立分量分析的快速算法。 |
([n_components, ...]) | 使用截断的SVD(也称为LSA)进行尺寸缩小 |
([n_components, init, ...]) | 非负矩阵因子分解(NMF) |
([n_components, ...]) | 稀疏主成分分析(SparsePCA) |
([...]) | 小批量稀疏主成分分析 |
(dictionary[, ...]) | 稀疏编码 |
([...]) | 词典学习 |
([...]) | 小批量字典学习 |
([...]) | 潜在的Dirichlet分配与在线变分贝叶斯算法 |
(X[, n_components, ...]) | 执行快速独立成分分析 |
(X, n_components, ...) | 解决词典学习矩阵分解问题 |
(X[, ...]) | 在线解决词典学习矩阵分解问题 |
(X, dictionary[, ...]) | 稀疏编码 |
: Dummy estimators(虚拟估计)
用户指南:有关详细信息,请参阅部分部分。
([strategy, ...]) | DummyClassifier是使用简单规则进行预测的分类器 |
([strategy, constant, ...]) | DummyRegressor是使用简单规则进行预测的倒数 |
: Ensemble Methods(集成方法)
该模块包括用于分类,回归和异常检测的基于集成的方法。
用户指南:有关详细信息,请参阅“ ”部分。
([...]) | 一个AdaBoost分类器 |
([base_estimator, ...]) | AdaBoost回归器 |
([base_estimator, ...]) | Bagging分类器 |
([base_estimator, ...]) | Bagging回归器 |
([...]) | 一个额外的树分类器 |
([n_estimators, ...]) | 一个额外的树回归器 |
([loss, ...]) | 梯度提升分类 |
([loss, ...]) | 渐变提升回归 |
([n_estimators, ...]) | 隔离森林算法 |
([...]) | 随机森林分类器 |
([...]) | 一个完全随机的树的集成 |
([...]) | 随机森林回归器 |
(estimators[, ...]) | 软投票/多数规则分类器 |
部分依赖
树组合的部分依赖图
(...) | 部分依赖target_variables |
(...) | 部分依赖图features |
: Exceptions and warnings(异常和警告)
该模块包括在scikit学习中使用的所有自定义警告和错误类。
如果在拟合前使用估计器,则提升异常类 | |
用于通知用户任何行为变化的警告类 | |
捕捉收敛问题的自定义警告 | |
警告用于通知代码中发生的隐式数据转换 | |
自定义警告,以通知数据维度的潜在问题 | |
用于通知用户效率低下的警告 | |
如果在拟合估计器时出现错误,则使用警告类 | |
点操作不使用BLAS时使用的警告 | |
度量无效时使用的警告 |
: Feature Extraction(特征提取)
该模块处理原始数据的特征提取。它目前包括从文本和图像中提取特征的方法。
用户指南:有关详细信息,请参阅部分。
([dtype, ...]) | 将特征值映射列表转换为向量 |
([...]) | 实现哈希功能,又称哈希技巧 |
从图像
该子模块收集实用程序从图像中提取特征。
(img[, ...]) | 像素到像素梯度连接的图形 |
(n_x, n_y) | 像素到像素连接的图形 |
(...) | 将2D图像重新整理成一组补丁 |
(...) | 从所有补丁重构图像 |
([...]) | 从图像集中提取补丁 |
从文本
该子模块收集实用程序从文本文档建立特征向量。
([...]) | 将文本文档的集合转换为令牌计数矩阵 |
([...]) | 将文本文档的集合转换为令牌发生的矩阵 |
([...]) | 将计数矩阵转换为标准化的tf或tf-idf表示 |
([...]) | 将原始文档的集合转换为TF-IDF功能的矩阵 |
: Feature Selection(特征选择)
该模块实现特征选择算法。它目前包括单变量筛选方法和递归特征消除算法。
用户指南:有关详细信息,请参阅部分。
([...]) | 具有可配置策略的单变量特征选择器 |
([...]) | 根据最高分数百分位数选择功能 |
([score_func, k]) | 根据k最高分选择功能 |
([score_func, alpha]) | 过滤器:根据FPR测试选择低于alpha的p值 |
([score_func, alpha]) | 过滤器:为估计的错误发现率选择p值 |
(estimator) | 元变压器,用于根据重要性权重选择特征 |
([score_func, alpha]) | 过滤器:选择对应于同系误差率的p值 |
(estimator[, ...]) | 功能排序与递归功能消除 |
(estimator[, step, ...]) | 功能排序与递归功能消除和交叉验证选择最佳数量的功能 |
([threshold]) | 功能选择器可删除所有低方差特征 |
(X, y) | 计算每个非负特征和类之间的平方统计 |
(X, y) | 计算提供的样本的方差分析F值 |
(X, y[, center]) | 单变量线性回归测试 |
(X, y) | 估计离散目标变量的互信息 |
(X, y) | 估计连续目标变量的互信息 |
: Gaussian Processes(高斯过程)
该模块实现了基于高斯过程的回归和分类。
用户指南:有关详细信息,请参阅部分。
([...]) | 高斯过程回归(GPR) |
([...]) | 基于拉普拉斯逼近的高斯过程分类(GPC) |
内核:
所有内核的基类 | |
(k1, k2) | 两个内核k1和k2的和核k1 + k2 |
(k1, k2) | 两个内核k1和k2的产品内核k1 * k2 |
(...) | 通过给定指数来指定内核 |
([...]) | 恒定内核 |
([...]) | 白内核 |
([length_scale, ...]) | 径向基函数核(又称平方指数核) |
([...]) | Matern 内核. |
([...]) | 理性二次内核 |
([...]) | 正弦平方内核 |
([...]) | Dot-Product内核 |
([...]) | 在sklearn.metrics.pairwise中的内核包装器 |
(kernels) | 内核由一组其他内核组成 |
内核超参数的指定形式为namedtuple |
: Isotonic regression(等式回归)
用户指南:有关详细信息,请参阅部分。
([y_min, y_max, ...]) | 等渗回归模型 |
(y[, ...]) | 求解等渗回归模型: |
(x, y) | 确定y是否与x单调相关 |
Kernel Approximation(内核近似)
该模块基于傅里叶变换实现几个近似核特征图。
用户指南:有关更多详细信息,请参阅部分。
([...]) | 加性chi2核的近似特征图 |
([kernel, ...]) | 使用训练数据的子集近似一个内核映射 |
([gamma, ...]) | 通过其傅立叶变换的Monte Carlo近似近似RBF核的特征图 |
([...]) | 通过其傅立叶变换的蒙特卡罗近似近似的“偏斜卡方”核的特征图 |
Kernel Ridge Regression(内核岭回归)
模块实现内核脊回归。
用户指南:有关更多详细信息,请参阅部分。
([alpha, kernel, ...]) | 内核岭回归 |
: Discriminant Analysis(判别分析)
线性判别分析和二次判别分析
用户指南:有关详细信息,请参阅部分。
([...]) | 线性判别分析 |
([...]) | 二次判别分析 |
: Generalized Linear Models(广义线性模型)
该模块实现广义线性模型。它包括利用最小角度回归和坐标下降计算的岭回归,贝叶斯回归,套索和弹性网估计。它还实现随机梯度下降相关算法。
用户指南:有关详细信息,请参阅“ 一节。
([n_iter, tol, ...]) | 贝叶斯ARD回归 |
([n_iter, tol, ...]) | 贝叶斯脊回归 |
([alpha, l1_ratio, ...]) | 线性回归与组合L1和L2先验作为正则化器 |
([l1_ratio, eps, ...]) | 弹性网模型沿正则化路径迭代拟合 |
([epsilon, ...]) | 线性回归模型,对离群值是robust |
([fit_intercept, verbose, ...]) | 最小角度回归模型 |
([fit_intercept, ...]) | 交叉验证的最小二乘回归模型 |
([alpha, fit_intercept, ...]) | 线性模型训练用L1作为矫正器(又名拉索) |
([eps, n_alphas, ...]) | 拉索线性模型,沿正则化路径迭代拟合 |
([alpha, ...]) | Lasso模型也适合最小角度回归 |
([fit_intercept, ...]) | 使用LARS算法进行交叉验证的Lasso |
([criterion, ...]) | Lasso模型适合Lars使用BIC或AIC进行型号选择 |
([...]) | 普通最小二乘线性回归 |
([penalty, ...]) | Logistic回归(又名logit,MaxEnt)分类器 |
([Cs, ...]) | Logistic回归CV(又名logit,MaxEnt)分类器 |
([alpha, ...]) | 用L1 / L2混合规范训练的多任务Lasso模型作为正则化器 |
([alpha, ...]) | 用L1 / L2混合规范训练的多任务ElasticNet模型作为正则化程序 |
([eps, ...]) | 多任务L1 / L2 Lasso内置交叉验证 |
([...]) | 多任务L1 / L2 ElasticNet内置交叉验证 |
([...]) | 正交匹配追踪模型(OMP) |
([...]) | 交叉验证的正交匹配追踪模型(OMP) |
([...]) | 被动侵略分类器 |
([C, ...]) | 被动侵略者 |
([penalty, alpha, ...]) | 在“ 阅读更多内容。 |
([alpha, ...]) | 随机拉索 |
([...]) | 随机逻辑回归 |
([...]) | RANSAC(RANdom SAmple Consensus)算法 |
([alpha, fit_intercept, ...]) | 具有l2正则化的线性最小二乘法 |
([alpha, ...]) | 分类器使用Ridge回归 |
([alphas, ...]) | 里奇分类器内置交叉验证 |
([alphas, ...]) | 里奇回归与内置交叉验证 |
([loss, penalty, ...]) | 线性分类器(SVM,逻辑回归,ao)与SGD训练 |
([loss, penalty, ...]) | 通过使用SGD最小化正则化经验损失拟合的线性模型 |
([...]) | Theil-Sen估计:强大的多变量回归模型 |
(X, y[, Xy, Gram, ...]) | 使用LARS算法计算最小角度回归或套索路径[1] |
(X, y[, eps, ...]) | 计算具有坐标下降的Lasso路径 |
(X, y[, ...]) | 基于随机拉索估计的稳定性路径 |
(X, y) | 为正则化参数列表计算逻辑回归模型 |
(X, y[, ...]) | 正交匹配追踪(OMP) |
(Gram, Xy[, ...]) | 革命正交匹配追踪(OMP) |
: Manifold Learning(歧管学习)
该模块实现数据嵌入技术。
用户指南:有关详细信息,请参阅部分。
([...]) | 局部线性嵌入 |
([n_neighbors, n_components, ...]) | Isomap嵌入 |
([n_components, metric, n_init, ...]) | 多维缩放 |
([n_components, ...]) | 用于非线性维数降低的光谱嵌入 |
([n_components, perplexity, ...]) | t分布随机相邻嵌入 |
(X, ...[, ...]) | 对数据进行局部线性嵌入分析 |
(adjacency[, ...]) | 将样本投影在拉普拉斯算子的第一个特征向量上 |
: Metrics(指标)
有关详细信息,请参阅用户指南部分部分和部分。
该模块包括分数函数,性能度量和成对度量和距离计算。
选型接口
有关详细信息,请参阅用户指南的部分。
(score_func[, ...]) | 从表现指标或损失函数中取得记分员 |
(scoring) |
分类度量
有关详细信息,请参阅用户指南的“ 部分。
(y_true, y_pred[, ...]) | 准确度分级得分 |
(x, y[, reorder]) | 曲线下的计算面积(AUC)使用梯形规则 |
(y_true, y_score) | 从预测分数计算平均精度(AP) |
(y_true, y_prob[, ...]) | 计算Brier分数 |
(y_true, y_pred) | 构建一个显示主要分类指标的文本报告 |
(y1, y2[, labels, ...]) | 科恩的kappa:衡量标注者间协议的统计 |
(y_true, y_pred[, ...]) | 计算混淆矩阵来评估分类的准确性 |
(y_true, y_pred[, labels, ...]) | 计算F1分数,也称为平衡F分数或F度量 |
(y_true, y_pred, beta[, ...]) | 计算F-beta分数 |
(y_true, y_pred[, ...]) | 计算平均汉明损失 |
(y_true, pred_decision[, ...]) | 平均铰链损失(非正规化) |
(y_true, y_pred) | Jaccard相似系数得分 |
(y_true, y_pred[, eps, ...]) | 对数损失,又称物流损失或交叉熵损失 |
(y_true, y_pred[, ...]) | 计算二进制类的马修斯相关系数(MCC) |
(y_true, ...) | 计算不同概率阈值的 precision-recall 对 |
(...) | 计算每个课程的precision,recall,F度量和支持 |
(y_true, y_pred[, ...]) | 计算precision |
(y_true, y_pred[, ...]) | 计算recall |
(y_true, y_score[, ...]) | 曲线下的计算面积(AUC)来自预测分数 |
(y_true, y_score[, ...]) | 计算接收器工作特性(ROC) |
(y_true, y_pred[, ...]) | 零分类损失 |
回归指标
有关详细信息,请参阅用户指南的“”部分。
(y_true, y_pred) | 解释方差回归分数函数 |
(y_true, y_pred) | 平均绝对误差回归损失 |
(y_true, y_pred[, ...]) | 均方误差回归损失 |
(y_true, y_pred) | 中值绝对误差回归损失 |
(y_true, y_pred[, ...]) | R^2(测定系数)回归分数函数 |
多标签排名指标
有关更多详细信息,请参阅用户指南的“ 部分。
(y_true, y_score[, ...]) | 覆盖误差测量 |
(...) | 计算基于排名的平均精度 |
(y_true, y_score) | 计算排名损失量 |
聚类指标
有关详细信息,请参阅用户指南的部分。
该子模块包含了聚类分析的结果评价指标。有两种形式的评估:
- 监督,它为每个样本使用地面真值类别值。
- 无监督,不对和衡量模型本身的“质量”。
(...) | 两个集群之间调整的相互信息 |
(labels_true, ...) | 兰德指数调整机会 |
(X, labels) | 计算Calinski和Harabaz得分 |
(labels_true, ...) | 给定一个地面真相的集群标签的完整度量 |
(labels_true, ...) | 测量一组点的两个聚类的相似度 |
(...) | 一次计算同质性和完整性和V-Measure分数 |
(labels_true, ...) | 给出了一个地面事实的集群标签的均匀性度量 |
(labels_true, ...) | 两个集群之间的相互信息 |
(...) | 两个集群之间的归一化互信息 |
(X, labels[, ...]) | 计算所有样本的平均轮廓系数 |
(X, labels[, metric]) | 计算每个样本的剪影系数 |
(labels_true, labels_pred) | V-measure集群标签给出了一个基本的真相 |
二聚体指标
有关详细信息,请参阅用户指南的部分。
(a, b[, similarity]) | 两组双核的相似性 |
成对指标
有关更多详细信息请参阅用户指南的“ 部分。
(X[, Y]) | 计算X和Y中观测值之间的加性卡方核 |
(X[, Y, gamma]) | 计算指数卡方核X和Y |
() | pairwise_distances的有效指标 |
(X[, Y, ...]) | 考虑X(和Y = X)的行作为向量,计算每对向量之间的距离矩阵 |
() | pairwise_kernels的有效指标 |
(X[, Y]) | 计算X和Y之间的线性内核 |
(X[, Y, ...]) | 计算X和Y中向量之间的L1距离 |
(X[, Y, ...]) | 从矢量数组X和可选Y计算距离矩阵 |
(X[, Y, ...]) | 计算阵列X和可选阵列Y之间的内核 |
(X[, Y, ...]) | 计算X和Y之间的多项式内核 |
(X[, Y, gamma]) | 计算X和Y之间的rbf(高斯)内核 |
(X[, Y, ...]) | 计算X和Y之间的S形内核 |
(X[, Y, ...]) | 计算X和Y中样本之间的余弦相似度 |
(X[, Y]) | 计算X和Y中样本之间的余弦距离 |
(X[, Y, gamma]) | 计算X和Y之间的拉普拉斯核 |
(X[, Y, metric, ...]) | 从矢量数组X和可选Y计算距离矩阵 |
(X, Y[, ...]) | 计算一点与一组点之间的最小距离 |
(X, Y) | 计算一点与一组点之间的最小距离 |
(X, Y) | 计算X与Y之间的配对欧氏距离 |
(X, Y) | 计算X和Y中向量之间的L1距离 |
(X, Y) | 计算X和Y之间的配对余弦距离 |
(X, Y[, metric]) | 计算X和Y之间的配对距离 |
: Gaussian Mixture Models(高斯混合模型)
该模块实现混合建模算法。
用户指南:有关详细信息,请参阅部分。
([n_components, ...]) | 高斯混合 |
([...]) | 高斯混合变分贝叶斯估计 |
: Multiclass and multilabel classification(多类和多标签分类)
多类和多标签分类策略
该模块实现了多类学习算法:
- one-vs-the-rest / one-vs-all
- one-vs-one
- 纠错输出代码
该模块中提供的估计量是元估计器:它们需要在其构造函数中提供基本估计器。例如,可以使用这些估计器将二进制分类器或回归器转换为多类分类器。也可以将这些估计器与多类估计器一起使用,希望它们的准确性或运行时性能得到改善。
scikit-learn中的所有分类器实现多类分类; 您只需要使用此模块即可尝试使用自定义多类策略。
一对一的元分类器也实现了一个predict_proba方法,只要这种方法由基类分类器实现即可。该方法在单个标签和多重标签的情况下返回类成员资格的概率。注意,在多重标签的情况下,概率是给定样本落在给定类中的边际概率。因此,在多标签情况下,这些概率在一个给定样本的所有可能的标签的总和不会和为1,因为他们在单个标签的情况下做的。
用户指南:有关详细信息,请参阅部分。
(estimator[, ...]) | One-vs-the-rest (OvR) 多类/多标签策略 |
(estimator[, ...]) | One-vs-one 多类策略 |
(estimator[, ...]) | (错误校正)输出代码多类策略 |
: Multioutput regression and classification(多输出回归和分类)
该模块实现多输出回归和分类。
该模块中提供的估计量是元估计器:它们需要在其构造函数中提供基本估计器。元估计器将单输出估计器扩展到多输出估计器。
用户指南:有关详细信息,请参阅部分。
(estimator) | 多目标回归 |
(estimator) | 多目标分类 |
: Naive Bayes(朴素贝叶斯)
该模块实现朴素贝叶斯算法。这些是基于应用贝叶斯定理与强(天真)特征独立假设的监督学习方法。
用户指南:有关详细信息,请参阅“ 部分。
([priors]) | 高斯朴素贝叶斯(GaussianNB) |
([alpha, ...]) | 朴素贝叶斯分类器多项式模型 |
([alpha, binarize, ...]) | 朴素贝叶斯分类器多变量伯努利模型 |
: Nearest Neighbors(最近邻)
该模块实现了k-最近邻居算法。
用户指南:有关更多详细信息,请参阅部分。
([n_neighbors, ...]) | 无监督学习者实施邻居搜索 |
([...]) | 执行k-最近邻居的分类器投票 |
([...]) | 分类器在给定半径内的邻居中执行投票 |
([n_neighbors, ...]) | 基于k最近邻的回归 |
([radius, ...]) | 基于固定半径内的邻居的回归 |
([metric, ...]) | 最重心分类器 |
BallTree用于快速泛化N点问题 | |
KDTree用于快速泛化的N点问题 | |
([n_estimators, radius, ...]) | 使用LSH森林执行近似最近邻搜索 |
DistanceMetric类 | |
([bandwidth, ...]) | 核密度估计 |
(X, n_neighbors[, ...]) | 计算X中k个邻居的(加权)图 |
(X, radius) | 计算X中的点的邻居的(加权)图 |
: Neural network models(神经网络模型)
该模块包括基于神经网络的模型。
用户指南:有关详细信息,请参阅和部分。
([n_components, ...]) | 伯努利限制玻尔兹曼机(RBM) |
([...]) | 多层感知器分类器 |
([...]) | 多层感知器回归 |
: Probability Calibration(概率校准)
校准预测概率。
用户指南:有关详细信息,请参阅部分。
([...]) | 等渗回归或乙状结构的概率校准 |
(y_true, y_prob) | 计算校准曲线的真实和预测概率 |
: Cross decomposition(交叉分解)
用户指南:有关详细信息,请参阅部分。
([...]) | PLS回归 |
([...]) | PLSCanonical实现了原始Wold算法的2块规范PLS [Tenenhaus 1998] p.204,在[Wegelin 2000]中被称为PLS-C2A |
([n_components, ...]) | CCA规范相关分析 |
([n_components, ...]) | 部分最小二乘SVD |
: Pipeline(管道)
该模块实现实用程序来构建复合估计器,作为变换链和估计器链。
(steps) | 最终估计量的变换管道 |
(transformer_list[, ...]) | 连接多个变压器对象的结果 |
(\*steps) | 从给定的估计量构建管道 |
(\*transformers) | 从给定的变压器构造一个FeatureUnion |
: Preprocessing and Normalization(预处理和规范化)
该模块包括缩放,定心,归一化,二值化和插补方法。
用户指南:有关详细信息,请参阅部分。
([threshold, copy]) | 根据阈值对数据进行二值化(将特征值设置为0或1) |
([func, ...]) | 从任意可调用的构造一个变压器 |
([missing_values, ...]) | 用于完成缺失值的插补变压器 |
中心一个内核矩阵 | |
([neg_label, ...]) | 以一对一的方式对标签进行二值化 |
在0和n_classes-1之间编码标签 | |
([classes, ...]) | 在迭代迭代和多标签格式之间进行转换 |
([copy]) | 按每个特征的最大绝对值进行缩放 |
([feature_range, copy]) | 通过将每个功能缩放到给定范围来转换功能 |
([norm, copy]) | 将样品归一化为单位范数 |
([n_values, ...]) | 使用一个单一的一个K方案来编码分类整数特征 |
([degree, ...]) | 生成多项式和交互特征 |
([with_centering, ...]) | 使用对异常值可靠的统计信息来缩放特征 |
([copy, ...]) | 通过删除平均值和缩放到单位方差来标准化特征 |
(X[, value]) | 增强数据集,带有额外的虚拟功能 |
(X[, threshold, copy]) | 数组式或scipy.sparse矩阵的布尔阈值 |
(y, classes[, ...]) | 以 one-vs-all 的方式对标签进行二值化 |
(X[, axis, copy]) | 将每个特征缩放到[-1,1]范围,而不破坏稀疏度 |
(X[, ...]) | 通过将每个功能缩放到给定范围来转换功能 |
(X[, norm, axis, ...]) | 将输入向量分别缩放到单位范数(向量长度) |
(X[, axis, ...]) | 沿着任何轴标准化数据集 |
(X[, axis, with_mean, ...]) | 沿着任何轴标准化数据集 |
: Random projection(随机投影)
随机投影变压器
随机投影是一种简单且计算有效的方法,通过交易控制的精确度(作为附加方差)来减少数据的维度,以实现更快的处理时间和更小的模型大小。
控制随机投影矩阵的维数和分布,以保留数据集的任意两个样本之间的成对距离。
随机投影效率背后的主要理论结果是 :
在数学方面,Johnson-Lindenstrauss引理是从高维度到低维度欧几里德空间的低失真嵌入点的结果。引理指出,高维度空间中的一小部分点可以嵌入到较低维度的空间中,使得点之间的距离几乎保持不变。用于嵌入的地图至少为Lipschitz,甚至可以被视为正交投影。
用户指南:有关详细信息,请参阅部分。
([...]) | 通过高斯随机投影降低维数 |
([...]) | 通过稀疏随机投影降低维数 |
(...) | 找到一个“安全”数量的组件随机投影到 |
Semi-Supervised Learning(半监督学习)
该模块实现半监督学习算法。这些算法使用少量的标记数据和大量未标记的分类任务数据。该模块包括标签传播。
用户指南:有关详细信息,请参阅部分。
([kernel, ...]) | 标签传播分类器 |
([kernel, ...]) | 用于半监督学习的LabelSpread模型 |
: Support Vector Machines(支持向量机)
该模块包括支持向量机算法。
用户指南:有关详细信息,请参阅部分。
评估者
([C, kernel, degree, gamma, coef0, ...]) | C支持向量分类 |
([penalty, loss, dual, tol, C, ...]) | 线性支持向量分类 |
([nu, kernel, degree, gamma, ...]) | Nu支持向量分类 |
([kernel, degree, gamma, coef0, tol, ...]) | Epsilon支持向量回归 |
([epsilon, tol, C, loss, ...]) | 线性支持向量回归 |
([nu, C, kernel, degree, gamma, ...]) | Nu支持向量回归 |
([kernel, degree, gamma, ...]) | 无监督异常检测 |
(X, y[, loss, fit_intercept, ...]) | 返回C的最低边界,使得对于C(l1_min_C,无穷大),模型保证不为空 |
低级方法
使用libsvm(低级方法)训练模型 | |
预测余量(这是libsvm的名称是predict_values) | |
给定模型预测X的目标值(低级方法) | |
预测概率 | |
交叉验证程序的绑定(低级程序) |
: Decision Trees(决策树)
该模块包括用于分类和回归的基于决策树的模型。
用户指南:有关详细信息,请参阅部分。
([criterion, ...]) | 决策树分类器 |
([criterion, ...]) | 决策树倒数 |
([criterion, ...]) | 一个非常随机的树分类器 |
([criterion, ...]) | 一个非常随机的树倒数 |
以DOT格式导出决策树 |
: Utilities(工具)
该模块包括各种实用程序。
开发人员指南:有关详细信息,请参阅页面。
(seed) | 将种子转换成np.random.RandomState实例 |
(Estimator) | 检查估计是否符合scikit学习惯例 |
(\*arrays, \*\*options) | 以一致的方式重新采样数组或稀疏矩阵 |
(\*arrays, \*\*options) | 以一致的方式排列数组或稀疏矩阵 |
最近弃用
要在0.19中删除
([solver, shrinkage, priors, ...]) | 别名 . |
([priors, reg_param, ...]) | 别名 . |
(\*args, \*\*kwargs) | DEPRECATED:函数'load_lfw_pairs'已经在0.17中被弃用,将在0.19中删除。请改用fetch_lfw_pairs(download_if_missing = False) |
(\*args, \*\*kwargs) | DEPRECATED:函数'load_lfw_people'在0.17中已被弃用,将在0.19中删除。请改用fetch_lfw_people(download_if_missing = False) |
在0.20中删除
(param_grid) | 每个参数的网格具有离散数量的值 |
(...[, random_state]) | 发电机对从给定分布采样的参数 |
(estimator, param_grid) | 对估计器的指定参数值进行详尽搜索 |
(estimator, ...) | 随机搜索超参数 |
(n) | 一次性交叉验证迭代器 |
(n, p) | Leave-P-Out交叉验证迭代器 |
(n[, n_folds, ...]) | K-fold交叉验证迭代器 |
(labels[, n_folds]) | 具有非重叠标签的K-fold迭代器变体 |
(labels) | Leave-One-Label_Out交叉验证迭代器 |
(labels, p) | Leave-P-Label_Out交叉验证迭代器 |
(labels[, ...]) | Shuffle-Labels-Out交叉验证迭代器 |
(y[, ...]) | 分层K-折叠交叉验证迭代器 |
(n[, n_iter, ...]) | 随机置换交叉验证迭代器 |
(y[, ...]) | 分层ShuffleSplit交叉验证迭代器 |
(test_fold) | 预定义的分割交叉验证迭代器 |
(\*args, \*\*kwargs) | 主成分分析(PCA)使用随机SVD |
(\*args, \*\*kwargs) | 遗留高斯过程模型类 |
(\*args, \*\*kwargs) | 传统高斯混合模型 |
(\*args, \*\*kwargs) | Dirichlet过程高斯混合模型 |
(\*args, \*\*kwargs) | 高斯混合模型的变分推理 |
(X, y, estimator, ...) | 适合一组参数 |
(estimator, X, y) | 学习曲线 |
(estimator, ...) | 验证曲线 |
(estimator, X) | 为每个输入数据点生成交叉验证的估计 |
(estimator, X) | 通过交叉验证评估分数 |
(cv[, X, y, classifier]) | 输入检查器实用程序以用户友好的方式构建简历 |
(...) | 评估具有置换的交叉验证分数的意义 |
(\*arrays, ...) | 将阵列或矩阵拆分成随机列和测试子集 |