数据探索分析

机器学习算法之XGBoost

机器学习算法之XGBoost 来源： https://www.biaodianfu.com 什么是XGBoost? 全称：eXtreme Gradient Boosting 作者：陈天奇(华盛顿大学博士) 基础：GBDT 所属：boosting迭代型、树类算法。适用范围：分类、回归优点：速度快、效果好、能处理大规模数据、支持多种语言、支持自定义损失函数等等。缺点：算法参数过多，…

2024年9月8日 178 0

实证分析： T检验、方差分析（ANOVA）和卡方检验的对比分析

以下是T检验、方差分析（ANOVA）和卡方检验的对比分析，以及它们在不同应用领域的详细描述。统计方法 T检验方差分析（ANOVA）卡方检验目的比较两个组的均值差异比较多个组的均值差异比较分类变量的频数分布数据类型连续变量（通常是正态分布）连续变量（通常是正态分布）分类变量适用条件样本数量较小，正…

数据探索分析 2024年9月8日 163 0

数据探索分析

机器学习算法之K-近邻（KNN）

机器学习算法之K-近邻（KNN）来源： https://www.biaodianfu.com 什么是K-近邻算法？ K近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。它的工作原理是：存在一个样本数据集合，也称作为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类…

2024年9月7日 132 0

数据探索分析

关联分析算法之FP-Growth

关联分析算法之FP-Growth 来源： https://www.biaodianfu.com 在Apriori算法的学习中，我们了解到Apriori算法需要不断生成候选项目队列和不断得扫描整个数据库进行比对，I/O是很大的瓶颈。为了解决这个问题，FP-Growth利用了巧妙的数据结构，无论多少数据，只需要扫描两次数据集，大大降低了Aproir挖掘算法的代价。FP-Gr…

2024年9月7日 150 0

数据探索分析

机器学习算法之线性回归

机器学习算法之线性回归来源： https://www.biaodianfu.com 线性回归是统计学总最常用的算法之一。从根本上来说，当你想表示两个变量间数学关系时，就可以使用线性回归。当你使用它时，你首先假设输出变量（有时称为响应变量、因变量或标签）和预测变量（有时称为自变量、解释变量或特征）之间存在线性关系。当然这种线…

2024年9月7日 142 0

数据探索分析

机器学习算法之逻辑回归

机器学习算法之逻辑回归来源： https://www.biaodianfu.com 逻辑回归算法的名字里虽然带有“回归”二字，但实际上逻辑回归算法是用来解决分类问题的。简单来说，逻辑回归（Logistic Regression）是一种用于解决二分类（0 or 1）问题的机器学习方法，用于估计某种事物的可能性。比如某用户购买某商品的可能性，某病人患有…

2024年9月7日 131 0

数据探索分析

机器学习算法之朴素贝叶斯

机器学习算法之朴素贝叶斯来源： https://www.biaodianfu.com 贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。贝叶斯定理贝叶斯定理实际上就是计算“条件概率” 的公式。条件概率（Conditional Probability）是指…

2024年9月7日 118 0

数据探索分析

机器学习算法之支持向量机SVM

机器学习算法之支持向量机SVM 来源： https://www.biaodianfu.com 什么是支持向量机（SVM）？支持向量机（support vector machines, SVM）是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；支持向量机还包括核技巧，这使它成为实质上的非线性分类器。支持向量机…

2024年9月7日 124 0

数据探索分析

机器学习算法之主成分分析PCA

机器学习算法之主成分分析PCA 来源： https://www.biaodianfu.com 主成分分析（Principal components analysis，以下简称PCA）是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA，下面我们就对PCA的原理做一个总结。首先考虑一个问题：对于正交…

2024年9月7日 175 0

数据探索分析

机器学习算法之决策树分类

机器学习算法之决策树分类来源： https://www.biaodianfu.com 什么是决策树决策树（decision tree）是一种依托于策略抉择而建立起来的树。机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，从根节点到叶节点所…

2024年9月7日 128 0

令爷收藏

机器学习聚类算法之K-Means

来源： https://www.biaodianfu.com 机器学习聚类算法之K-Means 根据训练样本中是否包含标签信息，机器学习可以分为监督学习和无监督学习。聚类算法是典型的无监督学习，其训练的样本中值包含样本的特征，不包含样本的标签信息。在聚类算法中。利用样本的特征，将具有相似属性的样本划分到统一类别中，它有点像全自动分…

2024年9月7日 123 0

数据探索分析

风险控制：信用评分卡模型

来源： https://www.biaodianfu.com 什么是信用评分卡模型？评分卡模型又叫做信用评分卡模型，最早由美国信用评分巨头FICO公司于20世纪60年代推出，在信用风险评估以及金融风险控制领域中广泛使用。银行利用评分卡模型对客户的信用历史数据的多个特征进行打分，得到不同等级的信用评分，从而判断客户的优质程度，据此决…

2024年9月7日 168 0

令爷收藏

机器学习之特征选择方法

来源： https://www.biaodianfu.com 特征选择是特征工程里的一个重要问题，其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant)的特征，从而达到减少特征个数，提高模型精确度，减少运行时间的目的。另一方面，选取出真正相关的特征简化模型，协助理解数据产生的过程。并且常能听到“ 数据和特…

2024年9月7日 149 0

令爷收藏

Pandas数据处理简明教程

来源： https://www.biaodianfu.com 在使用Python处理分析数据的时候，用的最多的算是Pandas时，由于Pandas是个非常强大的工具，涉及到的功能非常多，所以平常使用的时候经常需要查询文档。这里记载了自己常用的一些功能及知识点。 Pandas简介 Pandas是python的一个数据分析包，最初由AQR Capital Management于2008年4月…

2024年9月7日 131 0

数据探索分析

机器学习算法之XGBoost

实证分析： T检验、方差分析（ANOVA）和卡方检验的对比分析

机器学习算法之K-近邻（KNN）

关联分析算法之FP-Growth

相关性分析：Pearson、Kendall、Spearman

机器学习算法之线性回归

机器学习算法之逻辑回归

机器学习算法之朴素贝叶斯

机器学习算法之支持向量机SVM

机器学习算法之主成分分析PCA

机器学习算法之决策树分类

机器学习聚类算法之K-Means

风险控制：信用评分卡模型

机器学习之特征选择方法

Pandas数据处理简明教程

联系我们

15602395067