数据探索分析

  • 机器学习算法之朴素贝叶斯

    机器学习算法之朴素贝叶斯 来源: https://www.biaodianfu.com 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。 贝叶斯定理 贝叶斯定理实际上就是计算“条件概率” 的公式。条件概率(Conditional Probability)是指…

    2024年9月7日 28
  • 机器学习算法之支持向量机SVM

    机器学习算法之支持向量机SVM 来源: https://www.biaodianfu.com 什么是支持向量机(SVM)? 支持向量机(support vector machines, SVM)是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;支持向量机还包括核技巧,这使它成为实质上的非线性分类器。支持向量机…

    2024年9月7日 27
  • 机器学习算法之主成分分析PCA

    机器学习算法之主成分分析PCA 来源: https://www.biaodianfu.com 主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA,下面我们就对PCA的原理做一个总结。 首先考虑一个问题:对于正交…

    2024年9月7日 40
  • 机器学习算法之决策树分类

    机器学习算法之决策树分类 来源: https://www.biaodianfu.com 什么是决策树 决策树(decision tree)是一种依托于策略抉择而建立起来的树。机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。 树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,从根节点到叶节点所…

    2024年9月7日 41
  • 机器学习聚类算法之K-Means

    来源: https://www.biaodianfu.com 机器学习聚类算法之K-Means 根据训练样本中是否包含标签信息,机器学习可以分为监督学习和无监督学习。聚类算法是典型的无监督学习,其训练的样本中值包含样本的特征,不包含样本的标签信息。在聚类算法中。利用样本的特征,将具有相似属性的样本划分到统一类别中,它有点像全自动分…

    2024年9月7日 29
  • 风险控制:信用评分卡模型

    来源: https://www.biaodianfu.com 什么是信用评分卡模型? 评分卡模型又叫做信用评分卡模型,最早由美国信用评分巨头FICO公司于20世纪60年代推出,在信用风险评估以及金融风险控制领域中广泛使用。银行利用评分卡模型对客户的信用历史数据的多个特征进行打分,得到不同等级的信用评分,从而判断客户的优质程度,据此决…

    2024年9月7日 39
  • 机器学习之特征选择方法

    来源: https://www.biaodianfu.com 特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant)的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化模型,协助理解数据产生的过程。并且常能听到“ 数据和特…

    2024年9月7日 42
  • Pandas数据处理简明教程

    来源: https://www.biaodianfu.com 在使用Python处理分析数据的时候,用的最多的算是Pandas时,由于Pandas是个非常强大的工具,涉及到的功能非常多,所以平常使用的时候经常需要查询文档。这里记载了自己常用的一些功能及知识点。 Pandas简介 Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月…

    2024年9月7日 38
  • 数据科学中10个应用广泛的统计方法

    以下是数据科学中广泛应用的十个统计方法的详细描述: 1️⃣ 中心极限定理 (Central Limit Theorem, CLT) 描述: 中心极限定理告诉我们,无论原始数据的分布是什么样的,只要我们取足够多的样本(通常认为样本量大于30就够了),这些样本的均值分布会趋向于正态分布。这个理论是统计学的基石之一,因为它让…

    2024年9月7日 31
  • Python数据分析7步(IMDb Summer Movies Data)

    数据:summer_movies | summer_movie_genres 流程 graph LR A[1导入库] –> B[2导入数据] B –> C[3数据探索与处理] C –> D[4数据可视化] D –> E[5特征工程] E –> F[6模型训练与评估] F –> G[7预测新数据] 数据集说明 以下是两个数据文件的详细说明: 文件1:summer_movies.csv 数据预览: tconst…

    2024年8月14日 37
  • Python数据分析7步(Iris数据集)

    数据:iris.csv Python数据分析7步 graph LR A[1导入库] –> B[2导入数据] B –> C[3数据探索与处理] C –> D[4数据可视化] D –> E[5特征工程] E –> F[6模型训练与评估] F –> G[7预测新数据] 1 导入库 import pandas as pd # 数据处理和分析库 import numpy # 科学计算库 import matplotlib.pyplot…

    令爷课程 2024年8月13日 43
  • 健身房的正态分布例子

    以下是chatgpt 4o的描述 重量堆栈正态分布 这张图片显示了一个重量堆栈(可能是一个健身器材)的图示,其中每个重量位置上都有明显的磨损痕迹。这些磨损痕迹在图中形成了一个钟形曲线,类似于正态分布(即常态分布)。 具体来说,这种磨损痕迹集中在中间的重量区间(大约在40到60之间),而两端的重量位置(10-20和90-11…

    2024年7月15日 51
  • 数据分析工具介绍

    数据分析工具介绍 数据分析工具在现代商业和科学研究中扮演着重要角色。不同的工具适用于不同的数据规模和分析需求。本文将介绍几种常见的数据分析工具,并讨论它们的替代品和适用场景。 小规模数据分析工具 1. Excel 特点:适用于处理几千到几万行数据,提供基础的数据整理、分析和可视化功能。 用户:个人用户、小型企…

    AI生成 2024年7月6日 42
  • Tableau免费了

    ⏩支持离线使用自动保存、支持将工作簿保存在本地而不是在线发布; ⏩企业数据可以安心在本地操作而不必泄漏; ⏩可直接选择发布到Public社区,而不必经过繁杂的数据提取再发布环节; 🆓最重要的是:免费!免费!免费!与付费专业版Tableau Desktop Professional Edition相比基本没什么差别,…

    2024年5月15日 51
  • 一个标星:17.4k⭐可视化爬虫软件:EasySpider

    EasySpider是一个可视化爬虫软件,它支持数据的定制和导出,适用于各种爬虫应用和数据采集需求。该项目在GitHub上非常受欢迎,过去一个月内增加了4,786个星星。其使用文档和示例可以在Issues中找到。项目教程包括如何爬需要登录的网站、自定义条件判断、如何爬取需要输入验证码的网站等。此外,它还提供了命令行执行任务…

    2023年11月19日 99

联系我们

15602395067

在线咨询:点击这里给我发消息

邮件:eden7@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code