数据探索分析

机器学习算法核心教程与Python实践

算法选择快速参考在深入了解每个算法的细节之前，您可以根据您的任务类型和应用场景，使用下表进行快速参考：任务类型算法典型应用场景分类 (Classification) 逻辑回归 (Logistic Regression) 二分类问题、广告点击率预测、信用评分 K-近邻 (KNN) 图像识别、推荐系统（基于用户的相似性）支持向量机 (SVM) 高维数…

数据探索分析 2025年9月8日 41 0

数据探索分析

2012 – 2024年各国轨道发射数据图

马斯克转发的轨道发射数据图！统计了2012 – 2024年各国轨道发射数据，直观展现航天实力变迁👇 美国（含SpaceX）发射量一路飙升，总次数628次，送58名宇航员；中国紧追不舍，468次发射+32名航天员，展现强劲航天力🚀 美国（不含SpaceX）201次发射，仅送2名宇航员，对比超明显～换言之，要是没有马斯克和…

2025年7月29日 48 0

令爷收藏

【美团】可信实验白皮书系列03：随机对照实验

可信实验白皮书系列03：随机对照实验 2025年06月05日作者: 履约数据&外卖数据文章链接 18881字 38分钟阅读本文系《可信实验白皮书》系列的第三篇文章，第一篇文章我们介绍了为什么要写AB实验白皮书，第二篇文章讲解了AB实验的理论原理及其背后的统计学基础。本篇我们将重点介绍随机对照实验相关的一些基础知识，…

2025年6月24日 57 0

令爷收藏

【美团】可信实验白皮书系列02：AB实验基础

可信实验白皮书系列02：AB实验基础 2025年05月23日作者: 履约数据&外卖数据文章链接 2807字 6分钟阅读 2.1 实验基础原理概述 AB实验原理源于统计学中经典的Rubin潜在结果模型（也称反事实因果推断框架）。考虑最简单的情况，当我们想要比较两个策略的差异以获得更优策略时。如图2-1所示，最理想的方案是面向同一拨…

2025年6月24日 58 0

令爷原创

两种学科的故事：对统计学与大数据相互作用的详尽分析

引言 21世纪的黎明以数据的洪流为标志，将“大数据”一词推入了商业、技术和科学领域的词典核心。这个看似源于硅谷和软件的新范式，常常被认为是在挑战甚至取代拥有数百年历史、以严谨著称的统计学。本报告旨在论证，这种观点是一种简单化的误读。统计学与大数据并非竞争对手，而是两个截然不同但又紧密相连的智力与技术…

2025年6月22日 61 0

AI驱动的数据抓取新时代：从BeautifulSoup到智能爬虫工具

在数据驱动的AI时代，获取高质量的网络数据变得越来越重要。传统的网页抓取方法正在被新一代智能工具所取代，这些工具不仅简化了数据获取过程，还提高了数据质量。本文将带你了解从传统方法到最新AI驱动工具的演变，帮助你选择最适合自己项目的数据抓取解决方案。传统爬虫的局限性网络数据抓取一直是AI和数据分析项目…

令爷原创 2025年3月16日 99 0

50个最佳机器学习公共数据集

外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息，整理了一张50个最佳机器学习公共数据集的榜单，为大家分享一下~ 外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息，整理了一张50个最佳机器学习公共数据集的榜单，为大家分享一下~ 提前说下须知：一、寻找数据集的意义根据CMU的说法，寻找一个好用的数据…

令爷收藏 2024年10月1日 156 0

7. 数据分析（市场调研）

用户调研之标准化可用性问卷

用户调研之标准化可用性问卷来源：https://www.biaodianfu.com/summary-of-examined-usability-surveys.html 最近收到了对两个平台进行对比调研的需求，原以为做下简单的问卷设计就可以了，找了一些资料发现中间的门道还是非常的深，想要很好的掌握实属不易。可用性测试的问卷有很多中，如下图：什么是标准化的问卷问…

2024年9月10日 188 0

令爷收藏

2023年5个自动化EDA库推荐

2023年5个自动化EDA库推荐来源：deephub EDA或探索性数据分析是一项耗时的工作，但是由于EDA是不可避免的，所以Python出现了很多自动化库来减少执行分析所需的时间。EDA的主要目标不是制作花哨的图形或创建彩色的图形，而是获得对数据集的理解，并获得对变量之间的分布和相关性的初步见解。我们在以前也介绍过EDA自动化…

2024年9月10日 157 0

数据探索分析

数据探索工具Dataprep.eda 来源： https://www.biaodianfu.com Pandas-profiling（2016）被称为EDA（Exploratory Data Analysis）分析的典型工具，然而Pandas-profiling的一个主要缺点是它提供的是数据集的侧写，而EDA是一个迭代的过程，分析过程中会对对数据不断进行质疑、理解、处理、转换等。 Pandas-profiling严格的…

2024年9月8日 160 0

数据探索分析

Pandas基础教程之替换SQL

Pandas基础教程之替换SQL 来源： https://www.biaodianfu.com 对于很多数据分析的同学来说，最熟悉的莫过于SQL，针对数据处理问题，脑海里的第一反应也往往都是SQL，而在日常的工作中往往也需要在Pandas的DataFrame数据上处理和分析数据，今天就一起来学习Pandas。使用Pandas代替SQL 选择列 ## select COL1, COL2 from …

2024年9月8日 137 0

数据探索分析

统计学基础之摘要统计

统计学基础之摘要统计来源： https://www.biaodianfu.com 什么是摘要统计？摘要统计是一种用来描述、概括和呈现数据集特征的统计学工具。它们通常用于数据分析的初步阶段，可以帮助研究者理解数据的基本趋势和模式，但不用于从样本推断总体的结论。摘要统计主要包括两类指标：集中趋势的度量和离散程度的度量。集中趋…

2024年9月8日 144 0

令爷收藏

探索性数据分析详解

探索性数据分析详解来源： https://www.biaodianfu.com 什么是探索性数据分析？探索性数据分析（Exploratory Data Analysis，简称EDA）是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。探索…

2024年9月8日 181 0

数据探索分析

机器学习/数据分析之缺失值处理

机器学习/数据分析之缺失值处理来源： https://www.biaodianfu.com 在机器学习数据预处理阶段经常需要对数据进行缺失值处理。关于缺失值的处理并没有想象中的那么简单。以下为一些经验分享。数据缺失类型完全随机丢失（MCAR，Missing Completely at Random）：某个变量是否缺失与它自身的值无关，也与其他任何变量的…

2024年9月8日 192 0

数据探索分析

机器学习算法之XGBoost

机器学习算法之XGBoost 来源： https://www.biaodianfu.com 什么是XGBoost? 全称：eXtreme Gradient Boosting 作者：陈天奇(华盛顿大学博士) 基础：GBDT 所属：boosting迭代型、树类算法。适用范围：分类、回归优点：速度快、效果好、能处理大规模数据、支持多种语言、支持自定义损失函数等等。缺点：算法参数过多，…

2024年9月8日 178 0

标签：数据探索分析

机器学习算法核心教程与Python实践

2012 – 2024年各国轨道发射数据图

【美团】可信实验白皮书系列03：随机对照实验

【美团】可信实验白皮书系列02：AB实验基础

两种学科的故事：对统计学与大数据相互作用的详尽分析

AI驱动的数据抓取新时代：从BeautifulSoup到智能爬虫工具

50个最佳机器学习公共数据集

用户调研之标准化可用性问卷

2023年5个自动化EDA库推荐

数据探索工具Dataprep.eda

Pandas基础教程之替换SQL

统计学基础之摘要统计

探索性数据分析详解

机器学习/数据分析之缺失值处理

机器学习算法之XGBoost

联系我们

15602395067