原理 | 令爷课程-曾确令(ColinZENG)AIGC玩家

从偶然的发现到必然的革命：语义计算如何催生AIGC

引言：一次意外的发现，一个时代的开启 2013年，人工智能（AI）的历史被一个看似简单的向量等式悄然改写。托马斯·米科洛夫（Tomáš Mikolov）及其在谷歌的团队在研发Word2Vec模型时，无意中发现了一个令人震惊的现象——词语的意义竟然可以通过数学运算来精确捕捉 ^1^。这个后来家喻户晓的例子便是： vector(′King′)−vector…

AIGC应用 2025年7月5日 56 0

令爷原创

两种学科的故事：对统计学与大数据相互作用的详尽分析

引言 21世纪的黎明以数据的洪流为标志，将“大数据”一词推入了商业、技术和科学领域的词典核心。这个看似源于硅谷和软件的新范式，常常被认为是在挑战甚至取代拥有数百年历史、以严谨著称的统计学。本报告旨在论证，这种观点是一种简单化的误读。统计学与大数据并非竞争对手，而是两个截然不同但又紧密相连的智力与技术…

2025年6月22日 61 0

数据探索分析

Pandas基础教程之替换SQL 来源： https://www.biaodianfu.com 对于很多数据分析的同学来说，最熟悉的莫过于SQL，针对数据处理问题，脑海里的第一反应也往往都是SQL，而在日常的工作中往往也需要在Pandas的DataFrame数据上处理和分析数据，今天就一起来学习Pandas。使用Pandas代替SQL 选择列 ## select COL1, COL2 from …

2024年9月8日 137 0

数据探索分析

统计学基础之摘要统计

统计学基础之摘要统计来源： https://www.biaodianfu.com 什么是摘要统计？摘要统计是一种用来描述、概括和呈现数据集特征的统计学工具。它们通常用于数据分析的初步阶段，可以帮助研究者理解数据的基本趋势和模式，但不用于从样本推断总体的结论。摘要统计主要包括两类指标：集中趋势的度量和离散程度的度量。集中趋…

2024年9月8日 144 0

令爷收藏

探索性数据分析详解

探索性数据分析详解来源： https://www.biaodianfu.com 什么是探索性数据分析？探索性数据分析（Exploratory Data Analysis，简称EDA）是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。探索…

2024年9月8日 181 0

数据探索分析

机器学习/数据分析之缺失值处理

机器学习/数据分析之缺失值处理来源： https://www.biaodianfu.com 在机器学习数据预处理阶段经常需要对数据进行缺失值处理。关于缺失值的处理并没有想象中的那么简单。以下为一些经验分享。数据缺失类型完全随机丢失（MCAR，Missing Completely at Random）：某个变量是否缺失与它自身的值无关，也与其他任何变量的…

2024年9月8日 192 0

数据探索分析

机器学习算法之XGBoost

机器学习算法之XGBoost 来源： https://www.biaodianfu.com 什么是XGBoost? 全称：eXtreme Gradient Boosting 作者：陈天奇(华盛顿大学博士) 基础：GBDT 所属：boosting迭代型、树类算法。适用范围：分类、回归优点：速度快、效果好、能处理大规模数据、支持多种语言、支持自定义损失函数等等。缺点：算法参数过多，…

2024年9月8日 178 0

实证分析： T检验、方差分析（ANOVA）和卡方检验的对比分析

以下是T检验、方差分析（ANOVA）和卡方检验的对比分析，以及它们在不同应用领域的详细描述。统计方法 T检验方差分析（ANOVA）卡方检验目的比较两个组的均值差异比较多个组的均值差异比较分类变量的频数分布数据类型连续变量（通常是正态分布）连续变量（通常是正态分布）分类变量适用条件样本数量较小，正…

数据探索分析 2024年9月8日 164 0

数据探索分析

机器学习算法之K-近邻（KNN）

机器学习算法之K-近邻（KNN）来源： https://www.biaodianfu.com 什么是K-近邻算法？ K近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。它的工作原理是：存在一个样本数据集合，也称作为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类…

2024年9月7日 133 0

数据探索分析

关联分析算法之FP-Growth

关联分析算法之FP-Growth 来源： https://www.biaodianfu.com 在Apriori算法的学习中，我们了解到Apriori算法需要不断生成候选项目队列和不断得扫描整个数据库进行比对，I/O是很大的瓶颈。为了解决这个问题，FP-Growth利用了巧妙的数据结构，无论多少数据，只需要扫描两次数据集，大大降低了Aproir挖掘算法的代价。FP-Gr…

2024年9月7日 150 0

数据探索分析

机器学习算法之线性回归

机器学习算法之线性回归来源： https://www.biaodianfu.com 线性回归是统计学总最常用的算法之一。从根本上来说，当你想表示两个变量间数学关系时，就可以使用线性回归。当你使用它时，你首先假设输出变量（有时称为响应变量、因变量或标签）和预测变量（有时称为自变量、解释变量或特征）之间存在线性关系。当然这种线…

2024年9月7日 142 0

数据探索分析

机器学习算法之逻辑回归

机器学习算法之逻辑回归来源： https://www.biaodianfu.com 逻辑回归算法的名字里虽然带有“回归”二字，但实际上逻辑回归算法是用来解决分类问题的。简单来说，逻辑回归（Logistic Regression）是一种用于解决二分类（0 or 1）问题的机器学习方法，用于估计某种事物的可能性。比如某用户购买某商品的可能性，某病人患有…

2024年9月7日 132 0

数据探索分析

机器学习算法之朴素贝叶斯

机器学习算法之朴素贝叶斯来源： https://www.biaodianfu.com 贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。贝叶斯定理贝叶斯定理实际上就是计算“条件概率” 的公式。条件概率（Conditional Probability）是指…

2024年9月7日 119 0

数据探索分析

机器学习算法之支持向量机SVM

机器学习算法之支持向量机SVM 来源： https://www.biaodianfu.com 什么是支持向量机（SVM）？支持向量机（support vector machines, SVM）是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；支持向量机还包括核技巧，这使它成为实质上的非线性分类器。支持向量机…

2024年9月7日 125 0

标签：原理

从偶然的发现到必然的革命：语义计算如何催生AIGC

两种学科的故事：对统计学与大数据相互作用的详尽分析

Pandas基础教程之替换SQL

统计学基础之摘要统计

探索性数据分析详解

机器学习/数据分析之缺失值处理

机器学习算法之XGBoost

实证分析： T检验、方差分析（ANOVA）和卡方检验的对比分析

机器学习算法之K-近邻（KNN）

关联分析算法之FP-Growth

相关性分析：Pearson、Kendall、Spearman

机器学习算法之线性回归

机器学习算法之逻辑回归

机器学习算法之朴素贝叶斯

机器学习算法之支持向量机SVM

联系我们

15602395067