令爷课程
-
MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式
MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式 综合介绍 MarkItDown是由微软开发的一个Python工具,旨在将各种文件和办公文档转换为Markdown格式。该工具支持多种文件类型,包括PDF、PowerPoint、Word、Excel、图片(EXIF元数据和OCR)、音频(EXIF元数据和语音转录)、HTML(特别处理Wikipedia等)以…
-
Cursor 、v0 和 Bolt.new:当今 AI 编程工具的全面解析与对比
Cursor 、v0 和 Bolt.new:当今 AI 编程工具的全面解析与对比 AI 驱动的编码工具正在迅速发展,每次新版本的发布都承诺将改变我们的开发流程。这些工具旨在通过智能代码建议、重复任务的自动化,甚至从自然语言提示生成整个代码片段来提升生产力。10月4日,StackBlitz 推出了 Bolt.new,进一步丰富了AI 编码助手的生态系…
-
提前体验火上热搜的 Kimi 探索版,我感觉 AI 搜索和百度们完全不是一个物种了
提前体验火上热搜的 Kimi 探索版,我感觉 AI 搜索和百度们完全不是一个物种了 谁能最先用 AI 颠覆搜索,至今还悬而未决。 年初,在体验当下几款热门的 AI 搜索引擎后,我和同事都一致认为,即便百度、Google 等搜索引擎巨头被群狼环视,但还是难以被撼动。 最近发布的 Kimi 探索版带来了很大的惊喜。相比于 AI 搜索更懂…
-
python爬虫工具集合
python爬虫工具集合 主要针对python3 常用库 获取目标 chrome/firefox chrome开发者工具小技巧 史上最全的Chrome使用技巧集锦 fiddler project download-unofficial download-official articles Fiddler是最强大最好用的Web调试工具之一,它能记录所有客户端和服务器的http和https请求,允许你监视,设置断点,甚至修改…
-
50个最佳机器学习公共数据集
外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,为大家分享一下~ 外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,为大家分享一下~ 提前说下须知: 一、寻找数据集的意义 根据CMU的说法,寻找一个好用的数据…
-
用户调研之标准化可用性问卷
用户调研之标准化可用性问卷 来源:https://www.biaodianfu.com/summary-of-examined-usability-surveys.html 最近收到了对两个平台进行对比调研的需求,原以为做下简单的问卷设计就可以了,找了一些资料发现中间的门道还是非常的深,想要很好的掌握实属不易。可用性测试的问卷有很多中,如下图: 什么是标准化的问卷 问…
-
2023年5个自动化EDA库推荐
2023年5个自动化EDA库推荐 来源:deephub EDA或探索性数据分析是一项耗时的工作,但是由于EDA是不可避免的,所以Python出现了很多自动化库来减少执行分析所需的时间。EDA的主要目标不是制作花哨的图形或创建彩色的图形,而是获得对数据集的理解,并获得对变量之间的分布和相关性的初步见解。我们在以前也介绍过EDA自动化…
-
数据探索工具Dataprep.eda
数据探索工具Dataprep.eda 来源: https://www.biaodianfu.com Pandas-profiling(2016)被称为EDA(Exploratory Data Analysis)分析的典型工具,然而Pandas-profiling的一个主要缺点是它提供的是数据集的侧写,而EDA是一个迭代的过程,分析过程中会对对数据不断进行质疑、理解、处理、转换等。 Pandas-profiling严格的…
-
Pandas基础教程之替换SQL
Pandas基础教程之替换SQL 来源: https://www.biaodianfu.com 对于很多数据分析的同学来说,最熟悉的莫过于SQL,针对数据处理问题,脑海里的第一反应也往往都是SQL,而在日常的工作中往往也需要在Pandas的DataFrame数据上处理和分析数据,今天就一起来学习Pandas。 使用Pandas代替SQL 选择列 ## select COL1, COL2 from …
-
统计学基础之摘要统计
统计学基础之摘要统计 来源: https://www.biaodianfu.com 什么是摘要统计? 摘要统计是一种用来描述、概括和呈现数据集特征的统计学工具。它们通常用于数据分析的初步阶段,可以帮助研究者理解数据的基本趋势和模式,但不用于从样本推断总体的结论。摘要统计主要包括两类指标:集中趋势的度量和离散程度的度量。 集中趋…
-
探索性数据分析详解
探索性数据分析详解 来源: https://www.biaodianfu.com 什么是探索性数据分析? 探索性数据分析(Exploratory Data Analysis,简称EDA) 是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。 探索…
-
机器学习/数据分析之缺失值处理
机器学习/数据分析之缺失值处理 来源: https://www.biaodianfu.com 在机器学习数据预处理阶段经常需要对数据进行缺失值处理。关于缺失值的处理并没有想象中的那么简单。以下为一些经验分享。 数据缺失类型 完全随机丢失(MCAR,Missing Completely at Random) :某个变量是否缺失与它自身的值无关,也与其他任何变量的…
-
机器学习算法之XGBoost
机器学习算法之XGBoost 来源: https://www.biaodianfu.com 什么是XGBoost? 全称:eXtreme Gradient Boosting 作者:陈天奇(华盛顿大学博士) 基础:GBDT 所属:boosting迭代型、树类算法。 适用范围:分类、回归 优点:速度快、效果好、能处理大规模数据、支持多种语言、支持自定义损失函数等等。 缺点:算法参数过多,…
-
实证分析: T检验、方差分析(ANOVA)和卡方检验的对比分析
以下是T检验、方差分析(ANOVA)和卡方检验的对比分析,以及它们在不同应用领域的详细描述。 统计方法 T检验 方差分析(ANOVA) 卡方检验 目的 比较两个组的均值差异 比较多个组的均值差异 比较分类变量的频数分布 数据类型 连续变量(通常是正态分布) 连续变量(通常是正态分布) 分类变量 适用条件 样本数量较小,正…
-
机器学习算法之K-近邻(KNN)
机器学习算法之K-近邻(KNN) 来源: https://www.biaodianfu.com 什么是K-近邻算法? K近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。它的工作原理是:存在一个样本数据集合,也称作为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类…