Pandas sample随机抽样的实现

2023-06-14 原文

随机抽样，是统计学中常用的一种方法，它可以帮助我们从大量的数据中快速地构建出一组数据分析模型。在 Pandas 中，如果想要对数据集进行随机抽样，需要使用 sample() 函数。

sample() 函数的语法格式如下：

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

参数说明如下表所示：

参数名称	参数说明
n	表示要抽取的行数。
frac	表示抽取的比例，比如 frac=0.5，代表抽取总体数据的50%。
replace	布尔值参数，表示是否以有放回抽样的方式进行选择，默认为 False，取出数据后不再放回。
weights	可选参数，代表每个样本的权重值，参数值是字符串或者数组。
random_state	可选参数，控制随机状态，默认为 None，表示随机数据不会重复；若为 1 表示会取得重复数据。
axis	表示在哪个方向上抽取数据(axis=1 表示列/axis=0 表示行)。
该函数返回与数据集类型相同的新对象，相当于 numpy.random.choice()。实例如下：

import pandas as pd  
dict = {'name':["Jack", "Tom", "Helen", "John"],'age': [28, 39, 34, 36],'score':[98,92,91,89]} 
info = pd.DataFrame(dict)
#默认随机选择两行
info.sample(n=2)
#随机选择两列
info.sample(n=2,axis=1)

输出结果：

name age score
3 John 36 89
0 Jack 28 98

score name
0 98 Jack
1 92 Tom
2 91 Helen
3 89 John

再来看一组示例：

import pandas as pd
info = pd.DataFrame({'data1': [2, 6, 8, 0], 'data2': [2, 5, 0, 8], 'data3': [12, 2, 1, 8]}, index=['John', 'Parker', 'Smith', 'William'])
info
#随机抽取3个数据
info['data1'].sample(n=3)
#总体的50%
info.sample(frac=0.5, replace=True)
#data3序列为权重值，并且允许重复数据出现
info.sample(n=2, weights='data3', random_state=1)

输出结果：

随机选择3行数据：
William 0
Smith 8
Parker 6
Name: data1, dtype: int64

data1 data2 data3
John 2 2 12
William 0 8 8

data1 data2 data3
John 2 2 12
William 0 8 8

到此这篇关于Pandas sample随机抽样的实现的文章就介绍到这了,更多相关Pandas sample随机抽样内容请搜索Devmax以前的文章或继续浏览下面的相关文章希望大家以后多多支持Devmax！

Pandas sample随机抽样的实现的更多相关文章

Pandas如何将表格的前几行生成html实战案例

这篇文章主要介绍了Pandas如何将表格的前几行生成html实战案例，文章围绕主题展开详细的内容介绍，具有一定的参考价值，需要的小伙伴可以参考一下
pandas如何计算同比环比增长

这篇文章主要介绍了pandas如何计算同比环比增长，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
python sklearn与pandas实现缺失值数据预处理流程详解

对于缺失值的处理，主要配合使用sklearn.impute中的SimpleImputer类、pandas、numpy。其中由于pandas对于数据探索、分析和探查的支持较为良好，因此围绕pandas的缺失值处理较为常用
Python使用pandas将表格数据进行处理

这篇文章主要介绍了Python使用pandas将表格数据进行处理，文章围绕主题展开详细的内容介绍，具有一定的参考价值，感兴趣的小伙伴可以参考一下
pandas数据类型之Series的具体使用

本文主要介绍了pandas数据类型之Series的具体使用，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
通过5个例子让你学会Pandas中的字符串过滤

毋庸置疑Pandas是使用最广泛的Python库之一,它提供了许多功能和方法来执行有效的数据处理和数据分析,下面这篇文章主要给大家介绍了关于如何通过5个例子让你学会Pandas中字符串过滤的相关资料,需要的朋友可以参考下
pandas的排序、分组groupby及cumsum累计求和方式

这篇文章主要介绍了pandas的排序、分组groupby及cumsum累计求和方式，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
Python Pandas 中的数据结构详解

这篇文章主要介绍了Python Pandas 中的数据结构详解，Pandas有三种数据结构Series、DataFrame和Panel，文章围绕主题展开更多相关内容需要的小伙伴可以参考一下
Python+Pandas实现数据透视表

对于数据透视表，相信对于Excel比较熟悉的小伙伴都知道如何使用它。本文将利用Python Pandas实现数据透视表功能，感兴趣的可以学习一下
Pandas sample随机抽样的实现

随机抽样，是统计学中常用的一种方法，本文主要介绍了Pandas sample随机抽样的实现，文中通过示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下

随机推荐

10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
python数学建模之三大模型与十大常用算法详情

这篇文章主要介绍了python数学建模之三大模型与十大常用算法详情，文章围绕主题展开详细的内容介绍，具有一定的参考价值，感想取得小伙伴可以参考一下
Python爬取奶茶店数据分析哪家最好喝以及性价比

这篇文章主要介绍了用Python告诉你奶茶哪家最好喝性价比最高，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习吧
使用pyinstaller打包.exe文件的详细教程

PyInstaller是一个跨平台的Python应用打包工具，能够把 Python 脚本及其所在的 Python 解释器打包成可执行文件,下面这篇文章主要给大家介绍了关于使用pyinstaller打包.exe文件的相关资料,需要的朋友可以参考下
基于Python实现射击小游戏的制作

这篇文章主要介绍了如何利用Python制作一个自己专属的第一人称射击小游戏，文中的示例代码讲解详细，感兴趣的小伙伴可以跟随小编一起动手试一试
Python list append方法之给列表追加元素

这篇文章主要介绍了Python list append方法如何给列表追加元素，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
Pytest+Request+Allure+Jenkins实现接口自动化

这篇文章介绍了Pytest+Request+Allure+Jenkins实现接口自动化的方法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
利用python实现简单的情感分析实例教程

商品评论挖掘、电影推荐、股市预测……情感分析大有用武之地,下面这篇文章主要给大家介绍了关于利用python实现简单的情感分析的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
利用Python上传日志并监控告警的方法详解

这篇文章将详细为大家介绍如何通过阿里云日志服务搭建一套通过Python上传日志、配置日志告警的监控服务，感兴趣的小伙伴可以了解一下
Pycharm中运行程序在Python console中执行,不是直接Run问题

这篇文章主要介绍了Pycharm中运行程序在Python console中执行,不是直接Run问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教