整群随机抽样

📅 2026/7/1 2:19:15

整群随机抽样是将总体划分为若干个互不重叠的“群”然后随机抽取其中的若干个群对抽中的群里的所有单位进行调查。它的典型应用场景是城市居民健康调查将城市划分为若干个社区群随机抽取几个社区然后对这几个社区的所有居民进行健康调查。全国多所学校的学生视力普查将全国的学校作为“群”随机抽取几十所学校然后对这些学校的所有学生进行视力检查。下面是Python实现的一个整群随机抽样示例。# 创建模拟的群组数据假设客户按地区分组 regions [北京, 上海, 广州, 深圳, 杭州, 成都, 武汉, 西安] customer_data[region] np.random.choice(regions, len(customer_data)) print(各地区客户数量) print(customer_data[region].value_counts()) # 整群随机抽样随机选择3个地区调查这些地区的所有客户 selected_regions np.random.choice(regions, size3, replaceFalse) cluster_sample customer_data[customer_data[region].isin(selected_regions)] print(f\n抽中的地区{selected_regions}) print(整群随机抽样结果) print(f样本量{len(cluster_sample)}) print(f样本平均收入{cluster_sample[income].mean():.2f}) print(f总体平均收入{customer_data[income].mean():.2f}) # 运行结果各地区客户数量 region 武汉 141 广州 133 成都 132 杭州 124 北京 120 上海 118 深圳 116 西安 116 Name: count, dtype: int64 抽中的地区[杭州深圳武汉] 整群随机抽样结果样本量381 样本平均收入50319.75 总体平均收入50863.12 整群随机抽样得到的平均收入与总体数据的比较如下图它们的值非常接近。4. 随机抽样综合比较为了更直观地感受不同抽样方法带来的差异我们从同一个数据集中使用不同的方法抽取大约相同规模的样本来比较各种抽样方法。# 创建更复杂的数据集来演示各种抽样方法 np.random.seed(42) company_data pd.DataFrame( { employee_id: range(1, 1001), department: np.random.choice( [技术, 销售, 市场, 人事, 财务], 1000, p[0.3, 0.25, 0.2, 0.15, 0.1], ), salary: np.random.normal(80000, 20000, 1000).astype(int), experience: np.random.exponential(5, 1000).astype(int) 1, } ) # 修正可能的负工资 company_data[salary] company_data[salary].clip(lower30000) print(公司员工数据概况) print(f总员工数{len(company_data)}) print(f平均工资{company_data[salary].mean():.2f}) print(\n各部门人数) print(company_data[department].value_counts()) # 应用不同抽样方法 samples { 简单随机抽样: company_data.sample(n100, random_state42), 分层随机抽样: company_data.groupby(department) .apply(lambda x: x.sample(frac0.1, random_state42), include_groupsFalse) .reset_index(), 系统随机抽样: systematic_sampling(company_data, 10), 整群随机抽样: company_data[ company_data[department].isin( np.random.choice(company_data[department].unique(), 2, replaceFalse) ) ], } # 比较结果 comparison pd.DataFrame( { 方法: [总体] list(samples.keys()), 样本量: [len(company_data)] [len(sample) for sample in samples.values()], 平均工资: [company_data[salary].mean()] [sample[salary].mean() for sample in samples.values()], 工资误差: [0] [ abs(sample[salary].mean() - company_data[salary].mean()) for sample in samples.values() ], } ) print(\n各种抽样方法比较) print(comparison) # 运行结果公司员工数据概况总员工数1000 平均工资82015.16 各部门人数 department 技术 319 销售 240 市场 198 人事 143 财务 100 Name: count, dtype: int64

新闻详情

相关阅读

【JAVA毕设源码分享】基于springboot充电桩共享服务管理系统的设计与实现(程序+文档+代码讲解+一条龙定制)

智谱 AutoGLM 深度研究：架构解读与电商平台 Agent 结合方案

OpenAI / Claude API 报错 401、403、429 怎么解决？一文讲清 API Key 失效排查思路

护照翻译英文如何办理？办理护照翻译材料有哪些？多少钱？

企业级AI Agent实战：从原理到落地的完整指南

企业级Agentic AI实战指南：从核心原理到本地验证

MySQL零基础入门到精通：安装配置、SQL语法与性能优化全攻略

数仓项目指标体系的拆分

从零构建AI智能体：基于LangChain的Agent与Skill开发实战指南

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！