基于零代码平台的自媒体运营数据清洗与预处理

📅 2026/7/3 2:54:29
基于零代码平台的自媒体运营数据清洗与预处理
#助睿数智 #商业数据分析 #数据集成 #自媒体运营分析 #数据清洗一、实验背景1.1 实验目的本次实验基于全班同学在多平台发布的作品互动数据使用助睿ETL完成数据清洗与预处理输出两张核心数据表为后续特征工程与可视化分析奠定基础。通过本实验学生应掌握以下技能理解数据清洗在数据分析流程中的基础性与必要性使用助睿ETL完成多源数据的过滤、填充、聚合等预处理操作掌握分支处理的设计思路全平台概况统计与重点平台深度分析分流输出两张规范数据表支撑仪表盘不同模块的数据需求熟悉排序记录、分组、过滤记录、替换NULL值、字段选择、表输出等常用组件的配置方法1.2 实验环境零代码在线平台助睿数智Uniplore一站式数据科学平台覆盖数据接入、ETL处理、机器学习建模到可视化展示的全链路功能。官网为 https://www.uniplore.com/ 本次实验实训地址为 https://lab.guilian.cn/ 。数据处理工具助睿ETL数据集成平台其核心优势包括全元数据驱动架构平台内所有对象类型均通过元数据标准化定义覆盖数据读取、处理、写入的全流程零代码拖拽式操作通过可视化方式完成数据的抽取Extract、转换Transform、加载Load无需编写复杂代码丰富的预处理组件内置筛选、填充、聚合、连接、字段选择等多种转换节点灵活应对各类数据清洗场景Pipeline转换流机制面向数据流通处理的核心功能单元由多个不同功能的Transform步骤组合构成聚焦数据本身的加工转换操作数据源助睿ETL公共空间的 自媒体作品数据明细.csv采集了全班同学在6月8日-6月15日前提交的作品互动数据。该数据集仅覆盖采集时间节点前已发布且未被删除的作品。1.3 业务场景自媒体运营分析中采集到的原始数据往往不能直接用于分析需要先做清洗。观察 自媒体作品数据明细.csv 这份数据可以发现几个问题平台冗余数据包含了B站、CSDN、微信、知乎、小红书等多个平台但微信、知乎等平台的浏览数量几乎全是0虽然记录存在但缺乏核心浏览数据无法支撑有意义的分析无效记录部分作品的浏览数量、点赞数量、收藏数量全部为0这些记录可能是采集失败也可能是作品无人问津但对分析没有贡献字段缺失点赞、收藏、分享等字段中存在空值如果不处理后续计算会报错本次实验的任务就是通过助睿ETL零代码平台借助拖拽式组件逐一解决以上数据质量问题为后续的特征工程和可视化分析提供干净、规范的数据基础。1.4 数据加工流程本次实验有一个特殊之处后续可视化仪表盘需要同时展示两类信息——全平台概况和重点平台深度分析。两类信息对数据的要求不同因此在ETL中需要做分支处理分支一全平台概况统计对所有平台的原始数据按日期和平台进行排序、分组聚合统计各平台的作品数量、总浏览数、总点赞数等汇总指标输出 summary_all_platforms 表用于仪表盘顶部的全平台概况指标卡分支二重点平台深度分析筛选B站和CSDN的有效记录浏览数量0填充缺失值选择关键字段输出 content_analysis 表作为后续实验实验7-2的输入整体数据处理流程如下【分支一】CSV文件输入 ── 排序记录 ── 分组按日期平台聚合 ── summary_all_platforms 表输出【分支二】CSV文件输入 ── 过滤记录B站/CSDN 浏览0── 替换NULL值 ── 字段选择 ── content_analysis 表输出二、实验步骤2.1 登录实验平台在课程学习页面点击对应的实验入口进入实验指引后点击大数据实训平台跳转至 https://lab.guilian.cn/ 。从课程平台自动登录成功进入助睿实验平台首页。添加图片注释不超过 140 字可选2.2 创建团队可选个人实验略过进入平台后选择数据集成/ETL模块。为方便管理可先创建团队并添加组员。队长创建团队后通过手机号邀请成员加入。个人实验可直接使用默认项目此步略过。2.3 创建实验项目在数据集成页面新建项目选择所属团队个人实验则选个人空间输入项目名称如自媒体运营数据清洗确认后即在列表中显示新项目。添加图片注释不超过 140 字可选2.4 同步数据源与导入原始数据打开新建的项目进入元数据菜单右键根关系数据库选择同步数据源稍等片刻即可看到元数据中的数据库列表。本次实验数据来源于助睿ETL公共空间的 自媒体作品数据明细.csv需要先将该文件从公共空间复制到自己的文件库中作为转换流的数据源输入。在资源库中找到 自媒体作品数据明细.csv 文件确认其包含日期、作者昵称、作品标题、平台、点赞数、收藏数、分享数、投币数B站特有、浏览数量、作品链接等字段。需要说明的是该数据集仅覆盖采集时间节点6月8日-6月15日前已发布且未被删除的作品之后新提交或已删除的作品不在此次分析范围内。添加图片注释不超过 140 字可选2.5 新建转换流切换到资源库菜单右键根目录选择新建转换流输入名称自媒体运营数据清洗与预处理创建后进入转换流设计页面。画布默认锁定需点击解锁后方可编辑。添加图片注释不超过 140 字可选2.6 步骤一创建目标表在助睿ETL的资源库中右键目标文件夹选择新建表分别创建两张目标表。第一张是全平台概况表summary_all_platforms用于存放所有平台的汇总数据。该表不做任何过滤保留所有平台的原始数据各平台特色指标B站的投币、微信的推荐、知乎的喜欢/赞同单独保留列不合并到通用指标中。字段设计如下字段类型说明crawl_dateDATE采集日期platformVARCHAR(20)平台名称content_countINT作品数量total_viewsINT总浏览数total_likesINT总点赞数total_favoritesINT总收藏数total_sharesINT总分享数total_coinsINT总投币数仅B站total_recommendINT总推荐数仅微信total_likes_zhihuINT总喜欢数仅知乎total_approvalsINT总赞同数仅知乎添加图片注释不超过 140 字可选第二张是内容分析表content_analysis作为实验7-2的输入。字段与原始数据基本一致但只包含B站和CSDN的有效记录。其中 interaction_rate、has_best、has_lowcode、has_practice、has_tutorial、has_pit 字段的数据加工将在下一个实验中完成。字段设计如下字段类型说明dateDATE采集日期author_nameVARCHAR(100)作者昵称titleVARCHAR(500)作品标题platformVARCHAR(20)B站 / CSDNlikesINT点赞数favoritesINT收藏数sharesINT分享数coinsINT投币数仅B站viewsINT播放量/阅读量urlVARCHAR(500)作品链接total_interactionINT互动总数has_bestTINYINT(1)是否含保姆级has_lowcodeTINYINT(1)是否含零代码has_practiceTINYINT(1)是否含实战has_tutorialTINYINT(1)是否含教程/指南has_pitTINYINT(1)是否含踩坑添加图片注释不超过 140 字可选2.7 步骤二添加组件并建立连接按照数据处理逻辑依次从组件库拖拽组件到画布为两条分支分别建立节点连接线。添加CSV文件输入组件 搜索CSV文件输入将其拖入画布。该组件作为两条分支的公共数据源。双击编辑组件步骤名称修改为自媒体作品数据CSV输入。分支一添加排序记录组件 搜索排序记录拖入画布。从CSV输入组件拖出连接线到排序记录组件选择主输出步骤。该组件用于在聚合前按采集日期和平台进行排序确保数据有序排列。分支一添加分组组件全平台聚合统计 搜索分组拖入画布命名为全平台聚合统计。从排序记录组件拖出连接线到该组件。配置时按 crawl_date采集日期和 platform平台名称进行分组其余数值字段浏览数量、点赞数量、收藏数量、分享数量、投币数量、推荐数量、喜欢数量、赞同数量等全部取求和SUM。这样可以得到每个平台每天的作品数量与互动总数汇总。分支一添加表输出组件 搜索表输出拖入画布命名为全平台概况表输出。从分组组件拖出连接线到该组件。后续配置为输出到 summary_all_platforms 表。分支二添加过滤记录组件 搜索过滤记录拖入画布。从CSV输入组件拖出另一条连接线到过滤记录组件选择主输出步骤。该组件实现双重过滤只保留B站和CSDN两个平台且浏览数量大于0的有效记录。过滤条件表达式为 (平台 B站 AND 浏览数量 0) OR (平台 CSDN AND 浏览数量 0) 逻辑说明括号内的条件组合确保平台与有效记录判定同时满足一个组件完成双重过滤。助睿ETL的过滤记录组件支持通过 AND、OR 灵活组合多条件一步到位完成精细化数据筛选。分支二添加替换NULL值组件 搜索替换NULL值拖入画布命名为填充缺失值。从过滤记录组件的True输出连接线拖入此组件。由于数值字段点赞、收藏、分享等在过滤后已经没有空值但作者名称author_name和作品标题title可能存在空值统一填充为未知避免后续使用时出现异常。分支二添加字段选择组件 搜索字段选择拖入画布命名为字段选择。从替换NULL值组件拖出连接线到此组件。原始数据中的 source_file 是采集批次标记分析阶段用不到需要剔除。投币数量coins保留作为B站特有的互动指标。通过获取字段自动载入所有字段后只保留以下10个字段 date, author_name, title, platform, likes, favorites, shares, coins, views, url分支二添加表输出组件搜索表输出拖入画布命名为内容分析表输出。从字段选择组件拖出连接线到该组件。后续配置为输出到 content_analysis 表。整体连接完成后画布上形成两条清晰的分支链路。一条是从CSV输入经过排序、分组到全平台概况表输出另一条是从CSV输入经过过滤记录、替换NULL值、字段选择到内容分析表输出。添加图片注释不超过 140 字可选2.8 步骤三配置组件参数2.8.1 CSV文件输入组件配置双击自媒体作品数据CSV输入组件进入配置窗口。在文件标签中点击浏览按钮从自己的文件库中选择 自媒体作品数据明细.csv。在内容标签中可选择预览数据确认列名和数据样例。在字段标签中会自动解析CSV的列结构可调整字段类型。添加图片注释不超过 140 字可选2.8.2 排序记录组件配置双击排序记录组件在配置窗口中选择排序字段。依次添加 crawl_date升序和 platform升序作为排序依据确保后续分组操作基于有序数据进行。添加图片注释不超过 140 字可选2.8.3 分组组件配置全平台聚合统计双击全平台聚合统计组件进入分组配置窗口。在分组字段标签中添加 crawl_date 和 platform 作为分组维度。在聚合字段标签中对浏览数量、点赞数量、收藏数量、分享数量、投币数量、推荐数量、喜欢数量、赞同数量等数值字段全部选择 SUM 聚合函数。组件会自动为每个日期和平台的组合生成一条汇总记录。添加图片注释不超过 140 字可选添加图片注释不超过 140 字可选2.8.4 过滤记录组件配置双击过滤记录组件进入过滤条件配置。选择高级模式输入组合条件表达式(平台 B站 AND 浏览数量 0) OR (平台 CSDN AND 浏览数量 0)此表达式将数据流分为两条支路满足条件的数据通过True输出有效记录不满足条件的数据通过False输出被过滤掉的数据。False输出可选择丢弃或连接到一个空操作组件。添加图片注释不超过 140 字可选添加图片注释不超过 140 字可选2.8.5 替换NULL值组件配置双击填充缺失值组件进入配置窗口。在字段列表中选择 author_name替换值填写未知。再选择 title替换值同样填写未知。数值字段由于过滤后已无空值无需配置。添加图片注释不超过 140 字可选2.8.6 字段选择组件配置双击字段选择组件进入字段选择界面。点击获取字段自动载入上游所有字段然后逐一选择需要保留的10个字段date、author_name、title、platform、likes、favorites、shares、coins、views、url将其移动到保留列表中其余字段如 source_file、推荐数量、喜欢数量、赞同数量等自动被剔除。添加图片注释不超过 140 字可选2.8.7 表输出组件配置双击全平台概况表输出组件在数据库连接中选择对应的数据库连接在目标表中选择 summary_all_platforms。切换到数据库字段标签右键空白处选择获取字段自动匹配上游字段与表字段的对应关系。同样方法配置内容分析表输出组件目标表选择 content_analysis。添加图片注释不超过 140 字可选添加图片注释不超过 140 字可选2.9 步骤四保存并执行转换流所有组件配置完成后点击画布上方的保存按钮。确认保存成功后点击执行按钮绿色播放图标启动转换流。观察下方执行日志窗口可以看到CSV文件输入读取到 XXX 条原始记录排序记录数据按日期和平台完成排序分组聚合统计生成 XXX 条全平台汇总记录过滤记录B站/CSDN有效记录 XXX 条滤除 XXXX 条替换NULL值填充 X 处空值字段选择保留10个字段去除 X 个冗余字段表输出summary_all_platforms 写入 XXX 条content_analysis 写入 XXX 条所有组件的输入输出行数正常流转直到出现转换完成提示表示执行成功。添加图片注释不超过 140 字可选三、实验结果转换流执行成功后在数据库中可以查看两张目标表的数据。3.1 全平台概况表summary_all_platforms该表包含了所有平台B站、CSDN、微信、知乎、小红书按日期聚合的汇总数据。数据预览中可以看到crawl_date采集日期显示为6月8日至6月15日范围内的多个日期platform包含B站、CSDN、微信、知乎、小红书等平台content_count每个平台每天的作品数量total_views / total_likes / total_favorites / total_shares各平台的通用互动指标汇总total_coins / total_recommend / total_likes_zhihu / total_approvals各平台特有的互动指标B站有投币数、微信有推荐数、知乎有喜欢数和赞同数这些指标互不合并各自独立展示共生成 XXX 条汇总记录具体行数取决于数据中出现的日期与平台组合数。该表不做任何过滤完整保留了所有平台的原始数据汇总。添加图片注释不超过 140 字可选3.2 内容分析表content_analysis该表只包含B站和CSDN两个平台中浏览数量大于0的有效记录。数据预览中可以看到platform只有B站和CSDN两个值views所有记录的浏览数量均大于0author_name 和 title缺失值已填充为未知字段列表仅包含 date、author_name、title、platform、likes、favorites、shares、coins、views、url 共10个字段has_best、has_lowcode 等标签字段当前为空将在实验7-2中加工填充共生成 XXX 条有效记录。该表作为中间结果将交由下一个实验实验7-2特征工程继续加工处理。添加图片注释不超过 140 字可选3.3 结果验证对清洗结果进行以下验证全平台概况表中每个日期和平台的组合仅出现一次不存在重复记录全平台概况表中的作品数总和等于原始CSV的总记录数数据无丢失内容分析表中的所有记录platform 字段只能为B站或CSDNviews 字段全部大于0内容分析表中的 author_name 和 title 字段无空值均已替换为未知内容分析表中不存在 source_file 等冗余字段字段数严格为10个以上验证全部通过说明数据清洗与预处理结果正确。四、问题与解决问题一过滤记录组件条件表达式配置报错现象在过滤记录组件中输入 (平台 B站 AND 浏览数量 0) OR (平台 CSDN AND 浏览数量 0) 后点击确定时提示条件表达式语法错误。原因检查发现表达式中的字段名写错了。平台字段在CSV中的实际列名为 platform英文字段名而非平台中文别名。过滤记录组件引用的是原始字段名需要与CSV中的列名完全一致。解决方法将过滤条件表达式修改为(platform B站 AND views 0) OR (platform CSDN AND views 0)修改后点击确定表达式校验通过不再报错。问题二字段选择后表输出时字段匹配报错现象配置内容分析表输出组件时点击获取字段后数据库字段与上游字段无法自动匹配部分字段显示红色未匹配状态。原因content_analysis 表中定义了16个字段包括 total_interaction、has_best 等将在后续实验加工的字段但字段选择组件只保留了10个字段。数据库表中多出的字段在上游数据流中不存在导致匹配失败。解决方法手动调整字段映射关系。对于上游有对应字段的如 date、author_name、title 等手动选择对应关系对于上游不存在的字段如 total_interaction、has_best 等保持为空这些字段在数据库中已有默认值或允许为空。重新保存后执行转换不再报错。五、实验总结5.1 收获通过本次实验我对数据清洗在数据分析流程中的基础性和必要性有了更深入的理解。原始数据往往存在平台冗余、无效记录、字段缺失等问题这些脏数据不能直接用于分析必须经过系统的清洗和预处理。在使用助睿ETL平台的过程中我掌握了以下核心技能多条件过滤使用 AND/OR 组合平台过滤与有效记录判定一个组件完成双重过滤高效实现精细化数据筛选分支处理设计理解全平台概况统计与重点平台深度分析的分流思路在同一转换流中通过并行分支同时处理两类数据需求缺失值处理使用替换NULL值组件统一填充默认值如未知避免后续计算异常字段选择与聚合使用字段选择组件精简数据、剔除冗余字段使用分组组件按多维度聚合统计灵活提取汇总指标Pipeline组合思维将多个Transform步骤组合成一个完整的转换流从CSV文件输入到最终目标表输出形成端到端的数据加工链路这次实验让我体会到零代码ETL并非只是拖拖拽拽那么简单它背后蕴含着对数据质量和业务需求的深层理解。只有当清洗策略与下游分析目标紧密结合时才能输出真正有价值的干净数据。5.2 对平台的整体评价助睿数智Uniplore作为一站式数据科学平台本次使用的ETL模块展现出以下优势拖拽式操作直观组件库丰富从CSV输入、过滤、填充、字段选择到表输出覆盖了常见数据清洗场景的各类需求无需编写代码即可完成复杂的数据加工任务Pipeline机制设计清晰每个转换流可以包含多条分支支持复杂的并行处理逻辑如本实验中的双分支设计非常适合有明确数据处理流程的场景过滤记录组件功能强大支持 AND/OR 组合条件表达式一个组件即可完成多重过滤配置简洁且灵活性高元数据驱动与自动字段匹配数据库表与ETL组件之间的字段映射可通过获取字段一键完成减少手动配置工作量不足之处在于错误提示可读性有待提升过滤条件表达式的语法错误提示信息比较简略初学者可能需要多次尝试才能定位问题中文字段名与英文列名映射需额外注意CSV中的英文列名与UI中显示的中文别名容易混淆配置条件表达式中需要引用原始英文列名整体上助睿ETL平台非常适合零基础的数据分析教学场景和中小规模数据处理任务能够帮助非技术背景的分析人员快速上手数据清洗工作。附录平台相关信息平台全称助睿数智Uniplore平台定位一站式数据科学平台覆盖数据接入 → ETL处理 → 机器学习建模 → 可视化展示全链路官网https://www.uniplore.com/实验实训平台地址https://lab.guilian.cn/ETL模块名称助睿ETL数据集成平台核心机制全元数据驱动架构 Pipeline转换流 零代码拖拽式操作