助睿数智实操教程:自媒体运营数据分析全流程

📅 2026/6/29 19:10:27
助睿数智实操教程:自媒体运营数据分析全流程
前言自媒体运营效果分析是数据科学在内容创作领域的典型应用。本系列三个实验以全班同学在B站、CSDN、微信、知乎、小红书等多平台发布的作品互动数据为基础使用助睿数智Uniplore一站式数据科学平台完成从原始数据清洗、特征工程构建到BI可视化仪表盘与运营优化报告的全流程。全程零代码拖拽完成适合数据分析入门和自媒体运营分析教学。一、实验7-1自媒体运营分析-数据清洗与预处理1.1 实验目的·理解数据清洗在数据分析流程中的基础性与必要性·使用助睿ETL完成多源数据的过滤、填充、聚合等预处理操作·掌握“分支处理”设计思路全平台概况统计与重点平台深度分析分流1.2 数据问题分析原始数据“自媒体作品数据明细.csv”是全班同学在6月8日至6月15日期间提交的作品互动数据包含B站、CSDN、微信、知乎、小红书等多个平台。观察这份数据可以发现三个问题·平台冗余微信、知乎等平台的浏览数量几乎全是0缺乏核心浏览数据无法支撑有意义的分析·无效记录部分作品的浏览数量、点赞数量、收藏数量全部为0对分析没有贡献·字段缺失点赞、收藏、分享等字段中存在空值不处理会导致后续计算报错1.3 数据处理流程设计后续可视化仪表盘需要同时展示两类信息“全平台概况”总作品数、总浏览数等保留所有平台原数据和“重点平台深度分析”B站和CSDN的有效数据。两类信息对数据的要求不同所以在ETL中需要做分支处理分支A直接排序分组聚合输出summary_all_platforms分支B经过过滤→填充→字段选择输出content_analysis。1.4 步骤1创建目标表在助睿ETL中创建两张目标表。summary_all_platforms全平台概况表该表不做任何过滤保留所有平台的原始数据各平台特色指标B站的投币、微信的推荐、知乎的喜欢/赞同单独保留列不合并到通用指标中。字段包括字段类型说明crawl_dateDATE采集日期platformVARCHAR(20)平台名称content_countINT作品数量total_viewsINT总浏览数total_likesINT总点赞数total_favoritesINT总收藏数total_sharesINT总分享数total_coinsINT总投币数仅B站total_recommendINT总推荐数仅微信total_likes_zhihuINT总喜欢数仅知乎total_approvalsINT总赞同数仅知乎content_analysis内容分析表只包含B站和CSDN的有效记录作为实验7-2的输入。16个字段为id、date、author_name、title、platform、likes、favorites、shares、coins、views、url、total_interaction、has_best、has_lowcode、has_practice、has_tutorial、has_pit。其中total_interaction、has_best、has_lowcode、has_practice、has_tutorial、has_pit这6个字段将在实验7-2中加工。1.5 步骤2导入原始数据点击“公共空间”找到“自媒体作品数据明细.csv”数据卡片点击右上角“更多”→“导出”选择导出到自己的文件库目录中点击“确定”。该数据集仅覆盖采集时间节点前已发布且未被删除的作品。1.6 步骤3全平台聚合统计分支A拖入“排序记录”组件按crawl_date采集日期和platform平台名称升序排序。拖入“分组”组件分组字段同为crawl_date和platform其余数值字段全部取求和包括作品数量、总浏览数、总点赞数、总收藏数、总分享数、总投币数、总推荐数、总喜欢数、总赞同数。拖入“表输出”组件目标表选summary_all_platforms。1.7 步骤4过滤记录分支B在另一个分支中使用“过滤记录”组件筛选B站和CSDN的有效记录。只保留B站和CSDN两个平台删除两个平台中浏览量为0的记录。使用AND与OR组合条件(平台 B站 AND 浏览数量 0)OR(平台 CSDN AND 浏览数量 0)括号内的条件组合确保“平台”与“有效记录判定”同时满足一个组件完成双重过滤。1.8 步骤5填充缺失值拖入“替换NULL值”组件勾选“选择字段”插入两行字段选author_name作者昵称值替换为“未知”字段选title作品标题值替换为“未知”。数值字段没有空值不需处理。1.9 步骤6字段选择拖入“字段选择”组件切换到“移除”标签页。原始数据中的source_file是采集批次标记分析阶段用不到剔除。只保留以下10个字段date、author_name、title、platform、likes、favorites、shares、coins、views、url。1.10 步骤7-8表输出与执行拖入“表输出”组件目标表选content_analysis勾选“裁剪表”。点击工具栏“运行”按钮执行完整转换流。切换到“元数据”标签页右键“团队私有数据库”选择“加载元数据”进入“数据探查”页面查看summary_all_platforms和content_analysis两张表的数据是否符合预期。二、实验7-2自媒体运营分析-作品特征构建2.1 实验目的在实验7-1清洗后的数据基础上完成两类特征的计算与存储1标题特征与互动总数——计算total_interaction和5个标题特征标志字段更新到content_analysis表2关键词级别的汇总数据——分别计算含每个关键词的作品的平均互动总数输出到title_feature_analysis表。2.2 更新content_analysis表标题特征互动总数步骤1导入数据拖入“表输入”组件数据库连接选“团队私有数据库”点击“获取SQL查询语句”选择content_analysis表。步骤2提取标题特征拖入“JavaScript代码”组件创建“表输入”到“JavaScript代码”的连线。双击组件输入以下完整代码对title字段进行关键词匹配生成5个0/1标志字段var title title;// 判断关键词var has_best title.indexOf(保姆级) ! -1 ? 1 : 0;var has_lowcode title.indexOf(零代码) ! -1 ? 1 : 0;var has_practice title.indexOf(实战) ! -1 ? 1 : 0;var has_tutorial (title.indexOf(教程) ! -1|| title.indexOf(指南) ! -1) ? 1 : 0;var has_pit title.indexOf(踩坑) ! -1 ? 1 : 0;// 将结果赋值给新字段has_best has_best;has_lowcode has_lowcode;has_practice has_practice;has_tutorial has_tutorial;has_pit has_pit;返回值说明has_best——title中含“保姆级”为1has_lowcode——含“零代码”为1has_practice——含“实战”为1has_tutorial——含“教程”或“指南”为1has_pit——含“踩坑”为1。每个特征独立提取便于在BI中做分组对比。注意JavaScript代码组件中的变量名需与输出字段名一致且输出字段需提前在字段表中定义。步骤3计算互动总数拖入“计算器”组件创建“JavaScript代码”到“计算器”的连线。新增字段total_interaction计算公式为total_interaction likes favorites shares coins。步骤4数据更新插入/更新组件拖入“插入/更新”组件创建“计算器”到“插入/更新”的连线。双击组件打开配置目标表选content_analysis查询关键字设为id匹配依据更新字段包括total_interaction和5个has_特征标志。字段映射关系如下流字段表字段ididtotal_interactiontotal_interactionhas_besthas_besthas_lowcodehas_lowcodehas_practicehas_practicehas_tutorialhas_tutorialhas_pithas_pit“插入/更新”与“表输出”的区别“表输出”每次运行都会新增行导致数据重复“插入/更新”按id匹配已有id则更新指定字段不存在才插入新行可以反复运行不产生重复数据。步骤5执行转换流点击“运行”按钮执行转换流通过数据探查查看content_analysis表中的total_interaction和5个has_字段是否已更新。2.3 输出关键词级别汇总表步骤1创建title_feature_analysis表字段包括id自增主键、platform平台、feature_name关键词名称、avg_interaction含该关键词的平均互动总数、overall_avg该平台整体平均互动总数、sample_count含该关键词的作品数。步骤2-3计算整体平均和关键词平均以“保姆级”为例分支1——表输入→排序记录按id升序→分组不设分组条件直接计算AVG(total_interaction)得到overall_avg→增加常量新增字段feature_name‘保姆级’。分支2——表输入→过滤记录has_best1→排序记录按id升序→分组计算AVG(total_interaction)得到avg_interactionCOUNT(id)得到sample_count→增加常量feature_name‘保姆级’。为什么要加常量因为聚合后的数据只有数值没有关键词名称。如果不加5个分支的数据合并后无法区分谁是谁。常量就是给每一行贴上一个“标签”告诉下游“这一行是保姆级的数据”。步骤4-5合并与入库拖入“记录集连接”组件匹配字段为feature_name将两个分支的数据合并。由于两个分支都只有1行数据无需排序。拖入“表输出”组件目标表选title_feature_analysis不勾选“裁剪表”因为还有其他关键词数据要入库。执行转换流。步骤6加工其他关键词复制粘贴整个分支只修改两处过滤条件如has_lowcode1、has_practice1等和常量值如“零代码”“实战”等其他组件配置完全相同。依次完成5个关键词的统计。三、实验7-3自媒体运营分析-可视化探索3.1 数据特点与分析框架在开始制作图表之前需要先理解本次数据的特点全班作品主题高度一致实验作业、平台固定数据完整的是B站CSDN、作品数量相近、标题写法存在差异。这意味着内容、平台、数量都是控制变量标题是主要差异来源。因此分析应聚焦于在相同条件下哪些运营策略差异导致了数据差异3.2 构建数据集进入助睿BI平台点击“数据集”菜单点击“”→“新建数据集”。依次使用summary_all_platforms、content_analysis、title_feature_analysis三张表构建3个数据集分别命名为“全平台概况数据集”“重点平台深度分析数据集”“标题关键词互动数据集”。每个数据集分别选择对应的数据源连接和数据表拖入画布后保存并发布。3.3 制作核心指标卡仪表盘顶部共6张指标卡分两行布局第一行4张展示全平台概况全平台作品总数content_count求和、分发平台数platform去重计数、全平台总浏览数total_views求和、全平台总互动数total_likestotal_favoritestotal_sharestotal_coins使用计算字段。第二行2张聚焦重点平台B站作品数总播放量过滤platformB站views求和、CSDN作品数总阅读量。3.4 制作排名图表分两组学生排名按作者分组取平均播放量/阅读量降序TOP10和作品排名单篇作品播放量排序TOP10。左右两栏分别展示B站和CSDN对比同一个学生在两个平台的表现差异。具体配置·B站学生平均播放量排名TOP10筛选platformB站维度作者名称指标平均值(浏览数量)降序排序限额10·B站作品播放量排名TOP10筛选platformB站维度作品名称指标浏览数量降序排序限额10·CSDN学生平均阅读量排名TOP10同理替换平台和指标·CSDN作品阅读量排名TOP10同理3.5 制作标题影响分析图表这是最有分析价值的部分——量化不同标题关键词对数据的影响。制作两类图表提升倍率条形图分别计算含某关键词的作品平均播放量再除以整体平均播放量得到提升倍率。例如提升倍率1.4表示含这个词的作品平均播放量比整体平均高出40%。用条形图展示所有关键词的提升倍率。对比柱状图含某关键词vs不含该关键词两组作品的平均互动对比设置整体平均线作为基准。左右两栏分别做B站和CSDN的标题分析。3.6 制作趋势分析图表制作每日播放量/阅读量趋势折线图X轴日期、Y轴求和浏览数量观察累积流量变化。可额外制作“老作品趋势图”——筛选6月8日已存在的作品只统计它们在后续日期的播放量变化用于判断长尾效应。3.7 搭建综合仪表盘采用“先总后分、左右对照”布局顶部指标卡分两行全平台B站CSDN下方左右两栏分别展示B站和CSDN的所有图表每栏按“排名→标题分析→趋势”顺序排列。点击“仪表盘”菜单新建仪表盘将各工作表拖入画布调整大小和位置添加文本组件补充分析结论。发布后可通过分享链接在线查看。3.8 输出分析报告从仪表盘导出关键图表撰写《自媒体运营分析与优化策略报告》。报告需讲清三个层次现状是怎样的数据描述、为什么会这样原因分析、应该怎么做优化建议。每个结论都要配上对应的图表作为证据。常见图表解读方法排名类关注头部和尾部对比类关注差距大小分布类关注集中区间和异常点趋势类关注曲线走向和拐点。四、实验总结本系列三个实验以助睿ETL和助睿BI为核心工具完整覆盖了自媒体运营数据分析从原始数据清洗到可视化报告输出的全流程。实验7-1中通过分支处理设计全平台聚合重点平台深度分析分流使用排序分组、过滤记录AND/OR组合条件、替换NULL值、字段选择等组件完成了summary_all_platforms和content_analysis两张核心数据表的清洗与预处理。实验7-2中通过JavaScript代码组件完成5个标题关键词标志字段的自动标注has_best/has_lowcode/has_practice/has_tutorial/has_pit通过计算器组件完成互动总数的衍生计算并使用插入/更新组件按id回填数据到content_analysis表同时通过“表输入→过滤→排序→分组聚合→增加常量→记录集连接→表输出”的标准链路完成了5个关键词的独立统计和title_feature_analysis汇总表的输出。实验7-3中基于3张目标表构建数据集使用助睿BI完成了6张核心指标卡全平台分平台、学生排名TOP10、作品排名TOP10、标题特征提升倍率条形图、关键词对比柱状图、每日趋势折线图等多维度可视化图表的制作并按照“先总后分、左右对照”的布局搭建了综合仪表盘。关键操作经验总结第一分支处理是ETL设计的核心模式——全平台概况和重点平台分析对数据要求不同应在同一转换流中分支处理避免重复读取第二插入/更新组件是特征回填的最佳选择按主键匹配更新可多次运行不产生重复数据第三JavaScript代码组件的变量名需与输出字段名一致且输出字段需提前在字段表中定义第四助睿BI的图表配置核心是“筛选维度指标排序”掌握这四个要素即可灵活制作各类图表第五仪表盘布局应遵循“先总后分、指标卡置顶、排名靠前、趋势压底”的信息层级原则让读者自然经历“认知→发现→理解→验证”的分析路径。