自媒体数据分析核心:如何搭建完整的作品特征体系

📅 2026/7/5 1:09:26
自媒体数据分析核心:如何搭建完整的作品特征体系
一、实验目的在实验7-1 清洗后的数据的基础上使用助睿ETL完成以下两类特征的计算与存储1标题特征与互动总数更新明细表计算互动总数total_interaction likes favorites shares coins提取5个标题特征标志字段has_best、has_lowcode、has_practice、has_tutorial、has_pit将计算结果更新到 content_analysis 表2关键词级别的汇总数据分别计算含每个关键词的作品的平均互动总数将互动汇总结果输出到 title_feature_analysis 表通过本实验学生应掌握理解特征工程在数据分析中的核心作用使用助睿ETL的“计算器”组件计算衍生指标使用“JavaScript代码”组件完成文本关键词的自动标注使用“插入/更新”组件回填数据不新建表、不覆盖已有基础数据使用“过滤聚合”组件组合完成分组统计计算二、实验环境实验平台助睿在线实验平台本次实验使用助睿数智Uniplore 作为一站式数据科学平台。该平台覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能适用于数据分析教学与企业数据加工场景。数据处理工具助睿ETL数据集成平台助睿ETL核心优势全元数据驱动架构平台内所有对象类型均通过元数据标准化定义覆盖数据读取、处理、写入的全流程零代码拖拽式操作通过可视化方式完成数据的抽取Extract、转换Transform、加载Load无需编写复杂代码丰富的预处理组件内置筛选、填充、聚合、连接、字段选择等多种转换节点灵活应对各类数据清洗场景Pipeline转换机制面向数据流通处理的核心功能单元由多个不同功能的Transform步骤组合构成聚焦数据本身的加工转换操作开源内核高可用引擎基于开源内核的高可用引擎架构通过标准化插件体系可灵活扩展引擎能力本次实验使用的核心组件三、核心设计思路本次实验构建两类特征并将数据更新到实验7-1 的content_analysis 表中互动总数likes favorites shares coins反映作品的用户互动规模绝对值标题特征把标题中是否包含特定关键词提取为0/1标志字段后续量化对比这些词的实际效果数据处理流程四、实验步骤步骤 1表输入读取清洗后的作品明细1操作目的读取实验 7-1 产出的content_analysis有效作品数据作为特征计算的数据源保留 id、标题、各项互动字段用于后续加工。2操作说明新建转换流拖拽【表输入】组件数据库连接选择团队私有数据库数据表指定content_analysis预览核对字段id、title、likes、favorites、shares、coins 完整共 5702 条记录。3关键截图图 24 新建转换流命名为「更新 content_analysis 表」图 25 表输入组件配置界面读取 content_analysis 明细表基础字段步骤 2JavaScript 组件提取五大标题 0/1 特征标记1操作目的通过脚本匹配标题文本自动生成has_best、has_lowcode、has_practice、has_tutorial、has_pit五个布尔特征字段标记标题是否包含指定实操关键词。2操作说明表输出下游连接【JavaScript 代码】组件在脚本编辑区粘贴匹配代码var title title; var has_best title.indexOf(保姆级) ! -1 ? 1 : 0; var has_lowcode title.indexOf(零代码) ! -1 ? 1 : 0; var has_practice title.indexOf(实战) ! -1 ? 1 : 0; var has_tutorial (title.indexOf(教程) ! -1 || title.indexOf(指南) ! -1) ? 1 : 0; var has_pit title.indexOf(踩坑) ! -1 ? 1 : 0;输出字段勾选 5 个特征字段点击测试脚本无报错后确认配置。3关键截图图 26JavaScript代码组件配置界面实现标题关键词0/1特征标记逻辑并输出5个特征字段步骤 3计算器组件计算总互动 total_interaction1操作目的整合点赞、收藏、分享、投币四项互动指标生成单作品综合互动总量字段。2操作说明JS 组件后接入【计算器】组件新增字段total_interaction计算公式填写likes favorites shares coins值类型选择整数。3关键截图图 27 计算器组件配置设置总互动计算表达式步骤 4插入 / 更新组件回填特征至原明细表1操作目的以 id 为主键匹配原有数据新增互动、标题特征字段不重复新增数据支持多次重复运行转换流。2操作说明计算器下游拖拽【插入 / 更新】组件目标表选择content_analysis匹配关键字设为 id待更新字段勾选total_interaction、has_best、has_lowcode、has_practice、has_tutorial、has_pit完成流字段与数据库字段一一映射。区分表输出会新增重复行插入 / 更新仅按 id 更新指定字段无冗余数据。3关键截图图 28 新建转换流命名为「更新 content_analysis表」图 29 插入/更新组件配置界面以id为主键更新content_analysis表互动与标题特征字段步骤 5执行明细特征转换流并校验数据1操作目的运行特征更新流程校验明细表新增互动、标题特征字段填充正常。2操作说明检查组件连线、脚本、计算规则无误后点击运行执行完成进入元数据预览content_analysis每条作品均生成 total_interaction 与 5 个 0/1 标题标记。3关键截图图 30 更新 content_analysis 表完整转换流画布与执行成功日志界面图 31 更新后 content_analysis 表数据预览含互动、标题特征字段步骤6执行 SQL 创建关键词汇总目标表1操作目的搭建存储分平台、分关键词平均互动、样本量、整体均值、提升倍率的数据表。2操作说明新建独立 SQL 转换流绑定团队私有数据库执行建表语句CREATE TABLE title_feature_analysis ( id INT AUTO_INCREMENT PRIMARY KEY, platform VARCHAR(20) COMMENT 平台B站/CSDN, feature_name VARCHAR(50) COMMENT 关键词名称, avg_interaction DECIMAL(10,2) COMMENT 含该关键词平均互动, overall_avg DECIMAL(10,2) COMMENT 平台整体平均互动, sample_count INT COMMENT 含该关键词作品数量 ) COMMENT 标题关键词互动效果统计表;3关键截图图 32 新建转换流命名为「创建标题分析表」图 33创建 title_feature_analysis 表 SQL 脚本配置界面图 34 创建标题分析表转换流画布与 SQL 脚本执行成功日志界面步骤7搭建分支计算平台全局平均互动 overall_avg1操作目的读取清洗完成的作品明细按平台分组计算全量作品整体平均互动量作为各关键词互动效果的对比基准数据。2操作说明新建名为「输出关键词级别的汇总表」的转换流拖拽【表输入】组件读取 content_analysis 明细表表输入后连接【排序记录】组件按 platform 字段升序排序再接入【分组】组件以 platform 为分组字段聚合计算 total_interaction 均值得到平台整体平均互动 overall_average完成基准数据分支搭建。3关键截图图 35 新建转换流命名为「输出关键词级别的汇总表」图 36 表输入组件配置界面读取已完成特征更新的 content_analysis 明细表图 37 排序记录组件配置界面按 platform 平台字段升序排列数据图 38 分组聚合组件配置界面按平台分组计算整体平均互动值 overall_average图39排序记录 1 组件配置界面按 platform 平台字段升序排列关键词分支原始数据步骤8单关键词过滤、聚合、常量标记以保姆级为例1操作目的筛选标题包含 “保姆级” 关键词的作品数据统计对应作品样本数量、单关键词平均互动量为后续合并基准均值做数据准备。2操作说明复制读取 content_analysis 明细表的表输入组件搭建并行分支下游接入【过滤记录】组件设置条件 has_best 1 筛选目标作品过滤后连接【排序记录 1 】组件按 platform 升序规整数据再接入【分组】组件按平台分组计算平均互动量与作品样本总数。3关键截图图40过滤记录配置筛选含 “保姆级” 标题作品图41 排序记录组件配置界面按 platform 平台字段升序处理基准均值分支数据图42 分组组件配置界面统计单关键词作品平均互动量与样本数量图43 排序记录 2 组件配置界面用于关键词统计分支数据预排序步骤9记录集连接合并基准均值与关键词统计数据1操作目的将平台全局平均互动基准数据与各关键词统计数据合并实现同一行内同时存放平台基准均值、关键词平均互动与样本量为后续入库做数据整合。2操作说明将计算全局均值的基准分支、各关键词统计分支一同接入【记录集连接】组件匹配字段设置为 platform 完成数据左连接每条关键词分支在分组后搭配【增加常量】组件新增 feature_name 字符串字段填入对应关键词名称用于区分数据类型。3关键截图图43记录集连接组件配置合并基准与关键词数据图 44 增加常量组件配置界面新增 feature_name 字段赋值 “踩坑” 标记当前统计关键词步骤10表输出写入 title_feature_analysis 表1操作目的将单关键词统计结果持久化存入汇总表不勾选裁剪表保留多条关键词数据。2操作说明连接后数据接入【表输出】目标表选择 title_feature_analysis取消 “运行前清空表”完成 platform、feature_name、avg_interaction、overall_avg、sample_count 字段映射。3关键截图图 45 表输出组件基础配置界面指定写入 title_feature_analysis 汇总表图 46 表输出组件数据库字段映射界面完成统计字段匹配步骤11完整关键词转换流执行校验汇总数据1操作目的运行全部分支校验五大关键词分平台统计结果完整共 10 条有效记录。2操作说明复制 5 套关键词分支完成全量配置检查所有过滤、聚合、连接配置后执行预览 title_feature_analysis 表区分 B 站、CSDN 各关键词样本量与平均互动数值。3关键截图图 47 输出关键词级别的汇总表完整双分支转换流画布与执行成功日志界面图 48 title_feature_analysis 关键词汇总表最终数据预览界面展示各平台关键词平均互动、基准均值与样本量统计结果五、实验总结实验 7-2 基于实验 7-1 产出的 content_analysis 明细表开展指标衍生与关键词特征提取通过计算器组件整合点赞、收藏、分享、投币计算总互动量借助 JS 脚本匹配 “保姆级、零代码、实战、教程、踩坑” 生成 0/1 标题标记字段使用插入更新组件以作品 id 为主键回填数据避免重复新增记录。同时搭建双分支聚合转换流一路计算各平台全局平均互动基准值另一路分关键词统计样本量与平均互动经记录集连接合并两套数据新增常量字段区分关键词并落地 title_feature_analysis 统计表。本次实验熟练掌握计算器、JS 脚本、插入更新、分组聚合、记录集连接等进阶 ETL 组件实现标题引流效果量化解决人工统计低效痛点。但工具仅支持简单文本匹配无法实现分词、语义分析深层次内容特征挖掘需要 Python 拓展实现。整套转换流可重复执行产出的三张标准化数据表为实验 7-3 可视化分析提供完整数据源支撑。