数据抽取-使用助睿ETL抽取多种文件数据

📅 2026/7/5 4:17:56
数据抽取-使用助睿ETL抽取多种文件数据
1 案例说明ETL 过程的第一步是从一个或多个数据源获取数据。数据获取是一项复杂且具有挑战性的工作其难点主要源于数据源的多样性与复杂性。在传统数据仓库环境中数据通常来源于企业内部的事务类应用系统例如财务系统或 ERP 系统。这类系统的数据大多存储在关系型数据库中如 MySQL、Oracle 或 SQL Server。在该类场景中可通过 JDBC 直连数据库的方式进行抽取。但如果数据源为非关系型数据库或缺少可用的数据库驱动数据抽取的难度会显著提升。另一种典型场景是数据所有权或物理位置受限例如数据属于供应商、客户等外部主体或数据位于公司防火墙之外。这类场景下数据库直连通常不可行数据文件交换便成为一种便捷有效的可行方案。本案例将介绍助睿 ETL 中内置的多种不同的文件数据CSV、Text、Excel抽取组件使用方法演示如何通过这些组件快速解析和抽取不同文件类型的数据。2 实验环境平台名称助睿在线实验平台访问地址https://lab.guilan.cn/使用产品助睿数智Uniplore- AI驱动的一站式零代码数据智能服务平台系统子平台助睿ETL数据集成平台产品官网Uniplore iDIS-大数据智能全流程服务平台-BI数据可视化工具该平台支持从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码操作适用于高校教学与企业数据加工。3 数据准备以下数据文件均从助睿 ETL 平台的「公共空间」中获取本案例中「从 CSV 文件中读取数据」小节将使用project.csv数据文件本案例中「从文本文件中读取数据」小节将使用足球比赛数据文件usa_201209.txt本案例中「从 Excel 中读取数据」小节将使用购房者信息数据文件custinfo.xlsx。获取数据文件操作如下1.登录助睿 ETL 平台选择「数据集成」模块找到「我的项目」点击项目右侧的「…」按钮选择「打开项目」进入目标项目页面2.点击页面右侧的「公共空间」切换至「数据资源」标签页找到资源名称为porject.csv的文件点击该文件右侧的「更多」按钮选择「导出」选项3.在弹出的「导出数据资源到项目空间」窗口中确认待导出文件为project.csv选择导出路径/根目录点击「确定」按钮完成导出到「文件库」中。4.切换至左侧导航栏的「文件库」标签查看已导出至项目空间的文件资源。5.把另外两个文件也导出到根目录4 从 CSV 文件中读取数据本案例将通过助睿 ETL 编写工作流实现对 CSV 文件数据的提取与加工。首先从 CSV 文件中提取项目信息数据然后以项目的【start_date】开工日期和【end_date】结束日期计算项目执行天数并基于该天数设定项目的【performance】绩效等级最终完成项目绩效的自动化评估与数据标准化。实现逻辑如下通过「CSV 文件输入」组件从 CSV 文件中读取原始项目数据使用「字段选择」组件筛选并保留后续计算所需的关键字段在「计算器」组件中新建【diff_date】字段用于计算开工日期与结束日期之间的间隔天数完成天数计算后通过「数值范围」组件根据间隔天数的区间规则自动生成并设置新的输出字段【performance】的值完成项目绩效的判定。具体操作如下1.新建转换流进入项目切换到「组件库」标签页拖拽「CSV 文件输入」组件至画布配置如下图所示2.双击「CSV 文件输入」组件在弹出的窗口中单击 “浏览文件”通过文件浏览器组件选择目标文件3.在文件浏览器组件中选中需要读取的 CSV 文件「porject.csv」点击确定文件浏览器组件会自动解析文件路径并回填至「CSV 文件输入」组件中配置如下图所示4.在完成文件路径的填写后可通过「CSV 文件输入」组件的获取字段功能自动解析CSV文件结构提取文件中的字段。具体操作在「CSV 文件输入」组件下方的数据区域点击右键选择 “获取字段”配置如下图所示5.在完成数据字段配置后可通过组件的「预览」功能查看数据读取结果验证数据是否正常加载、字段是否解析正确结果如下图所示6.在上述过程中我们完成了CSV文件的数据解析与读取。接下来我们将对读取的数据进行初步加工。将「字段选择」组件拖至画布建立从「CSV 文件输入」组件到「字段选择」组件的连接配置如下图所示7.双击「字段选择」组件打开组件配置窗口在默认的Tab页签选择和修改中右键点击并选择「获取字段」获取前一个组件「CSV 文件输入」传递过来的字段信息配置如下图所示8.在「字段选择」组件的配置窗口中选择和修改页签提供了字段管理功能可对字段信息如名称、长度、精度等进行调整。在本节案例中不涉及到字段信息的调整所以这里保持默认即可配置如下图所示9.完成「字段选择」组件的配置后拖拽「计算器」组件至画布建立从「字段选择」组件到「计算器」组件的连接此时弹出的提示框中有两个可选值主输出步骤和错误步骤。主输出步骤是指正常数据的处理链路错误步骤是错误数据的处理链路。因为字段选择组件涉及到字段信息的修改字段类型、长度数据在进行类型、长度等转换过程中会出错这些出错的数据就会流入错误数据处理链路而正常的数据就会流入主输出数据链路。在本节案例中我们只处理正常数据因此选择「主输出步骤」。配置如下图所示10.双击「计算器」组件进入配置界面点击「插入」新增一行配置此时相当于增加一个数据计算逻辑。在「计算器」组件中一个数据计算逻辑由新字段、计算公式、字段A/B/C等结构组成。新字段是指计算逻辑输出的字段计算公式指数据的计算方法字段A/B/C是指计算逻辑的输入数据。界面如下图所示11.在「新字段」列手动输入字段名diff_date在「计算」下拉列表中选择日期A-日期B(单位天)「字段 A」下拉列表选择end_date「字段 B」下拉列表选择start_date「值类型」下拉列表选择Integer完成配置后点击「确认」。此时的数据计算逻辑是计算项目开始时间start_date和项目结束时间end_date之间的天数差并将计算结果存储在字段diff_date。配置界面如下图所示12.在完成计算器」组件的配置后拖拽“数值范围”组件至画布建立从“计算器”到“数值范围”之间的连接配置如下图所示13.双击「数值范围」组件打开组件配置窗口在「输入字段」下拉列表中选择diff_date在「输出字段」处手动输入字段名performance并按业务规则配置「范围最小≤x 最大」区间即根据项目天数差diff_date对项目进行评价并将评价值存储在字段performance中评价规则如下下界为 0、上界为 30评价值为excellent下界为 30、上界为 180评价值为very good下界为 180、上界为 360评价值为good下界为 360评价值为poor完成配置后点击「确认」。「数值范围」组件配置界面如下图所示140拖拽「文本文件输出」组件至画布建立从「数值范围」组件到「文本文件输出」组件的连接配置界面如下图所示15.双击「文本文件输出」组件打开组件配置窗口完成文件输出路径、字段映射等相关配置界面如下图所示:手动输入「文件名称」为porject_output手动输入「扩展名」为csv即通过「文本文件输出」组件将数据写入到porject_output.csv文件中。切换至「内容」标签页将「分隔符」手动修改为英文逗号,即输出的文件中以,分割字段配置如下图所示:切换至「字段」标签页在字段列表区域右键单击选择「获取字段」自动加载上游组件传递的所有字段信息即将上游组件传递的字段都写入到文件中完成后点击「确认」保存设置结果如下图所示16.完成所有步骤后整个转换工作流视图如下图所示17.点击画布左上角的「运行」按钮在弹出的提示框中点击「启动」即可运行整个转换流程。运行结果如下图所示18.运行转换后文件库中生成一个Project_output.csv表比基础的表增加了两个字段数据如下图所示:5 从文本文件中读取数据本小节将利用足球比赛数据演示如何使用助睿 ETL 平台完成文本数据的标准化读取、字段筛选与结果验证为后续的数据统计与分析提供可靠的数据源。数据包含比赛日期、比赛地点、主客队、比分等关键字段我们将通过三步核心操作实现数据处理数据接入通过「CSV 文件输入」组件读取文本文件数据验证文件路径、字段解析与数据格式的正确性确保源数据能被 ETL 平台正常识别字段筛选使用「字段选择」组件按需筛选出后续分析所需的关键字段如比赛日期、主客队、比分剔除无关字段精简数据结构结果验证搭配「空操作什么也不做」组件接收数据该组件仅接收数据不做任何业务处理核心作用是测试数据是否能从上游组件完整传递到输出环节验证整个流程的连通性确保后续流程的稳定性。通过以上操作我们将快速搭建一个完整的文本数据读取与验证流程为后续的比赛数据统计、比分分析等业务场景奠定基础。具体操作如下1.新建转换拖拽「CSV 文件输入」组件至画布配置界面如下图所示2.双击组件打开配置窗口在「文件名」栏「浏览文件」选择待读取的足球比赛数据文件usa_201209.txt 。然后将「列分隔符」设置为英文分号;需与文件实际分隔符格式保持一致如文件中为中文分号则对应设置为中文。最后勾选「包含列头行」选项。即使用「CSV 文件输入」组件读取usa_201209.txt 文件并按分隔符“”解析列并使用文件中第一行的数据作为字段名称。配置界面如下图所示3.配置完成后在下方数据预览区域的空白处右键单击在弹出的菜单中选择「获取字段」即可自动解析并加载文本文件中的字段信息。完成配置后点击「确认」按钮保存配置界面如下图所示4.选中「CSV 文件输入」组件右键单击并选择「预览输出」查看数据读取结果验证数据是否正常加载、字段解析是否正确预览效果如下图所示5.将「字段选择」和「空操作什么也不做」组件依次拖拽至画布建立从「CSV 文件输入」→「字段选择」→「空操作什么也不做」的连接在弹出的步骤选择提示框中均选择「主输出步骤」完成整个转换流程的搭建完整转换如下图所示6.双击「字段选择」组件进入配置界面切换至「移除」标签页在空白区域先「获取字段」再「删除选中行」仅保留需要移除的Venue字段点击「确认」完成字段剔除配置。此时「字段选择」组件将移除字段流中的Venue字段不再将其传递给下一个组件配置界面如下图所示7.点击画布左上角的「运行」按钮在弹出的提示框中点击「启动」即可运行整个转换流程执行结果如下图所示8.选中「空操作什么也不做」组件右键单击并选择「预览」查看经过字段筛选后的数据输出结果验证字段剔除是否生效、数据传递是否完整结果如下图所示6 从 Excel 文件中读取数据近年来房地产市场持续发展房价波动明显购房是多数人人生中重大的投资决策购房选择会直接影响后续的生活质量与幸福感。而房地产市场的楼盘供给丰富不同房源在价格、区位、面积、户型、配套等方面差异显著购房者在决策时往往会对住房价格、环境品质、物业服务、户型合理性等多维度因素产生选择困惑加大了购房决策的难度。在基于购房决策影响因素如购房者年龄、性别、学历、月薪、家庭人数等开展数据建模分析前需要先对原始数据进行过滤与筛选本案例将使用助睿 ETL 平台读取获取到的购房者信息数据Excel 文件通过字段选择操作筛选出业务分析所需的目标字段完成数据的基础预处理。具体操作如下1.新建转换工作流在「组件库」中拖拽「Excel 输入」组件至画布配置界面如下图所示2.双击组件打开配置窗口点击「浏览」按钮使用文件浏览器组件选择待读取的 Excel 文件。3.再点击「增加」按钮将文件添加至「选中的文件」中完成基础文件配置。即通过 Excel XLSXStreaming引擎解析和读取 custinfo.xlsx 文件。配置界面如下图所示4.切换至「内容」标签页完成相关配置勾选「头部」「非空记录」在「编码」下拉列表中选择「UTF-8」即custinfo.xlsx 文件中第一行为字段名称只读取文件中非空记录且文件编码为UTF-8。配置界面如下图所示5.切换至「工作表」标签页右键页面空白处点击第一行「获取工作表名称」按钮此时组件将读取文件并获取文件的工作簿信息。配置界面如下图所示6.在弹出的工作表选择窗口中勾选该工作表前的复选框。点击两栏中间的右向箭头按钮将选中的Sheet1工作表添加至右栏列表中完成后点击「确定」按钮。此时组件只会读取工作簿Sheet1的数据。配置界面如下图所示7.切换至「字段」标签页在空白区域右键单击选择「获取来自头部的字段」选项此时组件会读取文件的工作簿Sheet1的第一行数据并解析成字段信息。配置如下图所示8.将字段名称、数据类型等属性自动加载到字段列表中点击「确认」按钮。配置界面如下图所示9.从「组件库」中拖拽「字段选择」组件、「空操作什么也不做」组件至画布按「Excel 输入」→「字段选择」→「空操作什么也不做」的顺序依次建立组件连接在弹出的连接线类型选择提示框中均选择「主输出步骤」完整转换流程如下图所示10.双击「字段选择」组件进入配置界面在「选择和修改」标签页右键单击选择「获取字段」自动加载上游「Excel 输入」组件的所有字段信息仅保留目标字段「education」「employment」点击「确认」按钮完成字段配置 配置界面如下图所示11.点击画布左上角的「运行」按钮点击「启动」流程执行结果如下图所示12.选中「空操作什么也不做」组件右键单击并选择「预览输出」查看经过 Excel 数据读取、字段筛选后的最终数据输出结果验证目标字段筛选是否生效、数据传递是否完整结果如下图所示本次使用助睿 ETL 平台完成了 CSV、文本、Excel 三类主流文件的解析、读取、字段筛选与全链路数据验证实现了数据抽取、转换环节的闭环落地。帮助我们初步掌握了 ETL 核心基础能力理解了数据预处理核心逻辑为后续数据分析、业务建模等场景筑牢了可靠数据源基础这些操作也是数据处理领域的必备入门技能。7 总结本次实验基于助睿ETL平台围绕CSV、TXT文本、Excel三种主流结构化数据文件系统完成了多类型文件数据抽取、解析清洗、字段筛选、数据计算、条件分类及文件输出的全流程ETL实操训练完整落地了文件数据源的数据预处理核心流程有效掌握了非数据库类型数据源的ETL处理方法弥补了传统数据库直连抽取场景的能力短板。实验首先梳理了ETL数据抽取的场景差异明确了数据库直连抽取与外部文件交换抽取的适用场景理解了文件数据抽取在跨主体数据对接、物理隔离数据传输中的核心应用价值。在实操过程中通过多组案例分步完成不同文件的标准化处理针对CSV项目数据实现了文件读取、字段筛选、日期差值计算、绩效等级智能判定与结果导出完成了原始数据的衍生指标生成与业务化加工针对TXT足球比赛数据掌握了自定义分隔符适配、冗余字段剔除的文本数据清洗技巧解决了非标准文本文件的数据解析难题针对Excel购房者数据熟练掌握了工作表选取、编码配置、表头识别、精准字段筛选等预处理操作实现了业务分析数据源的精细化提纯。通过本次实验我不仅熟练掌握了助睿ETL平台各类文件输入、字段选择、计算器、数值范围、文件输出等核心组件的使用方法更深入理解了ETL“抽取-转换-加载”的核心逻辑清晰区分了不同格式文件的数据特征与适配处理方式掌握了分隔符配置、字段解析、数据衍生计算、条件分类等通用数据预处理技能。同时实验也充分体现了文件数据ETL处理的实用性与灵活性相较于数据库直连抽取文件数据交换方式适配场景更广、操作更便捷能够有效解决外部数据源、隔离环境下的数据采集难题是数据仓库、数据分析前期数据准备的重要基础手段。本次实验也暴露了数据预处理中的关键注意要点不同文件格式的分隔符、编码格式、表头规则存在差异需针对性配置参数才能保证数据正常解析同时字段筛选、数据计算的逻辑严谨性直接决定最终数据的准确性与可用性。整体而言本次实验夯实了文件型数据源ETL处理的实操能力构建了完整的离线文件数据预处理思维为后续复杂数据集成、数据清洗、数据分析建模等进阶数据处理工作奠定了扎实的实践基础。