数据抽象与类型:从结构化到非结构化,数据分类的基本框架(学习笔记)

📅 2026/7/2 2:54:06
数据抽象与类型:从结构化到非结构化,数据分类的基本框架(学习笔记)
说明本文是对北京大学公开课《数据可视化》共63讲中“数据抽象与类型,数据集类型数据基本类型属性类型”部分的学习内容整理。作为一种课堂笔记的书面化尝试旨在梳理基本概念和分类框架供参考与交流。在数据可视化与分析实践中对数据本身的理解是开展后续工作的基础。数据可以依据组织形式、属性特征和语义关系进行多层次的分类。以下内容围绕数据集类型、基本构成单元以及属性类型三个层面展开。一、数据集类型结构化与非结构化从数据集的整体组织形式来看可以区分为两大类结构化数据具有已知的数据类型和明确的语义通常以关系型数据库或表格形式存储便于直接查询和分析。非结构化数据没有预定义的数据模型常见形式包括文字、视频、图像、音频等。这类数据无法直接置入二维表格但可通过技术手段转化为结构化形式。例如借助自然语言处理可以将文字转换为高维向量表示再通过关键词提取与词频统计实现对文本的量化分析进而支持情感判别、主题识别或关联挖掘如发现不同菜谱间共享的配料从而构建网络关系。二、数据集类型的常见分类根据数据组织方式的差异数据集可大致分为以下五类1. 表格数据集表格是最常见的数据组织形式其中每一行对应一个样本数据项每一列对应一个属性特征。表格数据的可视化方法较为多样其中重要的一类面向高维数据即每个样本由多个数值特征描述。典型方法包括平行坐标图、散点图矩阵等用于展示样本在各维度上的分布及特征间的相关性。实际应用中表格可用于呈现期刊在不同年份的论文发表量、候选人名单等信息。2. 图/网络数据集图结构由顶点节点和边连接构成。简单图不包含多重边且无自环。这类数据广泛应用于社交网络、知识图谱、交通网络等场景。可视化常采用力导向布局、层次布局等方法以展示节点间的关联结构与聚类特征。在图数据中根据边和结构的性质可进一步区分若干特殊类型有向图Digraph边具有方向性即边 A→B 与 B→A 被视为不同的连接关系。有向图适用于表示具有流向、因果关系或单向依赖的场景如网页超链接、引用关系、微博关注等。树Tree是一种无环的连通图任意两个节点之间仅存在唯一路径。树结构广泛用于层次数据如组织架构、文件目录、分类体系等。其可视化常采用径向布局或树状图。超图Hypergraph允许一条边连接任意数量的顶点而非仅限于两个。超图能够刻画多元关系如一篇论文由多位作者共同完成、一个商品属于多个类别等场景。在可视化中超图常通过集合圈或高亮区域来表示超边。这些特殊类型在图论和可视化中有各自专用的布局与编码方法根据数据本身的语义选择合适的表示方式至关重要。3. 场数据集场数据用于描述连续空间上的物理量分布如温度场、磁场、风速场等。其类型可细分为标量场、矢量场、张量场等。相应的可视化手段包括等值线图、颜色映射、流线图、箭头图等常用于科学计算与工程仿真领域。在场数据的离散化表示中网格是采样与存储的基础结构。根据网格几何形态和组织方式的不同可进一步区分为以下四种常见类型单一网格Uniform Grid所有网格单元在空间各方向上具有相同的尺寸采样点均匀分布。该结构简单规则便于直接计算几何属性和拓扑关系适用于规则区域内的场数据。直线网格Rectilinear Grid网格线仍为直线但采样间距可以在不同方向上非均匀设置即各方向上的步长可以独立变化。这种结构允许在变化剧烈的区域加密采样而在平缓区域稀疏采样以提高存储和计算效率。结构化网格Structured Grid网格线可以是曲线以适应复杂几何边界但网格的拓扑结构仍是规则的——每个内部节点具有相同数量的相邻节点形成逻辑上的矩形或六面体排列。此类网格在计算流体力学等领域较为常见。非结构化网格Unstructured Grid网格单元的形状和连接关系完全灵活没有规则的拓扑约束。每个顶点的位置及其与其他顶点的连接关系需要显式存储。这种网格能够拟合任意形状的几何区域但数据管理和后续计算的开销相对较大通常应用于复杂地形或不规则边界问题。这四种网格类型在实际应用中根据数据特性和计算需求进行选择各自在灵活性和计算效率上有所取舍。4. 几何数据集此类数据描述空间中的几何形状或运动轨迹例如车辆行驶轨迹、三维点云、建筑物轮廓等。这类数据通常兼具空间与时间属性属于典型的时空数据适合采用轨迹图、三维渲染或动态动画进行呈现。5. 其他数据集类型除上述四类外还存在多模态数据、层次数据、时序数据等混合或特殊类型往往需要结合多种可视化方法进行综合展示。三、数据的基本构成单元无论数据集属于何种类型都可以从更基础的层面加以理解数据项Item数据集中独立的实体通常是离散的个体例如一名患者、一辆汽车、一只股票或一个城市。在表格中每一行通常对应一个数据项。链接Link定义数据项之间的关联关系。这种关系可以灵活定义既可以是基于属性相似度等共性的衍生关系也可以是物理或逻辑上的直接联系如引用、空间邻接、社交关注等。在图中链接即为边。属性Attribute通过对数据项进行测量、观察或记录而获得的特征例如患者的身高与血压、汽车的马力与制造商等。在表格中每一列对应一个属性。属性的类型定类、定序、定距、定比决定了可对其施加的运算和适用的视觉通道。位置Position用于描述数据在空间中的定位信息通常为坐标如经纬度、三维空间中的 x,y,z。位置是几何数据与场数据的核心要素也是许多可视化布局的基础。网格Grid在空间连续数据的离散化采样中网格定义了采样点的组织结构。网格可以是均匀的、非均匀的、结构化的或非结构化的具体类型已在前文“场数据集”中详述。四、属性类型及其对操作的约束决定数据可被如何操作、以及可通过哪些视觉通道加以编码的是属性类型。根据属性的度量尺度可进行如下划分定类型Categorical用于区分不同类别但不具备内在的顺序或数值意义。可进行的操作主要是判断相等或不相等。典型例子包括水果种类、性别、电影类型、文件格式等。在可视化中这类属性适宜使用颜色、形状等视觉通道进行区分。有序型Ordered属性值之间存在顺序关系可进一步分为两种定序型Ordinal可以比较大小或排序但值之间的差值不具备数学意义。例如排名第一、第二、第三、教育程度小学 中学 大学、调查中的满意度等级满意 一般 不满意等。适宜使用大小渐变、饱和度等通道来编码。定量型Quantitative具有实际的数值含义可以进行数学运算。在定量型内部课程进一步区分了两种子类型定距型Interval数值之间的差值具有实际意义但零点位置是人为选定的不具有绝对零点的含义。因此只能比较两个数值之间的间距差值而不能比较比率。典型例子包括摄氏温度、华氏温度、日期如1月19日、经纬度坐标等。例如20°C比10°C高10°C但不能说20°C是10°C的“两倍热”因为0°C并非热力学意义上的绝对零度。定比型Ratio具有绝对零点即零点表示完全不存在被测实体因此不仅可以比较差值还可以进行比率和比例的运算。典型例子包括长度、质量、重量、数量、开尔文温度等。例如10 kg是5 kg的两倍该陈述在物理意义上是成立的。上述分类可归纳为定类型 → 有序型 → 定序型 / 定量型定距型 定比型。这一分类方式与统计学中的名义尺度、顺序尺度、区间尺度和比率尺度大致对应。不同属性类型对应不同的视觉通道选择。若通道选用不当可能影响图表的准确解读。例如使用折线图连接定类数据如不同水果的销量可能会误导读者认为类别之间存在连续变化关系而使用面积编码定量数据时若面积与数值不成线性比例也可能造成视觉偏差。五、从实例理解数据结构以典型表格数据为例每一行是一个独立的数据项样本每一列对应一个属性。理解各属性的类型数值型、分类型、时间型等是进行数据清洗、统计分析与可视化设计的必要前提。在实际项目中常需将非结构化数据如文本、图像转换为结构化表格再依据属性类型确定后续建模与展示方案。整个数据抽象体系可视为从原始数据到可视化表达之间的一个基础性环节。课程中的一些实例结语对数据抽象与类型的基本理解有助于在实际工作中更系统地审视数据。在处理新的数据集时可以从以下几个角度进行初步观察该数据是结构化的还是非结构化的其组织形式更接近表格、图、场、几何还是其他类型各属性的类型分别是什么允许哪些基本运算数据项之间是否存在可定义的链接关系以上是对该课程相关内容的一次学习整理限于个人理解如有不准确之处欢迎交流指正。课程来源本文根据北京大学公开课《数据可视化》共63讲的学习笔记整理而成课程链接【公开课】北京大学数据可视化