在 strip 二进制 + 基址随机化的栈里做crash去重 —— 三阶段算法与一行 Crash Flag

📅 2026/6/30 4:31:48
在 strip 二进制 + 基址随机化的栈里做crash去重 —— 三阶段算法与一行 Crash Flag
、问题是什么某嵌入式 Linux 智能电视平台上,一款全球视频应用通过厂商自研的对接层(基于某嵌入式 Chromium 框架)运行。设备出厂后的crash信息会经平台脱敏后回传到crash监控后台,每周以 Excel 形式导出一批。我的工作是把这些回传上来的crash分类、登记、跟进——同一个 bug 归一类、追到原因、回灌修复。听起来不复杂,但有两个性质让两个crash是不是同一个这件事变得很难判断:对接层库的加载基地址不确定—— 不同设备、不同时刻加载,起始地址都不同,栈里的绝对地址不能直接比对库被 strip 掉了可读符号—— 栈里没有函数名,只有anonymous:XXXX这种裸地址把两份 GDB backtrace 摆在面前:地址不同、符号没有,怎么判定它们是不是同一个 bug?这是个看着琐碎、实际很容易出错的工作。一周回传几百条crash,人工肉眼比对一上午,一致性还差。必须靠算法。二、核心观察:绝对地址不可比,但相对偏移恒定库被加载时基地址在变,但库内部代码的相对偏移是恒定的。也就是说,如果两个crash源自同一段代码,那么:同一个函数里两个相邻指令的地址差 →永远一样同一调用链上两个关键栈帧之间的地址差 →永远一样一段代码相对该库基地址的偏移 →永远一样把绝对地址比对换成相对偏移比对,就绕过了基址随机化。把符号比对换成地址差指纹,就绕过了 strip 缺符号。剩下的问题就是:哪两个地址值得拿来做差?三、三阶段去重算法我把判定逻辑做成了三阶段递进。先做便宜的、能直接归类的;再做核心的指纹比对;最后做多维度交叉验证。阶段 1:同类异常筛选 已知库匹配第一刀切粗粒度:异常类型对比(信号、抛出类型、异常码)—— 不同信号(SIGSEGV vs SIGABRT)直接分开,没必要进下一阶段已知库名匹配—— 如果crash帧命中已知库(系统驱动、播放器子系统、图形子系统等,这些没被 strip,符号可读),直接按库归类,不必走指纹路径这一阶段处理掉绝大部分明显不是同一个问题的crash,把昂贵的指纹比对留给真正需要它的匿名地址栈。阶段 2:栈关键点的相对地址差指纹 ⭐ 核心算法匿名地址栈不能比绝对值,要构造指纹。GDB backtrace 自上而下编号#00、#01、#02...,栈顶是触发crash的指令,往下是调用链。经验上,#05和#06这两帧的位置在这套对接层的crash里非常稳定 —— 比栈顶(经常是 libc 内的abort/信号处理)有业务语义,比深层栈帧又不至于丢失关键路径信息。于是我取这两帧的地址,记为trace_5/trace_6,定义:distance |trace_5_addr - trace_6_addr| (hex)这是核心指纹 ——同一个 bug 路径上,distance是固定的,不管设备是谁、不管这次 Starboard 类对接层加载到哪个基地址。对于匿名地址本身,还做了一步消除随机化:address_flag anonymous_addr - cobalt_base_addr把对接层加载的基址减掉,得到相对该库的偏移—— 即使下次重启基址变了,这个偏移依然不变。交叉比对时还做了一件事:±2 hex 容差。两个crashdistance差 1~2,认为是同一类。这是为了容忍不同固件版本里同一段代码经编译优化后产生的微小偏移变化——如果不容差,会出现同一个 bug,不同固件版本被分成两类的伪分裂。阶段 3:辅助维度交叉验证光靠两个数字不放心 —— 不同 bug 路径偶尔会撞同样的distance值。所以再叠上一组上下文维度做交叉验证:维度作用芯片型号不同芯片厂商的工具链编译结果不能混对接层版本跨大版本不能做指纹比对(代码都变了)crash线程主线程 vs 解码线程 vs 网络线程,crash语义完全不同groundMode前台crash vs 后台crash,触发条件不一样startIn1Min应用启动 1 分钟内crash vs 长时间运行后crash,常对应初始化/资源问题和运行时问题两类hasCobaltcrash时是否捕获到对接层版本号(没捕获的归一类,避免脏数据混进精确簇)三阶段都吻合 →判定为同一个或同一类crash。四、把判定逻辑编码成一行字符串:Crash Flag三阶段算法输出最终要落到数据库去重和按维度汇总。我把整套判定逻辑压缩为一行字符串,作为crash记录的主键:{chip}_{thread}_{lib}_{address_flag}_{distance}_{hasCobalt} ↑ ↑ ↑ ↑ ↑ ↑ 芯片 线程 库匹配 基址消除偏移 地址差指纹 上下文 (阶段3) (阶段3) (阶段1) (阶段2) (阶段2) (阶段3)举例:mt***_PlayerMain_libcobalt_4a8c_2e1c_1 mt***_PlayerMain_libcobalt_4a8c_2e1c_1 ← 主键命中,自动去重 1 mt***_NetIO_libcurl_-_-_1 ← 库名匹配,不需要指纹 mtk_PlayerMain_libcobalt_4a8c_2e1d_1 ← distance 相差 1,±2 容差视为同类好处:数据库主键即去重逻辑 —— SQLiteINSERT OR IGNORE一句话搞定,不需要在应用层做复杂比对按任一段聚合就能出报表 ——GROUP BY chip看哪个芯片型号问题多,GROUP BY thread看哪个线程不稳定人能直接读 ——mt5895_PlayerMain_libcobalt_*一眼看出主芯片上播放主线程在对接层里挂的那一批五、不是一个脚本,是一套工具写到这里都还是算法。但实际上算法只占代码量的小头 —— 真正吃工作量的是把这件事做成可持续使用的运营工具。5.1 11 模块、4 层架构层模块职责入口main_crash.py/main_dashboard.py/main_dash2total.py/csv2excel.py四个入口编排不同流水线(主流程 / 与官方crash面板比对 / 后处理追加列 / 格式转换)读取read_crash.py(CrashExcelProxy)读 Excel、base64 解码堆栈、过滤目标应用相关crash、汇总统计模型crash_info.py/trace.py/crash_detail.py/crashExtension.py/crash_flag.py单条crash数据模型 / 原始crash文本解析 / 首个crash栈细节(trace_5/6、lib、anonymous、LocalTime) / 扩展元数据(cobalt base、groundMode、upTime、preload、userAgent) / Crash Flag 生成视图excel_view_all.py/excel_view_summary.py/excel_common.py详细记录 按类型/线程/国家/周/区域/地址标记的汇总视图 Excel 样式工具(边框、字体、斑马纹、冻结窗格)持久dba/sqlite_db.py/dba/crash_db.py通用 SQLite 封装 crash专用去重插入/汇总查询交叉比对dashboard.py把crash类型与官方crash面板的栈做 ±2 容差交叉比对,识别已知/未知问题不是 几个函数堆一个文件,是有明确职责边界、能被另一个程序员看一眼就理解结构的工程。5.2 数据流原始数据 (Excel,含 base64 编码crash堆栈) ↓ CrashExcelProxy.readCrash_ex() base64 解码 → CrashInfo ↓ 过滤目标应用相关crash TraceInfo → CrashDetail(首个crash栈) CrashExtension(扩展元数据) ↓ CrashFlag 生成 6 段主键 按 type/thread/country/addressFlag/week/region 汇总 ↓ excel_view_*.py crash_recorders.xlsx(多 sheet 报告) ↓ dba/crash_db.py SQLite 数据库 → crash表 → V_WeekSummary 周视图5.3 持续运营的几个关键约定数据按周入库:输入文件命名crash_MMDD_MMDD.xlsx(如crash_0929_1002.xlsx),按周拉、按周入、按周出报告 —— 形成稳定的运营节拍SQLite 周视图:V_WeekSummary直接 SQL 出上周这类 crash 多少例 / 走势如何,历史数据持续累积,不是看完即弃py2exe 打包成 Windows exe:同事不需要装 Python 环境,双击就用 ——工具的工具,前提是别人能用特定海外市场专项:只处理目标市场国家(country_areas.csv维护 country_code → region 映射,read_crash.py内置国家白名单过滤),不是全市场普查 —— 工具的边界与业务边界对齐六、收益维度收益单条crash分析耗时2 天 → 十几分钟工作量大幅压缩,从全人力扛变成工具兜底人工只看疑难判定一致性不再依赖个人状态,算法判定每次结果可复现数据资产多周crash累积为可查询历史库,趋势可见组织级回报获公司年度创新奖七、抽象到方法论回头看这件事,有几条值得标记:7.1 在带噪声的二进制栈上做指纹,有套路这套思路并不孤独——现代crash监控工具(Sentry / Bugsnag / Crashlytics)栈指纹算法是同源思路:都是在符号信息不全 / 地址不可比的环境下,通过提取相对稳定特征做哈希式归并。只是当时身处嵌入式现场,没参照过这些工具,是自己独立想出来并实现的。可以把这套套路归纳为:当绝对值不可比时,找相对值;当精确值不可得时,找特征值容差;当单一维度不够时,多维度交叉验证。任何带噪声的指纹/去重场景都适用 —— 不只是crash栈。7.2 算法的工程含金量,藏在把它做成可持续工具里