Azure Local离线模式监控(系列篇十六)

📅 2026/7/5 19:36:27
Azure Local离线模式监控(系列篇十六)
0. 关键架构图非官方出品⚠️架构图边界声明Microsoft Learn 官方文档未提供完整架构图——上述 ASCII 图基于文档正文 Azure Local / SCOM 公开架构关系整理。用于帮助读者建立心智模型不替代官方架构文档。1. 监控对象官方明确归类为 4 类✅ 官方要求Microsoft Learn 原文What can be monitored? You can monitor these components of disconnected operations for Azure Local by using external solutions:Azure Local (infrastructure)The disconnected operations appliance(local Azure portal and Arc services)Virtual machines (VMs)Azure Kubernetes Service (AKS) clusters✔ 官方明确把 Appliance 单独列为一类监控对象与 Azure Local 基础设施并列为独立监控目标。对象推荐方案官方/工程Azure Local 基础设施Hyper-V / S2D / Failover ClusterSystem Center Operations Manager (SCOM) 基础 MPDisconnected Operations ApplianceLocal Portal Arc 服务 Resource BridgeSCOM Disconnected Operations MP虚拟机VMSCOM / 第三方 / 开源AKS 集群非 Microsoft 方案或开源方案Prometheus Grafana 为常见组合 技术分析Appliance 是相对独立的服务集合——Local Portal ARB Arc services它的健康状态与 Azure Local 底层硬件没有直接关联Appliance 自身有专属的证书、API、登录链路——单独监控能更早发现问题 企业最佳实践不要合并Appliance 与 Azure Local 基础设施的监控——单独建 DashboardVM 监控走传统方案与 AKS 监控分离K8s 有独立的 metrics 链路SCOM AKS 监控是两套独立体系——不要试图让 SCOM 接管 K8s metrics2. 前置条件✅ 官方要求Install and deploySystem Center Operations Manager.✔必须先部署 SCOM——这是官方明示的唯一前置条件。✔ 官方未限制SCOM 必须运行在 Azure Local 上——可以部署在独立 Hyper-V / VMware / 物理机已有的企业 SCOM Server或Azure Local 节点如果合规允许 企业最佳实践推荐SCOM 跑在企业已有 SCOM 服务器上——避免重复投资SCOM SQL Server 推荐企业已有 SQL Server避免引入新的孤立数据源跑在 Azure Local 上不违规但不推荐——让监控基础设施与被监控目标隔离是监控架构的基本原则3. 监控 Azure Local 基础设施3.1 装 SCOM Agent✅ 官方要求Install the Operations Manager agent on each node. Follow the steps inInstall Windows Agent Manually Using MOMAgent.msi.每节点按 MOMAgent.msi 装 SCOM Agent——这是官方明示步骤。3.2 导入基础 Management Pack✅ 官方要求官方明确要求4 个基础 MPMP用途官方下载链接Windows Server Operating System 2016 and above基础 OSaka.ms/AAvqh49Microsoft System Center Management Pack for Windows Server Cluster 2016 and aboveFailover Clusteraka.ms/AAvqwlrMicrosoft System Center 2019 Management Pack for Hyper-VHyper-Vaka.ms/AAvqh4iAzS HCI S2D MP for Storage Spaces DirectS2Daka.ms/AAvqwo9✔ MP 名称保留官方原文措辞AzS HCI S2D MP for Storage Spaces Direct不擅自改写——不同版本的 MP 名称变化属于发布版本控制不替微软承诺具体名称。3.3 导入 Disconnected Operations MP✅ 官方要求SCOM 版本MP 下载官方原文文档官方原文SCOM 2022Microsoft System Center Management Pack for Azure Local with disconnected operationsGuideSCOM 2025Microsoft System Center Management Pack for Azure Local with disconnected operationsGuide✅ MP 能力官方原文Capabilities of the disconnected operations management pack include:Management for a single disconnected operations deployment单部署管理Support for Active Directory Federation Services (AD FS)AD FS 支持Health and metrics dashboards健康与指标 DashboardPreconfigured alert rules based on metrics for issue detection and operator action, including certificate expiration warnings预配置告警规则含证书过期预警Notification and reporting support通知与报表支持 技术分析单部署管理 一个 SCOM MP 实例管理一个 Azure Local Disconnected Instance——不支持一 MP 管多套AD FS 支持 监控 AD FS 服务健康这是身份层依赖监控Health dashboard SCOM Console 内的标准视图按对象树展示预配置告警规则 安装即生效无需手动写 RuleCertificate expiration warnings 关键能力——下面单独讨论3.4 证书过期预警监控的对象是什么✅ 官方原文Preconfigured alert rules ... including certificate expiration warnings.官方没有具体列举监控哪些证书。 技术分析基于官方未明示的合理推断基于 MP 监控对象Appliance Arc Resource Bridge Portal Arc services的公开架构证书监控大概率覆盖Appliance HTTPS 端点证书Arc Resource Bridge 与 Azure Local / Arc control plane 通信证书Local Portal TLS 证书AD FS 服务证书Kubernetes API Server 证书AKS Arc 控制面内部服务间通信证书但——具体清单官方未明示不替微软做精确承诺。 企业最佳实践不要假设监控覆盖所有证书——额外建立独立的证书过期台账BitLocker 恢复密钥域控证书如果走 AD FS自建 PKI 的中间证书OEM 远程管理证书iLO / iDRAC / xClarityMP 的 Certificate Alert 只能覆盖它发现的证书——未发现的不会被监控4. 监控 Disconnected Operations Appliance✅ 官方要求Microsoft Learn 原文Monitoring the appliance ensures the local portal and services remain available. Use System Center Operations Manager and the disconnected operations management pack for this purpose.✔ Appliance 是独立监控对象——通过 Disconnected Operations MP 实现。Disconnected Operations MP 监控的组件官方 MP 能力部分提及Appliance 服务Arc servicesLocal Portal内部证书AD FS 服务可选 技术分析Appliance 自身依赖Host节点——Host 故障 → Appliance 不可达监控 Appliance 不能替代监控 Host——两者必须同时配置 企业最佳实践Appliance 监控与Host 监控并行——不要偏废任何一方给 Appliance 单独建 Dashboard——单独追踪 Portal / ARB / AD FS 健康ARBArc Resource Bridge是 Appliance 中最关键的组件——单独告警5. 监控 VM✅ 官方要求Monitor virtual machines (VMs) on disconnected operations for Azure Local by using System Center Operations Manager, non-Microsoft solutions, or open-source solutions. Install the appropriate agents in each VM.✔ VM 监控完全开放——SCOM / 第三方 / 开源均可。✔ Agent 装在每个 VM 内——这是通用监控模式。 企业最佳实践不要用 AKS 监控的 Prometheus来监控普通 VM——那是 K8s 专用Windows VMSCOM Agent 是最稳的方案Linux VMSCOM Agent 或 Zabbix / Prometheus node_exporter关键业务 VM双监控SCOM 业务级探针6. 监控 AKS✅ 官方要求Microsoft Learn 原文Monitor Azure Kubernetes Service (AKS) clusters and container apps on disconnected operations for Azure Local by using non-Microsoft solutions or open-source solutions.Here are some common solutions for monitoring AKS clusters:Prometheus: An open-source monitoring and alerting toolkit ...Grafana: An open-source analytics and monitoring platform ... 措辞精确化避免误读官方原文措辞是non-Microsoft solutions or open-source solutionscommon solutions微软没有限定为特定厂商方案——但提供了Prometheus Grafana 作为 common 例子❌不存在CNCF-certified 这种限定词——这是额外推断不应在文档中作为官方表述✅ 部署方式官方原文Download these solutions from their repositories and install them on an AKS cluster running on Azure Local, or deploy them on a Kubernetes cluster outside Azure Local.✔ Prometheus Grafana 可部署在Azure Local 上运行的 AKS 集群Azure Local 之外的 Kubernetes 集群✔ 远程拉取跨集群 / 跨站点官方明确支持——这是文档原文表述。 企业最佳实践不要在 AKS Arc 内做持久化 PVC——K8s 监控数据用远程存储长期保留短期本地 cache长期保留导出到企业 SIEM/远程对象存储——避免本地节点宕机导致数据丢失Grafana走企业 SSO / OIDC——不与 Portal 账号混用Prometheus Alertmanager与 SCOM Alert不要重复定义——明确分工7. 官方要求 vs 企业建议 对照表维度官方要求企业建议非微软强制监控对象4 类Azure Local Appliance VM AKS不要合并Appliance 与 Host 监控——单独 Dashboard监控体系SCOM基础设施 Appliance 非微软/开源AKS两套体系隔离——不要混用 SCOM 管 K8s metricsSCOM 部署位置官方未限制不跑在 Azure Local 节点上——监控基础设施与被监控目标隔离SCOM AgentMOMAgent.msi官方明示与 AD 集成——避免本地账号管理基础 MP4 项Win / Cluster / Hyper-V / S2DMP 版本对齐 SCOM 版本——不要混装Disconnected Operations MP单部署管理 AD FS Dashboard 告警 报表额外建证书台账——MP 不覆盖所有证书证书告警范围官方未明示具体清单不要假设覆盖 BitLocker / 域证书 / OEM 远程管理证书——额外自管VM 监控SCOM / 第三方 / 开源Windows VM 走 SCOMLinux VM 走 SCOM 或 ZabbixAKS 监控方案非 Microsoft / 开源方案Prometheus Grafana 是 common examples长期 metrics 走远程存储——本地 PVC 不安全AKS 监控部署位置AKS on Azure Local或Azure Local 外的 K8s远程 K8s 拉取也是官方支持——企业可统一监控平面AMA / Log Analytics官方完全未提及不要额外引入 Azure Monitor Agent——不在文档范围8. 官方未明示的事项明确标注⚠️ 以下项目官方文档未明示——不应替微软做承诺仅供企业部署时参考。8.1 SCOM 在 Air-gapped 环境的部署官方没有说明SCOM 本身依赖SQL Server、Reporting Server、PowerShell Modules如何离线安装❓官方未说明SCOM 是否需要定期联网拿补丁/证书✔ 准确表述官方未说明 SCOM 本身在 Air-gapped 环境的部署步骤与离线补丁机制——企业需自行评估。8.2 Azure Monitor AgentAMA官方文档完全未提及AMA / Log Analytics / DCR❓ 是否禁用AMA、还是未涉及官方没有明文✔ 准确表述官方文档未提及 Azure Monitor Agent 与 Log Analytics离线监控通过 SCOM Agent 实现。—— 不引用 AMA / DCR / Log Analytics Workspace。8.3 Prometheus PVC 持久化官方没有说明Prometheus 在 AKS Arc 上的存储方案❓ 是 EmptyDir / PVC / 远程存储未明示✔ 准确表述官方未说明 Prometheus 的存储后端选择。8.4 证书过期预警的具体范围官方只说certificate expiration warnings没有列举具体证书❓ 是否覆盖 Appliance HTTPS / ARB / Portal / K8s API / AD FS / BitLocker ——全部未明示✔ 准确表述官方未具体说明 Certificate Alert 监控的证书清单。基于 MP 监控对象推断应以 Appliance 与 Arc Resource Bridge 相关 TLS/HTTPS 服务证书为主但具体范围以 MP Release Notes 为准。8.5 日志保留周期官方没有说明SCOM 默认日志保留周期❓ Azure Local 监控数据是否需要特定保留周期如 7 年合规未明示✔ 准确表述官方未说明日志保留周期——按 SCOM 默认 企业合规要求自行设置。8.6 SCOM 数据导出到 SIEM官方未介绍SCOM 与外部 SIEM 的集成路径❓ 是否需要 forwarder / 直接查询 SQL / SCOM Connector ——未明示✔ 准确表述官方未说明 SCOM 数据导出到外部 SIEM 的方式——按 SCOM 标准做法。8.7 Portal / CLI 监控能力官方文档聚焦 SCOM 体系——未提Azure Local Portal / CLI 是否有自带监控界面❓ Disconnected Operations Portal 本身是否提供轻量监控 Dashboard ——未明示✔ 准确表述官方未说明本地 Portal 是否自带监控视图——当前以 SCOM 为主。9. 关键 takeawayAzure Local Disconnected Operations 的监控体系✔SCOM是基础设施与 Appliance 监控的主轴✔Prometheus Grafana是 AKS 监控的官方 common example✔第三方 / 开源在 VM / AKS 场景官方明确允许❌Azure Monitor Agent在文档中完全未提及——不要额外引入因此企业级落地路径优先用 SCOM 4 个基础 MP Disconnected Operations MP覆盖 Azure Local ApplianceVM 监控走传统方案SCOM 或第三方AKS 监控单独建 Prometheus Grafana 体系——不与 SCOM 混用证书过期管理MP 覆盖一部分 额外自建证书台账BitLocker / 域证书 / OEM 证书不要假设MP Discovery / Distributed Application View 等高级能力——官方文档未说明