1. 实例基本信息 —01_instance.sql-- 实例基本信息 (使用 V$INSTANCE 真实列名) SELECT INSTANCE_NAME, HOST_NAME, SVR_VERSION AS VERSION, DB_VERSION, TO_CHAR(START_TIME, YYYY-MM-DD HH24:MI:SS) AS START_TIME, STATUS$ AS STATUS, MODE$ AS MODE_TYPE, DSC_ROLE AS DSC_ROLE FROM V$INSTANCE;看什么实例名、主机名、版本、启动时间、运行状态。常见问题STATUS$为空或者不是预期值说明实例可能有问题。DSC_ROLE在单机环境通常是NULL集群环境才会显示节点角色。注意DM8的列名带$后缀跟Oracle不一样别搞混。02. 内存参数 —02_memory.sqlSELECT NAME AS PARAM_NAME, ROUND(VALUE/1024/1024, 2) AS VALUE_MB, CASE TYPE WHEN 1 THEN static WHEN 2 THEN dynamic ELSE other END AS TYPE_DESC FROM V$PARAMETER WHERE NAME IN (MAX_MEMORY,MEMORY_POOL,BUFFER, MAX_BUFFER_SIZE,BUFFER_POOLS) ORDER BY NAME;看什么最大内存上限、内存池大小、缓冲区大小。常见问题MAX_MEMORY设得太小会导致数据库OOMBUFFER显示为0.01MB通常意味着启用了动态缓冲区管理这是正常现象MEMORY_POOL过小会影响排序和哈希操作的性能。03. 表空间使用率⭐核心告警—03_tablespace.sqlSELECT A.TABLESPACE_NAME, ROUND(A.TOTAL_SIZE*8192/1024/1024, 2) AS TOTAL_MB, ROUND(B.FREE_SIZE*8192/1024/1024, 2) AS FREE_MB, ROUND((A.TOTAL_SIZE-B.FREE_SIZE)*8192/1024/1024, 2) AS USED_MB, ROUND((A.TOTAL_SIZE-B.FREE_SIZE)*100.0/NULLIF(A.TOTAL_SIZE,0), 2) AS USED_PCT, C.STATUS, CASE WHEN (A.TOTAL_SIZE-B.FREE_SIZE)*100.0/NULLIF(A.TOTAL_SIZE,0) 85 THEN !! WARN ELSE OK END AS FLAG FROM ( SELECT TABLESPACE_NAME, SUM(BYTES) TOTAL_SIZE FROM DBA_DATA_FILES GROUP BY TABLESPACE_NAME ) A, ( SELECT TABLESPACE_NAME, SUM(BYTES) FREE_SIZE FROM DBA_FREE_SPACE GROUP BY TABLESPACE_NAME ) B, ( SELECT DISTINCT TABLESPACE_NAME, STATUS FROM DBA_DATA_FILES ) C WHERE A.TABLESPACE_NAMEB.TABLESPACE_NAME() AND A.TABLESPACE_NAMEC.TABLESPACE_NAME() ORDER BY USED_MB DESC;看什么每个表空间的总大小、已用大小、使用率百分比超过85%会标记!! WARN。常见问题MAIN表空间使用率接近100%时数据库就无法写入新数据了这是生产环境最高优先级的告警。达梦页大小默认8KB所以计算时用*8192转成MB——如果你建库时指定了不同的页大小这个值要相应调整。04. 数据文件Top15 —04_datafile.sqlSELECT FILE_ID, TABLESPACE_NAME, FILE_NAME, ROUND(BYTES/1024/1024, 2) AS SIZE_MB, AUTOEXTENSIBLE, ROUND(MAXBYTES/1024/1024, 2) AS MAXSIZE_MB, STATUS FROM DBA_DATA_FILES ORDER BY BYTES DESC LIMIT 15;看什么最大的15个数据文件以及它们是否开启了自动扩展。常见问题AUTOEXTENSIBLENO且SIZE_MB快要到MAXSIZE_MB的文件是最先可能出问题的。另外留意一下数据文件是不是分布在系统盘生产环境应该放在专用数据盘上。05. 会话统计与活跃会话 —05_session.sql-- 会话汇总 SELECT COUNT(*) AS TOTAL_SESSIONS, COUNT(CASE WHEN STATEACTIVE THEN 1 END) AS ACTIVE_SESSIONS, COUNT(CASE WHEN STATE!ACTIVE THEN 1 END) AS INACTIVE_SESSIONS, CASE WHEN COUNT(*) 200 THEN !! EXCEEDS THRESHOLD ELSE OK END AS FLAG FROM V$SESSIONS; -- Active Sessions TOP15 SELECT SESSID, USER_NAME, CLNT_IP AS CLIENT_IP, STATE, APPNAME, LEFT(SQL_TEXT,60) AS SQL_TEXT, LAST_RECV_TIME, ROUND((SYSDATE-LAST_RECV_TIME)*86400, 0) AS IDLE_SEC FROM V$SESSIONS WHERE STATEACTIVE ORDER BY IDLE_SEC ASC LIMIT 15;看什么会话总数超过200会告警、活跃/非活跃会话数量、当前正在执行的SQL。常见问题活跃会话突然飙升通常意味着有锁等待或大量慢查询堆积。非活跃会话大量积压说明应用连接池没有正确释放连接。CLNT_IP字段如果是IPv6格式如::ffff:172.x.x.x需要手动转换一下看真实IP。06. 锁等待与长事务 —06_lock.sql-- 6.1 锁等待数量 SELECT COUNT(*) AS LOCK_WAIT_COUNT FROM V$TRXWAIT; -- 6.2 锁等待详情 (V$TRXWAIT: ID等待事务ID, WAIT_FOR_ID阻塞事务ID) SELECT ID AS WAIT_TRX_ID, WAIT_FOR_ID AS HOLD_TRX_ID FROM V$TRXWAIT WHERE ROWNUM 20; -- 6.3 当前活跃事务 (V$TRX 真实列) SELECT ID AS TRX_ID, SESS_ID, STATUS AS TRX_STATUS, ISOLATION, READ_ONLY FROM V$TRX WHERE STATUS COMMIT ORDER BY ID LIMIT 20;看什么锁等待数量、谁在等谁、当前未提交的事务。常见问题LOCK_WAIT_COUNT 0说明存在事务阻塞需要立即排查。死锁信息不在视图里得去dmserver.log搜DEADLOCK关键字。注意V$TRX的列名是ID不是TRX_ID、SESS_ID不是SESSION_ID这里跟Oracle完全不同。我特意把三个查询拆开写不做JOIN因为disql对复杂JOIN的解析容易出问题。07. 备份与归档配置 —07_backup.sql-- 先查备份目录配置 SELECT BAK_PATH AS CHECK_ITEM, PARA_VALUE AS CURRENT_VALUE, dmrman 备份目录 AS NOTE FROM V$DM_INI WHERE PARA_NAME BAK_PATH; -- 归档配置这个可以直接查 SELECT ARCH_TYPE, ARCH_DEST, Archive Config AS NOTE FROM V$DM_ARCH_INI; PROMPT 备份检查提示: PROMPT 第一步: 从上面查出的 BAK_PATH 确认备份目录 PROMPT 第二步: 在操作系统执行 dmrman 命令 PROMPT 第三步: dmrman SHOW BACKUPSETS WITH BACKUPDIR 目录路径 PROMPT (注意: SHOW 命令只能在 dmrman 工具里执行不能放在 disql 里)看什么备份目录配置、归档日志配置。特别注意达梦没有类似Oracle的V$BACKUP_SET视图备份信息必须用dmrman命令行工具查。命令格式是SHOW BACKUPSETS WITH BACKUPDIR /path;——注意是BACKUPSETS一个词不是BACKUP SETS。归档配置直接看V$DM_ARCH_INI确认归档路径有足够空间归档日志在正常生成。08. 数据库对象统计 —08_object_count.sqlSELECT TABLES AS OBJ_TYPE, COUNT(*) AS CNT FROM DBA_TABLES WHERE OWNER NOT IN (SYSDBA,SYS,CTISYS,SYSBO) UNION ALL SELECT INDEXES, COUNT(*) FROM DBA_INDEXES WHERE OWNER NOT IN (SYSDBA,SYS,CTISYS,SYSBO) UNION ALL SELECT VIEWS, COUNT(*) FROM DBA_VIEWS WHERE OWNER NOT IN (SYSDBA,SYS,CTISYS,SYSBO) UNION ALL SELECT PROCS, COUNT(*) FROM DBA_PROCEDURES UNION ALL SELECT TRIGGERS, COUNT(*) FROM DBA_TRIGGERS UNION ALL SELECT SEQUENCES, COUNT(*) FROM DBA_SEQUENCES UNION ALL SELECT USERS, COUNT(*) FROM DBA_USERS WHERE ACCOUNT_STATUSOPEN;看什么业务对象的数量统计——表、索引、视图、存储过程、触发器、序列、用户。常见问题索引数/表数的比值过大说明可能存在冗余索引会增加写入开销。定期对比历史数据对象数量突增通常意味着应用发版了或者有异常创建对象的操作。09. 无效对象检查 —09_invalid.sqlSELECT OBJECT_TYPE, OWNER, OBJECT_NAME, STATUS FROM DBA_OBJECTS WHERE STATUS ! VALID AND OWNER NOT IN (SYSDBA,SYS,CTISYS,SYSBO) ORDER BY OBJECT_TYPE, OWNER;看什么所有状态不是VALID的业务对象。常见问题无效对象通常是因为依赖的表或视图被修改了导致引用它的函数、过程、视图失效。处理方式是对这些对象执行ALTER ... COMPILE重新编译。系统用户的对象已经过滤掉了只关注业务用户。10. 定时作业状态 —10_job.sql-- DM8 作业信息先探测列名再按需调整 -- DBA_JOBS 常见列JOB, WHAT, NEXT_DATE, LAST_DATE, FAILURES, BROKEN -- 若报错请手动 DESC DBA_JOBS; 并把结果发回 SELECT * FROM DBA_JOBS WHERE ROWNUM 20;看什么定时作业的配置和执行状态。常见问题BROKENY表示作业已中断不再调度需要人工介入修复FAILURES大于0说明作业执行失败过多次。不同DM版本的DBA_JOBS列名有差异所以我用了SELECT *探测式写法如果报错就先用DESC DBA_JOBS确认列名。11. 性能指标与慢SQL —11_performance.sql-- 11.1 缓冲区信息 (让输出自己显示真实列名) SELECT * FROM V$BUFFERPOOL WHERE ROWNUM 1; -- 11.2 字典缓存 (若视图不存在会报错属正常) SELECT * FROM V$DICT_CACHE WHERE ROWNUM 1; -- 11.3 SQL 缓存条目数 SELECT SQL Cache Items AS METRIC, COUNT(*) AS CNT FROM V$CACHEITEM; -- 11.4 慢SQL (V$SQL_HISTORY 真实列名) -- TIME_USED 单位: 微秒(us) SELECT SESS_ID, TRX_ID, TOP_SQL_TEXT AS SQL_TEXT, TIME_USED AS TIME_USED_US, AFFECTED_ROWS AS AFFECTED_ROWS, N_LOGIC_READ AS LOGIC_READS, N_PHY_READ AS PHY_READS, TO_CHAR(START_TIME, YYYY-MM-DD HH24:MI:SS) AS START_TIME, IS_OVER FROM V$SQL_HISTORY ORDER BY TIME_USED DESC LIMIT 20;看什么缓冲区命中情况、SQL缓存条目数、最耗时的20条SQL。常见问题TIME_USED单位是微秒用来排序找出最耗时的SQL。注意V$SQL_HISTORY和Oracle的V$SQL差异非常大——没有EXEC_TIME用TIME_USED代替没有ROWS这是DM8保留字用AFFECTED_ROWS多了N_LOGIC_READ和N_PHY_READ用于分析读写情况。IS_OVERY表示SQL已执行完大量IS_OVERN说明有SQL长期运行。缓冲区视图我用了SELECT *因为不同版本的列名差异较大让输出自己显示真实列名最稳妥。使用V$SQL_HISTORY的前提是开启了SQL监控ENABLE_MONITOR1这个参数默认是开启的。12. 告警日志检查指引 —12_alert.sql-- Linux 环境: -- tail -500 $DM_HOME/log/dmserver.log | grep -iE error|fatal|deadlock -- Windows 环境: -- 直接打开 dmserver.log 文件搜索 ERROR / FATAL / DEADLOCK -- 建议配合 Prometheus Grafana 做自动化日志监控告警看什么数据库运行日志中的错误、致命异常、死锁记录。说明达梦没有类似OracleV$DIAG_ALERT_EXT的统一告警视图所以只能手动查看日志文件。生产环境建议接入监控系统做自动化告警而不是依赖人工去翻日志。脚本怎么用前置条件很简单装了达梦客户端disql能用把脚本上传到服务器有SYSDBA权限就行。调试阶段推荐一个个执行disql SYSDBA/SYSDBA172.16.12.13:5236 SQL START sql/01_instance.sql; SQL START sql/02_memory.sql; # ... 依次执行日常巡检可以用Shell循环一次性跑完输出到带时间戳的报告文件for f in sql/*.sql; do echo $(basename $f) disql SYSDBA/password192.168.1.100:5236 $f done report_$(date %Y%m%d_%H%M%S).txt给后来者提个醒写这套脚本踩过的坑总结一下列名差异达梦系统视图的列名跟Oracle差异很大千万别凭经验去猜。比如V$TRX里是SESS_ID不是SESSION_ID是ID不是TRX_ID。执行前先用DESC 视图名确认一下真实列名。PROMPT陷阱disql里PROMPT后面如果跟英文单词会被当成变量名弹输入框。所以提示信息要么用中文要么别用PROMPT加英文。备份视图缺失达梦没有V$BACKUP_SET备份信息必须用dmrman查别在disql里浪费时间。版本差异不同小版本的系统视图可能有差异如果某个视图报错不存在先确认版本再查对应文档。