本期焦点
位于西南部地区的某线缆生产制造龙头企业,正基于深信服超融合承载其Oracle RAC数据库。目前,用户处于业务扩展期,但IT部门当前的运维人力紧张、预算有限,且缺乏专业的数据库管理员,难以应对庞大业务体系下的运维难题。在这样的困境下,用户开始寻找能够有效适配的解决方案。
用户本地数据中心概览及业务挑战
该生产制造企业目前已基于深信服超融合平台构建其核心数据中心设施环境,总计部署超过400核CPU、6TB内存资源,并运行120+台虚拟机,承载用户关键业务系统,包括OA、财务、生产管理、ERP以及数据库等核心应用,为用户的日常运营和生产活动提供了稳定可靠的技术支撑。
然而,随着用户的业务不断扩展,IT部门原有的人力资源及能力都不足以支撑快速增长的需求,尤其在面临数据库卡慢、卡死的相关问题时,因缺乏专业DBA,很难进行有效处理,具体问题如下:
-
主动监控手段不足,经常被动响应:核心数据库由于缺乏有效的监控手段,经常在收到业务部门的问题反馈及投诉之后才开始介入到问题的排查阶段,问题处置滞后,对业务部门影响较大。
-
缺乏专业DBA,数据库问题排查异常困难:针对业务部门频繁反馈的ERP业务系统卡慢、卡死等问题,IT部门对数据库性能的分析能力比较欠缺,软件厂商和系统运维工程师都难以定位问题根因。
在用户庞大的IT规模和有限的资源条件下,深信服基于一朵云为用户规划智能运维服务方案,将传统线下运维工作进行在线化、智能化转型,助力用户以更简便、高效的路径实现7*24h在线监测值守和主动式运维服务,提升运维效率,保障业务稳定运行。
关键事件:智能运维实践
下面,我们通过对一次数据库诊断场景的关键事件详解,呈现智能运维服务的价值。
用户数据库遇到性能问题,主动试用智能运维,并接入Oracle数据库。
2024-11-15 16:33:09:用户反馈运行在HCI上的Oracle RAC数据库相关的业务系统卡慢,几乎无法使用。
2024-11-15 16:45:27:通过试用智能运维服务,将Oracle数据库接入至云端智能大脑,并联系深信服DBA专家接入分析Oracle数据库卡慢问题。
深信服DBA专家通过智能运维中的数据库智能诊断功能,先获取到用户业务卡慢时刻附近的AWR报告。
通过超融合平台,登录到用户的Oracle主机上进行检查。
经过检查,发现系统大量使用Swap,说明系统内存不足。(cached占用代表数据库使用到了操作系统对文件系统的缓存,可能会因缓存文件导致内存过度消耗。)
通过查看从云端智能大脑上导出的AWR报告,通过分析得知SGA的缓存命中率低(约为67%),而TP环境中不应低于90%。
除此之外,还发现PGA的内存消耗达到配置的上限,导致内存分配等待。
故障原因
-
Swap是磁盘上一块存储空间。当系统内存使用超过一定值的时候,操作系统就会启动内核进程kswapd,kswapd将部分内存数据置换到Swap(swap out),从而释放一部分内存出来,当进程需要读取被置换到Swap的页的时候,内核再将数据从Swap读到内存(swap in)。
-
由于Swap in和Swap out是内核层自动执行的,所以进程不知道自己的内存是否被置换到Swap上了。swap让进程可以使用超过物理内存大小的内存空间。但是由于Swap是磁盘上的一块空间,所以其读写性能和内存差了1000~10000倍。
-
当内核开始使用Swap,会大大降低系统的响应速度,表现到业务层面为卡慢,甚至操作失败。
-
当系统使用了Swap时,若存在频繁换入换出即会导致kswapd进程活跃、CPU使用率上升、大量磁盘IO请求,进而导致业务系统整体卡慢,无响应。
处置建议
在定位到故障原因之后,我们为用户提供以下处置方案:
-
扩大虚拟机内存,建议扩容到220GB以上(SGA 160G + PGA 20G + OS预留和缓存 32GB)。
-
建议配置使用大页内存(HugeTabe),避免会话较多时/内存页过多,导致页表(TablePage)占用过多内存。
-
建议将数据库的文件系统IO调整为setall(避免经系统缓存IO,导致OS Cache大量消耗内存)、SGA调整为160G、PGA调整为20G。
2024-11-15 23:45:27~2024-11-16 24:00:经过调整后,用户数据库性能大幅提升。
用户价值
问题精准定位
基于智能运维全栈监控体系,接入并监控Oracle数据库核心性能指标,充分利用平台提供的数据库诊断功能,方便核心数据库问题现象定位。
疑难问题闭环
依托于智能运维服务提供的DBA专家服务,快速协助用户排查数据库层面的性能问题,获取资深DBA的处置建议,指导数据库问题端到端处置闭环,缩短MTTR(平均故障修复时间)50%以上,运维效率提升60%以上。
全栈丰富的监控能力,7*24小时持续的守护
智能运维服务通过硬件、平台软件、操作系统、数据库、应用的全栈信息,进行关联分析,根因溯源,深入分析问题本质、溯源前因后果等多维度揪出根本原因,同时配备专属服务经理进行7*24h值守与主动响应,帮助用户提前规避潜在风险。
基于一朵云,深信服围绕用户在业务扩展时遇到的运维难题,提供智能运维服务,通过线上线下结合,让用户突破传统运维工作的困境,在简化工作的同时获得更好的运维效果,大幅降低运维成本,可满足用户在各个业务发展阶段的运维需求,保障业务稳定运行,提升业务连续性。
云话技术是深信服打造的一档云技术内容专栏,将定期为大家推送云计算相关的技术解析、场景实践等内容,为大家深度解析深信服在云计算领域的创新能力、技术动态、场景应用及前瞻分析。