网管联盟 | 网管论坛 | 网管u家 | 网管博客 | 网管软件 | 网管求职 | 小游戏 | 网管搜索 | 网管原创 | 网管聚合 | 网管读摘 | 网管焦点 | 世界素材 | 会员投稿 | 会员中心 
中国网管联盟
Windows Linux Cisco 网络技术 数据库 黑客攻防 DotNet Java PHP 认证 新闻资讯 服务器 存储资讯 网络设备 网管学堂 技术专题 焦点 网吧频道
 当前位置: > bitsCN.com > 数据库技术 > Oracle > 入门基础 > AIX系统性能管理之Oracle案例分析-入门基础  

AIX系统性能管理之Oracle案例分析-入门基础

2008-05-11  作者:bitsCN整理  来源:中国网管联盟  点评 投稿 收藏

    在这个案例中,主要重点就io这一块作分析。对于其他的,在这里就不作讨论。 中国网管论坛bbs.bitsCN.com

      应用环境:

网管网www_bitscn_com

      两台P570作HA(Rotating方式),AIX 5.3 安装oracle 9206,磁阵DS4300,14块盘,6块作raid10为hdisk4,另外8块盘作raid10为hdisk5 网管网www_bitscn_com

      两台P630作HA(Rotating方式),AIX 5.1 安装oracle 9206,磁阵7133

网管联盟bitsCN@com

      两个数据库各分担一定的功能。P570压力比较大。 网管网www_bitscn_com

      性能问题:

网管联盟bitsCN_com

      最近,P570数据库上的数据库性能急剧下降,报表统计跑将近24个小时才能完成,严重影响白天正常的业务,给主机带来比较大的性能负担。

中国网管联盟bitsCN.com

      检查过程(主要在P570上操作):

网管下载dl.bitscn.com

      1、使用topas查看一下操作系统的load情况。结果没想到topas无法运行了,得到的结果如下,根本无法刷新数据。 网管u家u.bitscn@com

    Topas Monitor for host:    jsdxh_db01           EVENTS/QUEUES    FILE/TTY
    Thu Oct 25 13:58:32 2007   Interval:  2         Cswitch          Readch
                                                    Syscall          Writech
    Kernel          |                            |  Reads            Rawin 网管网www_bitscn_com
    User            |                            |  Writes           Ttyout
    Wait            |                            |  Forks            Igets
    Idle            |                            |  Execs            Namei 网管bitscn_com
                                                    Runqueue         Dirblk
    Network  KBPS   I-Pack  O-Pack   KB-In  KB-Out  Waitqueue
                                                    PAGING           MEMORY
                                                    Faults           Real,MB

网管网www_bitscn_com


                                                    Steals           % Comp
    Disk    Busy%     KBPS     TPS KB-Read KB-Writ  PgspIn           % Noncomp
                                                    PgspOut          % Client
                                                    PageIn 网管下载dl.bitscn.com
                                                    PageOut          PAGING SPACE
                                                    Sios             Size,MB
                                                                     % Used 中国网管论坛bbs.bitsCN.com
                                                    NFS (calls/sec)  % Free
                                                    ServerV2
                                                    ClientV2           Press:

网管联盟bitsCN@com


                                                    ServerV3           "h" for help
                                                    ClientV3           "q" to quit

中国网管论坛bbs.bitsCN.com


    2、安装nmon_aix53(操作系统为5.3),结果nmon_aix53运行也报错。 网管bitscn_com

    #./nmon_aix53
    ERROR: Assert Failure in file="nmon11.c" in function="main" at line=3239
    ERROR: Reason=NULL pointer
    ERROR: Expression=[[q->procs = MALLOC(sizeof(struct procentry64 ) * n )]]
    ERROR: errno=12
    ERROR: errno means : Not enough space

网管u家u.bitsCN.com


    3、检查进程情况 网管u家u.bitscn@com

      #ps -ef | wc -l
      9947 网管网www_bitscn_com


      竟然总共已经产生了9000多个进程。在这众多的进程中可以发现有很多的defunct进程。 网管网www_bitscn_com

    #ps -ef |grep defunct | wc -l
    9331
    ##ps -ef | grep defunct | more
        root   159952        1   0                  0:00 <defunct>
        root   172052        1   0                  0:00 <defunct>
        root   225294        1   1                  0:00 <defunct>
        root   262236        1   0                  0:00 <defunct> 中国网管论坛bbs.bitsCN.com
        root   290902        1   0                  0:00 <defunct>

网管网www_bitscn_com


      在网上随便查一下defunct,就可以知道,这是孤儿进程。已经找不到父进程,所以把init(PID 1)作为他的父进程。上面的结果中就是PPID=1。孤儿进程无法用kill -9 来清除,即使是root用户也不行,只能重启。这些孤儿进程一般情况下都是由于不当的fork ()/execve()造成的。

网管网www.bitscn.com

      继续检查系统,不知道这么多的孤儿进程是哪个产生的。看一下主机系统的报错情况。 网管u家u.bitscn@com

    #errpt |more
    IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
    A63BEB70   1025140007 P S SYSPROC        SOFTWARE PROGRAM ABNORMALLY TERMINATED
    A63BEB70   1025133007 P S SYSPROC        SOFTWARE PROGRAM ABNORMALLY TERMINATED
    A63BEB70   1025130007 P S SYSPROC        SOFTWARE PROGRAM ABNORMALLY TERMINATED
    A63BEB70   1025123007 P S SYSPROC        SOFTWARE PROGRAM ABNORMALLY TERMINATED
    A63BEB70   1025120007 P S SYSPROC        SOFTWARE PROGRAM ABNORMALLY TERMINATED 网管论坛bbs_bitsCN_com


      在这里,可以看到频繁的这个报错。基本每隔半个小时报错一次。再检查详细的错误。可以定位到原来是由于一个网管监控软件造成的这个错误。基本也可以判断,由于整个软件的不当的fork调用,导致了数量惊人的孤儿进程。

网管联盟bitsCN@com

      现在孤儿进程的问题基本确定了,但是这个孤儿进程到目前为止,对系统造成的影响有多大?网上搜了一把,孤儿进程一般不占用内存,不占用空间,只不过是在进程列表中占了一个位置,所以并不会对系统性能产生太严重的影响。当然,如果任期发展,有可能就会使主机hang住。在这里,网管系统是以root用户运行的,进程数的限制非常大。所以,这里孤儿进程应该只是一个安全隐患,并不是对当前性能造成影响的原因。

网管u家u.bitsCN.com

    4、检查cpu的使用情况,

网管网www.bitscn.com

    #vmstat 1 10
    System configuration: lcpu=16 mem=23552MB
    kthr    memory              page              faults        cpu
    ----- ----------- ------------------------ ------------ -----------
     r  b   avm   fre  re  pi  po  fr   sr  cy  in   sy  cs us sy id wa
     4  0 3533226 2251446   0   0   0   0    0   0 3167 323907 7321 22  9 32 37
     1  0 3533229 2251443   0   0   0   0    0   0 1863 313913 4784 18  8 40 34
     2  0 3533229 2251443   0   0   0   0    0   0 3004 319720 6939 19  9 35 38 中国网管论坛bbs.bitsCN.com

      Cpu的使用率基本在65%左右,wa基本在35%到40%,io等待比较严重。 网管下载dl.bitscn.com

网管联盟bitsCN_com


TAGs
 上一篇:Oracle 11g SQL Performance Analyzer感受-入门基础   下一篇:Oracle中日期时间的操作比较和加减-入门基础
AIX系统性能管理之Oracle案例分析-入门基础 评论:
loading.. 评论加载中…
评论:请自觉遵守互联网相关政策法规,评论不得超过250字。

验证码: 注册用户
本类热门排行:
最新推荐文章:
网管论坛交流: