服务器今日报价
·30万条报价,12万多款产品!

IT热点
  • 电脑硬件
  • 手机
  • MP4
  • 品牌机
  • 办公产品
  • 投影机
  • 服务器
  • 奥林巴斯
  • 尼康
  • 佳能
  • 阿尔卡特
  • 索尼
  • 微星
  • 七彩虹
  • 笔记本
  • 数码相机
  • 数码摄像机
  • 惠普
  • 戴尔
  • 联想
  • 诺基亚
  • 摩托罗拉
  • 索尼爱立信
  • LG
  • 西门子
  • 飞利浦
  • 华硕
  • 硕泰克
  • - - - - - - - - - -
    首页 >> 服务器 >> 服务器存储设备
    UNIX服务器系统内存转储失败的原因 [服务器存储设备]
    走进中关村
    2008-3-5 17:19:00 文/

      问题描述

      我的系统挂起 (hang) 的时候,我执行了一个 TOC(Transfer_Of_Control)以强制进行内存转储,但在重新引导之后 savecrash 显示没有可保存的有效转储。或者在系统崩溃时,未保存任何转储。

      我应如何更正此问题?

      配置信息:HP UNIX 11.00 和 11.11

      解决方法:

      转储概念
      系统硬件检测错误 (HPMC)、操作系统引起的恐慌 (Panic) 以及系统挂起 (hang) 必须提供有关失败原因的信息,这样才能制定出一个解决方案。HPUX 使用的方法需要创建系统内存转储、发生故障时的 Kernel 状态快照,HP 解决方案从这些内容进行分析才能提供根本的原因以及补救措施。

      Kernel 产生于 /stand/system 文件,它通常包含一个到转储设备 (默认状态下为 Swap Logical Volume) 的矢量 (指针)。

      进行引导时,该矢量将拷贝到不可变内存中。如果发生了前面提到的故障,硬件会将来自可疑操作系统的处理重新定向到固件例程 (firmware routine),以保存该转储。这些固件副本会将部分 RAM 拷贝到该转储矢量指向的目标磁盘中。

      对于可疑操作系统,转储之后会进行重新引导。重新引导过程中执行的 /sbin/init.d/savecrash 会导致 savecrash 命令检查该转储设备是否存在有效转储 (注意 1)。如果存在有效转储,savecrash 则会将其拷贝到一个预先确定的文件系统,在此系统中用户可以对这些数据进行操作以提取有用信息,如果不存在,savecrash 则会退出。

      转储失败的原因可能是:

      Kernel 中没有转储矢量
      有缺陷的 PDC 固件,即无法正确执行 TOC
      Kernel 中转储矢量已损坏,即无效堆栈设备
      有缺陷的转储设备,即磁盘无法接收 RAM 快照
      电源或其他抢占转储保存例程的其它硬件故障
      堆栈已损坏,通常是由于硬件故障引起的

      Kernel 中没有转储矢量
      检查 /stand/system 文件,寻找无转储规则或表明: dump none 的内容。如果不存在这样的内容,则添加转储 lvol 行并重新生成该 Kernel。

      有缺陷的 PDC 固件
      有缺陷的 PDC 固件需要 CE 对其进行重新编写。PDC 固件版本记录在 /var/tombstones/ts99 中,或者可以通过 STM 查看。

      TOC 矢量已损坏
      Kernel 中或 HP 应用软件中存在已知的缺陷,这些缺陷可能损坏了 Kernel 内存中的 TOC 矢量,以至 TOC 无法定位转储设备。这种情况的症状是强制的 TOC 好像会挂起 (hang)。
      
      下列补丁程序已经修正了 TOC 矢量损坏问题。
      10.20:
      PHSS_14978 :PDCINFO:A.02.24:TOC:vector:corruption:

      11.00:
      PHSS_14982 :PDCINFO:A.02.24:TOC:vector:corruption:
      PHKL_20937 :PANIC:TOC:core dump:

      11.04:
      PHKL_23017 :VVOS:PANIC:TOC:core:dump:

      有缺陷的转储设备
      转储设备通常为 Swap Logical Volume,该设备与引导 lvol 及 root lvol 位于同一个磁盘中。如果 Kernel 出现如挂起这样的问题,则可能表示磁盘要发生问题。引导问题和转储问题是其他的指示内容。

      硬件、电源故障
      有时候,系统崩溃的根本原因是由于电源系统问题而导致的电源短缺。这自然不会进行转储。

      转储已损坏
      savecrash 命令检查转储是否存在有效转储时,它会寻找一个转储 magic number (注意 1)。如果由于硬件故障而无法生成有效的 magic number,则该转储本身可能已经损坏了。

      注意 1: UNIX 文件 (包括 Kernel 及转储映象) 在文件开始都有一个 "magic number" 来识别它们所代表的文件类型。当 PDC 将其拷贝到转储设备时,它会在 RAM 快照的开始放置一个 "dump magic number"。如果 TOC 没有成功,则该 "dump magic number" 不会出现在转储设备的预期位置上。

      注意 2: 转储设备默认为 Swap Logical Volume。系统管理员可以根据需要添加更多的 Swap 设备。为了确定转储设备,请执行下面的命令:

      # lvlnboot -v /dev/vg00
      Boot Definitions for Volume Group /dev/vg00:
      Physical Volumes belonging in Root Volume Group:
       /dev/dsk/c1t5d0 (52.5.0) -- Boot Disk
       /dev/dsk/c1t6d0 (52.6.0) -- Boot Disk
      Boot: lvol1 on: /dev/dsk/c1t6d0
      Root: lvol3 on: /dev/dsk/c1t6d0
      Swap: lvol2 on: /dev/dsk/c1t6d0
      Dump: lvol2 on: /dev/dsk/c1t6d0, 0 <--- HERE -----

      注意 3: savecrash (11.X) = savecore (10.X HPUX)

      另请参阅 man crashconf(2)、/usr/share/doc/sys_crash.txt、
      /etc/rc.config.d/savecrash /etc/rc.config.d/crashconf

     

    下一篇:解虚拟化存储技术发展三大技术方向


    ·IT产品报价大全
    更多相关: 手机
    在百度中更多内容: 手机




    打印此 投稿与建议 返回顶部

    相关文章
    ·解虚拟化存储技术发展三大技术方向
    ·业界存储:惠普发布EVA4400存储阵列
    ·颠覆中小企业存储采购及使用习惯
    ·ONSTOR 扩大其在亚太地区的业务运营
    ·融合统一 网络存储NAS产品发展形式探讨