li
  当前位置:主页 > 集群技术 > 文章内容
li
Heartbeat中Watchdog和Softdog的使用
来源: 51CTO.com  作者: 黄永兵译    时间:2008-11-26   阅读:107  
本文章共2260字,分2页,当前第1页,快速翻页:
 

      内核有它自己的方法处理挂起的系统,叫做watchdog,watchdog只是一个内核模块,它检查计时器确定系统是健康的,如果watchdog认为内核挂起,它可能做出激烈的响应,如重启系统,如果你想保护你的高可用服务器配置,服务器挂起时导致服务中断,Heartbeat也检测不到,你应该在你的内核中启用watchdog。

注意:这里我们讨论的是服务器挂起而不是应用程序问题,Heartbeat(在编写本书时Heartbeat 2之前的版本还不可用)不会监视它控制的资源或应用程序,看其是否健康 -- 要监视必须使用另一个软件包,如Mon,将在第四部分中详细讨论它。

正常情况下,连接到系统的watchdog设备允许内核判断系统是否挂起(当内核看不到外部的计时器设备正确地更新时,它就知道出现某些错误了)。

watchdog代码也支持用软件替换外部的硬件计时器,该软件叫做softdog,softdog维护一个内部计时器,在另一个进程写入/dev/watchdog设备文件时更新,如果softdog没有看到进程写入/dev/watchdog文件,它认为内核一定出故障了,它将启动一个内核恐慌,正常情况下,内核恐慌将导致系统关闭,但是你可以修改这个默认行为,将其改为默认行为为重启系统。

在内核中启用Watchdog

要在内核中启用watchdog,首先你需要确定softdog模块已经编译进内核了。

注意:在一个正常的Red Hat或SuSe发行版上你不需要将watchdog添加到内核,因为标准发布的版本Red Hat内核已经包括了一个已经编译好的softdog模块的副本。

如果你从源代码编译的内核,从/usr/src/linux目录运行makemenu config命令,在下面的子菜单中检查或启用“Software Watchdog”选项:

Character Devices【字符设备】
Watchdog Cards --->【watchdog插件】
[*] Watchdog Timer Support【watchdog计时器支持】
[M] Software Watchdog (NEW)【软件watchdog(新)】

如果在内核中这个选项没有被选中,按照第3章中描述的步骤重新编译并安装你的新内核,如果你正在使用Red Hat提供的标准模块内核(或如果你刚刚编译完你自己的内核,并启用了software watchdog支持),输入下面的命令确定该模块是否载入了当前运行的内核:

#insmod softdog
#lsmod

你应该看到列出了softdog,正常情况下,如果你在/etc/ha.d/ha.cf中启用了watchdog支持,Heartbeat开关(init)脚本将为你插入这个模块,假设启用了watchdog,现在你应该从内核中移除它,并允许Heartbeat在它启动时为你添加,使用下面的命令从内核中移除softdog:

#modprobe -r softdog

内核恐慌 -- 挂起还是重启?

在内核恐慌时要强制系统重启而不是暂停,需要修改传递给内核的启动参数,在使用LILO启动装入程序的系统上,编辑/etc/lilo.conf文件,在“image=”行前增加下面这样一行内容:

append="panic=60"

www.ixdba.net


然后运行:

#lilo -v

也可以使用下面的命令:

#echo 60 > /proc/sys/kernel/panic

配置Heartbeat支持Watchdog

除使用我们刚刚描述的(作为服务器正常配置的一部分,在系统挂起时提升它的可靠性)softdog计时器之外,你可以告诉Heartbeat更新softdog计时器,这让watchdog知道Heartbeat正在运行并很健康,如果计时器没有更新,watchdog将通知并强制内核恐慌,实际上,我们是告诉watchdog观察Heartbeat。



阅读更多内容1 · 2 · 下一页>>


  上一篇: nginx负载均衡的4中配置策略   下一篇: Lvs中Windows 作为Real Server
li
 §相关评论  
 热点文章

·Linux RAC OCFS文件系统与INOD
·Oracle10g R2 Installing RAC
·Linux服务器集群系统(lvs)
·Linux对存储文件系统的技术架构
·linux常用集群文件系统简介
·如何选择合适的双机和集群软件
·LifeKeeper软件介绍
·纯软件方式的双机热备方案深入
·双机热备:基于共享存储与纯软
·双机热备与数据备份,数据安全的
·双机热备常见问题释疑
li
 编辑推荐
·Linux RAC OCFS文件系统与INOD
·Oracle10g R2 Installing RAC
·Linux服务器集群系统(lvs)
·Linux对存储文件系统的技术架构
·linux常用集群文件系统简介
·如何选择合适的双机和集群软件
·LifeKeeper软件介绍
·纯软件方式的双机热备方案深入
·双机热备:基于共享存储与纯软
·双机热备与数据备份,数据安全的
·双机热备常见问题释疑
li
 相关篇章
·nginx负载均衡的4中配置策略
·使用IPMI工具实现对服务器的远程...
·linux Bonding技术的实现
·linux as5下双网卡绑定技术的实现...
·Linux下双网卡绑定为一块网卡实现...
·nginx简明教程负载均衡和php解释
·Red Hat集群(Cluster)套件介绍
·redhat linux下GFS与RHCS安装日记
·oracle rac日常基本维护命令
·oracle 10g dataguard 在windows...
·Lvs中Windows 作为Real Server
·dataGuard推荐:利用rman创建sta...
·dataGuard推荐:利用冷备创建sta...
·dataGuard推荐:Rman通过duplica...
·如何设置MySQL同步(mysql双机热...
·ROSE HA/ Mirror HA双机热备份软...
·MFS分布式文件系统架设笔记
·ROSE HA,双机软件,双机热备份软件...
·NEC Expresscluster双机热备软件...
·EMC Autostar双机热备软件,高可用...
 
li
设为首页 | 关于我们 | 技术服务 | 收藏本站 | 网站地图 | 联系方式 | 本站友情连接