0
0

A successful rescue for a remote server

Robin Dong 发表于 2018年12月07日 11:15 | Hits: 1403
Tag: ops | grub2

After installed CUDA-9.2 on a remote server, I found that the system can’t load nvidia.ko (kernel module) with dmesg:

Unknown symbol __stack_chk_fail (err 0)

The reason is the current kernel running on my system has turned on the CONFIG_CC_STACKPROTECTOR compiler option. Therefore I change the default entry of grub2 and reboot the server, for entering a new kernel without this option.
But unfortunately, the server never start up again. All my code and data (includes my colleague’s code and data) are on this server, so we get a little nervous then.

Since the server is in a remote datacenter, we can’t just plugin in a keyboard and a screen to debug. Thus I use the out-of-bound system to reboot this server to diskless-mode. After entering this mode, I mount the disk for ‘/boot’ directory:

mount /dev/sda1 /mnt/

and manually change the ‘/boot/grub2/grubenv’ like this (the ‘save_entry’ is 2 before):

# GRUB Environment Block
saved_entry=1
#########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Then reboot the server again. This time, the server started up smoothly now. All our code and data is untainted.

原文链接: http://donghao.org/2018/12/07/a-successful-rescue-for-a-remote-server/

0     0

我要给这篇文章打分:

可以不填写评论, 而只是打分. 如果发表评论, 你可以给的分值是-5到+5, 否则, 你只能评-1, +1两种分数. 你的评论可能需要审核.

评价列表(0)