最新 | 最热门 | 最高评价

+0  Upgrade GKE cluster

Tag: ops | GCP | Kubernetes
ROBIN DONG 发于 2021年06月11日 08:15 | 点击: 155 | 展开摘要
Normally, to upgrade a cluster of Google Kubernetes Engine, we need to upgrade the master at first, and then node_pools. For convenience, I just click the button “UPGRADE AVAILABLE” in the “Release Channel” section u

查看全文: http://www.udpwork.com/item/17902.html

+0  A successful rescue for a remote server

Tag: ops | grub2
Robin Dong 发于 2018年12月07日 11:15 | 点击: 1389 | 展开摘要
After installed CUDA-9.2 on a remote server, I found that the system can’t load nvidia.ko (kernel module) with dmesg:

Unknown symbol __stack_chk_fail (err 0)
The reason is the current kernel running on my system has turned on the CON

查看全文: http://www.udpwork.com/item/17233.html

+0  DevOps 和 SRE

Tag: DevOps | SRE
alswl 发于 2018年09月09日 23:21 | 点击: 1714 | 展开摘要
最近有一位朋友和我聊职业发展方向问题,聊了不少 DevOps 和 SRE 话题。 我几年前刚接触这两个概念时也常常将之混淆,可惜当时没有人来解答我困惑。 现在这虽然已经极为流行,但是我发现我这位朋友对这两个职位还存在一些误区。 于是我给了一些见解并整理成文章以饕大众。

最常见的误区:

DevOps 新概念,好高级哦

SRE 是高级版 DevOps

运维可以轻松转身 DevOps 工程师

让我一一给你讲解吧。

image via YouTube

DevOps 和

查看全文: http://www.udpwork.com/item/17084.html

+0  Finding core-dump file

Tag: ops | coredump
Robin Dong 发于 2018年08月31日 11:42 | 点击: 1086 | 展开摘要
In a new server, my program got ‘core dump’. But I haven’t found the core-dump file in the current directory as usual.

First I checked the ‘ulimit’ configuration:

core file size (blocks, -c) unlimite

查看全文: http://www.udpwork.com/item/17046.html

+0  Migrate blog to AWS’s ec2

Tag: ops | AWS | ec2
Robin Dong 发于 2018年08月24日 11:53 | 点击: 1174 | 展开摘要
My blog had been hosting on Linost since 2013. But recently support staff from Linost noticed me that my site has led CPU usage of the host machine to 100% so the hosting system automatically ‘limited’ my resource, which actuall

查看全文: http://www.udpwork.com/item/17028.html

+0  

Tag: Infrastructure | DevOps
alswl 发于 2017年01月03日 23:20 | 点击: 1723 | 展开摘要
今年过年特别早,离春节只剩下二十多天了。 为期 7 天的春节里,工程师们不上班,那万一线上业务出现了故障怎么办? 大公司的朋友们会安排专门的人进行值班(此处心疼一下那些需要大年三十还要值班保证高峰的工程师们), 而作为创业团队人少,难做到在线值守,就需要对线上进行一些整理盘点,找出潜在问题,为春节长假做一些准备。

我们称之为年前大扫除。

大扫除需要做些什么呢,且听我一一道来。

201701/saber.jpeg

PS: 冷知识,大扫除英文是 spring cleani

查看全文: http://www.udpwork.com/item/16046.html

+0  github WebHooks初体验

Tag: DevOPS
xianchaobo 发于 2016年05月07日 14:11 | 点击: 2049 | 展开摘要
本博客欢迎转发,但请保留原作者信息!

博客地址:http://t.51gocloud.com

新浪微博:@线超博

内容系本人学习、研究和总结,如有雷同,实属荣幸!

github提供了钩子功能,当仓库有新的操作,例如push,会触发调用web接口,通知对应的服务器。这篇文章对这一过程进行总结。 github支持很多钩子,具体可以参考https://developer.github.com/webhooks/

1、在github上建立自己的仓库

(1)创建仓库,仓库名

查看全文: http://www.udpwork.com/item/15475.html

+0  fuel添加支持litevirt

Tag: devops
hs.chen 发于 2014年09月17日 23:26 | 点击: 1675 | 展开摘要
1.将livecd的iso转换成支持pxe启动的内核和镜像

livecd-iso-to-pxeboot litevirt-node-image.iso

产生tftpboot目录文件如下: initrd0.img pxelinux.0 pxelinux.cfg vmlinuz0

2.查看cobbler在docker容器内的ID

docker ps |grep cobbler

e115ed6d1a65 fuel/cobbler_5.0:latest

查看全文: http://www.udpwork.com/item/13277.html

+0  DevOps的三板斧

Tag: Technical | AWK | DevOps | Gnuplot | Strace
老王 发于 2013年01月26日 22:31 | 点击: 2386 | 展开摘要
话说这些天电视上正在热映《隋唐英雄》,虽然我并没有看,但是对当年田连元老先生的评书联播《隋唐演义》却是记忆犹新,特别是故事里面讲到的程咬金的三板斧:拍蒜瓣、戳脚指甲盖、胡椒面,每每听来总是让人忍俊不禁,不过这些貌似无厘头的招数在实战中却往往有出奇制胜的效果,由此可见简单实用永远都是硬道理,在当前这个倡导DevOps的年代,我们这些程序员自然也要学一些运维方面的本事才好安身立命,下面结合一些真实案例说说我在日常工作中常用的三板斧。

第一板斧:AWK

Web服务器负载飙升,猜

查看全文: http://www.udpwork.com/item/9168.html

+0  netoops启动时报 "XX is a slave device, aborting"

Tag: 操作系统 | kernel | netoops | netpoll | redhat
DongHao 发于 2012年06月07日 11:34 | 点击: 2303 | 展开摘要
为了监控上线的新内核,我们把google的netoops backport到了自己的内核,生产上如有kernel panic,会将panic的栈信息发送到日志服务器,方便调试和修复。

前天,洪川同学报告说以前线上的netoops都是把bond的slave网口作为发消息的dev,新上线2.6.32-220内核后,启动netoops失败,系统报:

”eth0 is a slave device, aborting."

找了一下从 2.6.32-131 到 2.6.32-22

查看全文: http://www.udpwork.com/item/7431.html

+0  Oops debug小经验

Tag: Programming | debug | kernel | oops
liuw 发于 2012年01月06日 23:37 | 点击: 2368 | 展开摘要
常在河边走哪能不湿脚,写程序没有遇到bug那是不可能的。内核菜鸟写代码,出个kernel oops那更是家常便饭。

从我目前遇到的各种oops来看,debug首先要检验能否稳定重现bug。

若不能稳定重现(触发条件不一,Oops信息不一),那么恭喜了,基本是出现竞态了。这种问题可大可小,当然最后的问题肯定是在自己的代码里面的(前提是其他模块都是稳定的)。这个时候当然是得先把code path都走一遍,检查是不是逻辑有问题;之后就是检查各种锁了。

若能稳定重现,那么相对好

查看全文: http://www.udpwork.com/item/6662.html

+4  一些关键设备的Latency时间

Tag: iops | throughput | latency | My Reading
jametong 发于 2010年06月03日 10:37 | 点击: 2302 | 展开摘要
下面的内容那个来自Jeff Dean在LADIS大会上做的报告.

Designs,Lessons and Advice from Building Large Distributed Systems

Numbers Everyone Should Know

devices
latency

L1 cache reference
0.5 ns

Branch mispredict
5 ns

L2 cache reference
7 ns

Mutex lock/u

查看全文: http://www.udpwork.com/item/1611.html
|<<<12>>>| 一共2页, 13条记录