strace
跟踪系统调用和信号
补充说明
strace命令 是一个集诊断、调试、统计与一体的工具,我们可以使用strace对应用的系统调用和信号传递的跟踪结果来对应用进行分析,以达到解决问题或者是了解应用工作过程的目的。当然strace与专业的调试工具比如说gdb之类的是没法相比的,因为它不是一个专业的调试器。
strace的最简单的用法就是执行一个指定的命令,在指定的命令结束之后它也就退出了。在命令执行的过程中,strace会记录和解析命令进程的所有系统调用以及这个进程所接收到的所有的信号值。
语法
1 | strace [ -dffhiqrtttTvxx ] [ -acolumn ] [ -eexpr ] ... |
选项
1 | -c 统计每一系统调用的所执行的时间,次数和出错的次数等. |
实例
追踪系统调用
现在我们做一个很简单的程序来演示strace的基本用法。这个程序的C语言代码如下:
1 | # filename test.c |
然后我们用gcc -o test test.c
编译一下,得到一个可执行的文件test。然后用strace调用执行:
1 | strace ./test |
执行期间会要求你输入一个整数,我们输入99,最后得到如下的结果:
1 | // 直接执行test的结果 |
从trace结构可以看到,系统首先调用execve开始一个新的进行,接着进行些环境的初始化操作,最后停顿在”read(0,”上面,这也就是执行到了我们的scanf函数,等待我们输入数字呢,在输入完99之后,在调用write函数将格式化后的数值”000000099″输出到屏幕,最后调用exit_group退出进行,完成整个程序的执行过程。
跟踪信号传递
我们还是使用上面的那个test程序,来观察进程接收信号的情况。还是先strace ./test
,等到等待输入的画面的时候不要输入任何东西,然后打开另外一个窗口,输入如下的命令
1 | killall test |
这时候就能看到我们的程序推出了,最后的trace结果如下:
1 | oracle@orainst[orcl]:~ |
trace中很清楚的告诉你test进程”+++ killed by SIGTERM +++”。
系统调用统计
strace不光能追踪系统调用,通过使用参数-c,它还能将进程所有的系统调用做一个统计分析给你,下面就来看看strace的统计,这次我们执行带-c参数的strace:
strace -c ./test
最后能得到这样的trace结果:
1 | oracle@orainst[orcl]:~ |
1 | execve("./test", ["./test"], [/* 41 vars */]) = 0 |
这里很清楚的告诉你调用了那些系统函数,调用次数多少,消耗了多少时间等等这些信息,这个对我们分析一个程序来说是非常有用的。
常用参数说明
除了-c参数之外,strace还提供了其他有用的参数给我们,让我们能很方便的得到自己想要的信息,下面就对那些常用的参数一一做个介绍。
重定向输出
参数-o用在将strace的结果输出到文件中,如果不指定-o参数的话,默认的输出设备是STDERR,也就是说使用”-o filename”和” 2>filename”的结果是一样的。
1 | # 这两个命令都是将strace结果输出到文件test.txt中 |
对系统调用进行计时
strace可以使用参数-T将每个系统调用所花费的时间打印出来,每个调用的时间花销现在在调用行最右边的尖括号里面。
1 | oracle@orainst[orcl]:~ |
系统调用的时间
这是一个很有用的功能,strace会将每次系统调用的发生时间记录下来,只要使用-t/tt/ttt三个参数就可以看到效果了,具体的例子可以自己去尝试。
参数名 | 输出样式 | 说明 |
---|---|---|
-t | 10:33:04 exit_group(0) | 输出结果精确到秒 |
-tt | 10:33:48.159682 exit_group(0) | 输出结果精确到微妙 |
-ttt | 1262169244.788478 exit_group(0) | 精确到微妙,而且时间表示为unix时间戳 |
截断输出
-s参数用于指定trace结果的每一行输出的字符串的长度,下面看看test程序中-s参数对结果有什么影响,现指定-s为20,然后在read的是是很我们输入一个超过20个字符的数字串
1 | strace -s 20 ./test |
trace一个现有的进程
strace不光能自己初始化一个进程进行trace,还能追踪现有的进程,参数-p就是取这个作用的,用法也很简单,具体如下。
1 | strace -p pid |
综合例子
说了那么多的功能和参数,现在我们来一个实用点的,就是研究下Oracle的lgwr进程,看看这个进程是不是像文档所说的那样没3s钟写一次log文件,考虑到lgwr写日志的触发条件比较多,我们需要找一个空闲的Oracle实例做这个实验。
我们先要得到lgwr进程的pid,运行下面的命令
1 | ps -ef|grep lgwr |
得到lgwr的pid是5912,现在启动strace,然后将trace的几个输出到lgwr.txt文件中,执行下面的命令
1 | strace -tt -s 10 -o lgwr.txt -p 5912 |
过一会之后停止strace,然后查看结果。由于输出的结果比较多,为了方便我们只看Oracle写入log文件时用的pwrite函数的调用
1 | grep pwrite\(20 lgwr.txt |
等等,为什么grep的时候用的是”pwrite(2″呢?,因为我知道我这个机器打开的当前的log文件的句柄编号都是2开始的。具体查找方法是先使用下面的语句找出当前活动的日志文件都有哪些:
1 | select member, v$log.status from v$log, v$logfile |
得到
1 | MEMBER STATUS |
然后到/proc中去找打开文件的句柄:
1 | ll /proc/.5912/fd/ |
得到
1 | lrwx------ 1 oracle dba 64 Dec 30 10:55 18 -> /db/databases/orcl/redo-01-a/redo-t01-g01-m1.log |
现在能看到我机器当前日志文件的句柄分别是20和21。
现在我们得到如下结果
1 | 11:13:55.603245 pwrite(20, "\1\"\0\0J!"..., 1536, 4363264) = 1536 |