Linux被广泛用于服务器系统,很多线上服务在上线前要做压力测试,对发现的性能问题要进一步排查和开发优化性能。
比如通过 top 、iostat 等命令找到了引起资源异常的进程后,就要进一步对该进程/线程的内存占用、文件系统IO系统调用次数、Socket和网络通讯阻塞问题等做跟踪分析。由于此时往往更希望接近真实场景的运行方式,所以除了采用代码断点调试的方式外,最保真、最快速跟踪到实际环境问题根源的就是用Linux系统自带的strace软件启动问题软件,获得直接的数据实现,故障分析、性能分析。
这是一款Linux下瑞士军刀级别的工具,开发者、运维人员如果不熟悉,那么非常有必要继续往下看。学会后可以事半功倍地解决工作中遇到的各类软件开发和软件运维问题。
统计异常系统调用耗时、系统调用次数过多的情况:使用strace跟踪vs code 这个代码编辑器的运行(软件文件路径为 /usr/bin/code )为例:
sudo strace -o strace.log -T -S time -k -O1ns -C -v /usr/bin/code --no-sandbox --user-data-dir /root/data
除了输出启动过程从哪些目录,加载了什么动态库,用到了什么系统调用(系统接口函数),函数调用返回值,入参值等都有打印。由于上面参数中使用了-C也就是要求打印汇总报告,所以在最后会列出vs code启动过程中涉及到多少系统调用、每个系统调用的时间百分比、时间总计、调用次数、错误次数、系统调用的函数名。
并在最后一行列出汇总值。
假如我们的业务代码中有个功能存在bug,过多调用了系统调用(次数维度),或者传入的参数不科学导致系统调用执行时间过长(时间维度),那么,通过strace 的报告我们可以马上观察到线索。再翻看 strace 的 -o strace.log 逐个系统调用跟踪的日志记录文件,就可以具体排查以下多方面:
- 加载的动态库是否正确
- 运行时的环境变量是否正确
- 调用的系统调用接口是否符合业务代码逻辑顺序
- 系统调用入参、返回值是否符合预期
- 系统调用发生的次数是否正常
- 每个系统调用的持续时间是否合理
- 打开的文件是否正常?是否使用了缺失的路径?
最后总结下:
sudo strace -o strace.log -T -S time -k -O1ns -C -v /usr/bin/code --no-sandbox --user-data-dir /root/data
这个示例命令中参数的意思:
- -o strace.log 将跟踪记录保存到文件 strace.log
- -T 统计时间
- -S 按时间排序
- -k 打印调用栈
- -O1ns 以1纳秒为单位统计时间(实际由于CPU和系统支持程度的差别,可能无法统计到纳秒精度)
- -v 尽量详细输出信息
- /usr/bin/code --no-sandbox --user-data-dir /root/data 为vscode 的root用户模式启动命令+参数