在线咨询
eetop公众号 创芯大讲堂 创芯人才网
切换到宽版

EETOP 创芯网论坛 (原名:电子顶级开发网)

手机号码,快捷登录

手机号码,快捷登录

找回密码

  登录   注册  

快捷导航
搜帖子
查看: 12017|回复: 33

[资料] LSF 简易使用手册

[复制链接]
发表于 2012-11-19 21:27:03 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

x
LSF 简易使用手册DOC
LSF 简易使用手册.doc (24 KB, 下载次数: 663 )
发表于 2012-11-20 14:29:03 | 显示全部楼层
LSF(Load Sharing Facility)是由platform公司开发的分布资源管理工具。它用来调度、监视、分析联网计算机的负载,可以对Cluster机群的资源统一调度和监控。

一 LSF使用方法
1、设置环境变量:
用户使用LSF前,应设置相应的环境变量:
csh用户,登录系统后执行
source /export/lsf/conf/cshrc.lsf
bash用户,登录系统后执行
. /export/lsf/conf/profile.lsf
用户也可写入.cshrc或.bashrc,则登录后就能设置相应的环境变量。

2、提交作业
LSF 使用 bsub 命令来提交作业。
bsub 命令常见用法如下:
bsub –n z –q QUEUENAME –i inputfile –o outputfile COMMAND
其中z代表了提交作业需要的cpu数,–q指定作业提交到的队列,
创建时间:2006-12-12 15:54:00 1
如 果不采用–q选项,系统把作业提交到默认作业队列(作业队列详细介绍请看下一节)。inputfile 代表程序需要读入的文件名(例如 namelist等),outputfile 代表一个文件,作业提交后标准输出的信息将会保存到这个文件中。COMMAND是用户要运行的程序。
(1)对于串行程序COMMAND可以直接使用用户的程序名
例如,对一个运行时间12小时内完成的串行作业mytest, 提交方式为:
bsub –n 1 –q QS_Norm –o mytest.out ./mytest
(2) 对于并行作业COMMAND为“–a mpich_gm mpirun.lsf 程序名”
因为并行作业必须用到MyriNET库,所以提交的时候必须使用
–a mpich_gm mpirun.lsf
例如对于一个12个小时内完成,使用16个cpu的并行作业mytest,提交方式为:
bsub –n 16 –q QN_Norm –o mytest.out –a mpich_gm mpirun.lsf ./mytest
目前,系统规定每个用户最多只能使用16个cpu。

3、使用脚本提交作业
bsub 命令可以使用输入脚本多次提交具有相同参数的作业,格式为: 创建时间:2006-12-12 15:54:00 2
#BSUB –n Z #BSUB –q QUEUENAME #BSUB –o OUTPUTFILE COMMAND
该脚本的参数与命令行
“ bsub –n Z –q QUEUENAME –o outputfile COMMAND”参数相同。
提交时为 bsub < 脚本名
例如要提交一个12小时内完成,需要16个cpu的并行作业mytest,可以编写作业脚本 bsub.scriptfile
#BSUB –n 16
#BSUB –q QN_Norm
#BSUB –o mytest.out
–a mpich_gm mpirun.lsf ./mytest
作业提交方法为:bsub<bsub.scriptfile

二、LSF队列状况
LSF分了如下几个作业组:

1、长时间并行作业组(LSF管理)
(1) QL_Norm 队列 创建时间:2006-12-12 15:54:00 3
该队列用于运行长时间并行作业,作业不限执行时间。作业规模限制为:最多使用16个CPU。

2、串行作业组(LSF管理)
(1) QS_Norm 队列 该队列用于串行短时间作业,最长作业执行时间为 12小时。
(2) QS_Long 该队列专用于长时间串行作业,作业不限执行时间。

3、短时间并行作业组(LSF管理)
(1) QN_Norm 队列 该队列用于运行短时间并行作业,最长作业执行时间为12小时。
(2) QN_Debug队列
该队列用于调试或试算,最长作业执行时间为5分钟。
请用户根据自己的需求,选择适当的作业组进行作业提交。
附:队列命名潜规则
新的队列命名遵循一定的潜规则,下面详细解释队列名中各字母的含义:
QL_Norm:Q代表queues;L代表long,表示该队列运行长时间并行作业;
QN_Norm:Q代表queues;N代表normal,表示该队列运行短时间

并行作业;
QS_Norm:Q代表queues;S代表serial,表示该队列运行短时间串行作业;
QS_Long:Q代表queues;S代表serial,表示该队列运行串行作业;Long表示长时间运行;
(同中科院网络中心 深腾6800)

三 查看作业状态和删除作业等
几个常用的指令:
bjobs 检查提交作业状态
bjobs
bjobs -w
bjobs –r 显示正在运行的作业
bjobs –a 显示正在运行的和最近完成的作业
bjobs -p 显示等待运行的作业和等待原因
bjobs –s 显示正在挂起的作业和挂起的原因
bjobs -l 显示该作业的所有信息
bhist 显示最近完成作业或正在运行作业的历史情况
bhist <jobid>
bkill 删除不需要的作业
bkill <jobid>
bkill –r <jobid>

bpeek 当作业正在运行时显示它的标准输出,监视作业运行
bpeek <jobid>
bqueues 显示队列信息
bqueues
bqueues –l <queue name>
bhosts 显示各节点作业相关情况
bhosts
bhosts <hostname>
lsload 显示各节点负载信息
lsload
lsload <hostname>
lshosts处理各节点静态资源信息
lshosts
lshosts <hostaname>
发表于 2013-10-8 10:28:55 | 显示全部楼层
thank you very much,i just need it!
发表于 2013-10-8 19:31:45 | 显示全部楼层
回复 1# cloudiness

好东西!
发表于 2013-10-14 09:53:54 | 显示全部楼层
非常感谢提供!
发表于 2013-10-16 09:30:25 | 显示全部楼层
Good share !
发表于 2014-3-17 23:50:23 | 显示全部楼层
多谢分享!
发表于 2014-8-18 17:42:59 | 显示全部楼层
好东西,谢谢分享。。
发表于 2014-11-3 01:14:32 | 显示全部楼层
非常感谢提供!
发表于 2015-1-1 12:16:25 | 显示全部楼层
非常感谢分享,太棒了
您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

站长推荐 上一条 /1 下一条

×

小黑屋| 手机版| 关于我们| 联系我们| 在线咨询| 隐私声明| EETOP 创芯网
( 京ICP备:10050787号 京公网安备:11010502037710 )

GMT+8, 2024-11-8 04:36 , Processed in 0.024092 second(s), 9 queries , Gzip On, Redis On.

eetop公众号 创芯大讲堂 创芯人才网
快速回复 返回顶部 返回列表