|
|||
Запуск задач в пакетном режиме на кластере HybriLIT. ИнструкцияСтр 1 из 4Следующая ⇒ Запуск задач в пакетном режиме на кластере HybriLIT. Инструкция Для пакетного запуска задач необходимо создать скрипт-файл. Это можно это сделать прямо на кластере, пользуясь редактором nano или vim. Название и расширение скрипт-файла может быть произвольным. Обычно используют расширение .sh либо название файла без расширения. Простейший скрипт для запуска MPI-приложений имеет вид:
· Ключ «-р» во 2й строке указывает, в какую очередь поставить задачу, см. сайт HybriLIT для информации о доступных очередях. Мы используем очередь для учебных целей «tut» (от слова tutorial) либо очередь «cpu». · Ключ «-n» в 3й строке – количество требуемых параллельных процессов · Ключ «-t» в 4й строке – запрашиваемое время выполнения задачи. Здесь задается 1 минута. Этого за глаза хватит для всех задач в рамках курса АВС. · Последняя строка – команда запуска того исполняемого файла, который присутствует в папке на момент запуска. Команда запуска программы на счет c помощью скрипта с именем script_mpi: sbatch script_mpi При корректном запуске появляется строка Submitted job с номером задачи (jobid). Результаты выполнения программы выводятся не на экран, а в файл с именем slurm-<jobid>.out, где после дефиса стоит номер задачи, высвеченный ранее на экране. Увидеть файл можно, просмотрев содержимое папки с помощью линукс-команды ls. Просмотр содержимого slurm-файла осуществляется с помощью редактора (nano) либо с помощью линукс-команды cat. Запуск, просмотр папки и просмотр файла показаны на скриншоте:
Здесь задаче присвоен номер 317480, в папке появляется соответствующий файл, вызвана команда просмотра этого файла, виден результат работы программы: в данном случае это всего одна строка «rank=0, S=10». Примечание 1. Если файл с результатами долго не появляется, это может означать, что программа «висит» или циклится, т.е. ее работа может продолжаться, пока не истечет заявленное время. Также может оказаться, что задача ожидает в очереди и не идет на счет из-за большой загрузки кластера. Проверить это можно с помощью команды squeue:
В таблице задач указывается номер задачи, тип очереди (здесь cpu и long), имя скрипта, login пользователя, статус задачи: R – работает, PD – ожидает в очереди, время работы, количество узлов. Убрать свою задачу пользователь может с помощью команды scancel с указанием номера задачи. Например, командой
|
|||
|