Хелпикс

Главная

Контакты

Случайная статья





Запуск задач в пакетном режиме на кластере HybriLIT. Инструкция



Запуск задач в пакетном режиме на кластере HybriLIT. Инструкция

Для пакетного запуска задач необходимо создать скрипт-файл. Это можно это сделать прямо на кластере, пользуясь редактором nano или vim.

Название и расширение скрипт-файла может быть произвольным. Обычно используют расширение .sh либо название файла без расширения.

Простейший скрипт для запуска MPI-приложений имеет вид:

· Ключ «-р» во 2й строке указывает, в какую очередь поставить задачу, см. сайт HybriLIT для информации о доступных очередях. Мы используем очередь для учебных целей «tut» (от слова tutorial) либо очередь «cpu».

· Ключ «-n» в 3й строке – количество требуемых параллельных процессов

· Ключ «-t» в 4й строке – запрашиваемое время выполнения задачи. Здесь задается 1 минута. Этого за глаза хватит для всех задач в рамках курса АВС.

· Последняя строка – команда запуска того исполняемого файла, который присутствует в папке на момент запуска.

Команда запуска программы на счет c помощью скрипта с именем script_mpi:

sbatch script_mpi

При корректном запуске появляется строка Submitted job с номером задачи (jobid).

Результаты выполнения программы выводятся не на экран, а в файл с именем slurm-<jobid>.out, где после дефиса стоит номер задачи, высвеченный ранее на экране.

Увидеть файл можно, просмотрев содержимое папки с помощью линукс-команды ls.

Просмотр содержимого slurm-файла осуществляется с помощью редактора (nano) либо с помощью линукс-команды cat.

Запуск, просмотр папки и просмотр файла показаны на скриншоте:

Здесь задаче присвоен номер 317480, в папке появляется соответствующий файл, вызвана команда просмотра этого файла, виден результат работы программы: в данном случае это всего одна строка «rank=0, S=10».

Примечание 1. Если файл с результатами долго не появляется, это может означать, что программа «висит» или циклится, т.е. ее работа может продолжаться, пока не истечет заявленное время. Также может оказаться, что задача ожидает в очереди и не идет на счет из-за большой загрузки кластера.

Проверить это можно с помощью команды squeue:

В таблице задач указывается номер задачи, тип очереди (здесь cpu и long), имя скрипта, login пользователя, статус задачи: R – работает, PD – ожидает в очереди, время работы, количество узлов.

Убрать свою задачу пользователь может с помощью команды scancel с указанием номера задачи. Например, командой



  

© helpiks.su При использовании или копировании материалов прямая ссылка на сайт обязательна.