Guía de Usuario

Conexión al cluster

 

La forma de conectarse a los equipos es a traves de conexiones remotas estas se logran desde un equipo con linux o desde windows con alguno de los siguientes programas.

 

Conexión Remota

 

Descargar PuTTY Sitio Web Oficial
Descargar WinSCP 5.7.7 Sitio Web Oficial
Descargar SSH Secure File Transfer Sitio Web Oficial
Descargar VcXsrv 1.18 Sitio Web Oficial
Descargar TurboVNC 2.0.91 Sitio Web Oficial
Descargar VNC Viewer 6.1.0 Sitio Web Oficial

 

 

 

Desde una Pc con Linux

La conexión se hace via ssh mediante el siguiente comando:

ssh -l nombre_usuario ocotillo.acarus.uson.mx

Si es la primera vez que se conecta al cluster le pedira que autorize la conexion preguntandole si quiere continuar, a lo cual deberá contestar 'yes'. Después de esto, le pedira su password y listo, tenemos una sesión en el cluster.

 

Desde una Pc con Windows

Hacer la conexión desde windows no es tan sencillo como desde Linux, para esto es necesario descargar una herramienta que nos permita hacer conexiones via ssh. Para ello utilizaremos 'putty', una herramienta sencilla y robusta a la vez. 
Una vez que lo hallamos descargado lo ejecutamos y nos aparecera la siguiente ventana, en la cual introduciremos el nombre del cluster (ocotillo.acarus.uson.mx) o su IP (148.225.111.150) y presionamos el boton 'Open' para iniciar la sesion en el equipo. 


 

Sistema de Colas

 

SLURM

Como su nombre lo indica (Simple Linux Utility for Resource Management), SLURM es un administrador open-source de carga de trabajos diseñado para clusters Linux de cualquier dimensión. Es utilizado en varias de las computadoras más grandes del mundo.

 

Recursos GPU y CPU para utilizarse con el sistema de colas Slurm

 

Colas
No. Cores
No. GPU's
 
No. Nodos
RAM por nodo
Horas máximo de uso (walltime)
Restricciones (constraint)
  Nodos Asignados
general
1000
0
 
17
128Gb
168 hrs.
Broadwell,Interlagos
  ibnodo3 - ibnodo25
serial
40
0
 
1
128Gb
168 hrs.
Broadwell
  ibnodo26
gpu
128 
8
 
2
128Gb
168 hrs.
Interlagos
  ibnodo1,ibnodo2
visualizacion
16 
2
 
2
96Gb
4 hrs.
Haswell
  visualización1, visualizacion2

 

Comandos Básicos del Sistema de Colas usando Slurm

 

srun Lanza un job
  Lanza un job interactivo
squeue Muestra el estatus de todos los jobs
scancel

Cancela un job en ejecucion o pendiente
Ejemplo:Cancela el trabajo con identificador 1221
scancel 1221

sinfo Informa el estado de las particiones y los nodos gestionados por SLURM. Cuenta con una amplia variedad de opciones de filtrado, clasificación y formato.
sacct

Muestra los jobs en ejecución, los encolados y los bloqueados.

Se utiliza para reportar la información de las cuentas de jobs o pasos de jobs activos o completados.

sbatch Se utiliza para enviar un job por medio de un script para su ejecución. El script contendrá típicamente uno o más comandos srun para lanzar tareas paralelas.
salloc Se utiliza para asignar recursos a un job en tiempo real. Normalmente se utiliza para asignar recursos y generar un itérprete de comandos shell. Dicha terminal es utilizada entonces para ejecutar comandos srun para iniciar tareas en paralelo.
smap Reporta la información del estado de los job, particiones y nodos gestionados por SLURM, pero muestra gráficamente la información para reflejar la topología de red.
   
  Resumen de comandos Slurm

 

 

Información básica para el envío de tareas de cálculo en SLURM

 

Los siguientes son los comandos de información básica para que usuarios puedan ejecutar programas en SLURM:

 

  • Se requiere crear un archivo script (extensión .slrm ) con los detalles del cálculo y enviarlo al sistema de colas SLURM mediante la orden:
 

sbatch nombre_script.slrm

donde nombre_script es el nombre del archivo creado.

  • Para monitorear los jobs en SLURM se realiza con el comando
 

squeue -u user_name

donde user_name es el nombre de su cuenta de usuario.

  • Para monitorear todos los jobs corriendo en la supercomputadora
 

squeue

  • Para cancelar alguna tarea se hace con el comando
 

scancel job_id

donde job_id es el identificador que aparece en la salida de squeue

  • Para conocer detalles sobre un job específico usar
 

scontrol show job job_id

donde job_id es el identificador que aparece en la salida de squeue

 

 

Scripts de Slurm

 

Ejemplos de Scripts SLURM

 

 

Ejemplos completos

 

 

 

Manuales de Software

Archivo PDF Sitio Web oficial
Gaussian 09 User´s Reference www.gaussian.com
Gromacs 5.0.4 Reference Manual www.gromacs.org
Quantum Esresso 5.0.2 User´s Guide www.quantum-espresso.org
NAMD 2.11 User´s Guide www.ks.uiuc.edu
NWChem 6.6 www.nwchem-sw.org
Matlab R2011b www.mathworks.com
Cuda 5.5 developer.nvidia.com/cuda-zone
Aplvoro 3.0-28.1 www.aplvoro.org/