Java

From Alliance Doc
Revision as of 18:15, 25 April 2017 by Diane27 (talk | contribs)
Jump to navigation Jump to search
Other languages:

Java est un langage de programmation de haut niveau orienté objet créé en 1995 par Sun Microsystems (rachetée en 2009 par Oracle). L'objectif central de Java est que les logiciels écrits dans ce langage obéissent au principe write once, run anywhere et sont très facilement portables sur plusieurs systèmes d’exploitation par le fait que le code source Java se compile en code octal (bytecode) pouvant être exécuté sur un environnement Java (JVM pour Java virtual machine); différentes architectures et plateformes peuvent donc constituer un environnement uniforme. Cette caractéristique fait de Java un langage populaire dans certains contextes et notamment pour l'apprentissage de la programmation. Même si l'accent n'est pas sur la performance, il existe des moyens d'augmenter la vitesse d'exécution et le langage a connu une certaine popularité auprès des scientifiques dans des domaines comme les sciences de la vie, d'où sont issus par exemple les outils d'analyse génomique GATK du Broad Institute. Le but de cette page n'est pas d'enseigner le langage Java, mais de fournir des conseils et suggestions pour son utilisation dans l'environnement CHP de Calcul Canada.

Calcul Canada met à la disposition des utilisateurs plusieurs environnements Java via la commande module. En principe, vous aurez un seul module Java chargé à la fois. Les principales commandes associées aux modules Java sont :

  • java pour lancer un environnement Java;
  • javac pour appeler le compilateur Java qui convertit un fichier source Java en bytecode.

Les logiciels Java sont fréquemment distribués sous forme de fichiers JAR portant le suffixe jar. Pour utiliser un logiciel Java, utilisez la commande

Question.png
[nom@serveur ~]$ java -jar file.jar

Parallélisme

Fils d'exécution

Java permet la programmation avec fils, éliminant ainsi le recours à des interfaces et librairies comme OpenMP, pthreads et Boost qui sont nécessaires avec d'autres langages. L'objet Java principal pour traiter la concurrence est la classe Thread; on peut l'employer en fournissant une méthode Runnable à la classe Thread standard ou encore en définissant la classe Thread comme sous-classe, comme démontré ici :

Fichier : thread.java

public class HelloWorld extends Thread {
        public void run() {
            System.out.println("Hello World!");
        }
        public static void main(String args[]) {
            (new HelloWorld()).start();
        }
}


Cette approche est généralement la plus simple, mais présente cependant le désavantage de ne pas permettre l'héritage multiple; la classe qui implémente l'exécution concurrente ne peut donc pas avoir en sous-classe une autre classe potentiellement plus utile.

MPI

On utilise souvent la librairie MPJ Express pour obtenir un parallélisme de type MPI.

Pièges

Mémoire

Java utilise un mécanisme de désallocation automatique de la mémoire (garbage collector) pour identifier les variables qui ne s'appliquent pas et retourner la mémoire qui leur est associée au système d'exploitation; plusieurs programmes Java nécessitent tout de même beaucoup de mémoire pour bien fonctionner. Au lancement avec la commande java, la taille du tas Java (heap size) est initialement fixée à 1/64e avec un maximum de 1/4 de la mémoire physique. Ces proportions, et particulièrement la valeur maximale, peuvent s'avérer inadéquates et font en sorte qu'une part importante de la mémoire reste inutilisée. Pour éviter cette situation, spécifiez la quantité maximale de mémoire à utiliser avec la commande

Question.png
[nom@serveur ~]$ java -Xmx8192m -jar file.jar

Dans cet exemple, le maximum est de 8192Mo (8Go). Indiquez la taille initiale du tas avec l'argument Xms et voyez toutes les options en ligne de commande que la JVM exécutera avec l'indicateur -XX:+PrintCommandLineFlags.

Vous pouvez utiliser la variable d'environnement _JAVA_OPTIONS pour configurer les options d'exécution plutôt que de les spécifier en ligne de commande. Ceci s'avère utile quand des appels multiples sont lancés ou qu'un programme est appelé par un autre programme Java. Voici un exemple :

Question.png
[nom@serveur ~]$ export _JAVA_OPTIONS="-Xms256m -Xmx2g"


À l'exécution, le programme émet un message de diagnostic semblable à Picked up _JAVA_OPTIONS; ceci indique que les options ont été prises en compte.

N'oubliez pas que l'instance Java crée elle-même une réserve d'utilisation de la mémoire. Nous recommandons que la limite par tâche soit fixée à 1 ou 2Go de plus que la valeur de l'option -Xmx.

Garbage Collector (GC)

Que la tâche soit ou non multifil, Java utilise par défaut le mécanisme de ésallocation parallèle Garbage Collector avec autant de fils que le nombre de cœurs CPU dans le nœud. Chacun des fils du GC consomme une portion de la mémoire physique proportionnelle au total. Nous recommandons fortement de définir le même nombre de fils pour le GC que le nombre de cœurs CPU demandé à l'ordonnanceur lors de la soumission de votre script, par exemple -XX:ParallelGCThreads=12. Même si la tâche est parallèle, vous pouvez invoquer le GC série avec l'option -XX:+UseSerialGC.

Mot-clé volatile

Le sens de ce mot-clé est très différent de celui du même terme utilisé en programmation C/C++. La valeur d'une variable Java ayant cet attribut est toujours lue directement de la mémoire principale et toujours écrite directement dans la mémoire principale; toute modification à la variable sera donc visible par tous les autres fils. Dans certains contextes cependant, volatile ne suffit pas à empêcher les situations de compétition (race conditions) et synchronized est nécessaire pour maintenir la cohérence du programme.

Références

OAKS, Scott et Henry Wong, Java Threads: Understanding and Mastering Concurrent Programming, 3e édition, O'Reilly, 2012.