Apache Spark: Difference between revisions

Marked this version for translation
No edit summary
(Marked this version for translation)
Line 2: Line 2:
<languages />
<languages />
<translate>
<translate>
= Introduction =
= Introduction = <!--T:1-->


<!--T:2-->
Apache Spark est une framework de calcul distribuée open source initialement développé par l'AMPLab de l'Université Berkeley, et maintenant un projet de la fondation Apache. Contrairement à l'algorithme MapReduce implémenté par Hadoop qui utilise le stockage sur disque, Spark utilise des primitives conservées en mémoire lui permettant d'atteindre des performances jusqu'à 100 fois plus rapide pour certaines applications. Le chargement des données en mémoire permet de les interroger fréquemment ce qui fait de Spark une framework particulièrement approprié pour l'apprentissage automatique et l'analyse de données interactive.
Apache Spark est une framework de calcul distribuée open source initialement développé par l'AMPLab de l'Université Berkeley, et maintenant un projet de la fondation Apache. Contrairement à l'algorithme MapReduce implémenté par Hadoop qui utilise le stockage sur disque, Spark utilise des primitives conservées en mémoire lui permettant d'atteindre des performances jusqu'à 100 fois plus rapide pour certaines applications. Le chargement des données en mémoire permet de les interroger fréquemment ce qui fait de Spark une framework particulièrement approprié pour l'apprentissage automatique et l'analyse de données interactive.


= Utilisation =
= Utilisation = <!--T:3-->


== PySpark ==
== PySpark == <!--T:4-->
</translate>
</translate>
{{File
{{File
Line 49: Line 50:
}}
}}
<translate>
<translate>
== Java Jars  ==
== Java Jars  == <!--T:5-->
</translate>
</translate>
{{File
{{File
Line 89: Line 90:
}}
}}
<translate>
<translate>
= Monitoring =
= Monitoring = <!--T:6-->


<!--T:7-->
Les journaux d'activités de l'application Spark qui a été exécuté peuvent être sauvegardés et consultés par la suite à l'aide d'une application web fournie avec Spark. Les instructions suivantes montrent comment activer la sauvegarde des journaux et le démarrage de l'application web.
Les journaux d'activités de l'application Spark qui a été exécuté peuvent être sauvegardés et consultés par la suite à l'aide d'une application web fournie avec Spark. Les instructions suivantes montrent comment activer la sauvegarde des journaux et le démarrage de l'application web.


== Configuration ==
== Configuration == <!--T:8-->
Créer d'abord un répertoire qui contiendra les journaux d'application :
Créer d'abord un répertoire qui contiendra les journaux d'application :
{{Command| mkdir ~/.spark/<spark version>/eventlog}}
{{Command| mkdir ~/.spark/<spark version>/eventlog}}


<!--T:9-->
S'il n'existe pas déjà, créer ensuite un répertoire qui contiendra les paramètres de configuration de Spark :
S'il n'existe pas déjà, créer ensuite un répertoire qui contiendra les paramètres de configuration de Spark :
{{Command| mkdir ~/.spark/<spark version>/conf}}
{{Command| mkdir ~/.spark/<spark version>/conf}}


<!--T:10-->
Dans ce répertoire, créer le fichier suivant ou ajouter le contenu présenté au fichier <code>spark-defaults.conf</code> si ce dernier existe déjà.
Dans ce répertoire, créer le fichier suivant ou ajouter le contenu présenté au fichier <code>spark-defaults.conf</code> si ce dernier existe déjà.
</translate>
</translate>
Line 111: Line 115:
}}
}}
<translate>
<translate>
== Visualisation ==
== Visualisation == <!--T:11-->


<!--T:12-->
Créer un [[SSH_tunnelling/fr|tunnel]] entre votre ordinateur et la grappe de calcul.
Créer un [[SSH_tunnelling/fr|tunnel]] entre votre ordinateur et la grappe de calcul.


<!--T:13-->
Charger le module Spark :
Charger le module Spark :
{{Command|module load spark/2.3.0}}
{{Command|module load spark/2.3.0}}


<!--T:14-->
Lancer l'application web de visualisation des journaux :
Lancer l'application web de visualisation des journaux :
</translate>
</translate>
Line 143: Line 150:
}}
}}
<translate>
<translate>
<!--T:15-->
Copier l'URL afficher dans le terminal et coller dans votre fureteur web.
Copier l'URL afficher dans le terminal et coller dans votre fureteur web.


<!--T:16-->
Pour stopper l'application de visualisation, entrer la combinaison de touche Ctrl-C dans le terminal ayant servi à lancer l'application.
Pour stopper l'application de visualisation, entrer la combinaison de touche Ctrl-C dans le terminal ayant servi à lancer l'application.
</translate>
</translate>
Bureaucrats, cc_docs_admin, cc_staff
2,306

edits