MetaPhlAn
MetaPhlAn est un outil informatique permettant de profiler la composition des communautés microbiennes (bactéries, archées et eucaryotes) à partir de données de séquençage métagénomique (c'est-à-dire non 16S) au niveau de l'espèce. Avec StrainPhlAn, il est possible d'effectuer un profilage microbien précis au niveau de la souche.
Pour plus d'information, voir le site wiki de MetaPhlan.
Wheels disponibles
Pour connaître les wheels disponibles, utilisez la commande avail_wheels.
[name@server ~]$ avail_wheels metaphlan --all-versions
name version python arch
--------- --------- -------- -------
MetaPhlAn 4.0.3 py3 generic
MetaPhlAn 3.0.7 py3 generic
Télécharger les bases de données
MetaPhlAn exige qu'un ensemble de bases de données soit téléchargé dans $SCRATCH.
Important : La base de données doit se trouver dans $SCRATCH.
Téléchargez les bases de données à partir deSegatalab FTP.
1. À partir d'un nœud de connexion, créez le répertoire pour les données.
[name@server ~]$ export DB_DIR=$SCRATCH/metaphlan_databases
[name@server ~]$ mkdir -p $DB_DIR
[name@server ~]$ cd $DB_DIR
2. Téléchargez les données.
[name@server ~]$ parallel wget ::: http://cmprod1.cibio.unitn.it/biobakery4/metaphlan_databases/mpa_vJan21_CHOCOPhlAnSGB_202103.tar http://cmprod1.cibio.unitn.it/biobakery4/metaphlan_databases/mpa_vJan21_CHOCOPhlAnSGB_202103_marker_info.txt.bz2 http://cmprod1.cibio.unitn.it/biobakery4/metaphlan_databases/mpa_vJan21_CHOCOPhlAnSGB_202103_species.txt.bz2
Remarque ː Cette étape doit se faire à partir d'un nœud de connexion et non à partir d'un nœud de calcul.
3. Extract the downloaded data, for example using an interactive job:
[name@server ~]$ salloc --account=<your account> --cpus-per-task=2 --mem=10G
Untar and unzip the databases:
[name@server ~]$ tar -xf mpa_vJan21_CHOCOPhlAnSGB_202103.tar
[name@server ~]$ parallel bunzip2 ::: *.bz2
Running MetaPhlAn
Once the database files have been downloaded and extracted, you can submit a job. You may edit the following job submission script according to your needs:
#!/bin/bash
#SBATCH --account=def-someuser
#SBATCH --time=01:00:00
#SBATCH --cpus-per-task=4 # Number of cores
#SBATCH --mem=15G # requires at least 15 GB of memory
# Chargez les modules requis.
module load gcc blast samtools bedtools bowtie2 python/3.10
# Allez au scratch
cd $SCRATCH
DB_DIR=$SCRATCH/metaphlan_databases
# Générez votre enironnement virtuel dans $SLURM_TMPDIR
virtualenv --no-download ${SLURM_TMPDIR}/env
source ${SLURM_TMPDIR}/env/bin/activate
# Installez metaphlan et ses déepndances.
pip install --no-index --upgrade pip
pip install --no-index metaphlan==X.Y.Z # EDIT: the required version here, e.g. 4.0.3
# Reuse the number of core allocated to our job from `--cpus-per-task=4`
# It is important to use --index and --bowtie2db so that MetaPhlAn can run inside the job
metaphlan metagenome.fastq --input_type fastq -o profiled_metagenome.txt --nproc $SLURM_CPUS_PER_TASK --index mpa_vJan21_CHOCOPhlAnSGB_202103 --bowtie2db $DB_DIR --bowtie2out metagenome.bowtie2.bz2
Soumettez ensuite la tâche à l'ordonnanceur.
[name@server ~]$ sbatch metaphlan-job.sh