Project

Project #11805
Step by step one goes very far

Logged as guest


Go Back to Project List
#11805 : Implémentation d’un algorithme rapide de génotypage cgMLST
Topics :
Organisms :
Group :
Name of Applicant : Valérie BOUCHEZ
Date of application : 31-05-2018
Unit : Molecular Prevention and Therapy of Human Diseases
Location : Roux 53-A
Phone : 0145688333
@ Mail : valerie.bouchez@pasteur.fr
@ PI-Mail : sylvain.brisse@pasteur.fr

Project context and summary :

Le génotypage MLST (Multi-Locus Sequence Typing) est une technique standard qui permet une caractérisation génotypique précise et reproductible des souches bactériennes. Elle consiste à déterminer la séquence nucléotidique de différents gènes répartis dans le génome (généralement entre 5 et 10). L’Institut Pasteur développe depuis de nombreuses années des schémas MLST pour différentes souches d’intérêt biomédical (e.g. Bordetella, Klebsiella, Listeria, Escherichia, Salmonella). Ces schémas consistent en la définition des différents loci et, pour chacun d’entre eux, en l’identification des allèles observés dans les différentes souches isolées (cf. bigsdb.pasteur.fr). Ainsi, en pratique, le génotypage d’une nouvelle souche s’effectue en déterminant le numéro de l’allèle observé au sein de son génome pour chaque locus du schéma MLST associé. Plus récemment, cette approche de classification de souches a été étendue à l’ensemble des gènes communs aux différents génomes d’une espèce donnée (i.e. core-gene) afin d’observer une meilleure discrimination entre souches proches (e.g. issues d’un même foyer épidémiologique). Ce nouveau système de typage cgMLST (core-gene MLST) s’articule ainsi sur un nombre beaucoup plus important de loci que l’approche MLST standard (e.g. plusieurs centaines ou milliers de loci, chacun contenant entre une dizaine et une centaine d’allèles). L’apparition des nouveaux schémas cgMLST implique en pratique des temps calculs relativement importants lorsque plusieurs centaines de génomes doivent être génotypés en même temps. Malheureusement, les solutions bioinformatiques actuellement disponibles pour déterminer l’ensemble des allèles à partir d’un génome assemblé s’articulent uniquement sur des recherches de type BLAST (e.g. LOCUST ; mlst), alors que de nouveaux algorithmes rapides sont actuellement développés mais uniquement pour effectuer cette tâche à partir de fichiers de reads séquencés (e.g. MentaLIST ; stringMLST). Or, l’utilisation de recherches BLAST pour déterminer les occurrences exactes d’un ensemble de séquences nucléotidiques pré-déterminées n’est trivialement pas la solution la plus optimale. Ainsi, dans le contexte actuel où le séquençage et l’assemblage de centaines de génomes bactériens est devenu routinier, il serait utile et pertinent de disposer de l’implémentation d’un algorithme très rapide de recherche des occurrences exactes d’un très grand nombre de séquences alléliques au sein d’un génome. Un tel logiciel permettrait d’accélérer significativement les missions de surveillance épidémiologique (Bordetella pertussis, mais également Klebsiella pneumoniae et Corynebacterium diphteriae) au sein de l’unité BEBP (Biodiversité et Epidémiologie des Bactéries Pathogènes), mais permettrait également de faciliter certaines analyses bioinformatiques basées sur la recherche exacte d’un grand nombres de motifs nucléotidiques au sein d’un génome.


Related team publications :
Bouchez V, Guglielmini J, Dazas M, Landier A. Toubiana J, Guillot S, Criscuolo A, Brisse S (2018) Genomic sequencing of Bordetella pertussis for epidemiology and global surveillance of whooping cough. Emerging Infectious Disease (https://doi.org/10.3201/eid2406.171464)
Service Delivery
Project Manager : yoann.dufresne@pasteur.fr
Project Type : Short
Status : In Progress


Go Back to Project List