Selección de marcadores génicos de Bacillus para la resolución taxonómica a nivel de especie
No Thumbnail Available
Date
2021
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
El grupo de Bacillus cereus abarca una amplia gama de cepas patógenas siendo
B. anthracis y B. cereus eméticas y diarreicas las epidemiológicamente más
relevantes. Por otro lado, B. thuringiensis cumple un rol importante en el control
de plagas de insectos. Asimismo, las cepas del grupo B. cereus se adaptan a
diversos nichos ambientales como el suelo o las plantas e incluso se han
utilizado, como el caso de cepas de la especie B. toyonensis, como probióticos
en mamíferos. La asignación de especies dentro del grupo B. cereus es muy
desafiante habiéndose reportado numerosos casos de asignaciones incorrectas
o incoherencias entre la asignación taxonómica, las características genómicas y
fenotípicas de los aislamientos. Sin embargo, la correcta asignación a nivel de
especie de las cepas de uso industrial o agronómico tiene un gran impacto en la
forma en que se seleccionan, cultivan, aprueban para su uso y finalmente
comercializan, debido al hecho de que dichas asignaciones, implícitamente o no,
se utilizan para predecir la seguridad y el rendimiento de las bacterias.
En este trabajo de tesina nos planteamos generar clasificadores que permitan
determinar la identidad a nivel de especie de cepas del grupo B. cereus. Para
ello, inicialmente las secuencias genómicas disponible de este grupo se
descargaron de GenBank. Se determinaron los parámetros de los ensamblados
y se seleccionaron aquellas secuencias genómicas que superaron los criterios
de calidad y completitud en base al contenido de genes housekeeping. De esta
manera, se determinó que 412 secuencias genómicas del grupo B. cereus de las
2460 secuencias disponibles en GenBank no superaron los valores de calidad
establecidos. De las restantes, 63 secuencias no se consideraron completas
debido a que carecían de genes housekeeping. La identidad taxonómica a nivel
de especie de las cepas en estudio se validó o reasignó por análisis de identidad
nucleotídica promedio y análisis de secuencias multi-locus. Se determinó que de
las 343 secuencias genómicas del grupo B. cereus disponibles desde el 4 de
abril de 2018 hasta el 01 de julio de 2020 en GenBank, 166, 140 y 37
corresponden a cepas de los Clados 1, 2 y 3, respectivamente. El 40,71%,
54,10% y 48,57% de las secuencias genómicas de buena calidad de los Clados
1, 2 y 3 recientemente disponibles en GenBank debieron ser reclasificadas ya
que su denominación era incorrecto o desactualizada. A su vez, 5 cepas (CH140a_4T, B-9, DE0191, XIN1 y SH5_2) a las que denominamos
genomoespecie 38, 39, 40, 41 y 42 se clasificaron como nuevas
genomoespecies.
Posteriormente con la finalidad de entrenar y evaluar clasificadores apropiados
para el grupo B. cereus, se definieron al azar dos grupos de secuencias. Un
grupo de entrenamiento que se utilizó para el entrenamiento de modelos
predictivos de clasificación de cepas y un grupo de evaluación que se utilizó para
la determinación del error del modelo. Para evaluar la precisión de cada
clasificador basado en los genes marcadores reportados en la bibliografía y el
método de machine learning Random Forest se realizaron validaciones
cruzadas. Se observó que los clasificadores basados en el gen ARNr 16S
mostraron precisiones inferiores al 75% indicando que este marcador no es
apropiado para diferenciar cepas de distintas especies e incluso clados del grupo
B. cereus. Sin embargo, los bosques clasificadores mostraron que 11 genes
marcadores reportados en la bibliografía permitieron asignar las especies de los
Clados 1, 2 y 3 y los clados del grupo B. cereus con una precisión y valores
kappa estimados superiores al 98%. En contra de nuestra hipótesis inicial, no se
identificaron genes del core que permitan generar clasificadores con precisiones
superiores a los 11 marcadores seleccionados para cada clado. Por último, los
clasificadores basados en los genes gyrB, pyc o lon mostraron ser los más
precisos para identificar las especies o clados del grupo B. cereus. Finalmente,
para determinar el error de los clasificadores se construyó una matriz de
confusión con las predicciones realizadas por los clasificadores seleccionados
sobre el grupo de evaluación. Se determinó el error de los clasificadores para las
especies del Clado 1 y 2, y el clasificador de clados, el cual fue inferior al 1%
mientras que para el Clado 3 fue menor al 4%. A su vez, los tiempos de ejecución
para la clasificación de las cepas del grupo de evaluación fueron entre 0,1 y 0,85
segundos. Estos clasificadores permitirán realizar asignaciones masivas en
análisis metagenómicos, así como asignaciones de nuevos aislamientos del
grupo B. cereus con mayor precisión.
Description
Keywords
Bacillus cereus, Marcadores taxonómicos, Machine learning, Random forest, Bioinformática, Taxonomía