Computer cladistics / ¡Cladística a la lata!: 2006

martes, noviembre 14, 2006

Secuencias ambientales y monstruos marinos

Hace poco alguien que estaba 'asesorando' a una estudiante en su trabajo de grado, me pregunto si para trabajar secuencias ambientares era necesario hacer un análisis filogenético. El y la estudiante solo querían hacer alineamientos simples usando FASTA.

Sidenote: Las secuencia ambiental es el resultado de amplificar material genético (generalmente ARN ribosomal) con el fin de identificar población bacteriana en sustratos donde es prácticamente imposible aislar bacterias domesticables (i.e. cultivables), como el fondo de los océanos, termales, pozos de desperdicios, pero también en sustratos más tradicionales, como suelos. Estos estudios han detectado una gran variedad de bacterias y archeas nunca vistas (de hecho en muchos casos solo se conocen sus secuencias!) (DeLong & Pace, 2001).

Los alineamientos simples de FASTA son muy poderosos, permiten una identificación rápida y acertada de secuencias conocidas. Un bonito ejemplo es el de Carr (2002), quienes secuenciaron unos misteriosos-y putrefactos-restos encontrados en la costa de Bermudas, su análisis mostró que los restos eran de un cachalote, un monstruo marino-que lo diga Herman Melville ;)-pero nada que excite a un 'cripto-zoólogo'.

Los alineamientos simples de FASTA no son más que claves, automatizadas, muy similares a las hechas por los taxónomos desde los tiempos de Linneo (de eso hablare en otro post), y son muy buenos si las secuencias ya se encuentran en GenBank.

Pero la filogenética es una herramienta mucho más fuerte que FASTA. En primer lugar no se requiere que la secuencia del individuo a identificar no este en GenBank, eso si, se necesita, como en todo análisis filogenético, que existan secuencias de parientes de los individuos en el nivel de resolución deseado. Es ese el aspecto que hace este análisis superior a FASTA: la(s) muestra(s) prueba(s) es(son) colocada(s) en un clado especifico. Los niveles de similitud de FASTA no pueden conseguirlo, pues, como bien saben los cladistas desde tiempos de Hennig, esta similitud no distingue entre similitud por apomorfía o por plesiomorfía. Es posible hacer una identificación partiendo desde niveles filogenéticos amplios e ir mejorando la resolución hacia niveles más restringidos. En el mundo de los cetaceos, ya algunos autores propusieron un protocolo de este estilo para identificar especies de ballenas (Ross & Murugan, 2006), aunque su método se ve afectado porque usan Neighbuor joining (Farris et al., 1996), el espíritu de su procedimiento es como el que defiendo aquí.

La filogenética ya se a usado para hacer identificaciones. Por ejemplo, Allard et al. (1995) demostro que un supuesto ADN de Dinosaurio del mesozoico-a la parque jurasico-era en realidad una contaminación humana. O en un estudio más clásico, (Ou et al., 1992) que había evidencia que un odontólogo contagio a sus pacientes!

Todos estos ejemplos (y si uno se pone a buscar va a encontrar muchos más!) muestran uno de
los puntos más fuertes que tiene el análisis filogenético: y es su asombroso poder predictivo, un punto que, misteriosamente para mi al menos, a sido objetado por alguno que otro de los eminentes 'popperianos' y/o 'realistas escepticos' que escriben sobre la filosofía del análisis filogenético (no los cito, porque de ellos hablare después en otro post). FASTA, aunque muy eficaz, no tiene ese poder predictivo al no poner nunca las secuencias en un contexto filogenético.

Sidenote: Dado que en las secuencias ambientales la expectativa es encontrar cosas desconocidas y nuevas, yo recomendé a mi colega y la estudiante que realizaran el análisis filogenético. Ellos no se veían muy convencidos. Tristemente, aun en estos dias, la gente cree que el análisis filogenético es algo críptico y difícil de comprender :(.

Allard et al. (1995) Science 268: 1192.
Carr, S.M. et al. (2002) Biol. Bull 202: 1-5.
DeLong, E.F., Pace, N.R. (2001) Syst. Biol. 50: 470-478.
Farris, J.S. et al. (1996) Cladistics 12: 99-124.
Ou, C-Y. et al. (1992) Science 256: 1165-1171.
Ross, H.A., Murugan, S. (2006) Mol. Phyl. Evol. 40: 866-871.

lunes, enero 30, 2006

Buenas y malas filogenias

¿Podemos confiar en un análisis filogenético si las relaciones de un grupo se alejan de la expectativa (dada por otros análisis anteriores)?

Seguramente la pregunta no tendría sentido para autores como Kluge. Según sus razonamientos (Kluge 1997, 2003) cada vez conocemos más acerca de la filogenia de un grupo gracias a los 'ciclos de investigación'. Nuestra pregunta implicaría que no hemos usado toda la evidencia disponible para dilucidar las relaciones. Como ejemplo empírico usaría, por ejemplo, Eernisse y Kluge (1993), más recientemente. Pero, el dibujo de Kluge, de adicionar cada vez más evidencia no es tan sencillo. A la hora de planear un análisis filogenético no solo es crucial usar la mayor parte de la evidencia ya usada, sino también hacer una selección cuidadosa de los terminales. Por ejemplo, Giribet et al. (2001) al hacer el análisis filogenético de los artrópodos no utilizó toda la información que el y sus colaboradores han compilado en otros problemas (por ejemplo las relaciones entre los insectos y los quelicerados). Un análisis de esa magnitud, aunque fuera manejable, tendría el problema en que los crustaceos quedarían fuertemente submuestreados.

Pero uno de los resultados más sorprendentes de Giribet et al. es que ¡Drosophila y un dipluro forman parte de los crustaceos! Esto contradice toda expectativa, puesto que la monofilia de los hexápodos es muy bien fundamentada a nivel morfológico y molecular (Wheeler et al. 2001), y las moscas forman claramente un grupo muy anidado dentro de hexápoda. Giribet et al., reconocen las limitaciones de su análisis y no hacen afirmaciones dentro de la filogenia de pancrustacea (aunque aseguran que el grupo esta bine soportado). Es una lastima que Giribet et al. no revisarán que pasaba si se excluía estos taxones problemáticos, aunque en su análisis Drosophila se encuentra dentro de los insectos en el 91% de los costos explorados. De mi experiencia con los datos morfológicos usados por Giribet et al., eliminar Drosophila, Diplura y Balanus (los taxones problemáticos), ambas topologías comparten 11 sinapomorfias (de 12 en los datos completos) para Mandibulata, cuatro (5) para Myriapoda, cinco (7) para Pancrustacea, 6 (8) para Crustacea todas y (7) para Hexapoda, además de que 6 de esos caracteres dejan de ser homoplasicos. Así que para el objetivo de Giribet et al. que es establecer las relaciones entre los grandes grupos de artrópodos ('clases') los resultados son muy acertados. Seria un error que ellos pensaran que su conjunto de datos provee evidencia para contradecir la monofilia de los hexápodos, puesto que el conjunto de la evidencia que ellos examinan se solapa ligeramente ¡con intentos más exhaustivos para esta materia!

De otro lado, otros estudios pueden no ser tan concluyentes. Por ejemplo Silva de Paula et al. (2005) no tienen la precaución de Giribet et al. En un conjunto de datos fuertemente sesgado hacia los triatomineaos (chinches transmisoras de la enfermedad de Chagas) y algunas muestras de sus familiares (chinches reduviidos), llegan a la conclusión que los triatomineos no son monofileticos. La filogenia de los reduviidos no es bien conocida, pero si existe algo esperado en este grupo es la monofilia de los harpactorinos (otros reduviidos) (e.g. Davis 1969, Clayton 1990). Algunas sinapomorfias de este grupo son la membranización del abdomen, una celda cuadrada en el hemielitro, espina tibial y ausencia de glándula vermiforme. Pero en el análisis usado por Silva de Paula, los nueve harpactorinos escogidos parecen divididos en dos grupos de tres terminales cada uno y los otros tres dispersos en otras ramas del análisis. Los únicos grupos reconocidble son Rhondius y Triatomini que constituyen la mayor parte de los terminales del estudio y cuya monofilia queda supuestamente refutada. Silva de Paula et al. simplemente recogieron los taxones disponibles en genbank sin preocuparse por hacer una selección o determinar si la excesiva asimetría del estudio podía sesgar sus resultados. En una exploración preliminar que yo realice usando algunos de esos terminales los resultados dependen según los terminales escogidos.

Ridyn y Källersjö (2002) propusieron un marco de trabajo que consiste en hacer matrices con un contenido diferente de taxones (aunque con los mismos datos). Lo deseable es que los resultados a nivel de los clados encontrados (y uno esperaría también de las sianpomorfias) fueran los mismos a pesar que los terminales son distintos. Un caso de la historia de la ciencia es más o menos claro: gracias a diferentes estudios que usan diferentes conjuntos de taxones, siempre hemos encontrado las relaciones entre los tres 'dominios' de la vida y de los grandes grupos ('reinos') de cada dominio. Casos similares se han visto con los 'filums' de animales y en el ejemplo de Rydin y Källersjö para grandes grupos de plantas vasculares. Esta clase de test podría ser de gran utilidad precisamente para detectar estas instancias de incongruencia entre resultados esperados y los encontrados (en especial cuando la expectativa es fuertemente destruida como en el caso de Giribet et al.). Esta idea es una extensión del trabajo de Siddall y Whiting (1999), si los resultados son productos de ramas largas, ¡pues deben diferir cuando se remueven las ramas largas!

La lección es que la selección de las relaciones filogenéticas no es tan sencilla como Kluge quiere verla. Una investigación simplemente no refuta una anterior, pues en muchos casos la comparación es prácticamente imposible. Existen factores externos al cladograma como tal, como lo son la selección de la evidencia a usar (por ejemplo, si un 'sistema' de caracteres esta solo explorado en un grupo eso puede sesgar el resultado solo hacia ese grupo, y aun sabiendo que esos caracteres están disponibles lo mejor puede ser excluirlos por el momento mientras se recopila información para completar las observaciones en otros taxa) y los terminales que se incluyen en el análisis. Una segunda fuente de decisiones externas constituye el limites en donde aceptamos lo que cladograma expresa, este limite seria preferible delimitarlo antes del análisis (e.g. Rydin y Källersjö 2002), en otras ocasiones es una exploración de los datos (e.g. Giribet et al. 2001) la que nos permite identificar ese limite.

Clayton, R.A. 1990. A phylogenetic analysis of the Reduviidae (Hemiptera: Heteroptera) with redescripotions of the subfamilies and tribes. Ph. D. Dissertation, George Washington University, D.C.
Davis, N.T. 1969. Contributions to the morphology and phylogeny of the Reduvioidea. Part IV. The harpactoroid complex. Ann. Entomol. Soc. Am. 62, 74-94.
Eernisse, D.J., Kluge, A.G. 1993. Taxonomic congruence versus total evidence, and amniote phylogeny inferred from fossils, molecules, and morphology. Mol. Biol. Evol. 19, 1170-1195.
Giribet, G., Edgecombe, G.D., Wheeler, W.C. 2001. Arthropod phylogeny based on eight molecular loci and morphology. Nature 413, 157-161.
Kluge, A.G. 1997. Sophisticated falsification and research cycles: consequences for differential character weighting in phylogenetic systematics. Zool. Scripta 26, 349-360.
Kluge, A.G. 2003. On deduction of species relationships: a précis. Cladistics 19, 233-239.
Rydin, C., Källersjö, M. 2002. Taxon sampling and seed plant phylogeny. Cladistics 18, 485-513.
Siddall, M.E., Whiting, M.F. 1999. Long-branch abstractions. Cladistics 15, 9-24.
Silva de Paula, A., Diotaiuti, L., Schofield, C.J. 2005. Testing the sister-group relationship of the Rhodniini and Triatomini (Insecta: Hemiptera: Reduviidae: Traitominae). Mol. Phyl. Evol. 35, 712-718.
Wheeler, W.C., Whiting, M., Wheeler, Q.D., Carpenter, J.M. 2001. The phylogeny of the extant hexapod orders. Cladistics 17, 113-169.

miércoles, enero 25, 2006

Selección de funciones en cladística

Este post esta basado en mi proyecto de grado, defendido públicamente el 17de enero de 2006. Pueden descargar la presentación y el manuscrito en mi página académica http://ciencias.uis.edu.co/labsist/salvador/relfun.htm. Este proyecto fue dirigido por Daniel Miranda.

Goloboff (1993) desarrollo una alternativa a la parsimonia tradicional (minimizar los pasos homoplasicos), que tiene en cuanta cuan homoplasico es el carácter. Entre más homoplasicos el aumento la distorsión (alejamiento del optimo ideal: no homoplasia) es mucho más pequeño. Es decir que si vamos a escoger entre dos soluciones, se prefiere la que minimize la homoplasia, en los caracteres menos homoplasicos (en vez de minimizarla en todos los caracteres sin importar la homoplasia).

Sin embargo, existen muchas funciones para conseguir esto (en piwe (Goloboff, 1998), tnt (Goloboff et al., 2005) y paup (Swofford, 2001) esta implementada h / (h + k), o su inverso, donde h es la homoplasia del carácter y k una constante de concavidad, entre menor sea el valor de k, mayor sera la fuerza a favor de los caracteres poco homoplasicos. En tnt es posible implementar otras funciones, por ejemplo ln(h), raiz de h, o una con los valores definidos por el usuario). Así que ¿como escogemos las funciones?

La solución usada aquí esta basada en el trabajo de Goloboff (1997) y Ramírez (2003). Consiste en escoger la función que maximize la estabilidad de la topología ante la perturbación de los datos. Las perturbaciones fueron basadas en jackknife: de caracteres, terminales o combinando las dos. También es posible observar la estabilidad revisando solamente el número de nodos muy bien soportados usando búsquedas rápidas (Goloboff & Farris, 2001).

En concordancia con el trabajo de Goloboff (1997), la parsimonia tradicional produjo los resultados menos resueltos y con la menor cantidad de nodos estables. El resultado más interesante para mi, fue que con pocas replicas (20 replicas de eliminación) y sin importar el árbol de referencia usado (uno con búsquedas exhaustivas o usando consensos de Goloboff-Farris), la cantidad nodos estables es la misma que con muchas replicas. Dado ese resultado en el manuscrito se sugirió una búsqueda rápida inicial y luego una búsqueda un poco más exhaustiva para la selección de una sola función.

Goloboff en sus observaciones del manuscrito argumenta que seria mejor explorar la estabilidad de los nodos sin importar el tipo de función usada (similar a la aproximación de Wheeler, 1995 y Giribet, 2003 para datos moleculares).

Creo que es posible tener una solución que tome lo mejor de las dos propuestas. Hacer una búsqueda rápida a lo largo de muchas funciones, y seleccionar el vecindario de funciones optimas, y limitando los resultados de la estabilidad a lo largo de las funciones, solo para los resultados óptimos en el (o los) vecindario(s) de funciones escogido.

Agradezco mucho a P. Goloboff y M. Ramírez que leyeron el manuscrito y proporcionaron muchas ideas y discusión, tanto en su comunicación conmigo, como en sus escritos sobre el tema. D. Miranda dirigió mi proyecto y su ayuda en mi estancia en la universidad es invaluable. El proyecto fue financiado por Colciencias (1102-05-13563).

Giribet, G. 2003. Stability in phylogenetic formulations and its relationships to nodal support. Syst. Biol. 52, 554-564.
Goloboff, P.A. 1993. Estimating character weights during tree search. Cladistics 9, 83-91.
Goloboff, P.A. 1997. Self-weighted optimization: tree searches and character state reconstructions under implied transformation costs. Cladistics 13, 225-245.
Goloboff, P.A. 1998. PiWe/NONA, manual y programa distribuido por el autor. Disponible en internet en http://www.zmuc.dk/public/phylogeny/Nona-PeeWee/
Goloboff, P.A., Farris, J.S. 2001. Methods for quick consensus estimation. Cladistics 17, s26-s34.
Goloboff, P.A., Farris, J.S., Nixon, K.C. 2005. TNT, manual y programa distribuido por los autores. Disponible en internet en http://www.zmuc.dk/public/phylogeny/TNT/
Ramírez, M.J. 2003. The spider subfamily Amaurobioidinae (Aranea, Anyphaenidae): a phylogenetic revision at the generic level. Bull. AMNH 277.
Swofford, D.L. 2001. Paup*, manual y programa distribuido por Sinauer, Sunderland (USA).
Wheeler, W.C. 1995. Sequence alignment, parameter sensitivity, and the phylogenetic analysis of molecular data. Syst Biol. 44, 321-331.

Computer cladistics / ¡Cladística a la lata!

martes, noviembre 14, 2006

Secuencias ambientales y monstruos marinos

lunes, enero 30, 2006

Buenas y malas filogenias

miércoles, enero 25, 2006

Selección de funciones en cladística

Acerca de mí

Journals / Revistas

Links / Enlaces

Archivo del Blog

Etiquetas