lunes, enero 30, 2006

Buenas y malas filogenias

¿Podemos confiar en un análisis filogenético si las relaciones de un grupo se alejan de la expectativa (dada por otros análisis anteriores)?

Seguramente la pregunta no tendría sentido para autores como Kluge. Según sus razonamientos (Kluge 1997, 2003) cada vez conocemos más acerca de la filogenia de un grupo gracias a los 'ciclos de investigación'. Nuestra pregunta implicaría que no hemos usado toda la evidencia disponible para dilucidar las relaciones. Como ejemplo empírico usaría, por ejemplo, Eernisse y Kluge (1993), más recientemente. Pero, el dibujo de Kluge, de adicionar cada vez más evidencia no es tan sencillo. A la hora de planear un análisis filogenético no solo es crucial usar la mayor parte de la evidencia ya usada, sino también hacer una selección cuidadosa de los terminales. Por ejemplo, Giribet et al. (2001) al hacer el análisis filogenético de los artrópodos no utilizó toda la información que el y sus colaboradores han compilado en otros problemas (por ejemplo las relaciones entre los insectos y los quelicerados). Un análisis de esa magnitud, aunque fuera manejable, tendría el problema en que los crustaceos quedarían fuertemente submuestreados.

Pero uno de los resultados más sorprendentes de Giribet et al. es que ¡Drosophila y un dipluro forman parte de los crustaceos! Esto contradice toda expectativa, puesto que la monofilia de los hexápodos es muy bien fundamentada a nivel morfológico y molecular (Wheeler et al. 2001), y las moscas forman claramente un grupo muy anidado dentro de hexápoda. Giribet et al., reconocen las limitaciones de su análisis y no hacen afirmaciones dentro de la filogenia de pancrustacea (aunque aseguran que el grupo esta bine soportado). Es una lastima que Giribet et al. no revisarán que pasaba si se excluía estos taxones problemáticos, aunque en su análisis Drosophila se encuentra dentro de los insectos en el 91% de los costos explorados. De mi experiencia con los datos morfológicos usados por Giribet et al., eliminar Drosophila, Diplura y Balanus (los taxones problemáticos), ambas topologías comparten 11 sinapomorfias (de 12 en los datos completos) para Mandibulata, cuatro (5) para Myriapoda, cinco (7) para Pancrustacea, 6 (8) para Crustacea todas y (7) para Hexapoda, además de que 6 de esos caracteres dejan de ser homoplasicos. Así que para el objetivo de Giribet et al. que es establecer las relaciones entre los grandes grupos de artrópodos ('clases') los resultados son muy acertados. Seria un error que ellos pensaran que su conjunto de datos provee evidencia para contradecir la monofilia de los hexápodos, puesto que el conjunto de la evidencia que ellos examinan se solapa ligeramente ¡con intentos más exhaustivos para esta materia!

De otro lado, otros estudios pueden no ser tan concluyentes. Por ejemplo Silva de Paula et al. (2005) no tienen la precaución de Giribet et al. En un conjunto de datos fuertemente sesgado hacia los triatomineaos (chinches transmisoras de la enfermedad de Chagas) y algunas muestras de sus familiares (chinches reduviidos), llegan a la conclusión que los triatomineos no son monofileticos. La filogenia de los reduviidos no es bien conocida, pero si existe algo esperado en este grupo es la monofilia de los harpactorinos (otros reduviidos) (e.g. Davis 1969, Clayton 1990). Algunas sinapomorfias de este grupo son la membranización del abdomen, una celda cuadrada en el hemielitro, espina tibial y ausencia de glándula vermiforme. Pero en el análisis usado por Silva de Paula, los nueve harpactorinos escogidos parecen divididos en dos grupos de tres terminales cada uno y los otros tres dispersos en otras ramas del análisis. Los únicos grupos reconocidble son Rhondius y Triatomini que constituyen la mayor parte de los terminales del estudio y cuya monofilia queda supuestamente refutada. Silva de Paula et al. simplemente recogieron los taxones disponibles en genbank sin preocuparse por hacer una selección o determinar si la excesiva asimetría del estudio podía sesgar sus resultados. En una exploración preliminar que yo realice usando algunos de esos terminales los resultados dependen según los terminales escogidos.

Ridyn y Källersjö (2002) propusieron un marco de trabajo que consiste en hacer matrices con un contenido diferente de taxones (aunque con los mismos datos). Lo deseable es que los resultados a nivel de los clados encontrados (y uno esperaría también de las sianpomorfias) fueran los mismos a pesar que los terminales son distintos. Un caso de la historia de la ciencia es más o menos claro: gracias a diferentes estudios que usan diferentes conjuntos de taxones, siempre hemos encontrado las relaciones entre los tres 'dominios' de la vida y de los grandes grupos ('reinos') de cada dominio. Casos similares se han visto con los 'filums' de animales y en el ejemplo de Rydin y Källersjö para grandes grupos de plantas vasculares. Esta clase de test podría ser de gran utilidad precisamente para detectar estas instancias de incongruencia entre resultados esperados y los encontrados (en especial cuando la expectativa es fuertemente destruida como en el caso de Giribet et al.). Esta idea es una extensión del trabajo de Siddall y Whiting (1999), si los resultados son productos de ramas largas, ¡pues deben diferir cuando se remueven las ramas largas!

La lección es que la selección de las relaciones filogenéticas no es tan sencilla como Kluge quiere verla. Una investigación simplemente no refuta una anterior, pues en muchos casos la comparación es prácticamente imposible. Existen factores externos al cladograma como tal, como lo son la selección de la evidencia a usar (por ejemplo, si un 'sistema' de caracteres esta solo explorado en un grupo eso puede sesgar el resultado solo hacia ese grupo, y aun sabiendo que esos caracteres están disponibles lo mejor puede ser excluirlos por el momento mientras se recopila información para completar las observaciones en otros taxa) y los terminales que se incluyen en el análisis. Una segunda fuente de decisiones externas constituye el limites en donde aceptamos lo que cladograma expresa, este limite seria preferible delimitarlo antes del análisis (e.g. Rydin y Källersjö 2002), en otras ocasiones es una exploración de los datos (e.g. Giribet et al. 2001) la que nos permite identificar ese limite.

Clayton, R.A. 1990. A phylogenetic analysis of the Reduviidae (Hemiptera: Heteroptera) with redescripotions of the subfamilies and tribes. Ph. D. Dissertation, George Washington University, D.C.
Davis, N.T. 1969. Contributions to the morphology and phylogeny of the Reduvioidea. Part IV. The harpactoroid complex. Ann. Entomol. Soc. Am. 62, 74-94.
Eernisse, D.J., Kluge, A.G. 1993. Taxonomic congruence versus total evidence, and amniote phylogeny inferred from fossils, molecules, and morphology. Mol. Biol. Evol. 19, 1170-1195.
Giribet, G., Edgecombe, G.D., Wheeler, W.C. 2001. Arthropod phylogeny based on eight molecular loci and morphology. Nature 413, 157-161.
Kluge, A.G. 1997. Sophisticated falsification and research cycles: consequences for differential character weighting in phylogenetic systematics. Zool. Scripta 26, 349-360.
Kluge, A.G. 2003. On deduction of species relationships: a précis. Cladistics 19, 233-239.
Rydin, C., Källersjö, M. 2002. Taxon sampling and seed plant phylogeny. Cladistics 18, 485-513.
Siddall, M.E., Whiting, M.F. 1999. Long-branch abstractions. Cladistics 15, 9-24.
Silva de Paula, A., Diotaiuti, L., Schofield, C.J. 2005. Testing the sister-group relationship of the Rhodniini and Triatomini (Insecta: Hemiptera: Reduviidae: Traitominae). Mol. Phyl. Evol. 35, 712-718.
Wheeler, W.C., Whiting, M., Wheeler, Q.D., Carpenter, J.M. 2001. The phylogeny of the extant hexapod orders. Cladistics 17, 113-169.

miércoles, enero 25, 2006

Selección de funciones en cladística

Este post esta basado en mi proyecto de grado, defendido públicamente el 17de enero de 2006. Pueden descargar la presentación y el manuscrito en mi página académica http://ciencias.uis.edu.co/labsist/salvador/relfun.htm. Este proyecto fue dirigido por Daniel Miranda.

Goloboff (1993) desarrollo una alternativa a la parsimonia tradicional (minimizar los pasos homoplasicos), que tiene en cuanta cuan homoplasico es el carácter. Entre más homoplasicos el aumento la distorsión (alejamiento del optimo ideal: no homoplasia) es mucho más pequeño. Es decir que si vamos a escoger entre dos soluciones, se prefiere la que minimize la homoplasia, en los caracteres menos homoplasicos (en vez de minimizarla en todos los caracteres sin importar la homoplasia).

Sin embargo, existen muchas funciones para conseguir esto (en piwe (Goloboff, 1998), tnt (Goloboff et al., 2005) y paup (Swofford, 2001) esta implementada h / (h + k), o su inverso, donde h es la homoplasia del carácter y k una constante de concavidad, entre menor sea el valor de k, mayor sera la fuerza a favor de los caracteres poco homoplasicos. En tnt es posible implementar otras funciones, por ejemplo ln(h), raiz de h, o una con los valores definidos por el usuario). Así que ¿como escogemos las funciones?

La solución usada aquí esta basada en el trabajo de Goloboff (1997) y Ramírez (2003). Consiste en escoger la función que maximize la estabilidad de la topología ante la perturbación de los datos. Las perturbaciones fueron basadas en jackknife: de caracteres, terminales o combinando las dos. También es posible observar la estabilidad revisando solamente el número de nodos muy bien soportados usando búsquedas rápidas (Goloboff & Farris, 2001).

En concordancia con el trabajo de Goloboff (1997), la parsimonia tradicional produjo los resultados menos resueltos y con la menor cantidad de nodos estables. El resultado más interesante para mi, fue que con pocas replicas (20 replicas de eliminación) y sin importar el árbol de referencia usado (uno con búsquedas exhaustivas o usando consensos de Goloboff-Farris), la cantidad nodos estables es la misma que con muchas replicas. Dado ese resultado en el manuscrito se sugirió una búsqueda rápida inicial y luego una búsqueda un poco más exhaustiva para la selección de una sola función.

Goloboff en sus observaciones del manuscrito argumenta que seria mejor explorar la estabilidad de los nodos sin importar el tipo de función usada (similar a la aproximación de Wheeler, 1995 y Giribet, 2003 para datos moleculares).

Creo que es posible tener una solución que tome lo mejor de las dos propuestas. Hacer una búsqueda rápida a lo largo de muchas funciones, y seleccionar el vecindario de funciones optimas, y limitando los resultados de la estabilidad a lo largo de las funciones, solo para los resultados óptimos en el (o los) vecindario(s) de funciones escogido.

Agradezco mucho a P. Goloboff y M. Ramírez que leyeron el manuscrito y proporcionaron muchas ideas y discusión, tanto en su comunicación conmigo, como en sus escritos sobre el tema. D. Miranda dirigió mi proyecto y su ayuda en mi estancia en la universidad es invaluable. El proyecto fue financiado por Colciencias (1102-05-13563).

Giribet, G. 2003. Stability in phylogenetic formulations and its relationships to nodal support. Syst. Biol. 52, 554-564.
Goloboff, P.A. 1993. Estimating character weights during tree search. Cladistics 9, 83-91.
Goloboff, P.A. 1997. Self-weighted optimization: tree searches and character state reconstructions under implied transformation costs. Cladistics 13, 225-245.
Goloboff, P.A. 1998. PiWe/NONA, manual y programa distribuido por el autor. Disponible en internet en http://www.zmuc.dk/public/phylogeny/Nona-PeeWee/
Goloboff, P.A., Farris, J.S. 2001. Methods for quick consensus estimation. Cladistics 17, s26-s34.
Goloboff, P.A., Farris, J.S., Nixon, K.C. 2005. TNT, manual y programa distribuido por los autores. Disponible en internet en http://www.zmuc.dk/public/phylogeny/TNT/
Ramírez, M.J. 2003. The spider subfamily Amaurobioidinae (Aranea, Anyphaenidae): a phylogenetic revision at the generic level. Bull. AMNH 277.
Swofford, D.L. 2001. Paup*, manual y programa distribuido por Sinauer, Sunderland (USA).
Wheeler, W.C. 1995. Sequence alignment, parameter sensitivity, and the phylogenetic analysis of molecular data. Syst Biol. 44, 321-331.