comparing reconstruction methods for linguistic phylogenies

52
 Comparing reconstruction methods for  linguistic phylogenies Collaborators: Francois Barbancon, Don Ringe, Luay Nakhleh, Tandy Warnow Steven N. Evans U.C. Berkeley Statistics, Mathematics, and Graduate Group in Computational and Genomic Biology

Upload: others

Post on 09-Nov-2021

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Comparing reconstruction methods for linguistic phylogenies

   

Comparing reconstruction methods for

 linguistic phylogenies

Collaborators: Francois Barbancon, Don Ringe, Luay Nakhleh, Tandy Warnow 

Steven N. EvansU.C. Berkeley Statistics, Mathematics, and Graduate Group in Computational 

and Genomic Biology

Page 2: Comparing reconstruction methods for linguistic phylogenies

   

Biological phylogeny

Orangutan Gorilla Chimpanzee Human

From the Tree of the Life Website,University of Arizona

Page 3: Comparing reconstruction methods for linguistic phylogenies

   

Page 4: Comparing reconstruction methods for linguistic phylogenies

   

Indo­European Tree(Ringe, Warnow and Taylor 

2000)

Page 5: Comparing reconstruction methods for linguistic phylogenies

   

DNA Sequence Evolution

AAGACTT

TGGACTTAAGGCCT

­3 mil yrs

­2 mil yrs

­1 mil yrs

today

AGGGCAT TAGCCCT AGCACTT

AAGGCCT TGGACTT

TAGCCCA TAGACTT AGCGCTTAGCACAAAGGGCAT

AGGGCAT TAGCCCT AGCACTT

AAGACTT

TGGACTTAAGGCCT

AGGGCAT TAGCCCT AGCACTT

AAGGCCT TGGACTT

AGCGCTTAGCACAATAGACTTTAGCCCAAGGGCAT

Page 6: Comparing reconstruction methods for linguistic phylogenies

   

Phylogeny Problem

TAGCCCA TAGACTT TGCACAA TGCGCTTAGGGCAT

U V W X Y

U

V W

X

Y

Page 7: Comparing reconstruction methods for linguistic phylogenies

   

Some useful terminology: homoplasy

0 0 1 1

0

0

0

0 0 0 0 1

0

0

0

0 1 0 1 1

0

1

0

1

1 1 1

no homoplasy back­mutation parallel evolution

Page 8: Comparing reconstruction methods for linguistic phylogenies

   

What plays the role of DNA nucleotides

in linguistic phylogeny?

HANDOUT

Page 9: Comparing reconstruction methods for linguistic phylogenies

   

Page 10: Comparing reconstruction methods for linguistic phylogenies

   

Page 11: Comparing reconstruction methods for linguistic phylogenies

   

Page 12: Comparing reconstruction methods for linguistic phylogenies

   

N.B. This is NOT the correct thing to do for all reconstruction methods.   It is correct for the parsimony and compatibility methods considered in the handout – see later.

Page 13: Comparing reconstruction methods for linguistic phylogenies

   

How do we infer phylogenetic trees once we 

have the data?

Page 14: Comparing reconstruction methods for linguistic phylogenies

   

Some useful terminology:lexical clock

A B C

A

B

DD

C

lexical clock no lexical clock

edge lengths represent expected numbers of substitutions

Page 15: Comparing reconstruction methods for linguistic phylogenies

   

Distance­based Phylogenetic Methods

Locating the root requires additional information

Page 16: Comparing reconstruction methods for linguistic phylogenies

   

UPGMA  (unweighted pair grouping method of agglomeration) finds the pair of languages (say L1 and L2) which have the smallest distance, and makes them siblings. 

It treats L1 and L2 as a single language, leaving a problem with one fewer language.

It keeps pairing off siblings until there is only one language and then “unpacks” – recursion.

UPGMA works well when the evolutionary process obeys the lexical clock assumption – often used in glottochronology.

Page 17: Comparing reconstruction methods for linguistic phylogenies

   

Neighbor joining (NJ) can reconstruct accurate phylogenies in the absence of a lexical clock (again through successive pairing).

Given a distance matrix which is exactly correct, NJ will return the correct tree. 

A difference between NJ and UPGMA is that without a lexical clock, the pair of languages which have the smallest distance may not be siblings in the true tree. In this case, UPGMA will incorrectly join the nearest pair, but NJ will not.

NJ is believed to be one of the best distance­based methods. 

Page 18: Comparing reconstruction methods for linguistic phylogenies

   

Maximum Compatibility (MC) seeks a tree on which the maximum number of characters are compatible = evolve without homoplasy.

Page 19: Comparing reconstruction methods for linguistic phylogenies

   

C1, C2 compatibleC1, C2, C3 incompatible

Page 20: Comparing reconstruction methods for linguistic phylogenies

   

Weighted Maximum Compatibility (WMC) gives weights for each character, so that characters that are considered to be more resistant to homoplasy are given higher weight. 

We seek a tree which has the smallest total weight of incompatible characters 

Page 21: Comparing reconstruction methods for linguistic phylogenies

   

Maximum Parsimony (MP) seeks a tree on which a minimum number of character state changes occurs. 

MP is one of the most important and frequently used methods in molecular phylogenetics.

Page 22: Comparing reconstruction methods for linguistic phylogenies

   

Maximum Parsimony

ACT

GTT

GTT GTA

ACA

GTA

12

2

MP score = 5

ACA ACT

GTAGTT

ACA ACT

3 1 3

MP score = 7

ACT

ACA

GTT

GTAACA GTA

1 2 1

MP score = 4

Optimal MP tree

Page 23: Comparing reconstruction methods for linguistic phylogenies

   

Maximum Likelihood (ML)

• Assumes a stochastic model of evolution (including numeric parameters for substitution rates, substitution probabilities, etc.)

• Finds the tree and  parameters that maximize the probability of the data.

Page 24: Comparing reconstruction methods for linguistic phylogenies

   

Bayesian methods

• Assumes a stochastic model of evolution.• Combines a prior probability distribution on 

the correct tree and numeric parameters with data using Bayes’ rule to get a posterior probability distribution.

• The posterior is usually approximated using Markov chain Monte­Carlo (MCMC).

• Models in linguistics due to Gray & Atkinson, Nicholls.

Page 25: Comparing reconstruction methods for linguistic phylogenies

   

The performance of methods on an IE data set (Nakhleh et al. 2005)

Screened dataset of 259 lexical, 13 morphological, 22 phonological chars

Unscreened dataset of 297 lexical, 17 morphological, 22 phonological chars (remove homoplasious or borrowed chars)

Page 26: Comparing reconstruction methods for linguistic phylogenies

   

Some observations• UPGMA does the worst (e.g. splits Italic (Latin, Oscan, 

Umbrian) and Iranian (Avestan, Persian) groups). • Other than UPGMA, all methods reconstruct the ten 

major subgroups, Anatolian (Hittite, Luvian, Lycian) + Tocharian, and Greek + Armenian.

• The Satem Core (Indo­Iranian, Balto­Slavic) is not always reconstructed.

• The only analyses that do not put Italic and Celtic with Germanic are weighted maximum compatibility on the full datasets with high weights on morphological characters.

• When using lexical data only, all methods group Italic, Celtic, and Germanic together.

• Methods differ significantly on the datasets.

Page 27: Comparing reconstruction methods for linguistic phylogenies

   

GA = Gray+Atkinson Bayesian MCMC method

WMC = weighted maximum compatibility

MC = maximum compatibility

NJ = neighbor joining

UPGMA = UPGMA

*

Page 28: Comparing reconstruction methods for linguistic phylogenies

   

Page 29: Comparing reconstruction methods for linguistic phylogenies

   

Page 30: Comparing reconstruction methods for linguistic phylogenies

   

Page 31: Comparing reconstruction methods for linguistic phylogenies

   

Different methods/datagive different answers.

We don’t know which answer is correct.Which method(s)/data

should we use?

Page 32: Comparing reconstruction methods for linguistic phylogenies

   

Simulation study• Simulated evolution down networks (“genetic 

trees” plus contact edges along which borrowing can occur) with 30 languages for 300 lexical characters and 60 morphological characters.  

• Methods compared: UPGMA, NJ, weighted and unweighted MP, weighted MC and G+A.

• Lexical weight=1, morphological weight=50.• Compare trees constructed by various methods 

to the “genetic tree” contained in the network, for topological accuracy (= distance from correct tree – see later).

Page 33: Comparing reconstruction methods for linguistic phylogenies

   

Some features of the data can make reconstruction 

easier or harder.

Our simulation varies these in a 

CONTROLLABLE manner.

Page 34: Comparing reconstruction methods for linguistic phylogenies

   

Homoplasy

0 0 1 1

0

0

0

0 0 0 0 1

0

0

0

0 1 0 1 1

0

1

0

1

1 1 1

no homoplasy back­mutation parallel evolution

Page 35: Comparing reconstruction methods for linguistic phylogenies

   

Lexical clock

A B C

A

B

DD

C

lexical clock no lexical clock

edge lengths represent expected numbers of substitutions

Page 36: Comparing reconstruction methods for linguistic phylogenies

   

Rates­across­sites

AB

C

AB

If a character evolves twice as fast as another on one edge, it evolves twice as fast on every edge. 

D

CD

Page 37: Comparing reconstruction methods for linguistic phylogenies

   

Heterotachy = departure from rates­across­sites

The underlying tree is fixed, but there are no constraints on edge length variations between characters.

AB

C

D

A

B

C

D

Page 38: Comparing reconstruction methods for linguistic phylogenies

   

A B C D E

A B C D E A B C D E A B C D E

Trees in networks ­ borrowing

Page 39: Comparing reconstruction methods for linguistic phylogenies

   

Quantifying Topological Error

FN: false negative      (missing edge)FP: false positive      (incorrect edge)

FN

FP

Page 40: Comparing reconstruction methods for linguistic phylogenies

   

Impact of homoplasy for characters evolved down a  tree under a moderate deviation from a lexical clock and moderate heterotachy.  Our weighting is inappropriate for “unscreened” data.

Page 41: Comparing reconstruction methods for linguistic phylogenies

   

Impact of homoplasy for characters evolved down a network with three contact edges under a moderate deviation from the lexical clock and moderate heterotachy.

Page 42: Comparing reconstruction methods for linguistic phylogenies

   

Impact of the deviation from a lexical clock for characters evolved down a network with three contact edges under low levels of homoplasy and with moderate heterotachy. We vary the deviation from a lexical clock from low to moderate.

Page 43: Comparing reconstruction methods for linguistic phylogenies

   

Impact of heterotachy for characters evolved down a network with three contact edges, with low homoplasy, and with moderate deviation from a lexical clock.  Heterotachy increases with the parameter.

Page 44: Comparing reconstruction methods for linguistic phylogenies

   

Impact of data selection for characters evolved down a network with three contact edges, under low homoplasy (``screened data"), moderate deviation from a lexical clock, and moderate heterotachy.

Page 45: Comparing reconstruction methods for linguistic phylogenies

   

Impact of the number of contact edges for characters evolved under low homoplasy, moderate deviation from a lexical clock, and moderate heterotachy.

Page 46: Comparing reconstruction methods for linguistic phylogenies

   

Impact of homoplasy & number of contact edges

Page 47: Comparing reconstruction methods for linguistic phylogenies

   

Impact of homoplasy & heterotachy

Page 48: Comparing reconstruction methods for linguistic phylogenies

   

Impact of homoplasy & deviation from a lexical clock

Page 49: Comparing reconstruction methods for linguistic phylogenies

   

Conclusions and comments

• Choice of reconstruction method does matter.

• Relative performance between methods is quite stable.

• Moderate homoplasy is not a problem.• Presence of some borrowing is not a 

problem.• Some amount of heterotachy helps!

Page 50: Comparing reconstruction methods for linguistic phylogenies

   

Future research

• We need more investigation of methods based on stochastic models (Bayesian beyond G+A, maximum likelihood, NJ with better distance corrections), as these are now the methods of choice in biology. This requires better models of linguistic evolution and hence input from linguists!

Page 51: Comparing reconstruction methods for linguistic phylogenies

   

Future research (continued)

• Should we screen?  The simulation uses low homoplasy as a proxy for screening, but real screening throws away data and may introduce bias.

• How do we detect/reconstruct borrowing?• How do we handle missing data in 

methods based on stochastic models?• How do we handle polymorphism?

Page 52: Comparing reconstruction methods for linguistic phylogenies

   

“What song the Sirens sang, or what name Achilles assumed when he hid himself among women, though puzzling questions, are not beyond all conjecture.”                                                               Thomas Browne