synthetic gene design strategies for improving

187
SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING HETEROLOGOUS PROTEIN EXPRESSION AND PRODUCTION IN MICROBIAL AND MAMMALIAN CELLS Ang Kok Siong NATIONAL UNIVERSITY OF SINGAPORE 2016

Upload: others

Post on 21-Jan-2022

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

SYNTHETIC GENE DESIGN STRATEGIES FOR

IMPROVING HETEROLOGOUS PROTEIN

EXPRESSION AND PRODUCTION IN

MICROBIAL AND MAMMALIAN CELLS

Ang Kok Siong

NATIONAL UNIVERSITY OF SINGAPORE

2016

Page 2: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

SYNTHETIC GENE DESIGN STRATEGIES FOR

IMPROVING HETEROLOGOUS PROTEIN

EXPRESSION AND PRODUCTION IN

MICROBIAL AND MAMMALIAN CELLS

Ang Kok Siong

(B.Eng.(Hons.), NUS)

A THESIS SUBMITTED

FOR THE DEGREE OF DOCTOR OF PHILOSOPHY

DEPARTMENT OF CHEMICAL AND

BIOMOLECULAR ENGINEERING

NATIONAL UNIVERSITY OF SINGAPORE

2016

Page 3: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

Declaration

I hereby declare that this thesis is my original work and it has been

written by me in its entirety. I have duly acknowledged all the sources of

information which have been used in the thesis.

This thesis has also not been submitted for any degree in any university

previously.

Ang Kok Siong18 Jan 2016

i

Page 4: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

Acknowledgements

The author would like to acknowledge his supervisor, Dr. Lee Dong-Yup,

for his guidance. The author would also like to acknowledge the members

of his qualifying exam and thesis committee for spending time on this duty.

The author would like to thank the various members of Bioprocessing

Technology Institute (BTI), A*STAR. The former and present members of

the Bioinformatics group in BTI have been close collaborators on various

projects. They include Dr. Geoffrey Koh, Dr. Suresh Selvarasu, Dr. Bevan

Chung, Dr. Dr. Liu Chengcheng, Dr. Meiyappan Lakshmanan, Dr. Sarantos

Kyriakopoulos, the late Faraaz Noor Khan Yusufi, Lee Terk Shern, Chin

Ju Xin, Yeo Hock Chuan, and Joyce Lin. The author would also like to

thank Dr. Dave Ow, Dr. Maximilian Klement, Dr. Ho Ying-Swan, and other

members of the Metabolomics group and Microbial Cells group, including

Pek Han Bin and Eddie Tan for their collaborations, friendships and advice.

The author would like to acknowledge his parents and brother for their

support during his candidature. He would also like to thank his friends in-

cluding Dr. Kwan Chang Yee and Mr. Cheong Kim Seng for their friendship

and advice at different times.

Finally, the author would like to thank the late Executive Director of

BTI, Prof. Miranda Yap for accepting him into BTI many years ago as

an intern, and subsequent return as an attached PhD student. The author

would also like to acknowledge the current Executive Director, Prof. Lam

Kong Peng for continued support.

ii

Page 5: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

Contents

Declaration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i

Acknowledgements . . . . . . . . . . . . . . . . . . . . . . . . . ii

Table of Contents . . . . . . . . . . . . . . . . . . . . . . . . . . iii

Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii

List of Tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ix

List of Figures . . . . . . . . . . . . . . . . . . . . . . . . . . . . x

1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1 Codon bias . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Codon optimization . . . . . . . . . . . . . . . . . . . . . . 6

1.3 Motivations and aims . . . . . . . . . . . . . . . . . . . . . 9

1.4 Thesis organization . . . . . . . . . . . . . . . . . . . . . . 13

2 Methodology . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.1 Codon usage . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.1.1 Measuring codon usage . . . . . . . . . . . . . . . . 16

2.2 Codon optimization . . . . . . . . . . . . . . . . . . . . . . 19

2.2.1 Objective function formulation . . . . . . . . . . . 19

2.2.2 Genetic algorithm . . . . . . . . . . . . . . . . . . . 22

2.2.3 Multi-objective optimization . . . . . . . . . . . . . 24

3 Establishing Reference Codon Biases for Synthetic GeneDesign in Microbial and Mammalian Cells . . . . . . . . . 33

3.1 Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

iii

Page 6: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

3.2 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.3 Material and methods . . . . . . . . . . . . . . . . . . . . 39

3.3.1 Multi-omics data sets for generating reference codonbiases . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.3.2 Calculating reference codon biases from multi-omicsdatasets . . . . . . . . . . . . . . . . . . . . . . . . 39

3.3.3 Principal component analysis and hierarchical clus-tering for comparing reference codon biases . . . . . 41

3.3.4 Codon optimization of IFN-γ sequence . . . . . . . 41

3.4 Results and discussion . . . . . . . . . . . . . . . . . . . . 42

3.4.1 Generating reference codon biases from multi-omicsdatasets for expression hosts . . . . . . . . . . . . . 42

3.4.2 Comparing reference codon biases from -omics data-sets for various expression hosts . . . . . . . . . . . 46

3.4.3 Exploring the effects of design parameters and codonbias inputs on codon optimized sequence outputs:human IFN-γ expression in CHO cells . . . . . . . 50

3.4.4 Conclusions . . . . . . . . . . . . . . . . . . . . . . 51

4 Codon Optimization of Signal Peptide to Improve Secre-tory Protein Production in Pichia pastoris . . . . . . . . 54

4.1 Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.2 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.3 Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.3.1 Codon optimization . . . . . . . . . . . . . . . . . . 57

4.3.2 Microorganisms . . . . . . . . . . . . . . . . . . . . 57

4.3.3 Gene synthesis and cloning . . . . . . . . . . . . . . 58

4.3.4 Expression of CAL-B in P. pastoris . . . . . . . . . 59

4.4 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

iv

Page 7: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

4.4.1 Three alternative strategies for codon optimizationof MFLS . . . . . . . . . . . . . . . . . . . . . . . . 59

4.4.2 Effect of codon-optimized MFLS on secretory pro-tein expression . . . . . . . . . . . . . . . . . . . . 62

4.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

5 Codon Context Based Synthetic Gene Design of a Ther-mostable Invertase for Escherichia coli . . . . . . . . . . 67

5.1 Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

5.2 Background . . . . . . . . . . . . . . . . . . . . . . . . . . 69

5.3 Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3.1 Implementation of codon optimization frameworks . 71

5.3.2 Gene synthesis and cloning . . . . . . . . . . . . . . 73

5.3.3 Gene cloning . . . . . . . . . . . . . . . . . . . . . 74

5.3.4 Expression and isolation of invertase in E. coli . . . 74

5.3.5 Gel electrophoresis and Western blot analysis . . . 76

5.3.6 Enzyme activity assay for invertase . . . . . . . . . 76

5.4 Results and discussion . . . . . . . . . . . . . . . . . . . . 77

5.4.1 Codon context fitness to improve protein expressionin heterologous hosts . . . . . . . . . . . . . . . . . 77

5.4.2 Sequence alignment and protein expression . . . . . 78

5.4.3 Comparison of codon-optimized invertase using anenzyme activity assay . . . . . . . . . . . . . . . . . 81

5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

6 Codon Optimization of ATP7B for Gene Therapy Appli-cation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

6.1 Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

v

Page 8: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

6.2 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 89

6.3 Materials and methods . . . . . . . . . . . . . . . . . . . . 91

6.4 Results and discussion . . . . . . . . . . . . . . . . . . . . 93

6.4.1 Establishing codon bias . . . . . . . . . . . . . . . . 936.4.1.1 Codon bias of highly expressed genes . . . 936.4.1.2 Codon bias of tissue specific high expres-

sion genes . . . . . . . . . . . . . . . . . . 100

6.4.2 Codon optimization of ATP7B gene . . . . . . . . . 1006.4.2.1 Impact of reducing CpG dinucleotides . . 1006.4.2.2 Increasing GC content without CpG dinu-

cleotides . . . . . . . . . . . . . . . . . . . 106

6.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

7 Conclusions & Future Work . . . . . . . . . . . . . . . . . . 110

7.1 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . 110

7.2 Future work . . . . . . . . . . . . . . . . . . . . . . . . . . 115

7.2.1 Gene design criteria . . . . . . . . . . . . . . . . . . 117

Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

Appendix A Supplementary for Establishing Reference CodonBiases Using -omics Datasets . . . . . . . . . . . . . . . . . 136

Appendix B Supplementary for Mating Factor α prepro-Leader Sequence Design . . . . . . . . . . . . . . . . . . . . 165

B.1 Designed mating factor leader sequences . . . . . . . . . . 165

Appendix C Supplementary for Invertase Sequence Design 168

C.1 Designed invertase sequences . . . . . . . . . . . . . . . . . 168

Appendix D List of Selected Publications . . . . . . . . . . . 174

vi

Page 9: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

Summary

The design and synthesis of synthetic genes is a key technology to accom-

plish rational host cell engineering for biotechnology and synthetic biol-

ogy applications. In the design of synthetic genes, codon optimization is a

proven strategy that can enhance protein expression. To optimize the tar-

get gene for expression in a host, the codon usage in the gene is modified

algorithmically based on the selected design criteria and a reference codon

bias. Consequently, the choice of design criteria and reference codon bias

are crucial decisions in ensuring success. This thesis studies how the selec-

tion of codon bias representing hosts and selected design criteria affect the

final gene design.

The reference codon bias used in codon optimization is a key element

of the procedure, as it serves as the optimization target for gene being

designed. The designed gene must contain a permutation of codons that

ensures efficient translation in the host. Leveraging on available -omics

data from four industrially important host organisms, the most relevant

reference codon bias was established using highly expressed genes across

different -omics datasets.

The other key aspect of gene design is the selection of design criteria. In

current practice, most gene design procedures focus on individual codons.

Here, it was demonstrated that the use of consecutive codon pairs, or codon

context, as the main gene design criterion gave protein yields superior to

other individual codon based gene designs. In the first case study, the codon

context based design of the attached signal peptide improved secretory

production by 3 folds. In the second case, codon context based design of a

thermostable invertase resulted in a 40% increase in enzymatic activity.

In addition to codon bias, gene design may be complicated by other

vii

Page 10: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

requirements such as sequence motifs to be excluded, and targets for other

sequence characteristics such as GC content. In gene therapy, cytosine-

phosphate-guanine (CpG) dinucleotides are known to provoke potentially

fatal immunological responses. Conversely, GC rich sequences have been

shown to be less immunogenic. Here, the multi-objective codon optimiza-

tion framework was employed to study the feasibility of removing CpG

dinucleotides from the target gene, as well as increasing GC content, as

well as effects on the design scores of the individual codon and context

based gene design criteria.

Keywords: Synthetic gene design, Synthetic biology, Codon bias, Codon

optimization, Heterologous expression

viii

Page 11: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

List of Tables

2.1 DNA codon translation table . . . . . . . . . . . . . . . . . 17

3.1 Details on the -omics datasets used in the current study. . 40

4.1 List of primers used in study . . . . . . . . . . . . . . . . . 58

4.2 Cell density and CAL-B activity achieved by designed MFLSsequences . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5.1 List of primers used in study . . . . . . . . . . . . . . . . . 74

6.1 Exclusion motifs for codon optimization of ATP7B . . . . 93

6.2 ICU computed from top 10% high expression liver genes . 95

6.3 ICU computed from top 10% high expression genes in hu-man tissues . . . . . . . . . . . . . . . . . . . . . . . . . . 96

6.4 Codon bias of top 10%, 5%, 3%, and 1% gene subsets in liver 99

6.5 ICU computed from top 1% high expression genes in humantissues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

6.6 Fitness scores of designed sequences with limit on CpG . . 104

6.7 Fitness scores of designed sequences with limits on CpG andGC content . . . . . . . . . . . . . . . . . . . . . . . . . . 108

A.1 Codon context frequency table derived with -omics datasets 136

C.1 Designed invertase sequences . . . . . . . . . . . . . . . . . 169

ix

Page 12: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

List of Figures

1.1 Codon optimization workflow . . . . . . . . . . . . . . . . 7

2.1 Consecutive codon pairs . . . . . . . . . . . . . . . . . . . 18

2.2 The genetic algorithm (GA) flow chart . . . . . . . . . . . 25

2.3 Coding sequence representation in GA . . . . . . . . . . . 26

2.4 Pareto front . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.5 Non-dominated sorting procedure . . . . . . . . . . . . . . 31

2.6 Crowding distance assignment . . . . . . . . . . . . . . . . 32

3.1 The general codon optimization strategy . . . . . . . . . . 36

3.2 Generating reference codon biases from multi-omics data. . 38

3.3 Venn diagrams of top 10% expressed genes, proteins andgenes bound to polysomes in the hosts . . . . . . . . . . . 43

3.4 Individual codon frequency table for the common hosts basedon -omics datasets . . . . . . . . . . . . . . . . . . . . . . 45

3.5 Assessment of codon bias patterns using individual codonfrequency of -omics datasets . . . . . . . . . . . . . . . . . 47

3.6 Assessment of codon bias patterns using codon pair fre-quency of -omics datasets . . . . . . . . . . . . . . . . . . 49

3.7 Similarity matrix comparison of codon optimized humanIFN-γ sequences using different CHO derived codon biases 52

4.1 ICU and CC fitness of MFLS gene variants . . . . . . . . . 60

4.2 MFLS gene variants sequences . . . . . . . . . . . . . . . . 61

4.3 Properties of MFLS gene variants . . . . . . . . . . . . . . 65

x

Page 13: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

5.1 Schematic illustrating the process of codon context basedfitness of the secondary structure regions . . . . . . . . . . 79

5.2 Growth curve of invertase expressing E. coli and Westernanalysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

5.3 Enzyme activity assay of wild-type and codon optimizedinvertase expressed in E. coli . . . . . . . . . . . . . . . . 83

5.4 Individual codon usage and codon context characteristics ofwild type and optimized sequences . . . . . . . . . . . . . 84

6.2 Gene expression levels in human liver . . . . . . . . . . . . 98

6.3 PCA of tissue specific ICU from high expression genes . . 102

6.4 PCA of tissue specific CC from high expression genes . . . 102

6.5 ICU-CC fitness with limit on CpG . . . . . . . . . . . . . 104

6.6 Pareto fronts of ICU vs CpG, and CC vs CpG. The effectof reducing CpG counts on ICU and CC is clearly seen. . . 105

6.7 Transcription vs translation . . . . . . . . . . . . . . . . . 106

6.8 Human coding sequence GC content . . . . . . . . . . . . 107

6.9 ICU-CC fitness with limit on GC . . . . . . . . . . . . . . 108

B.1 1st set of new transformants of MFLS for CAL-B production. 166

B.2 2nd set of new transformants of MFLS for CAL-B production. 167

C.1 Codon distribution of designed sequences . . . . . . . . . . 173

xi

Page 14: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

Chapter 1

Introduction

Human modification of genes through direct manipulations of nucleic acids

started in the 1970s with the ground-breaking work by Cohen, Boyer, and

Berg [1]. The development of recombinant DNA (deoxyribonucleic acid)

technology has granted the ability to insert new genes or modify existing

genes in cells. This paved the way for the routine insertion of heterologous

genes to produce protein based products such as therapeutic proteins and

industrially important enzymes [2, 3]. It has also enabled unprecedented

metabolic engineering of hosts, such as introducing new metabolic functions

through the creation of pathways in vivo [4, 5].

By inserting a synthetic gene encoding a therapeutic protein into a host

organism, the host can be induced to produce the desired protein that is

subsequently harvested and purified. Genentech produced the first human

recombinant protein, somatostatin, using Escherichia coli as the host in

1977. In 1982, recombinant insulin produced by Eli Lilly was the first

recombinant drug approved for sale by the United States Food and Drug

Administration (US FDA) [6]. This kick-started a new market for protein

based drugs, commonly known as biologics. Biologics, as a class of drugs

that include monoclonal antibodies, enzymes, vaccines, and fusion proteins,

has a combined sales of 140 billion US dollars in 2013 [2].

1

Page 15: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

1. INTRODUCTION 2

In addition to biologics manufacturing, recombinant DNA technology

has been used to modify microorganisms to produce a variety of products

including metabolites such as vitamins and amino acids, as well as enzymes

such as lipases and α-amylase for industrial applications [7]. Recombi-

nant DNA technology can be employed in two ways, optimizing existing

pathways and introducing new circuits. Genes may be overexpressed or

silenced in order to increase cell viability or enhance production of the de-

sired metabolite. De novo pathways can also be designed and introduced

into a host to enable new cellular functions such as utilization of alternate

nutrients, or express new products [5].

Another application of recombinant DNA technology is human gene

therapy, where nucleic acids are introduced into the human body to alter

gene expression, and consequently prevent, stop, or rectify a pathological

condition [8]. Three approaches are possible: gene addition, gene knock

down, and gene correction. The most common is gene addition, where a

gene is introduced into the patient in vivo. This approach is under active

research for the treatment of diseases such as cancer and hemophilia [9].

Many of the technology tools used in gene design for biotechnology appli-

cations discussed above can also be applied to gene therapy [10].

The naive insertion of the wild type heterologous genes into a host may

result in poor or even undetectable expression [11]. One primary reason for

this phenomenon is the differences in codon usage of the target gene and

the host [12]. The target gene may be encoded using codons with cognate

transfer ribonucleic acid (transfer RNA or tRNA) molecules that are rare

within the host. This usage of rare codons can slow down the rate of trans-

lation elongation, thus reducing overall gene expression. Synthetic gene

design through codon optimization seeks to enhance expression by modify-

Page 16: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

1. INTRODUCTION 3

ing the codon usage of the target gene to suit the expression host. Codon

optimization can also help remove undesired motifs such as restriction sites

used for cloning, regulatory motifs that may hinder expression, or motifs

that provoke immune responses in the case of in vivo applications such as

gene therapy.

1.1 Codon bias

A series of landmark experiments in the 1960s established the genetic

code, the rules that govern the translation of genetic information stored

in DNA/RNA to proteins in natural life [13, 14]. In 1961, Crick, Bren-

ner, Barnett, and Watts-Tobin showed that three nucleotide bases in DNA

sequences encode one amino acid. Subsequent work by various teams in-

cluding Nirenberg and Matthaei, and later, Nirenberg and Leder, Severo

Ochoa at New York University, and Har Gobind Khorana at University

of Wisconsin, helped to construct the full translation table of nucleotide

triplets to amino acids. Not long after, Robert W. Holley established the

structure of tRNAs, the adaptor molecule that links messenger ribonu-

cleic acid (mRNA) molecules to proteins by carrying amino acids to the

translating ribosome, and adding the correct amino acid to the elongating

polypeptide through the recognition of each codon in the encoding mRNA

sequence to the corresponding anti-codon on tRNA molecules.

The elucidated genetic code is degenerate, where 43 = 64 codons encode

the 20 standard amino acids and the translation termination signal. Except

for methionine and tryptophan, the other amino acids are encoded by two to

six codons, and three codons encode the stop signal. With few exceptions,

this standard genetic code is shared across the different domains of life for

Page 17: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

1. INTRODUCTION 4

cytosolic protein expression [15].

Since the 1970s, cumulative advances in DNA sequencing technology

have enabled the sequencing of whole genomes at drastically reduced costs

[16, 17]. It became amply clear that in the genomes of different organ-

isms, codons do not see equal utilization [18]. While codon usage may

differ among genes from the genomic average, much larger differences exist

between organisms [19,20].

The evolutionary basis of codon bias has undergone substantial debate

over the years. The present consensus is that the translational efficiency

and accuracy varies among synonymous codons for different organisms;

therefore, the observed codon bias among highly expressed genes is a result

of natural selection [21, 22]. In contrast, low expression genes are under

less selection pressure, and thus the effect of random mutations dominate,

resulting in comparatively lesser bias. Therefore, the codon adaptation

of organisms towards the most efficiently translated codons supports the

argument of using only the most frequently observed codons of the host [23].

Translation selection of codon usage is heavily attributed to the abun-

dance of tRNA molecules, the essential link between codons on the mRNA

molecule and the polypeptide being synthesized [18]. Based on this theory,

some success has been achieved in improving protein expression by supple-

menting a host’s comparatively rarer tRNA molecules [24]. However, tRNA

gene counts or even tRNA molecule abundance cannot fully account for the

variations in codon usage, which may vary according to culture conditions.

Another explanation offers guanine-cytosine (GC) mutational bias as the

driving force behind genomic codon usage, though it does not account for

GC content variation (isochores) in mammals [25].

The model of codon bias influencing gene expression assumes that trans-

Page 18: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

1. INTRODUCTION 5

lation elongation is the rate limiting factor for protein biosynthesis. This

remains a highly disputed topic with counter-arguments for translation ini-

tiation being the bottleneck [26]. An extension of this argument is that

reduced mRNA stability near the start codon facilitates ribosome bind-

ing, and thus dictates gene expression [27]. A more nuanced view suggests

that codon bias is relevant when relatively weak mRNA stability at the 5’

end does not hinder translation initiation [28]. Instead of being the sole

determinant of protein expression levels, mRNA folding energy at the 5’

untranslated region (UTR) near the ribosome binding site, modulates the

correlation between codon bias and translation efficiency [29]. Conversely,

another study suggests that strong mRNA folding has been positively cor-

related with translation elongation efficiency in S. cerevisiae, with a plau-

sible explanation of strong mRNA folding prevents aggregation of mRNA

molecules, and thus enhances the efficiency of translation elongation [30].

The development of ribosome profiling has enabled the monitoring of

ribosomes bounded onto mRNA in vivo [31]. This has given rise to studies

on the translatome, which consists of ribosome bound mRNA molecules

undergoing translation [32]. Even so, there is still no conclusive model that

describes how the different factors of mRNA primary structure (nucleotide

sequence) and secondary structure (mRNA folding structures) comprehen-

sively determine the protein expression level [31,33].

The principle behind codon optimization has been characterized as a

form of biological mimicry based on highly expressed naturally occurring

genes in the expression host of interest [34]. As discussed above, the bio-

chemical basis of codon bias has yet to be fully elucidated, and no reliable

mechanistic model can be constructed to accurately predict the expression

of a given gene in an expression host. Discovery and characterization of gene

Page 19: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

1. INTRODUCTION 6

features deemed as factors that contribute to protein expression remains an

active area of research. Therefore, known contributing gene features such

as individual codon usage (ICU), codon context (CC), GC content, etc.,

are applicable as design criteria for synthetic gene design. This calls for

a rational approach for synthetic gene design to guide experimental vali-

dations. Codon optimization, as part of synthetic gene design, serves as

a design tool to reduce the sequence design space for further experimental

verification.

The practice of codon optimization is widely accepted as a method to

modify gene expression [35]. To date, the application of codon optimiza-

tion has shown numerous examples of success [36]. Nevertheless, further

advances in codon optimization will be necessary to meet the envisioned

rational large-scale engineering of host organisms [37]. Unlike most biotech-

nology applications that aim to enhance heterologous gene expression of a

single target protein, synthetic biology demands finer control of gene expres-

sion to ensure the proper functioning of synthetic circuits that encompass

multiple genes. Deeper characterization of gene design features, and effec-

tive application of codon optimization are required in an integral approach

towards control of gene expression.

1.2 Codon optimization

The goal of codon optimization is to modify the coding sequence of a wild

type gene to enhance its expression in a heterologous host. The workflow

diagram in Figure 1.1 illustrates the procedure. Three major inputs are

required. First, the coding sequence of the target protein is defined. This

input may be in amino acid form or a “wild type” nucleotide sequence.

Page 20: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

1. INTRODUCTION 7

Codon optimization

algorithm ATGAAGTACACCAGCTAC

ATCCTGGCCTTCCAGCTG

TGCATCGTGCTGGGGAGC

CTGGGCTACACCATG

Wild type sequence

ATGAAATATACAAGTTAT

ATCTTGGCTTTTCAGCTC

TGCATCGTTTTGGGTTCT

CTTGGCTATACAATG

Optimized sequence

Host codon bias

Design criteria

Figure 1.1: Codon optimization workflow

In the case of the latter, the original protein’s host translation table is

needed. Secondly, the reference codon usage of the expression host is re-

quired. Thereafter, the gene design criteria are selected. The design criteria

may include the codon usage of the host, removal of undesired motifs, and

even mRNA stability [36, 38]. The coding sequence is then synonymously

modified according to the selected criteria algorithmically to obtain the

optimized coding sequence.

A host reference codon usage is required to serve as the codon optimiza-

tion goal of the target gene. This host reference codon usage is typically

established using genes from the expression host. The host genome may

be employed for this purpose, or alternatively a subset of the host’s genes.

The gene selection may be aided by available -omics data to choose high

expression genes, or expressed genes that are tissue specific.

In Section 1.1, a number of relvant gene design criteria have been dis-

cussed. These include the indices used to quantify codon bias in the host’s

representative gene set. Codon adaptation index (CAI) is considered by

some to be the most effective indicator of protein expression, and there-

Page 21: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

1. INTRODUCTION 8

fore one of the most commonly used index as the key design parameter

for codon optimization [12,39]. This approach deterministically assigns the

host specific most frequently used codon of each amino acid to the opti-

mized sequence, or “one amino acid - one codon”. However, more recent

analyses do not support the view that CAI is predictive of gene expres-

sion [40]. It has also been argued that CAI maximization may well result

in over-usage of specific tRNAs which then leads to depleted pools of these

tRNAs, thus hinder overall gene expression within the host [41]. More-

over, there is also experimental evidence that a more balanced approach

towards codon choice can be more effective [42,43]. For example, the ICU

approach aims to modify the target gene’s codon usage to match that of

the expression host [44].

In addition to the bias in the usage of individual codons, bias has also

been found in the pairings of consecutive codons (or codon context) in

coding sequences (Section 2.1.1). This bias has been theorized to be a

result of tRNA-tRNA interactions inside translating ribosomes [45]. It has

been experimentally demonstrated that rare codon pairs reduce protein

translation rates, thus establishing its correlation with translation rates

[46]. By using the expression host’s preferred codon context bias, success

has been reported with codon context based codon optimization [47,48].

To design coding sequences that adhere to the design criteria discussed

above, an algorithm is needed to make synonymous codon modifications,

and compute the resulting codon usage within the synthetic design se-

quence. If CAI is chosen as the key design criterion, the optimized coding

sequence will simply consist of the most common synonymous codon for

each amino acid, with modifications to avoid selected restriction sites and

undesired motifs such as ribosome binding sites (RBS). For ICU based

Page 22: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

1. INTRODUCTION 9

designs, the synonymous codons may be randomly distributed within the

sequence according to the desired codon frequency distribution [44]. How-

ever, the CC based codon optimization problem poses a significantly greater

challenge. While the problem can be formulated as a mixed integer linear

programming (MILP) problem akin to the traveling salesman problem and

solved with deterministic algorithms, the computational cost grows pro-

hibitively with sequence length. Therefore, heuristics based optimization

algorithms are favored due to simplicity in implementation, and the abil-

ity to produce acceptable solutions within a reasonable amount of time.

Furthermore, these algorithms are amendable towards the consideration of

multiple design criteria. Algorithms applied towards codon optimization

include the genetic algorithm [44, 49], particle swarm [50], simulated an-

nealing [51, 52], and Monte-Carlo simulation [53]. These heuristics based

algorithms typically do not possess theoretical guarantees for achieving the

global optimum [54], but such a requirement is not necessary for most gene

design applications.

1.3 Motivations and aims

The overarching aim of the thesis is to establish the inputs for a rational

codon optimization workflow as depicted in Figure 1.1. While codon opti-

mization is an accepted strategy in tuning gene expression [35], it remains

an active field of research for reasons discussed in the previous section. This

thesis examines the choice of reference codon usage for different hosts using

-omics datasets, and the impact of gene design criteria on different codon

optimization applications.

Chapter 3 investigates the use of -omics datasets in establishing appro-

Page 23: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

1. INTRODUCTION 10

priate codon usage tables for codon optimization. In most published studies

to date, codon usage tables are derived from whole genomes of expression

hosts, or highly transcribed genes as identified using microarray profiling

or RNA sequencing (RNA-seq) [21, 22]. Part of the rationale is the argu-

ment that organisms, especially microbial hosts, have evolved to be highly

efficient in cellular resource utilization, and therefore highly transcribed

genes are assumed to be efficiently translated as well. Another reason is

practicality, the wide availability of microarray data with high transcrip-

tome coverage for organisms with sequenced genomes, while proteome and

translatome data are comparatively less common. In the case of proteomic

data, the gene coverage is often significantly lower.

The experimental support for using transcriptome data is weak, given

the documented poor correlation between mRNA transcripts and protein

abundance [55]. Indeed, we confirmed this result with our own analysis in

the chapter. Therefore, we capitalized on the recent availability of multi

-omics datasets for four industrially important hosts, Escherichia coli, Sac-

charomyces cerevisiae, Pichia pastoris, and Chinese hamster ovary (CHO)

cells, to investigate their application towards establishing the codon usage

tables for codon optimization. In particular, we are interested in apply-

ing host translatome data, which measures ribosome occupancy on mRNA

undergoing translation. It follows that genes that are highly translated

should correspondingly be suited for deriving the host specific codon usage

tables. To our knowledge, translatome information has not be employed in

this manner to compute codon bias for codon optimization. To achieve a

comprehensive analysis, available genome, trancriptome, translatome, and

proteome data for the four hosts were collected to compute the respective

codon biases of highly expressed gene sets as defined by the different -omics

Page 24: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

1. INTRODUCTION 11

data (sans genomic). The processed data was then analyzed using princi-

ple component (PCA) and hierarchical clustering. PCA and hierarchical

clustering reduce data dimensionality for visualization, and enable us to

interpret similarities and differences within the dataset.

In Section 1.2, a number of gene design criteria were discussed. Two

of the criteria, ICU and CC, have been demonstrated to be effective gene

design criteria in the literature [42,47,48]. To date, studies only considered

either criterion in separate sequence designs. Consequently, we are inter-

ested in discovering any synergistic effects that might arise from considering

both design criteria at the same time. In Chapter 4, the Saccharomyces

cerevisiae-derived mating factor α prepro-leader sequence (MFLS) was se-

lected as the target sequence for the study, with Candida antarctica lipase

B enzyme serving as the reporter gene. To elucidate any ICU-CC synergis-

tic effect, three coding sequences were designed. The multi-objective codon

optimization algorithm described in Section 2.2.3 was employed to design

the sequences. The first two sequences considered ICU and CC as the main

design objective respectively. The third sequence was designed to minimize

the trade-off between maximizing both the ICU and CC.

In Chapter 5, the application of CC based sequence design was extended

to the consideration of protein secondary structure. This was motivated by

studies that suggest slowing down protein translation according secondary

structure to assist in proper protein folding [56]. Protein misfolding, and

the subsequent proteolytic degradation, or formation of insoluble inclusion

bodies, is a problem that reduces the yield of biologically active recom-

binant proteins in fast growing hosts such as E. coli [57]. Consequently,

this study explored the modulation of protein translation rates by modi-

fying CC biases associated with different protein secondary structures to

Page 25: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

1. INTRODUCTION 12

facilitate protein folding, using E. coli as the host. Unlike other published

studies, Chapter 5 employed secondary structure specific CC bias instead

of ICU bias [58]. The interest in using CC biases of protein secondary

structures stems from the efficacy of CC as the main design criteria. The

protein secondary structure annotation of E. coli proteins was downloaded

from Protein Database (PDB) [59]. Individual E. coli coding sequences

were then divided based on the annotation for different protein secondary

structure types (e.g. α helices and β sheets) to derive the secondary struc-

ture specific CC biases. The derived secondary structure specific CC biases

were then used to codon optimize the invertase enzyme derived from Ther-

motoga maritima. The secondary structure codon optimized sequence was

experimentally tested against the wild type invertase and the normal CC

optimized sequence.

The applications of codon optimization described in the beginning of

this chapter mainly focus on heterologous gene expression. For autologous

gene transfer such as gene therapy, it is natural to assume that there is

no need for codon optimization. However, it has been demonstrated that

codon optimization has a role to play in gene therapy applications [10,60].

There are two benefits that codon optimization bring to gene therapy. The

first is to enhance gene expression, and the second is to remove motifs, such

as CpGs (cytosine guanine pairing with a phosphate linking in-between)

that may provoke potentially fatal immunological responses in patients [61].

To date, there are only a handful of studies on codon optimization for

gene therapy applications. Typically, the coding sequence is optimized

using a single design criterion such as ICU, CAI, or tRNA abundance, with

potentially immunogenic motifs removed.

Chapter 6 studied the sequence design of the ATPase Copper Trans-

Page 26: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

1. INTRODUCTION 13

porting Beta (ATP7B) gene, where deleterious genetic mutations cause the

autosomal Wilson’s disease [62]. The appropriate reference codon bias for

human gene therapy purposes was first established. Human tissue specific

RNA-seq data was used to identify high expression genes in different tis-

sues, and compute the respective tissue specific biases. Thereafter, the

multi-objective codon optimization framework was applied to the ATP7B

gene to illustrate its utility in guiding gene design for gene therapy appli-

cations. The analysis showed the impact of additional constraints on the

design, and helped to identify potential improvements in different design

criteria. From previous experience and results obtained in Chapters 4 and

5, ICU and CC have been successfully applied to enhance gene expression,

including mammalian CHO cells [48]. Therefore, potential improvements

in ICU and CC fitness were assessed while CpG motifs and GC content

constraints were applied. The consideration of GC content in the design

was motivated by reports that implicated higher GC content with reducing

immunogenicity [63], and correlated with increasing steady state mRNA

levels in mammalian cells [64]. To date, such a design approach with CC

has not been applied in gene design for gene therapy applications, especially

in conjunction with constraints on CpG motifs and GC content.

1.4 Thesis organization

The thesis is organized as follows. In Chapter 2, the indices used to quan-

tify codon bias are introduced and defined. The formulation of gene design

objectives for codon optimization are then defined and the multi-objective

codon optimization framework is described. In Chapter 3, the codon bi-

ases of four industrially relevant hosts: Escherichia coli, Saccharomyces

Page 27: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

1. INTRODUCTION 14

cerevisiae, Pichia pastoris, and Chinese hamster ovary cells, are computed

using available -omics data and analyzed. In Chapter 4, the multi-objective

codon optimization framework is used to investigate the use of individual

codon usage (ICU) and codon context (CC) as gene design criteria for effec-

tive codon optimization in P. pastoris. In particular, we sought to identify

any synergistic effect by considering both criteria at the same time. In

Chapter 5, CC based codon optimization is extended to consider protein

folding requirements by examining the codon bias of mRNA regions encod-

ing different protein secondary structures, with E. coli as the target host.

In Chapter 6, the multi-objective codon optimization framework is applied

to the area of gene therapy, where additional consideration on immunogenic

motifs were addressed. Chapter 7 concludes the thesis.

Page 28: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

Chapter 2

Methodology

This chapter gives an introduction to the indices used to quantify the codon

bias observed among organisms, the formulation of the codon optimization

problem, and the algorithms employed in this work to solve the codon

optimization problem. The codon translation table is first discussed in

Section 2.1. Section 2.1.1 describes the individual codon usage, codon

context, and codon adaptation index, indices commonly used to quantify

codon bias. The formulation and methodology used to solve the codon

optimization problem are then discussed in Section 2.2. The formulation of

gene design criteria is first described. The design criteria discussed include

the codon bias indices and other criteria such as GC content and exclusion

sequences. Next, the genetic algorithm used in this thesis is described. The

non-dominated sorting method used with the genetic algorithm to handle

multiple, potentially conflicting design criteria is then presented.

2.1 Codon usage

In the genetic code, triplets of nucleotides encode amino acids. As there are

four nucleotides in the genetic code (A, adenine; C, cytosine; G, guanine;

T, thymine for DNA, U, uracil for RNA), there are a total of 43 = 64

possible encoding triplets, or codons. The 64 codons encode a total of

15

Page 29: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

2. METHODOLOGY 16

20 standard amino acids, and the translation termination signal or stop

codons. With the exception of methionine and tryptophan that are encoded

by only a single codon, the remaining 18 standard amino are encoded by

two to six codons. This redundancy in the genetic code is also referred to

as codon degeneracy.

Most organism follow the standard code in the translation of DNA/RNA

to protein in the cytosol [15]. Exceptions include hypotrichous ciliates [65]

and species of Acetabularia [66] which use a modified codon translation

table where the TAA and TAG codons encode for glutamine. For certain

Candida yeasts, CTG encode for serine instead of leucine [67]. Similarly,

the codon translation tables for mitochondria DNA often differ from the

standard code [15]. When performing codon optimization, it is necessary

to check for the appropriate codon translation table for the target gene

based on its origin, as well as the expression host. The standard genetic

code DNA codon translation and corresponding reverse translation table is

given in Table 2.1.

2.1.1 Measuring codon usage

As discussed in Chapter 1, the codon usage among organisms is not even,

and the observed bias differs among different species [18]. Furthermore, the

usage bias is not only found in the usage of individual codons, but also in

the consecutive codon pairs as shown in Figure 2.1 [45]. Here, the indices

used in this thesis to describe bias in individual codons and codon pairs

are described.

The individual codon usage (ICU) measures the frequency of individual

codons within a set of coding sequences by normalizing the codon count

with the count of the corresponding encoded amino acid (or termination

Page 30: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

2. METHODOLOGY 17

Table 2.1: DNA codon translation table for the standard genetic code

2nd base

T C A G

1st

ba

se

T

TTT Phe (F)

TCT

Ser (S)

TAT Tyr (Y)

TGT Cys (C)

T

3rd

ba

se

TTC TCC TAC TGC C

TTA

Leu (L)

TCA TAA Stop (*)

TGA Stop (*) A

TTG TCG TAG TGG Trp (W) G

C

CTT CCT

Pro (P)

CAT His (H)

CGT

Arg (R)

T

CTC CCC CAC CGC C

CTA CCA CAA Gln (Q)

CGA A

CTG CCG CAG CGG G

A

ATT

Ile (I)

ACT

Thr (T)

AAT Asn (N)

AGT Ser (S)

T

ATC ACC AAC AGC C

ATA ACA AAA Lys (K)

AGA Arg (R)

A

ATG Met (M) ACG AAG AGG G

G

GTT

Val (V)

GCT

Ala (A)

GAT Asp (D)

GGT

Gly (G)

T

GTC GCC GAC GGC C

GTA GCA GAA Glu (E)

GGA A

GTG GCG GAG GGG G

Amino Acid Codons Amino Acid Codons

Ala (A) GCT, GCC, GCA, GCG Leu (L) TTA, TTG, CTT, CTC,

CTA, CTG

Arg (R) CGT, CGC, CGA, CGG,

AGA, AGG Lys (K) AAA, AAG

Asn (N) AAT, AAC Met (M) ATG

Asp (D) GAT, GAC Phe (F) TTT, TTC

Cys (C) TGT, TGC Pro(P) CCT, CCC, CCA, CCG

Gln(Q) CAA, CAG Ser (S) TCT, TCC, TCA, TCG,

AGT, AGC

Glu (E) GAA, GAG Thr (T) ACT, ACC, ACA, ACG

Gly (G) GGT, GGC, GGA, GGG Trp (W) TGG

His (H) CAT, CAC Tyr (Y) TAT, TAC

Ile (I) ATT, ATC, ATA Val (V) GTT, GTC, GTA, GTG

STOP (*) TAA, TGA, TAG

Page 31: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

2. METHODOLOGY 18

ATG AGC AAC TGT

Second pair

First pair Third pair

Figure 2.1: Codon context describes the normalized frequency of codonpairs in any set of genes. For a sequence of N codons, there are (N − 1)codon pairs in total. As stop codon readthroughs and non standard aminoacids are ignored, the first codon in each possible pair cannot be a stopcodon.

signal). The resulting ICU distribution is a vector of occurrence frequencies

for all 64 codons. The frequency value pk for each codon is defined as:

pk =θkC

θj(k)A

∀ k ∈ {1, 2, . . . , 64} (2.1)

where θkC denotes the total number of occurrences of codon k, θj(k)A denotes

the total number of occurrences of the amino acid j encoded by codon k.

As each amino acid is encoded by at least one codon, the value of pk falls

in the range of 0 ≤ pk ≤ 1.

In a similar fashion as the ICU, the codon context (CC) measures the

frequency of codon pairs within a set of coding sequences by normalizing the

codon pair counts with the count of the corresponding encoded amino acid

pair. The resulting CC distribution is a vector of occurrence frequencies

for all 3904 possible codon pairs (61× 64 = 3904, as the first codon in each

pair cannot be a stop codon). The frequency value qk for each codon pair

is defined as:

qk =θkCC

θj(k)AA

∀ k ∈ {1, 2, . . . , 3904} (2.2)

where θkCC denotes the total number of occurrences of codon pair k, θj(k)AA

denotes the total number of occurrences of the amino acid pair j encoded

Page 32: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

2. METHODOLOGY 19

by the codon pair k. Similar to pk, the value of qk falls in the range of

0 ≤ qk ≤ 1.

A popular measure of codon bias is the codon adaptation index (CAI)

[23]. The CAI of a gene is defined as the geometric mean of the weight w

associated to each codon i in the sequence divided by the total number of

codons N :

CAI = exp

(1

N

N∑n=1

log(wi(n))

)(2.3)

The weight w for each codon i is computed using the codon frequencies of

the reference gene set, as the ratio between the frequency fi of codon i and

the frequency fj of the most frequently used synonymous codon j.

When computing the ICU and CC distributions of an organism, the

appropriate codon translation table for the organism is used. For simplicity,

alternate start codons, i.e. codons at the start of a coding sequence that

translate to methionine, are ignored. Internal stop codons that may encode

non standard amino acids such as selenocysteine, or result in stop codon

readthrough but are not part of the organism’s translation table, are also

ignored [68].

2.2 Codon optimization

2.2.1 Objective function formulation

To perform codon optimization, the genetic algorithm based framework was

employed [44]. First, the objective functions used to measure ICU and CC

Page 33: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

2. METHODOLOGY 20

fitness are defined:

ΨICU = −∑64

k1=1|pk10 − pk11 |64

(2.4)

ΨCC = −∑3904

k2=1|qk20 − qk21 |

3904(2.5)

where pk and qk are the ICU and CC frequency values respectively, as

defined in Section 2.1.1, and the subscripts 0 and 1 denote the distributions

for the expression host and target gene respectively. The objective function

scores are defined to be the negative Manhattan distance of the ICU and

CC distributions between the host and target gene. By maximizing the

objective function scores, coding sequences that are optimal with respect

to the host are obtained, subject to the constraint of protein translation of

the target gene.

The application of CAI as an objective function is as follows. The most

frequently used codon for each amino acid is first identified for the host to

serve as reference. For a coding sequence, its CAI value is computed using

Equation 2.3. By maximizing the CAI value, the coding sequence will only

contain the most frequently used codons for each amino acid.

In addition to the ICU, CC, and CAI design criteria, there are other

gene design parameters that can be considered. These include:

1. GC content

2. Repeats

3. Exclusion sequences

4. CpG dinucleotides

5. Hidden stops / off-frame stop codons

It has been argued that mRNA levels are correlated with sequence GC con-

Page 34: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

2. METHODOLOGY 21

tent [64]. This may be attributed to premature transcriptional termination

by AT-rich regions [69]. Therefore, maintaining a minimum GC content

may be beneficial towards enhancing gene expression. Long repeats should

also be avoided to reduce genetic instability [70].

The optimized coding sequence should not contain motifs that are detri-

mental to transcription. These include cryptic splice sites and regulatory

elements such as poly(A) sequences, the ribososome binding site, Shine-

Dalgarno sequence, and the TATA-box [36]. Likewise, the coding sequences

should not contain the recognition sites of restriction enzymes used in the

cloning process. For gene therapy and DNA vaccine applications, the pres-

ence of CpG dinucleotides in the DNA plasmid has been implicated in

potentially lethal immune responses among patients [71, 72]. Therefore,

minimization of CpG count in the coding sequence is an important consid-

eration for gene therapy and DNA vaccine.

Another possible design consideration is off-frame stop codons (+1 and

−1 shifted translation frames) or hidden stops [73]. The presence of these

stop codons may help terminate erroneous off-frame translation, thus re-

ducing cellular resource wastage and the formation of potentially cytotoxic

peptide products.

To measure the sequence fitness for objectives such as exclusion se-

quences, repeats, CpG motifs, and GC content, the objective scores may

be defined as the negative of the absolute difference between the user de-

fined accepted limit and the appearance count of the sequence feature.

Similar to the ICU and CC definitions, the objective scores are maximized.

For off-frame stop codons, the objective will be to maximize the off-frame

stop codon count. Mathematically, the objective function scores may be

Page 35: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

2. METHODOLOGY 22

written in the following fashion:

Ψobjfun = −|p2 − p1| (2.6)

Ψhc = p1 (2.7)

where the subscripts objfun can be exclusion sequence, repeat, CpG motif

counts, or GC content, and hc refers to hidden stop codons or off-frame

stop codons. The subscripts 1 and 2 denote the target gene and the user

defined target respectively.

2.2.2 Genetic algorithm

The resulting codon optimization problem is a highly complex MILP prob-

lem [44]. For example, a 300 amino acid long protein will have approxi-

mately 10143 possible nucleotide coding sequences. Deterministic cutting-

plane and branch-and-bound based algorithms can be employed to solve

the MILP problem [74]. However, the computational cost can be pro-

hibitive. Furthermore, the consideration of multiple design objectives and

constraints will undoubtedly increase the computational complexity.

To optimize a target gene within a reasonable time frame, metaheuris-

tic based methods can be employed. Metaheuristic methods are stochas-

tic methods used to provide solutions for optimization problems [54, 75].

These methods incorporate probabilistic elements in the generation of new

solutions during the search. They iteratively improve the solutions based

on the heuristic rules, and sought to avoid potentially limiting locally op-

timal solutions. Many of these algorithms are based on various real-life

phenomena such as evolution (“evolutionary algorithms” such as genetic

algorithm [76], evolutionary strategy [77], differential evolution [78]), phys-

Page 36: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

2. METHODOLOGY 23

ical phenomena (simulated annealing [79]), and the behavior of organisms

(particle swarm [80], ant colony [81]) , or a combination of heuristic rules

for geometric exploration of the solution space (tabu search [82], scatter

search [83]). These methods do not rely on specific structures within the

objective function; instead, the objective function is treated as a black-box

function. Metaheuristics do not guarantee that the global optimum will be

found, though it can happen. In applications such as codon optimization,

a time consuming search for the global optimum solution is not necessary,

but sufficiently good solutions obtained within a much shorter time frame

are preferred.

In this thesis, the previously developed genetic algorithm based multi-

objective codon optimization framework [44] was employed. The genetic

algorithm forms the basis of the framework [76]. It is a heuristics-based

search algorithm that borrows concepts from evolutionary biology (“sur-

vival of the fittest”) and genetics (mutation, recombination). The algo-

rithm, like other evolutionary algorithms, utilizes a population of solution

candidates which are encoded as strings called “chromosomes” with an as-

sociated objective function value (“fitness”). The algorithm then iteratively

searches the solution space by modifying the population of candidates. Se-

lection pressure is applied when sorting the solutions for retention to form

the new population. Here, elitist selection is applied to retain solutions

solely based on the fitness score. The search procedure is described as

follows:

1. Randomly initialize a population of candidate solutions within the

search space.

2. Evaluate the fitness of each candidate.

3. Check for search termination criterion.

Page 37: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

2. METHODOLOGY 24

4. If termination criterion is not satisfied, rank the candidates according

to fitness and discard the bottom 50% population

5. Use the remaining (i.e. top 50%) solutions as “parents” to generate

new candidates. The new candidates are generated from the fittest

by the recombination operator.

6. The new solutions are further modified by the mutation operator, and

then used to refill the population of candidates.

7. The process from 4 to 6 repeats until the termination criterion is

met. The search can be terminated when the best solution obtained

exceeds a targeted value, or when the number of iterations exceeds a

pre-set limit.

The flow diagram in Figure 2.2 summarizes the algorithm.

For the codon optimization, it is natural to use the nucleotide coding

sequence as the “chromosome”, where each character triplet (codon) en-

codes an amino acid (Figure 2.3). Each solution will have a fitness score

associated with it. If multiple design objectives or constraints are consid-

ered, a vector containing the scores for each objective or constraint will be

used instead. The recombination and mutation operators are designed to

ensure that the encoded protein remains unchanged. The crossover point

during recombination is selected to only fall between codons, and mutation

only replaces in frame codons synonymously. Both operators adhere to the

host’s codon translation table when operating on the coding sequence.

2.2.3 Multi-objective optimization

In Section 2.2.1, multiple possible design objectives were discussed. In

most codon optimization projects, a main design criterion is specified such

Page 38: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

2. METHODOLOGY 25

Start

Generate initial

population

Evaluate fitness

Solution

sorting procedure

Crossover

Mutation

Check termination

Discard bottom

50% of solutions

Terminate after

max. iterations

Figure 2.2: Flow chart of the genetic algorithm (GA). A population ofsolutions is first randomly generated. The population is that iterativelymodified by biology inspired operators and improved through selection.Elitist selection is often employed to retain only the best known solutions.

Page 39: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

2. METHODOLOGY 26

A

T

G

C

C

T

A

C

A

A

T

C

G

G

A

···

T

C

C

T

T

G

T

A

A

F1

A

T

G

C

C

C

A

C

G

A

T

C

G

G

C

···

T

C

T

C

T

T

T

A

G

F2

A

T

G

C

C

G

A

C

T

A

T

A

G

G

T

···

A

G

C

C

T

A

T

A

A

F3

Solution Population

A

T

G

C

C

A

A

C

C

A

T

T

G

G

C

···

A

G

T

C

T

C

T

G

A

FN

«

A

T

G

C

C

G

A

C

T

A

T

A

G

G

T

···

A

G

C

C

T

A

T

A

A

A

T

G

C

C

A

A

C

C

A

T

T

G

G

C

···

A

G

T

C

T

C

T

G

A

A

T

G

C

C

G

A

C

T

A

T

A

G

G

T

···

A

G

C

C

T

A

T

A

A

A

T

G

C

C

A

A

C

C

A

T

T

G

G

C

···

A

G

T

C

T

C

T

G

A

Recombination

A

T

G

C

C

G

A

C

T

A

T

A

G

G

C

···

T

C

A

C

T

C

T

G

A

A

G

T

Mutation

A B C

Figure 2.3: Coding sequence representation in GA, and how recombinationand mutation operators modify solutions. A The N number of solutionsmake up the population pool. Each solution has a fitness score of Fi. Ifthere is more than one design objective, Fi is a vector that contains thefitness score of each design objective for the solution. B Two solutionsare randomly chosen, and recombination occurs at a randomly selectedpoint. The crossover point occurs between codons to preserve the translatedprotein sequence. C A codon is randomly mutated to another synonymouscodon at a randomly chosen position.

Page 40: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

2. METHODOLOGY 27

as ICU, CC, and CAI [36]. Alternatively, some projects only replace rare

codons, or alter codons to remove highly stable mRNA secondary structure.

Typically, one main design criterion is specified with other design criteria

implemented as constraints. Additional design criteria such as exclusion

sequences, repeats, and GC content may be specified.

To handle multiple design criteria within a single gene design, two ap-

proaches are possible. The first approach is to use the main design crite-

rion as the codon optimization objective with the additional criteria imple-

mented as constraints. For example, the CAI is specified as the main design

criterion with a constraint of 0 instances of exclusion sequences appearing

in the designed sequence. Such constraints can be handled through a soft

approach of using a penalty term, or a hard approach of rejecting potential

solutions that violate the constraint during the optimization search [84].

A second approach is to employ multi-objective optimization [44, 85].

All design criteria are equally considered within the optimization problem.

This approach allows the user to examine the tradeoff between different

objectives (Figure 2.4). This is especially useful when exploring multiple

main design objectives that are potentially conflicting. If two or more

objectives do not conflict with each other, this means that each of them

can be maximized without incurring any cost in another, thus achieving the

“ideal point”. On the other hand, if an improvement in one objective incurs

a cost in another, both objectives cannot be maximized simultaneously.

Therefore, the Pareto front marks the maximal achievable performance

among the objectives with different combinations of tradeoff. The solutions

on the Pareto front can only be improved in one objective at the cost of

at least one other objective. All other solutions not on the Pareto front

are said to be “dominated” by the solutions on the Pareto front. Therefore,

Page 41: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

2. METHODOLOGY 28

Ideal point

Individual Codon Fitness

Ind

ivid

ua

l C

od

on

Fit

ne

ss

CC optimal

ICU optimal

MO optimal

Pareto front

Figure 2.4: Pareto front for two design objectives. Ideal point denotes thesolution where maximum CC and ICU fitness is achieved; it may not bephysically achievable. CC optimal denotes the solution with maximumCC fitness. ICU optimal denotes the solution with maximum ICU fitness.MO optimal denotes the solution that compromises between ICU andCC fitness to minimize distance from the Ideal point. The Pareto frontdenote solutions that cannot be improved further in one objective withoutcompromise on at least one other objective.

the primary interest is on the non-dominated solutions on the Pareto front.

If the user seeks compromise between the objectives, the “Multi-objective

(MO) optimal point” (Figure 2.4) denotes the point that minimizes the

distance from “ideal point”.

The popularity of metaheuristics in solving optimization problems ex-

tend to multi-objective problems [86]. In particular, evolutionary algo-

rithms such as GA are regularly applied to solve multi-objective problems

in engineering [87, 88]. In this thesis, the multi-objective codon optimiza-

tion framework employs the nondominated sorting genetic algorithm - II

Page 42: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

2. METHODOLOGY 29

(NSGA-II) algorithm [44,89].

The NSGA-II algorithm is a GA based multi-objective optimization al-

gorithm [89]. The key feature of the algorithm for solving multi-objective

optimization problems is the sorting procedure (i.e. “fast non-dominated

sorting”) used to sort the solutions to be maintained as parents. For a

population P of N solutions, the solutions are ranked based on their dom-

ination. For solutions that are not dominated by any other solution, they

belongs to the first front. Among the remaining solutions, the solutions

that are not dominated by other solutions in the remaining pool, these

solutions belong to the second front. In this fashion, the solution popula-

tion can be assigned to a descending order of fronts that characterize their

domination. The eventual goal is to obtain a population of solutions that

belong to the first front, i.e. solutions that are not dominated by any other

solution.

To identify the first front, each solution first has two entities associated

during sorting, the domination count np which denotes the number of so-

lutions that dominate the solution p, and set Sp which denotes the set of

solutions that the solution p dominates. At the start of the ranking proce-

dure, all solutions have np = 0 and Sp = ∅. Each solution compared to all

other solutions in the population. If solution p dominates another solution

q, solution q is added to the set of solutions dominated by p; otherwise,

the domination counter of p is increased by one. At the end of compar-

isons, every solution with np = 0 (i.e. non-dominated) is assigned a rank

prank = 1 and placed inside the set F1. The populated set of F1 forms the

“first front”.

To generate the next front, the solutions in each Sp of the first “front”

are revisited and have their domination count np reduced by one. If any of

Page 43: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

2. METHODOLOGY 30

these solutions have a domination count of 0, they are assigned to a new

list Q which forms the second “front”. This procedure is then repeated

with the solutions in Q to identify the members of the third “front”. The

procedure ends when all fronts are identified. The pseudo code for the fast

non-dominated sorting procedure is given in Figure 2.5.

To differentiate between solutions within each domination front and

maintain diversity in the population, the solutions are assigned a density

metric through crowding distance estimation. For each set of solutions in

a front, the crowding distances of the solutions initialized to 0 and then

sorted by the scores for first objective function. The first and last solutions

are assigned an infinitely large crowding distance. This ensures that the

outward most solutions are preferably maintained within the population if

their domination rank is sufficiently high. For each of the remaining solu-

tions, a distance value of absolute normalized difference in function score

between the two adjacent solutions and added to the solution’s crowding

distance. This continues with the remaining objective function scores.

With the crowding distances computed, the solutions can be sorted by

comparing on two levels:

1. pi[a] dominates pj[b] (i-th rank < j-th rank), a goes before b

2. Or if i = j, and pi[a]distance > pi[b]distance, a goes before b

where pi[a] and pi[b] are solutions from the i-th front. In this fashion, the

solutions from a higher ranking front are preferred. To differentiate among

solutions in a single front, solutions from a lesser crowded region (with a

higher crowding distance) are preferred. This mechanism helps to maintain

solution diversity within the population.

The eventual goal is to obtain solutions that lie on the Pareto front

(Figure 2.4). As discussed previously, metaheuristic algorithms such as

Page 44: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

2. METHODOLOGY 31

for each p inside P doSp = ∅ ;np = 0 ;for each q inside P do

if p dominates q thenAdd q to Sp ;

else if if q dominates p thenIncrement domination counter of p by 1 ;

end

endif np = 0 then

prank = 1 ;Add p to F1 ;

end

endi = 1 ;while Fi = ∅ do

Q = ∅ ;for each p inside Fi do

for each q inside Sp donq = nq − 1 ;if nq = 0 then

qrank = i+ 1 ;Add q to Q ;

end

end

endi = i+ 1 ;Fi = Q ;

end

Figure 2.5: Non-dominated sorting procedure of NSGA-II. Solutions ofthe first non-dominated front are identified. Thereafter, the solutions inthe subsequent fronts are identified by examining the solutions which aredominated by the higher ranking front that has been identified.

Page 45: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

2. METHODOLOGY 32

l = number of solutions in i-th front Fi ;for each solution pi inside Fi do

di[j]distance = 0;endfor each objective m do

Fi = sort Fi by m ;di[1]distance = ∞ ;di[l]distance = ∞ ;for j = 2 to (l − 1) do

di[j]distance = di[j]distance +di[j+1]distance−di[j−1]distance

Fmaxm −Fmin

m

end

end

Figure 2.6: Crowding distance assignment for solutions in each front. Thedistance value computed for each objective is normalized by the maximumobjective score in the set Fmax

m , and the minimum objective score in the setFminm .

GA cannot guarantee global optimality. Therefore, the aim of the algo-

rithm is to approximate the Pareto front as closely as possible [90]. This

approximation is given by the final solutions in the first front identified by

the non-dominated procedure. For most practical optimization problems,

including codon optimization, the location of the Pareto front is usually not

known a priori, nor are the maximal achievable scores for each objective

function. Therefore, the GA search is terminated by a maximum num-

ber of iterations estimated by prior experience. This given an acceptable

approximation of the Pareto front within a reasonable time frame.

Page 46: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

Chapter 3

Establishing Reference Codon

Biases for Synthetic Gene

Design in Microbial and

Mammalian Cells

For this chapter, -omics based gene profiling data of industrially relevant

hosts were collected and examined for the establishment of reference codon

bias for the codon optimization of heterologous genes. It was found that

high expression genes identified by different -omics data in the studied

microbial hosts showed similar codon bias, despite differences in the iden-

tified genes. This was not the case for Chinese hamster ovary (CHO) cells,

a mammalian host, where the codon bias of high expression genes did not

show any consistently different bias from the genomic average.

This chapter has been published as“KS Ang, S Kyriakopoulos, W Li, DY

Lee, Multi-omics data driven analysis establishes reference codon biases for

synthetic gene design in microbial and mammalian cells, Methods, 102(1),

26-35, 2016”.

33

Page 47: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

3. ESTABLISHING REFERENCE CODON BIASES FOR SYNTHETICGENE DESIGN IN MICROBIAL AND MAMMALIAN CELLS 34

3.1 Abstract

In this chapter, we analyzed multi-omics data and subsets thereof to estab-

lish reference codon usage biases for codon optimization in synthetic gene

design. Specifically, publicly available genomic, transcriptomic, proteomic

and translatomic data for microbial and mammalian expression hosts, Es-

cherichia coli, Saccharomyces cerevisiae, Pichia pastoris and Chinese ham-

ster ovary (CHO) cells, were compiled to derive their individual codon and

codon pair frequencies. Then, host dependent and -omics specific codon

biases were generated and compared by principal component analysis and

hierarchical clustering. Interestingly, our results indicated the similar codon

bias patterns of the highly expressed transcripts, highly abundant proteins,

and efficiently translated mRNA in microbial cells, despite the general lack

of correlation between mRNA and protein expression levels. However, for

CHO cells, the codon bias patterns among various -omics subsets are not

distinguishable, forming one cluster. Thus, we further investigated the ef-

fects of different input codon biases on codon optimized sequences and

different design parameters of codon context (CC) and individual codon

usage (ICU), via an in silico case study on the expression of human IFN-γ

sequence in CHO cells. The results supported the argument that highly

expressed genes in CHO cells do not show a distinct codon bias pattern,

and supported that CC is a more robust design parameter than ICU for

improved heterologous gene design.

3.2 Introduction

Efficient expression of heterologous genes is one of the key challenges in

industrial biotechnology applications, where the goal is to enhance recom-

Page 48: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

3. ESTABLISHING REFERENCE CODON BIASES FOR SYNTHETICGENE DESIGN IN MICROBIAL AND MAMMALIAN CELLS 35

binant protein production. When natural genes are transformed into het-

erologous hosts, expression levels are typically poor, as the gene had evolved

towards efficient expression in its original organism. Thus, in order to over-

come this expression bottleneck, it is highly necessary to design synthetic

gene effectively, by identifying molecular and regulatory principles related

to protein translation and folding [35]. One general strategy for improv-

ing recombinant protein expression is codon optimization, as successfully

demonstrated in both microbial (Escherichia coli [91–93], Saccharomyces

cerevisiae [47, 94, 95], Pichia pastoris [96–98]) and mammalian cells (Chi-

nese hamster ovary cells, CHO [48,99,100]).

Basically, codon optimization considers the degeneracy of the genetic

code, i.e. that most proteinogenic amino acids (except for methionine and

tryptophan) are encoded by two to six codons, and the uneven usage of syn-

onymous codons by different hosts, termed as codon bias. For the codon op-

timization, codons of the heterologous target sequence to be expressed are

replaced with those preferred by the host [44]. As such, it can increase the

translation elongation rate of an mRNA molecule, which is one of the po-

tential bottlenecks for recombinant protein expression intracellularly [101].

To this end, researchers have developed several algorithms and tools to

optimize the DNA sequence of the recombinant protein [44, 102, 103], and

explored the relevant design parameters (e.g. codon adaptation index, CAI;

individual codon usage, ICU; codon context, CC [42,48,92]). However, little

attention has been paid to the choice of host’s reference codon bias that

has been commonly computed using all coding sequences from the host’s

genome, or subsets of genes (Figure 3.1).

This input bias pattern (or reference table) to the codon optimization,

clearly affects output sequences. Thus, it is important to establish appropri-

Page 49: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

3. ESTABLISHING REFERENCE CODON BIASES FOR SYNTHETICGENE DESIGN IN MICROBIAL AND MAMMALIAN CELLS 36

How to establish reference codon bias (individual codon & codon pair frequencies)?

TranslatomeOD254nm

polysomes

monosomes

Actively

translated

Poorly

translated

Sucrose gradient

ProteomeTranscriptome

DNA

gene

mRNA

NUCLEUS

Genome

Codon optimization algorithm

ATGAAGTACACCAGCTAC

ATCCTGGCCTTCCAGCTG

TGCATCGTGCTGGGGAGC

CTGGGCTACACCATG

Wild type sequence

ATGAAATATACAAGTTAT

ATCTTGGCTTTTCAGCTC

TGCATCGTTTTGGGTTCT

CTTGGCTATACAATG

Optimized sequenceDesign parameters

(CAI, CC, ICU)

Figure 3.1: The general codon optimization strategy. Inputs to the codonoptimization include the heterologous gene (left) to be expressed in a certainhost and the codon usage reference of the host (top). Selecting appropriatedesign parameters (bottom) is also an essential part of the algorithmicprocess. The output (right) is an optimized sequence, where the codons ofthe heterologous target sequence to be expressed are replaced with thosepreferred by the host. In the upper part of the figure, the multi-omicsdatasets (genome, transcriptome, translatome, proteome) used in this studyto calculate relevant codon usage biases are also depicted. CAI, codonadaptation index; CC, codon context; ICU, individual codon usage.

Page 50: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

3. ESTABLISHING REFERENCE CODON BIASES FOR SYNTHETICGENE DESIGN IN MICROBIAL AND MAMMALIAN CELLS 37

ate reference bias representing the host’s preferred codon usage pattern. In

microbial cells, typically the sequences of highly expressed genes (as identi-

fied in the transcriptome) or the genome are used to calculate the codon us-

age reference of the host. Similarly, in mammalian cells and specifically the

workhorse for biopharmaceutical glycoprotein production, CHO cells [104],

the transcriptome data have been exploited mainly due to the data abun-

dancy [48]. However, the need to cross-validate these results with other

-omics datasets recently available with the enhancement of more sophis-

ticated experimental and analytical techniques (e.g. proteome and trans-

latome), is apparent due to the weak correlation between gene transcripts

and protein abundance, which has been consistently reported [55].

In this study, we assessed multi-omics datasets and subsets thereof for

various host cells in order to identify the most appropriate codon bias refer-

ence for codon optimization in synthetic gene design. Initially, we collected

the genome, transcriptome, translatome and proteome datasets and ex-

tracted relevant subsets from four expression hosts: E. coli, S. cerevisiae,

P. pastoris and CHO cells (Figure 3.2). Subsequently, the resultant codon

biases generated from the various -omics datasets were compared and con-

trasted using principal component analysis and hierarchical clustering. Fi-

nally, we investigated the effect of the codon bias inputs and design pa-

rameters (ICU and CC) on the codon optimized sequences via a case study

with the human interferon-gamma (IFN-γ) sequence in CHO cells.

Page 51: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

3. ESTABLISHING REFERENCE CODON BIASES FOR SYNTHETICGENE DESIGN IN MICROBIAL AND MAMMALIAN CELLS 38

Translatome

OD254nm

polysomes

monosomes

Actively

translated

Poorly

translated

Sucrose gradient

ProteomeTranscriptome

DNA

gene

mRNA

NUCLEUS

Genome-omicsdata

for4

organisms

Subset

-omics

data

sets

Translatome

top10*

Transcriptome

top10

Proteome

top10

Transcriptome

low10

Genome

(global)

Proteome

low10

Calculation

ofcodon

frequency

Compare

codonbias

patterns

Individual

codon

frequency

Codon

pair

frequency

Principal

component

analysis

Hierarchical

clustering

Figure 3.2: Generating reference codon biases from multi-omics data. Multi-omics data are employed for four organisms (E. coli, S. cerevisiae, P. pas-toris, CHO cells). Subsequently, the datasets were segregated into top 10%expressed sequences (top10) and lowest 10% expressed sequences (low10),where applicable. The individual codon and codon pair frequencies are thencalculated for all the datasets and organisms. Finally, the codon bias pat-terns of the relevant -omics datasets are assessed using principal componentanalysis and hierarchical clustering.*Note that the translatome top10 dataset refers to polysome bound se-quences in [105] for CHO cells, while for P. pastoris this dataset was notconsidered. low10, lowest 10% expressed sequences; top10, highest 10%expressed sequences.

Page 52: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

3. ESTABLISHING REFERENCE CODON BIASES FOR SYNTHETICGENE DESIGN IN MICROBIAL AND MAMMALIAN CELLS 39

3.3 Material and methods

3.3.1 Multi-omics data sets for generating reference

codon biases

We collected multi-omics datasets for various microbial and mammalian

host cells, E. coli, S. cerevisiae, P. pastoris, and CHO cells to calculate

the codon bias patterns of the respective gene subsets. They include the

genome, transcriptome, translatome and proteome providing various snap-

shots of translational efficiency and control, as well as global gene expression

levels. The information on the datasets is summarized in Table 3.1. Note

that translatome data for P. pastoris is not included due to the difficulty

to process the raw data available in [106].

The gene lists of the -omics dataset were used to extract the correspond-

ing coding sequences to calculate their respective codon biases. The genes

in each available -omics dataset were also divided into subsets of top 10%

expression and 10% lowest expression to calculate their respective codon bi-

ases. For the CHO translatome (CHO transl. hi), the list of translationally

efficient CHO genes was obtained directly from [105].

3.3.2 Calculating reference codon biases from multi-

omics datasets

The individual codon and codon pair frequency tables for expression hosts

were computed from each -omics dataset provided in Table 3.1. The com-

putation of individual codon and codon pair distribution distribution has

been described in Chapter 2.

Page 53: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

3. ESTABLISHING REFERENCE CODON BIASES FOR SYNTHETICGENE DESIGN IN MICROBIAL AND MAMMALIAN CELLS 40

Tab

le3.1:

Detailson

the-omicsdatasetsusedin

thecurrentstudy.

Organ

ism

Strain[product]

-omicsdataset

Number

ofsequences

Medium

used

Ref.

E.coli

K-12MG1655

[NA]

Genom

e4129

NA

[107]

K-12MG1655

[NA]

Transcriptome

3963

M9medium

withglucose

[108]

K-12MG1655

[NA]

Translatom

e2368

MOPSwithglucose

[109]

K-12(isolate

BW

25113)

[NA]

Proteom

e2614

M9medium

(0.25mg/mlof

lysine)

[110]

S.cerevisiae

S288C

[NA]

Genom

e5917

NA

[111]

sigm

a1278bgp

p-(A

TCC

No.

201388)[N

A]

Transcriptome

5369

YEPD

[112]

BY4741

(MATahis3leu2met15

ura3)

[NA]

Translatom

e5594

YEPD

[113]

BY4741

(ATCC

No.

201388)[N

A]

Proteom

e3850

YEPD

[114]

P.pastoris

GS115[N

A]

Genom

e5040

NA

[115]

GS115[N

A]

Transcriptome

5029

Basal

saltmedium

with

methan

ol[116]

GS115(A

TCC

No.

20864)

[NA]

Proteom

e3914

YEPD

withad

eninesulphate

[117]

Chinese

ham

ster

ovarycells

CHO-K

1(A

TCC

No.

CCL-61)

[NA]

Genom

e61208

NA

[118]

CHO-K

1(suspension

adap

ted)[N

A]

Transcriptome

17472

protein

free

andchem

ically

defined

commercial

media

mixture

[48]

CHO-D

G44

[mAb]

Translatom

e395†

proprietaryprotein

free

and

chem

ically

defined

medium

[105]

CHO-K

1(A

TCC

Catalog

No.

CCL-61)

[NA]

Proteom

e6058

F-12K

medium

supplemented

withserum

[119]

ATCC

No.,

American

TypeCulture

Collectioncatalognumber;CHO,Chinesehamster

ovary;mAb,monoclonalantibody;M

OPS,3-(N-

Morpholino)propan

esulfon

icacid;NA,not

applicable;Ref.,reference;YEPD,yeast

extract

peptonedextrose.

∗Notethat

tran

slatom

edatacould

not

beextractedforP.pastoris.

† Sequencesfoundto

bebou

ndon

polysomes

aretakeninto

considerationhererather

thanthetotaltranslatomeasoccurs

forE.coli

andS.

cerevisiae.

Page 54: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

3. ESTABLISHING REFERENCE CODON BIASES FOR SYNTHETICGENE DESIGN IN MICROBIAL AND MAMMALIAN CELLS 41

3.3.3 Principal component analysis and hierarchical

clustering for comparing reference codon biases

Principal component analysis (PCA) and hierarchical clustering were used

to assess the codon bias patterns calculated from the -omics datasets em-

ployed in this study. PCA was conducted using the R software environ-

ment [120]. The Pvclust package in R was used for assessing the uncertainty

in hierarchical clustering [121], using a bootstrap sample size of 1000, av-

erage method and correlation-based dissimilarity matrix for computing the

distance between the different datasets (see relevant package for the details

on the calculation of the correlation-based dissimilarity matrix).

3.3.4 Codon optimization of IFN-γ sequence

We codon optimized the sequence of human interferon gamma (IFN-γ) in

CHO cells based on various reference codon biases [44]. The formulation

of the codon optimization problem and optimization algorithm employed

have been discussed in Chapter 2. The codon optimization was performed

using a population size of 500 and was executed for 10000 iterations.

The IFN-γ sequence was optimized to the ICU and CC objectives sep-

arately using the codon bias generated from each -omics dataset. All re-

sulting sequences were compared against experimentally verified sequences

from a previous work [48]. Note that the experimentally verified sequences

were codon optimized based on the codon biases from gene subsets of the

CHO transcriptome which was divided into three subsets: top 10% ex-

pressed (transcr. top10 ), bottom 10% expressed (transcr. low10 ), and the

remaining moderate 80% (transcr. mo80 ). All optimized sequences were

compared against each other by scanning along the sequence on a codon

Page 55: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

3. ESTABLISHING REFERENCE CODON BIASES FOR SYNTHETICGENE DESIGN IN MICROBIAL AND MAMMALIAN CELLS 42

by codon basis. The score is incremented by one for each matching codon.

The final score is then normalized by the total number of codons in the

sequence to give the percentage similarity. The resulting similarity values

are collected into a matrix.

3.4 Results and discussion

3.4.1 Generating reference codon biases from multi-

omics datasets for expression hosts

We first compiled multi-omics datasets for four expression hosts and ex-

tracted their respective gene lists. For each host, the subsets of genes with

top 10% and bottom 10% expression at transcriptome, translatome and

proteome levels were generated together with the global gene set from the

genome. In many applications, the codon usage biases of the highly ex-

pressed genes are used as inputs to codon optimization. However, it is

accepted that the correlation between mRNA and protein abundances in

the cell is poor [55], which is also confirmed by the current datasets clearly

showing small overlap among the subsets of highly expressed genes at differ-

ent -omics levels (Figure 3.3). For example, in P. pastoris and E. coli only

about 28.2% and 3.8% of the highly expressed genes are consistently identi-

fied between any two of -omics data sets, respectively, although this overlap

is higher in S. cerevisiae (55.9%). It should be noted that the amount of

overlap between the CHO derived -omics datasets is even lower than other

hosts (3.6%), mainly due to the relatively smaller sizes of high expression

proteome dataset and translationally efficient genes (translatome), com-

pared with highly expressed transcripts. Again, the lack of commonality

among the highly expressed gene lists of each host is unsurprising, given

Page 56: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

3. ESTABLISHING REFERENCE CODON BIASES FOR SYNTHETICGENE DESIGN IN MICROBIAL AND MAMMALIAN CELLS 43

A B

C D

1

1366

333

582

5921

2

44

261

127

93

3793

32

97

212

342119

108138

33

468471 36

P. p. transcr. top10

(total=507)

P. p. prot. top10

(total=504)

CHO transcr. top10

(total=1447)

CHO prot. top10

(total=606)CHO transl. hi

(total=395)

E. c. transcr. top10

(total=435)

E. c. prot. top10

(total=262)

E. c. transl. top10

(total=240)

S. c. transcr. top10

(total=555)

S. c. prot. top10

(total=387)

S. c. transl. top10

(total=580)

Figure 3.3: Venn diagrams of top 10% expressed genes (as identified intranscriptome), proteins (as identified in proteome) and genes bound topolysomes (as identified in translatome) in the relevant hosts: A E. coli (E.c.), B S. cerevisiae (S. c.), C P. pastoris (P. p.) and D Chinese hamsterovary (CHO) cells.CHO, Chinese hamster ovary cells; CHO transl. hi, refers to CHO cellssequences identified bound on polysomes in [13]; E. c., Escherichia coli ;low10, lowest 10% expressed sequences; P. p.: Pichia pastoris ; prot.,proteome; S. c., Saccharomyces cerevisiae; top10, highest 10% expressedsequences, transcr., transcriptome; transl., translatome.

the low correlation between transcripts and proteins, consistently reported

in a number of studies for different organisms [55]. This motivated us to

further investigate the codon usage patterns generated from various -omics

datasets.

Using such host dependent and -omics specific gene sets, we calculated

their respective frequency tables in terms of individual codons and codon

pairs (see Materials and methods). For each host (Esherichia coli, E.c.;

Saccharomyces cerevisiae, S.c.; Pichia pastoris, P.p. and Chinese hamster

Page 57: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

3. ESTABLISHING REFERENCE CODON BIASES FOR SYNTHETICGENE DESIGN IN MICROBIAL AND MAMMALIAN CELLS 44

ovary cells, CHO), the subsets of genes with top 10% highest (top10 ) and

10% lowest (low10 ) expression at transcriptome (transcr. top10 and tran-

scr. low10 ) and proteome (prot. top10 and prot. low10 ) levels, as well as the

top 10% genes identified in translatome (transl. top10 ) were considered to

generate respective codon frequency tables (Figure 3.4 and Appendix A.1).

For example, the transl. top10 dataset for E. coli indicates the codon fre-

quency obtained by counting the individual codon or codon pairs of the top

10% genes identified in the E. coli translatome study [109]. The codon bias

of the whole genome sequences was also considered as the global/average

codon usage pattern.

Both individual codon and codon pair frequency tables computed for

all four hosts are provided in Figure 3.4 and Appendix A.1 respectively,

which can be utilized as the reference codon bias for codon optimization.

For E. coli, S. cerevisiae, and P. pastoris, we found similar codon bias

patterns among the high expression genes at transcriptome, translatome,

and proteome levels, which are, however, different from that of the genome

and other datasets. For CHO cells, such distinctive pattern could not be

easily detected by visual inspection due to the multidimensional nature

of the data (multi-omics vs hosts vs expression levels). Thus, in order to

objectively and effectively compare and contrast various reference codon

biases, we employed principal component analysis (PCA) and hierarchical

clustering to reduce data dimensionality and separate the data points based

on data covariance (see Materials and methods).

Page 58: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

3. ESTABLISHING REFERENCE CODON BIASES FOR SYNTHETICGENE DESIGN IN MICROBIAL AND MAMMALIAN CELLS 45

genome

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genome

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genome

transcr.top10

transcr.low10

prot.top10

prot.low10

genome

transcr.top10

transcr.low10

transl.hi*

prot.top10

prot.low10

* TAA 0.65 0.81 0.57 0.81 0.80 0.64 0.47 0.66 0.48 0.53 0.67 0.46 0.40 0.48 0.41 0.51 0.38 0.28 0.35 0.28 0.31 0.38 0.25

* TAG 0.07 0.04 0.08 0.00 0.03 0.07 0.23 0.16 0.24 0.23 0.14 0.24 0.34 0.36 0.31 0.38 0.32 0.23 0.24 0.28 0.22 0.21 0.24

* TGA 0.28 0.15 0.34 0.18 0.17 0.29 0.30 0.18 0.28 0.23 0.19 0.30 0.26 0.16 0.29 0.11 0.30 0.49 0.41 0.44 0.47 0.41 0.51

A GCA 0.21 0.24 0.19 0.23 0.23 0.21 0.30 0.18 0.31 0.24 0.16 0.34 0.28 0.18 0.30 0.13 0.32 0.26 0.25 0.23 0.27 0.24 0.28

A GCC 0.27 0.21 0.31 0.22 0.20 0.28 0.22 0.26 0.22 0.24 0.27 0.20 0.24 0.30 0.24 0.31 0.22 0.36 0.35 0.41 0.34 0.36 0.34

A GCG 0.36 0.32 0.36 0.31 0.32 0.36 0.11 0.06 0.13 0.08 0.04 0.13 0.08 0.04 0.08 0.02 0.09 0.06 0.07 0.07 0.06 0.07 0.05

A GCT 0.16 0.24 0.13 0.23 0.25 0.15 0.37 0.50 0.34 0.44 0.52 0.34 0.40 0.48 0.38 0.53 0.37 0.31 0.32 0.29 0.32 0.33 0.32

C TGC 0.56 0.58 0.61 0.65 0.61 0.54 0.38 0.24 0.41 0.30 0.20 0.39 0.38 0.32 0.39 0.27 0.40 0.48 0.49 0.54 0.49 0.49 0.46

C TGT 0.44 0.42 0.39 0.35 0.39 0.46 0.62 0.76 0.59 0.70 0.80 0.61 0.62 0.68 0.61 0.73 0.60 0.52 0.51 0.46 0.51 0.51 0.54

D GAC 0.37 0.47 0.40 0.45 0.48 0.35 0.35 0.39 0.39 0.36 0.42 0.32 0.38 0.48 0.37 0.51 0.35 0.52 0.49 0.56 0.48 0.49 0.49

D GAT 0.63 0.53 0.60 0.55 0.52 0.65 0.65 0.61 0.61 0.64 0.58 0.68 0.62 0.52 0.63 0.49 0.65 0.48 0.51 0.44 0.52 0.51 0.51

E GAA 0.69 0.73 0.67 0.75 0.75 0.68 0.70 0.79 0.68 0.75 0.81 0.69 0.59 0.50 0.61 0.49 0.61 0.45 0.46 0.39 0.46 0.43 0.48

E GAG 0.31 0.27 0.33 0.25 0.25 0.32 0.30 0.21 0.32 0.25 0.19 0.31 0.41 0.50 0.39 0.51 0.39 0.55 0.54 0.61 0.54 0.57 0.52

F TTC 0.43 0.60 0.42 0.58 0.63 0.41 0.41 0.53 0.41 0.46 0.57 0.37 0.42 0.54 0.41 0.58 0.39 0.52 0.50 0.60 0.49 0.51 0.50

F TTT 0.57 0.40 0.58 0.42 0.37 0.59 0.59 0.47 0.59 0.54 0.43 0.63 0.58 0.46 0.59 0.42 0.61 0.48 0.50 0.40 0.51 0.49 0.50

G GGA 0.11 0.06 0.10 0.05 0.05 0.11 0.23 0.10 0.26 0.16 0.07 0.27 0.36 0.30 0.38 0.27 0.38 0.28 0.27 0.25 0.28 0.26 0.30

G GGC 0.41 0.44 0.43 0.44 0.42 0.41 0.20 0.13 0.22 0.17 0.12 0.20 0.16 0.12 0.16 0.10 0.16 0.30 0.31 0.33 0.30 0.31 0.28

G GGG 0.15 0.08 0.16 0.09 0.07 0.17 0.12 0.06 0.14 0.09 0.05 0.14 0.12 0.07 0.14 0.04 0.14 0.23 0.21 0.25 0.23 0.20 0.23

G GGT 0.34 0.43 0.30 0.42 0.46 0.32 0.46 0.71 0.39 0.59 0.75 0.39 0.36 0.51 0.32 0.60 0.32 0.19 0.22 0.17 0.19 0.22 0.20

H CAC 0.43 0.58 0.44 0.56 0.60 0.43 0.36 0.44 0.37 0.38 0.47 0.34 0.38 0.52 0.36 0.61 0.36 0.54 0.54 0.60 0.52 0.55 0.52

H CAT 0.57 0.42 0.56 0.44 0.40 0.57 0.64 0.56 0.63 0.62 0.53 0.66 0.62 0.48 0.64 0.39 0.64 0.46 0.46 0.40 0.48 0.45 0.48

I ATA 0.07 0.03 0.05 0.02 0.02 0.07 0.28 0.12 0.31 0.19 0.09 0.33 0.24 0.12 0.26 0.07 0.27 0.18 0.14 0.14 0.17 0.11 0.19

I ATC 0.42 0.56 0.44 0.55 0.57 0.40 0.26 0.35 0.26 0.30 0.38 0.23 0.30 0.39 0.28 0.42 0.27 0.46 0.46 0.54 0.43 0.48 0.42

I ATT 0.51 0.41 0.50 0.43 0.41 0.53 0.46 0.53 0.43 0.51 0.53 0.44 0.47 0.49 0.45 0.51 0.46 0.37 0.40 0.32 0.40 0.41 0.39

K AAA 0.77 0.78 0.77 0.82 0.79 0.76 0.58 0.44 0.59 0.54 0.40 0.62 0.52 0.35 0.56 0.31 0.56 0.43 0.40 0.37 0.43 0.38 0.46

K AAG 0.23 0.22 0.23 0.18 0.21 0.24 0.42 0.56 0.41 0.46 0.60 0.38 0.48 0.65 0.44 0.69 0.44 0.57 0.60 0.63 0.57 0.62 0.54

L CTA 0.04 0.02 0.04 0.01 0.02 0.04 0.14 0.12 0.14 0.13 0.12 0.15 0.12 0.09 0.13 0.07 0.13 0.09 0.08 0.08 0.09 0.08 0.09

L CTC 0.10 0.09 0.12 0.09 0.08 0.11 0.06 0.03 0.08 0.04 0.02 0.06 0.08 0.08 0.09 0.06 0.08 0.18 0.18 0.21 0.17 0.17 0.17

L CTG 0.50 0.65 0.50 0.66 0.69 0.48 0.11 0.07 0.13 0.09 0.06 0.11 0.15 0.17 0.15 0.17 0.15 0.37 0.36 0.42 0.35 0.40 0.34

L CTT 0.10 0.08 0.10 0.08 0.08 0.10 0.13 0.09 0.14 0.11 0.07 0.14 0.17 0.16 0.18 0.14 0.18 0.15 0.15 0.12 0.15 0.14 0.16

L TTA 0.13 0.07 0.12 0.08 0.06 0.14 0.28 0.27 0.26 0.29 0.26 0.29 0.18 0.14 0.18 0.13 0.19 0.08 0.08 0.05 0.09 0.06 0.09

L TTG 0.13 0.09 0.13 0.07 0.08 0.13 0.28 0.42 0.26 0.34 0.46 0.26 0.29 0.36 0.28 0.42 0.27 0.14 0.15 0.12 0.15 0.15 0.15

N AAC 0.55 0.71 0.58 0.68 0.73 0.51 0.40 0.53 0.40 0.45 0.58 0.37 0.47 0.61 0.46 0.67 0.43 0.52 0.53 0.57 0.51 0.54 0.50

N AAT 0.45 0.29 0.42 0.32 0.27 0.49 0.60 0.47 0.60 0.55 0.42 0.63 0.53 0.39 0.54 0.33 0.57 0.48 0.47 0.43 0.49 0.46 0.50

P CCA 0.19 0.17 0.18 0.20 0.17 0.20 0.41 0.58 0.38 0.48 0.61 0.37 0.38 0.46 0.38 0.49 0.36 0.31 0.30 0.30 0.32 0.30 0.34

P CCC 0.12 0.06 0.15 0.06 0.05 0.14 0.16 0.09 0.18 0.12 0.08 0.17 0.18 0.14 0.19 0.11 0.19 0.28 0.29 0.32 0.26 0.29 0.26

P CCG 0.53 0.63 0.53 0.61 0.65 0.50 0.12 0.05 0.13 0.09 0.04 0.14 0.10 0.07 0.11 0.04 0.11 0.07 0.08 0.07 0.07 0.08 0.06

P CCT 0.16 0.13 0.14 0.12 0.13 0.17 0.31 0.28 0.31 0.31 0.27 0.31 0.34 0.34 0.32 0.36 0.33 0.33 0.33 0.30 0.34 0.33 0.34

Q CAA 0.35 0.28 0.34 0.28 0.25 0.38 0.69 0.81 0.65 0.74 0.83 0.67 0.60 0.61 0.61 0.64 0.61 0.28 0.27 0.26 0.27 0.24 0.29

Q CAG 0.65 0.72 0.66 0.72 0.75 0.62 0.31 0.19 0.35 0.26 0.17 0.33 0.40 0.39 0.39 0.36 0.39 0.72 0.73 0.74 0.73 0.76 0.71

R AGA 0.03 0.02 0.02 0.02 0.01 0.04 0.48 0.61 0.43 0.54 0.66 0.44 0.46 0.54 0.46 0.61 0.43 0.24 0.24 0.21 0.23 0.20 0.26

R AGG 0.02 0.01 0.02 0.01 0.00 0.02 0.21 0.11 0.22 0.17 0.09 0.24 0.18 0.10 0.19 0.06 0.20 0.23 0.21 0.24 0.21 0.17 0.23

R CGA 0.06 0.02 0.06 0.02 0.02 0.07 0.07 0.01 0.09 0.03 0.01 0.09 0.12 0.07 0.12 0.03 0.14 0.13 0.14 0.11 0.15 0.14 0.13

R CGC 0.40 0.38 0.46 0.42 0.37 0.41 0.06 0.03 0.07 0.05 0.03 0.06 0.05 0.05 0.05 0.03 0.05 0.14 0.15 0.17 0.13 0.17 0.12

R CGG 0.10 0.03 0.11 0.04 0.03 0.11 0.04 0.01 0.05 0.02 0.01 0.05 0.05 0.03 0.06 0.01 0.06 0.17 0.16 0.18 0.18 0.18 0.17

R CGT 0.38 0.55 0.33 0.50 0.57 0.35 0.14 0.22 0.13 0.19 0.21 0.12 0.14 0.22 0.12 0.25 0.11 0.09 0.10 0.09 0.10 0.12 0.09

S AGC 0.28 0.26 0.27 0.30 0.26 0.27 0.11 0.07 0.13 0.09 0.06 0.12 0.10 0.08 0.11 0.06 0.11 0.22 0.22 0.25 0.21 0.21 0.21

S AGT 0.15 0.09 0.14 0.09 0.07 0.16 0.16 0.11 0.19 0.14 0.10 0.17 0.16 0.12 0.16 0.09 0.17 0.17 0.17 0.16 0.18 0.17 0.18

S TCA 0.12 0.08 0.12 0.08 0.07 0.12 0.21 0.16 0.21 0.19 0.14 0.22 0.21 0.17 0.22 0.14 0.22 0.16 0.15 0.14 0.16 0.15 0.17

S TCC 0.15 0.22 0.16 0.21 0.23 0.14 0.16 0.23 0.14 0.19 0.25 0.14 0.17 0.24 0.17 0.27 0.16 0.20 0.20 0.23 0.19 0.21 0.19

S TCG 0.16 0.11 0.18 0.09 0.10 0.17 0.10 0.07 0.11 0.08 0.06 0.10 0.09 0.08 0.09 0.06 0.10 0.04 0.04 0.04 0.04 0.04 0.03

S TCT 0.15 0.24 0.12 0.23 0.27 0.14 0.26 0.37 0.23 0.31 0.40 0.24 0.26 0.32 0.25 0.39 0.24 0.21 0.22 0.19 0.22 0.23 0.22

T ACA 0.13 0.08 0.11 0.09 0.07 0.13 0.31 0.21 0.33 0.26 0.19 0.34 0.28 0.19 0.28 0.14 0.30 0.32 0.31 0.30 0.33 0.30 0.34

T ACC 0.44 0.50 0.47 0.50 0.51 0.42 0.21 0.29 0.21 0.24 0.31 0.18 0.24 0.32 0.23 0.35 0.21 0.32 0.33 0.37 0.31 0.34 0.30

T ACG 0.27 0.17 0.28 0.19 0.17 0.29 0.14 0.07 0.15 0.10 0.06 0.15 0.12 0.07 0.12 0.05 0.13 0.08 0.08 0.08 0.08 0.08 0.07

T ACT 0.16 0.24 0.13 0.23 0.25 0.15 0.34 0.43 0.31 0.39 0.44 0.33 0.36 0.41 0.36 0.45 0.35 0.27 0.28 0.25 0.28 0.28 0.29

V GTA 0.15 0.18 0.14 0.19 0.18 0.15 0.22 0.11 0.24 0.16 0.09 0.25 0.18 0.12 0.19 0.10 0.19 0.13 0.13 0.11 0.14 0.12 0.15

V GTC 0.22 0.16 0.24 0.17 0.16 0.23 0.20 0.28 0.21 0.24 0.30 0.17 0.22 0.28 0.22 0.31 0.20 0.23 0.22 0.27 0.21 0.23 0.23

V GTG 0.37 0.30 0.40 0.31 0.30 0.38 0.19 0.13 0.21 0.15 0.11 0.21 0.22 0.17 0.23 0.13 0.22 0.44 0.44 0.47 0.44 0.45 0.41

V GTT 0.26 0.35 0.22 0.34 0.36 0.24 0.39 0.48 0.34 0.45 0.50 0.38 0.39 0.43 0.37 0.47 0.39 0.19 0.21 0.16 0.22 0.20 0.22

Y TAC 0.43 0.57 0.44 0.55 0.56 0.43 0.43 0.55 0.46 0.48 0.59 0.40 0.49 0.61 0.48 0.68 0.46 0.53 0.53 0.59 0.51 0.52 0.52

Y TAT 0.57 0.43 0.56 0.45 0.44 0.57 0.57 0.45 0.54 0.52 0.41 0.60 0.51 0.39 0.52 0.32 0.54 0.47 0.47 0.41 0.49 0.48 0.48

Chinese hamster ovary cells

AA Codon

Escherichia coli Saccharomyces cerevisiae Pichia pastoris

Figure 3.4: Individual codon frequency table for the common hosts and-omics datasets. Note that methionine and tryptophan are not presented,as they correspond to only one codon. Also, note that color coding is nor-malised per each amino acid.* denotes the stop codon; low10, lowest 10% expressed sequences; prot.,proteome; top10, highest 10% expressed sequences, transcr., transcrip-tome; transl., translatome; transl. hi*, refers to sequences identifiedbound on polysomes in [48] for CHO cells.

Page 59: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

3. ESTABLISHING REFERENCE CODON BIASES FOR SYNTHETICGENE DESIGN IN MICROBIAL AND MAMMALIAN CELLS 46

3.4.2 Comparing reference codon biases from -omics

datasets for various expression hosts

Figure 3.5A presents the PCA plot of the individual codon biases derived

based on various -omics datasets and expression hosts, clearly showing three

major clusters, where S. cerevisiae and P. pastoris are grouped in one

cluster, and each of two others is formed by E. coli and CHO cells. Thus,

we confirmed the unique codon bias pattern of each organism. In addition,

the similar codon bias shared by two yeasts, S. cerevisiae and P. pastoris,

may be explained by their phylogenetic closeness compared to prokaryotic

bacterium, E. coli, and mammalian CHO cells. Remarkably, we observed

that the codon biases from the relevant gene subsets to the highly expressed

transcripts (transcr. top10 ), highly abundant proteins (prot. top10 ), and

efficiently translated mRNA (transl. low10 ), consistently form a distinct

sub-cluster far away from the other biases (genome and low expression

gene subsets) for all microbial hosts. This result is, indeed, interesting,

considering the relatively weak correlation among high expression datasets

at different -omics levels as discussed before (Figure 3). However, for CHO

cells, such segregation was not identified: the codon biases of the CHO gene

subsets are highly similar, except for the 10% lowest expressed transcript

(as identified in transcriptome, CHO transcr. low10 ) which appears to be

separate from the other datasets. These results are further validated and

even better visualized in the hierarchical clustering plot of the individual

codon biases for the relevant -omics datasets and hosts (Figure 3.5B).

When the codon pair frequency is considered (Figure 3.6), similar sepa-

ration of the hosts and similar sub-clusters for high expression gene sets in

microbial hosts are obtained. For codon pair frequencies in CHO cells, the

Page 60: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

3. ESTABLISHING REFERENCE CODON BIASES FOR SYNTHETICGENE DESIGN IN MICROBIAL AND MAMMALIAN CELLS 47

S.c.transcr.low10

E.c.genome

E.c.transl.top10

E.c.transcr.top10

***

E.c.prot.top10

*** * ********

E.c.prot.low10

E.c.transcr.low10

CHOgenome

CHOtransl.hi

CHOtranscr.top10

CHOprot.top10

CHOprot.low10

CHOtranscr.low10

***

S.c.genome

S.c.transcr.top10

S.c.prot.top10

S.c.prot.low10

P.p.genome

P.p.transcr.top10

P.p.prot.top10

P.p.prot.low10

P.p.transcr.low10

**

*********

S.c.transl.top10

***

S. c. transcr. top10S. c. prot. top10

S. c. transl. top10

S. c. transcr. low10

S. c. genomeS. c. prot. low10

P. p. transcr. top10

P. p. prot. top10

P. p. transcr. low10P. p. prot. low10P. p. genome

CHO prot. low10

CHO transl. hi

CHO genomeCHO prot. top10

CHO transcr. top10

CHO transcr. low10

A

B

E. c. transl. top10

E. c. prot. top10E. c. transcr. top10

E. c. transcr. low10

E. c. prot. low10

E. c. genome

***

Figure 3.5: Assessment of codon bias patterns when individual codon fre-quency of -omics datasets is taken into consideration. A Principal compo-nent analysis plot. B Hierarchical clustering of -omics datasets and theirsubsets. P -values denote the probability of forming a cluster for the var-ious -omics datasets analyzed (***, p-value< 0.001; **, p-value< 0.01; *,p-value< 0.05). No statistical significance is apparent for clusters denotedwithout an asterisk.CHO, Chinese hamster ovary cells; CHO transl. hi, refers to sequencesidentified bound on polysomes in [105]; E. c., Escherichia coli ; low10,lowest 10% expressed sequences; mo80, moderate 80% expressed; P. p.:Pichia pastoris; prot., proteome; S. c., Saccharomyces cerevisiae; top10,highest 10% expressed sequences, transcr., transcriptome; transl., trans-latome.

Page 61: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

3. ESTABLISHING REFERENCE CODON BIASES FOR SYNTHETICGENE DESIGN IN MICROBIAL AND MAMMALIAN CELLS 48

10% lowest expressed genes (as in the individual codon frequency plot, CHO

transcr. low10 ) and the top 10% expressed proteins (CHO prot. low10 )

appear to present codon usage that is different from the other datasets,

although the separation is not as clear as the high expression gene sub-

sets in the microbial hosts. In summary, our results support the common

practice of using highly expressed genes from transcriptome or proteome

data to generate reference codon biases in terms of both individual codons

and codon pairs for the heterologous gene design in microbial cells [35]. It

should be highlighted that similar argument can be applied to translation-

ally efficient genes which can be identified using translatome data.

With the exception of S. cerevisiae, the culture media used are not

identical for different -omics datasets, which may explain the lack of overlap

among the -omics data derived gene lists in Figure 3.3. Nonetheless, the

highly expressed genes identified using different -omics datasets for the

microbial hosts present similar codon biases that are distinct from their

respective genomic averages (Figure 3.4). This suggests that microbial hosts

with particular preferred codon biases have evolved such that their high

expression genes under different conditions share the same host specific

codon bias. For CHO cells, it is unclear if the data heterogeneity contributed

to the high expression gene subsets not presenting a distinct codon bias

from the genomic average. Thus, if the analysis is restricted to comparisons

among individual -omics datasets, the codon biases of the high expression

gene subsets do not appear to differ significantly from the low expression

subset or genomic average, in contrast to the microbial hosts (Figure 3.4).

This supports the argument that the high expression genes in CHO do not

present codon bias distinct from the genomic average. Interestingly, the

same argument is applicable to the different CHO cell lines. Even though

Page 62: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

3. ESTABLISHING REFERENCE CODON BIASES FOR SYNTHETICGENE DESIGN IN MICROBIAL AND MAMMALIAN CELLS 49

S.c.prot.top10

CHOprot.low10

E.c.transcr.top10

E.c.genome

E.c.transl.top10

E.c.prot.top10

E.c.prot.low10

E.c.transcr.low10

CHOgenome

CHOtransl.hi

CHOtranscr.top10

CHOprot.top10

CHOtranscr.low10

S.c.genome

S.c.transl.top10

S.c.transcr.top10

S.c.prot.low10

S.c.transcr.low10

P.p.genome

P.p.transcr.top10

P.p.prot.top10

P.p.prot.low10

P.p.transcr.low10

******

***

*** *** ***

***

***** *** **

*

*

E. c. prot. top10

E. c. transl. top10

E. c. genomeE. c. transcr. top10

E. c. prot. low10E. c. transcr. low10

CHO transcr. low10CHO prot. top10

CHO transl. hi

CHO genome

CHO transcr. top10

CHO prot. low10

S. c. prot. low10S. c. genome

S. c. transcr. low10

S. c. transl. top10S. c. transcr. top10S. c. prot. top10

P. p. transcr. top10

P. p. prot. top10

P. p. prot. low10

P. p. transcr. low10

P. p. genome

A

B

***

Figure 3.6: Assessment of codon bias patterns when codon pair frequency of-omics datasets is taken into consideration.A Principal component analysisplot. B Hierarchical clustering of -omics datasets and their subsets. P -values denote the probability of forming a cluster for the various -omicsdatasets analyzed (***, p-value< 0.001; **, p-value< 0.01; *, p-value<0.05). No statistical significance is apparent for clusters denoted withoutan asterisk.CHO, Chinese hamster ovary cells; CHO transl. hi, refers to sequencesidentified bound on polysomes in [105]; E. c., Escherichia coli ; low10,lowest 10% expressed sequences; mo80, moderate 80% expressed; P. p.:Pichia pastoris; prot., proteome; S. c., Saccharomyces cerevisiae; top10,highest 10% expressed sequences, transcr., transcriptome; transl., trans-latome.

Page 63: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

3. ESTABLISHING REFERENCE CODON BIASES FOR SYNTHETICGENE DESIGN IN MICROBIAL AND MAMMALIAN CELLS 50

the translatome derived gene list was mapped to CHO-K1 sequences, the

gene specific codon usage in CHO-K1 sequences are not expected to be

significantly different from CHO-DG44.

3.4.3 Exploring the effects of design parameters and

codon bias inputs on codon optimized sequence

outputs: human IFN-γ expression in CHO cells

Unexpectedly, the codon biases calculated from various gene subsets of

CHO cells do not show any significant differences (Figure 3.6 and Figure

3.6). Unlike microbial cells, based on this observation we may accept that

any -omics dataset in CHO cells can be used to obtain the reference codon

bias for heterologous gene design. Indeed, it has been demonstrated that

the codon optimized sequences of human interferon gamma (IFN-γ) using

CC as design parameter and various codon bias inputs derived from low,

moderately, and highly expressed gene sets resulted in similar (13-15 fold)

improvement in their expression levels over the wild type [48]. However,

when the ICU design parameter was considered, the protein in vivo expres-

sions were not consistent, even lower than the wild type for the sequence

generated based on the reference codon bias from top 10% highly expressed

transcripts. Now, this previous study can be further extended by utilizing

recently available other -omics datasets including genome, translatome and

proteome, thereby exploring how different input biases as well as design

parameters affect heterologous gene design. To this end, we performed an

in silico study where the IFN-γ gene was ICU and CC codon optimized

using the reference inputs (CHO genome, CHO transl. hi, CHO prot. top10,

CHO prot. low10 ) we discussed earlier. The resultant optimized sequences

Page 64: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

3. ESTABLISHING REFERENCE CODON BIASES FOR SYNTHETICGENE DESIGN IN MICROBIAL AND MAMMALIAN CELLS 51

were then compared with the experimentally verified ICU and CC codon

optimized sequences (CHO transcr. top10, CHO transcr. mo80, CHO tran-

scr. low10 ) and wild type sequence [Wild type (NM000619 )] on a codon by

codon basis. The percentage similarities between the sequences were used

to generate the matrix in Figure 3.7.

All CC optimized sequences share high levels of similarities with each

other (75-90%), including the experimentally tested sequences with en-

hanced expression levels while the ICU optimized sequences show much

lower similarities (35-54%), clearly indicating that even similar input bi-

ases significantly affect the output sequences. This discrepancy is presum-

ably attributable to the large number of possible nucleotide sequences with

the same ICU objective score, since the choice of synonymous codons is

not position specific along a given gene sequence. Since there is no way to

know a priori their in vivo expression levels and thus distinguish them, the

sequences were randomly selected among them.

The current comparison result clearly suggests that CC codon optimized

sequence output is not as sensitive as the input bias change made by various

-omics datasets compared to ICU codon optimized sequences in the case

of CHO cells. Thus, CC can be considered as more robust and effective

design parameter for codon optimization as successfully demonstrated in

E. coli [92], S. cerevisiae [47], P. pastoris [122], and CHO cells [48].

3.4.4 Conclusions

We established and analyzed the reference codon biases derived from multi-

omics (genomic, transcriptomic, proteomic, and translatomic) datasets for

three microbial (E. coli, S. cerevisiae and P. pastoris) and one mammalian

(CHO cells) industrially relevant hosts. Our results demonstrated that for

Page 65: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

3. ESTABLISHING REFERENCE CODON BIASES FOR SYNTHETICGENE DESIGN IN MICROBIAL AND MAMMALIAN CELLS 52

Wildtype(NM_000619)

CHOtranscr.top10ICU

CHOtranscr.mo80IC

CHOtranscr.low10ICU

CHOtranscr.top10CC

CHOtranscr.mo80CC

CHOtranscr.low10CC

CHOgenomeICU

CHOtranscriptomeICU

CHOtransl. hi ICU

CHOproteomeICU

CHOprot. top10ICU

CHOprot. low10ICU

CHOgenomeCC

CHOtranscriptomeCC

CHOtransl. hi CC

CHOproteomeCC

CHOprot. top10CC

CHOprot. low10CC

Experimentallverified

sequences

Wild type (NM_000619) 100 39 35 40 44 46 45 35 43 44 37 39 41 43 42 45 45 46 43

CHO transcr. top10 ICU 39 100 47 47 50 49 49 42 47 40 41 41 42 49 49 46 47 46 52

CHO transcr. mo80 ICU 35 47 100 43 46 47 47 40 43 43 41 43 44 46 49 47 47 49 49

CHO transcr. low10 ICU 40 47 43 100 51 50 52 43 44 38 41 43 43 53 51 49 46 47 48

CHO transcr. top10 CC 44 50 46 51 100 86 83 40 40 41 50 49 44 84 82 84 82 83 75

CHO transcr. m80 CC 46 49 47 50 86 100 90 42 41 42 49 51 40 83 90 87 84 83 77

CHO transcr. low10 CC 45 49 47 52 83 90 100 39 41 41 47 50 41 78 84 82 80 81 75

CHO genome ICU 35 42 40 43 40 42 39 100 40 43 34 38 40 41 44 40 44 41 40

CHO transcriptome ICU 43 47 43 44 40 41 41 40 100 43 42 35 38 41 40 41 41 43 46

CHO transl. hi ICU 44 40 43 38 41 42 41 43 43 100 48 41 44 45 40 45 41 45 41

CHO proteome ICU 37 41 41 41 50 49 47 34 42 48 100 39 38 47 50 50 47 47 49

CHO prot. top10 ICU 39 41 43 43 49 51 50 38 35 41 39 100 41 50 49 52 54 54 49

CHO prot. low10 ICU 41 42 44 43 44 40 41 40 38 44 38 41 100 47 42 43 41 44 43

CHO genome CC 43 49 46 53 84 83 78 41 41 45 47 50 47 100 87 87 79 78 80

CHO transcriptome CC 42 49 49 51 82 90 84 44 40 40 50 49 42 87 100 83 80 80 79

CHO transl. hi CC 45 46 47 49 84 87 82 40 41 45 50 52 43 87 83 100 83 83 77

CHO proteome CC 45 47 47 46 82 84 80 44 41 41 47 54 41 79 80 83 100 86 84

CHO prot. top10 CC 46 46 49 47 83 83 81 41 43 45 47 54 44 78 80 83 86 100 76

CHO prot. low10 CC 43 52 49 48 75 77 75 40 46 41 49 49 43 80 79 77 84 76 100

Experimentallverified

sequences

Sequencestestedinthisstudy

Figure 3.7: Similarity matrix of codon optimized human interferon gamma(IFN-γ) sequences resulting from different CHO cells datasets for calcu-lating host reference codon usage and the individual codon usage (ICU)and codon context (CC) design parameters. The experimentally verifiedsequences from the study in [48] are collected at the top left hand cornerof the matrix, and are presented in order of performance, from the poorest[(Wild type NM 000619 )] in the top to the one presenting the best expres-sion (CHO transcr. low10 CC) in the bottom of the corner as depictedin the left hand side.a.a., amino acid;CC, codon context; ICU, Individual codon usage; low10,lowest 10% expressed sequences; mo80, moderate 80% expressed; prot.,proteome; top10, highest 10% expressed sequences, transcr., transcrip-tome; transl., translatome.

Page 66: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

3. ESTABLISHING REFERENCE CODON BIASES FOR SYNTHETICGENE DESIGN IN MICROBIAL AND MAMMALIAN CELLS 53

microbial hosts, the relevant genes with the highly expressed transcripts,

highly abundant proteins, and efficiently translated mRNA present a dis-

tinct codon bias pattern which is very different from other biases generated

from global (genome) and low expression gene sets, thus strongly supporting

the common practice of using the highly expressed genes for codon opti-

mization in synthetic gene design. With widespread availability, microarray

data is thus a suitable choice for identifying highly expressed genes. For ab

inito characterization of new hosts, RNA-seq is an increasingly popular al-

ternative. If the identified highly expressed genes present a distinct codon

bias, the computed codon reference should be employed as reference codon

bias in codon optimization. However, same argument is not applicable to

CHO cells since the codon biases from the high expression gene subsets

of CHO cells do not form a distinct cluster, suggesting that any -omics

dataset may be practically acceptable to generate the reference codon bias.

Similarly for other hosts with no distinct codon usage pattern among high

expression genes, any available -omics data is acceptable, including the ge-

nomic coding sequences. To further explore the effect of input codon bias

and design parameters on codon optimized sequences, we codon optimized

the human IFN-γ sequence using several -omics datasets as codon bias in-

puts along with the CC and ICU design criteria. Compared to ICU, the

CC design parameter led to highly similar output sequences to the refer-

ence input change, pinpointing its robustness for improved heterologous

gene design.

Page 67: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

Chapter 4

Codon Optimization of Signal

Peptide to Improve Secretory

Protein Production in Pichia

pastoris

In this chapter, we studied individual codon usage (ICU) and codon con-

text (CC) based codon optimization strategies on the Saccharomyces cere-

visiae-derived mating factor α prepro-leader sequence (MFLS) to improve

Candida antarctica lipase B (CAL-B) secretory production by Pichia pas-

toris. We also evaluated a multi-objective based strategy that balances the

tradeoff between the ICU and CC design criteria to investigate any possible

synergistic effects. The results show that the CC based strategy gave the

best performance.

This chapter has been published as “J Ahn, MJ Jang, Kok Siong Ang, H

Lee, ES Choi, Dong-Yup Lee, Codon optimization of Saccharomyces cere-

visiae mating factor alpha prepro-leader to improve recombinant protein

production in Pichia pastoris, Biotechnology Letters, 38(12), 2137-2143,

2016”.

54

Page 68: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

4. CODON OPTIMIZATION OF SIGNAL PEPTIDE TO IMPROVESECRETORY PROTEIN PRODUCTION IN PICHIA PASTORIS 55

4.1 Abstract

We evaluated different codon optimization parameters on the Saccharomyces

cerevisiae-derived mating factor α prepro-leader sequence (MFLS) to im-

prove Candida antarctica lipase B (CAL-B) secretory production in Pichia

pastoris. Codon optimization based on the individual codon usage (ICU)

and codon context (CC) design parameters allowed us to enhance secre-

tory production of CAL-B to 7.02 U/mL and 11.97 U/mL, respectively.

Comparatively, only 3.03 U/mL was obtained with the wild type sequence

while the sequence optimized using both ICU and CC objectives showed

intermediate performance of 10.33 U/mL. These results clearly show that

CC is the most relevant parameter for the codon optimization of MFLS

in P. pastoris, and there is no synergistic effect achieved by considering

both ICU and CC together. The CC optimized MFLS increased secretory

protein production of CAL-B in P. pastoris by 3.95 folds.

4.2 Introduction

Candida antarctica lipase B (CAL-B) is a popular and versatile enzyme

with various industrial applications [123]: its stereoselectivity makes it highly

suitable for resolving alcohols, esters, acids, and amines in a variety of

chemical synthesis processes. It is also used in polymerization reactions

and biodiesel production. When immobilized, CAL-B shows high thermal

stability and solvent tolerance.

Production of CAL-B in the common E. coli host often results in

large amounts of incorrectly folded CAL-B proteins forming inclusion bod-

ies [124]. Alternatively, Pichia pastoris is a promising host which has secre-

tory capabilities to aid product recovery and purification [125]. A methy-

Page 69: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

4. CODON OPTIMIZATION OF SIGNAL PEPTIDE TO IMPROVESECRETORY PROTEIN PRODUCTION IN PICHIA PASTORIS 56

lotrophic yeast, P. pastoris has attracted interest for recombinant protein

production as it can achieve high cell densities rapidly, and is amendable

to genetic manipulations [126]. To enhance secretion efficiency, the signal

peptide attached to the recombinant protein can be engineered [127]. In

this work, we codon optimized the attached S. cerevisiae-derived mating

factor α prepro-leader sequence (MFLS) to enhance secretory production

of CAL-B with P. pastoris.

Codon optimization arises from the observed uneven usage of codons

across organisms, which has been correlated with gene expression level

[128]. Consequently, codon optimization of heterologous sequences to match

the host codon bias is considered as an effective strategy to increase pro-

tein expression. One popular design parameter that has been successfully

applied is the individual codon usage (ICU) bias, which refers to the usage

preference of synonymous codons in coding sequences [36]. Bias in adjacent

codon pairings or codon context (CC) has also been reported and applied

towards gene design. Its efficacy has been demonstrated by improving the

expression of green fluorescent protein (GFP) and catechol 1,2-dioxygenase

in S. cerevisiae [47], and Thermotoga maritima invertase in Escherichia

coli [92].

In this study, the codon optimized sequences of MFLS were designed

using three different strategies to enhance secretory production of CAL-

B in P. pastoris. The ICU and CC criteria were first used to design one

sequence each, and the third sequence was then generated via the trade-

off between ICU and CC in a multi-objective fashion (MO) [44]. Finally,

their expression levels were compared to investigate the effect of design

parameter on the protein expression. While the efficacy of ICU and CC

based codon optimization has been discussed [48], it is unclear if there are

Page 70: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

4. CODON OPTIMIZATION OF SIGNAL PEPTIDE TO IMPROVESECRETORY PROTEIN PRODUCTION IN PICHIA PASTORIS 57

synergistic effects from considering both design parameters at the same

time. Thus, the aim of the third sequence design is to investigate their

synergistic effect on protein expression.

4.3 Methods

4.3.1 Codon optimization

Three MFLS sequence variants were designed using the ICU and CC dis-

tributions of top 10% highly expressed genes found in P. pastoris with the

codon optimization algorithm described in Chapter 2. The computation of

ICU and CC fitness as gene design objectives is also described in Chapter

2. A population size of 200 and an iteration limit of 6000 was used. The

first two sequences were each designed using the ICU and CC fitness as the

main design parameter respectively. The third sequence considers both ICU

and CC, minimizing the trade-off between both objectives. The wild type

(WT) sequence and the optimized MFLS sequences are given in Appendix

B.1.

The cloning and expression experiments were performed by members of

the Biotechnology Process Engineering Center, Korea Research Institute of

Bioscience and Biotechnology (KRIBB).

4.3.2 Microorganisms

E. coli DH5α [F−, endA1, hsdR17 (r−K m−K), supE44, thi-l, λ−, recA1,

gyrA96, 80d lacZDM15 ] was used as the host strain for plasmid cloning

and maintenance. P. pastoris GS115 [his4 ] (Invitrogen, USA) was used as

the host strain for secretory heterologous protein expression.

Page 71: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

4. CODON OPTIMIZATION OF SIGNAL PEPTIDE TO IMPROVESECRETORY PROTEIN PRODUCTION IN PICHIA PASTORIS 58

Table 4.1: List of primers used in study

Target gene Primer Sequence (F: forward, R: reverse) Template

PTEF

)����-AGTTATTATTCGCCCGGGATAACTGTCGCCTCTTTTATC-��

5����-GTAAAGATAGATGGGAATCTCATGTTGGCGAATAACTAAAATG-��

(for fusion of MFLSCCO and MFLSMOCO)

��-GTAAAGATAGATGGGAATCTCATGTTGGCGAATAACTAAAATG-��

(for fusion of MFLSICU)

pTEF-AM-CLLip

(Ahn et al. 2007)

MFLS )����-CATTTTAGTTATTCGCCAACATGAGATTCCCATCTATCTTTAC-���

(for MFLSCCO and MFLSMOCO),

��-CATTTTAGTTATTCGCCAACATGAGATTCCCAAGCATATTTAC-��

(for MFLSICU)

5����-GAAAGCTGGGTCGGAACCGGATGGCAATCTCTTGTCCAAAGAAACACC-

��

The MFLSs

synthesized in this

study

CALB14

)����-GTGTTTCTTTGGACAAGAGATTGCCATCCGGTTCCGACCCAGCTTTC-��

5����-

CATGTCTAAGGCGAATTAATTCGCGGCCGCTTATGGAGTAACGATACCGGA-��

pGAL-MFa-

CALB14

(Whang et al. 2009)

4.3.3 Gene synthesis and cloning

The three codon-optimized MFLS sequences were synthesized by Bioneer

corp. (Republic of Korea). The wild-type and the designed MFLSs were

attached to the CAL-B14 variant of lipase B from Candida antarctica to

serve as a reporter [129]. The CAL-B14 structural gene was previously syn-

thesized according to the preferred codon usage of P. pastoris (data not

shown). The MFLSs, the strong constitutive TEF promoter (PTEF) [130],

and CAL-B14 were amplified by polymerase chain reaction (PCR) with the

corresponding templates and primers which are listed in Table 4.1, respec-

tively. Thereafter, overlapping PCRs were performed to generate a fragment

sequentially containing the PTEF, MFLS, and CAL-B14. Each aligned gene

was inserted into the SmaI/NotI-digested pPIC9 (Invitrogen, USA) by an

infusion kit (In-Fusion®. Advantage PCR Cloning Kit, Clontech, USA).

In each constructed plasmid, the CAL-B14 structural gene, fused to the

MFLS, was placed under the control of PTEF.

Page 72: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

4. CODON OPTIMIZATION OF SIGNAL PEPTIDE TO IMPROVESECRETORY PROTEIN PRODUCTION IN PICHIA PASTORIS 59

4.3.4 Expression of CAL-B in P. pastoris

The constructed plasmids were linearized by StuI which digests the sole

restriction site present in the HIS4 gene, and the linearized plasmids were

integrated into the genome of P. pastoris GS115 using a lithium chloride

transformation method (Invitrogen, USA). Selection of the transformants

was performed using His− agar plates containing (per liter): 20 g of glyc-

erol, 6.7 g of yeast nitrogen base without amino acids, 0.77 g of His− DO

supplement (BD Biosciences, USA), and 20 g of agar. A single colony of

each transformant grown on a His− agar plate was inoculated into 10ml

of yeast extract peptone extrose (YPD) medium in a 250ml baffled flask

and incubated for 14 h at 30 ◦C. Five ml of the culture was transferred

to a 500ml baffled flask containing 100ml of YPD broth and incubated

overnight at 30 ◦C for 48 h. The growth of yeast cells was monitored by

measuring the optical density at 600 nm (OD600) (UVICON930, Switzer-

land). The lipase activities of the culture supernatants were determined by

measuring the release of p-nitrophenol by the action of an enzyme on the

substrate p-nitrophenyl palmitate (pNPP) [131]. One unit of lipase activity

was defined as the amount of enzyme releasing one µmole of p-nitrophenol

per min.

4.4 Results

4.4.1 Three alternative strategies for codon optimiza-

tion of MFLS

To improve CAL-B secretory production in P. pastoris, the attached MFLS

was codon optimized to remove any potential bottleneck. Two design pa-

Page 73: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

4. CODON OPTIMIZATION OF SIGNAL PEPTIDE TO IMPROVESECRETORY PROTEIN PRODUCTION IN PICHIA PASTORIS 60

Co

do

n A

dap

tati

on

In

dex

0.50

0.55

0.60

0.65

0.70

0.75

0.80

0.85

0.90

0.95

1.00

Individual codon usage fitness

-0.1164

-0.1166

-0.1168

-0.1174

-0.1172

-0.1170

-0.1176

-0.1178

-0.1180

-0.1182

-0.1184

-0.26 -0.24 -0.22 -0.20 -0.18 -0.16 -0.14

Co

do

n c

on

text

fitn

ess

Figure 4.1: ICU and CC fitness of the MFLS gene variants (WT, IC, CC,MO) plotted with Pareto front depicting fitness tradeoffs. WT - wild typeMFLS sequence

rameters for codon optimization were applied to generate the ICU-, CC-

and MO sequences of the MFLS. The ICU based design strategy generated

the MFLSICU sequence that has the best ICU fitness but comparatively

worst CC fitness, while the CC based strategy generated the MFLSCC that

has the best CC fitness but comparatively worst ICU fitness (Figure 4.1).

The MFLSMO sequence has median ICU and CC fitness, representing equal

trade-off between both design criteria. The achievable trade-off between

ICU and CC fitness on the Pareto front is depicted by the empty circles.

The codon usage patterns of the wild-type (WT) and three codon-optimized

MFLS variants are compared in Figure 4.2.

Page 74: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

4. CODON OPTIMIZATION OF SIGNAL PEPTIDE TO IMPROVESECRETORY PROTEIN PRODUCTION IN PICHIA PASTORIS 61

1.0 0.5 0.0

Host ICU/CC frequency

Figure 4.2: Codon usage patterns of the MFLS gene variants. Colors ofindividual codons and codon pairs (represented by small rectangular blocksbetween adjacent codons) indicate the usage frequency with respect to theP. pastoris host, as indicated by the color gradient at the top of the figure.

Page 75: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

4. CODON OPTIMIZATION OF SIGNAL PEPTIDE TO IMPROVESECRETORY PROTEIN PRODUCTION IN PICHIA PASTORIS 62

4.4.2 Effect of codon-optimized MFLS on secretory

protein expression

The wild-type and three codon-optimized MFLS variants were fused to the

N-terminus of the CAL-B14 gene variant, and placed under the control of

the constitutive PTEF. Each constructed expression vector was transformed

into P. pastoris GS115, and the lipase activities in the culture supernatant

of the corresponding transformants were then analyzed. As listed in Ta-

ble 4.2, all three codon-optimized MFLS variants increased the secretory

production of CAL-B compared to the wild-type MFLS (MFLSWT). The

MFLSICU and MFLSCC increased production by 132% and 295%, respec-

tively, while the MFLSMO increased production by 241%. These results

suggest that the CC based codon optimization is more effective in enhanc-

ing in vivo expression. There also appears to be no synergistic effect from

optimizing for both IC and CC fitness as the MFLSMO was not superior to

the MFLSCC.

To confirm the MFLSCC design’s superiority, we performed two more

transformations of P. pastoris with the codon optimized MFLS variants. In

the first additional set of experiments, three independently isolated trans-

formants of each variant were cultivated and the secretory lipase activity

of each culture was measured three times (see Figure B.1 of Appendix B).

The same trend of increasing lipase activity from MFLSICU to MFLSMO

to MFLSCC was observed. Similarly, in the second set, after cultivating

two independently isolated transformants of each variant, we measured the

secretory lipase activity of each culture three times at room temperature

and 40 ◦C (see Figure B.2 in Appendix B). Again, consistent results were

obtained with MFLSCC showing the highest lipase activity, thus confirming

Page 76: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

4. CODON OPTIMIZATION OF SIGNAL PEPTIDE TO IMPROVESECRETORY PROTEIN PRODUCTION IN PICHIA PASTORIS 63

Table 4.2: Cell density and CAL-B activity achieved by designed MFLSsequences

Sequence Cell density1

(A600)

CALB activity2

(U/mL)

Normalized CALB

activity (%)

Wild-type 12.2�0.4 3.03�0.20 100

MFLSICO 11.9�0.5 7.02�1.08 232

MFLSMOCO 12.4�0.2 10.33�0.20 341

MFLSCCO 11.9�0.3 11.97�0.09 395

1,2 Cell density and CAL-B activity were measured at the end of culture(48 hour). Cell density is monitored by measuring culture optical densityat 600 nm. The amount of secreted CAL-B is determined by measuringp-nitrophenol released from p-nitrophenyl palmitate by the lipase activity.One unit of lipase activity is defined as the amount of enzyme releasing onemole of p-nitrophenol per min.

that the MFLSCC sequence produced higher lipase activity than the other

designs, and the MFLSMO design showed no synergistic improvement.

4.5 Discussion

Codon optimization of the leader signal sequence was previously demon-

strated to increase secretory protein production [132]. In this study, we

experimentally investigated the ICU, CC, and MO codon optimization

strategies on the MFLS to enhance secretory production of CAL-B using P.

pastoris. Compared to the wild type, all three optimized signal sequences

increased CAL-B secretion by 132% to 295%, with the CC based sequence

producing a higher yield compared to the ICU based sequence (70% higher).

Interestingly, the performance of the MFLSMO sequence was intermediate

between the MFLSICU and MFLSCC sequences, which indicates no syner-

gistic improvement from the simultaneous consideration of both ICU and

Page 77: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

4. CODON OPTIMIZATION OF SIGNAL PEPTIDE TO IMPROVESECRETORY PROTEIN PRODUCTION IN PICHIA PASTORIS 64

CC fitness. The results also suggested that the CAL-B yield was correlated

with CC fitness.

To investigate other coding sequence properties that can explain the

CAL-B yield, we also evaluated other design criteria such as the GC con-

tent, codon adaptation index (CAI), and mRNA folding energy of the

MFLS variants. For sequence GC content, the computed values (Figure

4.3C , 43.92% for MFLSCC, 44.71% for MFLSICU and MFLSMO) are highly

similar and cannot explain the experimental results. We next considered

CAI of the sequences. CAI has been used as the main design parameter for

codon optimization in a number of studies [133, 134]. Although a positive

relationship between the CAI values and the CAL-B yields can be observed

for MFLSCC, MFLSICU, and MFLSMO, this correlation fails when we con-

sider the CAI of wild-type MFLS, which is similar to that of MFLSMO

(Figure 4.3A and 4.3B). The predicted mRNA folding energies were also

computed using the mfold web server [135]. The codon optimized sequences

were predicted to possess higher thermodynamic stability than the wild-

type MFLS (Figure 4.3D), suggesting that mRNA secondary structures

induced translation inhibition was not likely to be a factor. Therefore, the

CC fitness of MFLS variants remains the best explanation for the enhanced

CAL-B yields (Figure 4.3A). This is also supported by previous studies that

successfully demonstrated the efficacy of the CC based codon optimization

strategy [47, 48, 92]. Contrary to the conventional practice of using ICU

fitness as a key element of synthetic gene design, CC fitness appears to

be a more relevant design parameter for optimizing sequences to improve

heterologous protein expression.

Herein, we designed different synonymous coding sequences by consid-

ering only ICU and CC fitness, while ignoring other factors such as GC con-

Page 78: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

4. CODON OPTIMIZATION OF SIGNAL PEPTIDE TO IMPROVESECRETORY PROTEIN PRODUCTION IN PICHIA PASTORIS 65

A

4000

3000

2000

1000

0

Lip

as

e A

cti

vit

y (

U/g

DC

W)

5000

Wild-type ICO MOCO CCO

CC fitness

ICU fitness

Lipase activity

-0.26

-0.24

-0.22

-0.20

-0.18

-0.16

-0.14

-0.12

ICU

fit

ne

ss

CC

fit

ne

ss

-0.1150

-0.1155

-0.1160

-0.1165

-0.1170

-0.1175

-0.1180

B

CA

I valu

e

Wild-type ICO MOCO CCO

0.0

0.2

0.4

0.6

0.8

1.0

C

GC

co

nte

nt

(%)

Wild-type ICO MOCO CCO

50

40

30

20

10

0

D

mR

NA

fo

ldin

g e

nerg

y (

kcal/m

ol)

Wild-type ICO MOCO CCO

-8 0

-60

-40

-20

0

Figure 4.3: Properties of MFLS gene variants. The correlation between ICU,CC fitness and gene expressivity is illustrated (A). The CAI, GC contentand mRNA folding energy, calculated by mfold, of the gene variants arealso plotted (B-D).

Page 79: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

4. CODON OPTIMIZATION OF SIGNAL PEPTIDE TO IMPROVESECRETORY PROTEIN PRODUCTION IN PICHIA PASTORIS 66

tent, CAI, and mRNA folding energy. Although these factors do not appear

to account for the results obtained in this study, they have been implicated

in protein translation initiation and elongation by other groups [29]. It has

been argued that individual factors may contribute differently under vary-

ing circumstances. For example, folding energy may modulate the strength

of association between codon bias and translation efficiency [29]. Thus, fur-

ther studies are required to elucidate how different factors are correlated

to attenuate or enhance protein expression.

4.6 Conclusion

Three alternative strategies (ICU, CC, and MO) for codon optimization

were compared via the synthetic gene design of the MFLS as the target

sequence to enhance secretory production of CAL-B in P. pastoris. Our

results did not show any synergistic improvement when using a multi-

objective approach which considers both ICU and CC fitness simultane-

ously. Instead, we found that CC fitness is a more relevant design parameter

for optimizing the sequence improvement in heterologous protein expres-

sion than ICU fitness, which is a key element in the conventional practice

for codon optimization.

Page 80: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

Chapter 5

Codon Context Based

Synthetic Gene Design of a

Thermostable Invertase for

Escherichia coli

In this chapter, the use of codon context (CC) as the main design criterion

was investigated in the Escherichia coli expression system with the ther-

mostable invertase from Thermotoga maritima. The CC optimized gene

achieved 53.9% higher yield with 39.8% higher enzymatic activity over the

wild type gene.

This chapter has been published as “HB Pek, M Klement, KS Ang, BKS

Chung, DSW Ow, and DY Lee, Exploring codon context bias for synthetic

gene design of a thermostable invertase in Escherichia coli, Enzyme and

Microbial Technology, 75-76, 57-63, 2015”.

67

Page 81: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

5. CODON CONTEXT BASED SYNTHETIC GENE DESIGN OF ATHERMOSTABLE INVERTASE FOR ESCHERICHIA COLI 68

5.1 Abstract

Various isoforms of invertases from prokaryotes, fungi, and higher plants

has been expressed in Escherichia coli, and codon optimization is a widely-

adopted strategy for improvement of heterologous enzyme expression. Suc-

cessful synthetic gene design for recombinant protein expression can be

achieved by matching its translational elongation rate against heterologous

host organisms via codon optimization. Amongst the various design pa-

rameters considered for the gene synthesis, codon context bias has been

relatively overlooked compared to codon adaptation index and individual

codon usage which are commonly adopted in most of codon optimization

tools. In addition, matching the rates of transcription and translation based

on secondary structure may lead to enhanced protein folding. In this study,

we evaluated codon context fitness as design criterion for improving the

expression of thermostable invertase from Thermotoga maritima in E. coli

and explored the relevance of secondary structure regions for folding and

expression. We designed three coding sequences by using (1) a commercial

vendor optimized gene algorithm, (2) codon context for the whole gene,

and (3) codon context based on the secondary structure regions. Then, the

codon optimized sequences were transformed and expressed in E. coli. From

the resultant enzyme activities and protein yield data, codon context fitness

proved to have the highest activity as compared to the wild-type control

and other criteria while secondary structure-based strategy is comparable

to the control. Codon context bias was shown to be a relevant parameter for

enhancing enzyme production in E. coli by codon optimization. Thus, we

can effectively design synthetic genes within heterologous host organisms

using this criterion.

Page 82: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

5. CODON CONTEXT BASED SYNTHETIC GENE DESIGN OF ATHERMOSTABLE INVERTASE FOR ESCHERICHIA COLI 69

5.2 Background

Invertases (or fructofuranosidases) are a biochemically-diverse group of en-

zymes that hydrolyses sucrose into glucose and fructose. They have been

widely used for the production of non-crystallizable inverted sugars in jams

and high fructose syrups, and in sensors for sucrose measurement for fruit

juices [136, 137]. Various isoforms of this enzyme with different properties

has been isolated from bacteria, fungi, and higher plant [138, 139]. Es-

cherichia coli is a common host for high-level production of foreign genes,

and codon optimization is a strategy to improve expression of recombinant

proteins. All amino acids, except methionine and tryptophan, are encoded

by two to six synonymous codons. Most notably, the synonymous codons

are not equally utilized across different organisms, resulting in the phe-

nomenon of codon usage bias [140, 141]. Furthermore, it was discovered

that such biases are correlated with gene expression levels [20, 142]. This

is likely a consequence of the evolution of organisms to utilize synonymous

codons with disparate frequencies as a result of random mutations and se-

lection pressure [18]. Thus, natural and synthetic genes to be transfected

into heterologous hosts for their expression usually result in poor yields.

In order to improve such heterologous gene expression, customized ar-

tificial genes can be designed by matching the codon preference of the

host based on several design parameters adjusted for codon optimization

[39,133,143–146]. To perform codon optimization, the codon usage bias of

the expression host is first established. One approach is to identify highly

expressed genes using microarray or RNA-seq (ribonucleic acid/RNA se-

quencing) global transcriptome data [147, 148]. This is based on the argu-

ment that mRNA (messenger RNA) and protein levels are well correlated

in microbial hosts [20], though the correlation is weaker for higher eukary-

Page 83: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

5. CODON CONTEXT BASED SYNTHETIC GENE DESIGN OF ATHERMOSTABLE INVERTASE FOR ESCHERICHIA COLI 70

otes [149]. Alternatively, genes of highly expressed protein scan be identified

using analytical methods such as mass spectrometry [150]. The coding se-

quences (CDS) of selected genes can be then used to compute the host

codon usage bias. As demonstrated in Chapter 3, high expression genes

identified using different -omics data sets appear to show highly similar

codon biases for the industrially important microbial hosts examined (E.

coli, S. cerevisiae, and P. pastoris). If the host shows a uniform codon bias

among genes with different expression levels, then the genomic codon bias

from all available CDS can be used [48].

For this codon optimization study, the host codon usage bias was com-

puted using highly expressed genes identified using microarray data. Since

our aim is to increase protein expression,we are interested in the codon bias

of highly expressed genes. A number of indices can be used to quantify the

host codon usage bias, and serve as the gene design parameter. One com-

monly adopted design parameter is individual codon usage (ICU), where

the frequency of synonymous codon is normalized with respect to the trans-

lated amino acid [36, 56]. In addition to ICU bias, non-random utilization

of adjacent codon pairs in organisms has also been reported in several stud-

ies [47,151,152]. This phenomenon is termed codon context, and describes

the organization of adjoining codons as a result of potential tRNA-tRNA

steric interaction within the ribosomes [45, 145]. Interestingly, codon con-

text was shown to correlate with translation elongation rate such that the

usage of rare codon pairs decreased protein translation rates [46,153–155].

Moreover, it is known that proteins fold via particular pathways, influ-

enced by the different regional rates of the secondary structures by which

the polypeptides emerge unidirectionally from the ribosome [156]. Thus,

variations in elongation rate can considerably influence the folding of the

Page 84: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

5. CODON CONTEXT BASED SYNTHETIC GENE DESIGN OF ATHERMOSTABLE INVERTASE FOR ESCHERICHIA COLI 71

encoded polypeptide [157]. Recently, it was also proposed that these vari-

ations in protein elongation rates have evolved to precisely orchestrate the

emergence rates of each structural region of the polypeptide for folding or

interacting with molecular chaperones [153,154]. Collectively, a number of

studies have reported different codon frequencies within specific structural

regions of the encoded protein [157]. Therefore, codon optimization based

on the secondary structure regions may enable us to accurately match gene

design to the native process of protein translation and folding [56].

In this study, we demonstrated the significance of codon context in

codon optimization and also investigated the relevance of the translational

rate within each secondary structure region for folding and expression of a

thermostable invertase in E. coli. Using the wild type (WT) Thermotoga

maritima invertase sequence as a control, we evaluated the protein activity

levels of three coding sequences designed based on (1) a commercial vendor

(CV) optimized gene algorithm, (2) codon context (CC) fitness for the

whole gene, and (3) codon context fitness based on the secondary structure

(SS) region.

5.3 Methods

5.3.1 Implementation of codon optimization frame-

works

We investigated three codon optimization: CV, CC, and SS. CV design

was performed by a commercial vendor, considering several parameters in-

cluding codon usage, codon context, RNA secondary structure, and codon-

anticodon pair interactions according to their claim. The codon context

distribution used for CC design was computed from the top 5% of highly

Page 85: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

5. CODON CONTEXT BASED SYNTHETIC GENE DESIGN OF ATHERMOSTABLE INVERTASE FOR ESCHERICHIA COLI 72

expressed genes identified using microarray data [44]. To design the SS

sequence, we first obtain the secondary structure annotation of E. coli pro-

teins from Protein Database (PDB) [59]. The codon context distributions

of α-helices and β-sheets were then computed from the respective sections

of the coding sequences. Using the computed codon context distributions,

the CC- and SS-based sequences were designed using the genetic algorithm

(GA) based codon optimization described in Chapter 2 [44].

As discussed in previously in Chapter 2, the CC optimization problem is

a combinatorial problem with a nonlinear objective function that is written

as:

ΨCC = −∑3904

k=1 |qk0 − qk1 |3904

(5.1)

where qk denotes the occurrence frequency of each possible codonpair (64×

61 = 3904), and the subscript denotes the organism (0 for host and 1 for

sequence). For an average sized protein of 300 amino acids, the number of

possible codon coding sequences is in the order of 10100 [44]. Therefore, the

genetic algorithm was employed to obtain a good feasible solution within

an acceptable amount of time [76]. A detailed exposition of the algorithm

can be found in Section 2.2.2. In this work, a solution population size of

500 was used, and the search was set to terminate after 10, 000 iterations

had passed.

Similarly, the procedure for SS design follows CC-based codon optimiza-

tion algorithm, with target codon bias on the basis of secondary structures

of genes considered. Given the available secondary structure information,

we separately take account of codon context of the sequences corresponding

to α helices, β sheets, and the remaining structural regions. Therefore, the

Page 86: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

5. CODON CONTEXT BASED SYNTHETIC GENE DESIGN OF ATHERMOSTABLE INVERTASE FOR ESCHERICHIA COLI 73

objective function is rewritten as:

ΨSS =−∑3904

k=1 |qkα,0 − qkα,1|3904

−∑3904

k=1 |qkβ,0 − qkβ,1|3904

−∑3904

k=1 |qkX,0 − qkX,1|3904

(5.2)

where qk denotes the occurrence frequency of each possible codon pair (64×

61 = 3904). The subscripts, from left to right, denote secondary structure

type (α for alpha helices, β for beta sheets, and X for other structures)

and organism (0 for host and 1 for sequence). The computed score for each

secondary structure is normalized by the number of possible codon pairs.

The objective function value is negative as we wish to minimize the codon

context difference between the expression host and the heterologous protein

sequence.

5.3.2 Gene synthesis and cloning

Three variants of the wild-type invertase from Thermotoga maritima en-

zyme (UniProt ID: O33833.1) were designed with respect to CV, CC, and

SS optimization (CVO, CCO, SSO) based on the highly expressed genes

found in E. coli. CVO was supplied by a commercial vendor Genscript (San

Diego, CA., USA), while CCO and SSO were designed based on the codon

context fitness of the sequences of whole gene and each secondary region,

respectively, as described in Section 5.3.1.

The cloning and expression experiments were performed by members of

the Microbial Cells Group 1 at Bioprocessing Technology Institute, Agency

for Science Technology and Research (A*STAR).

Page 87: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

5. CODON CONTEXT BASED SYNTHETIC GENE DESIGN OF ATHERMOSTABLE INVERTASE FOR ESCHERICHIA COLI 74

Table 5.1: List of primers used in study

Primer Nucleotide sequence (5'-3')

Inv-His-F AGGAGATATACCATGCACCACCACCACCACCAC

Inv-WT-R GGTGGTGGTGCTCGAGTCATTACAACCATATGTTCTCGAGTTC

Inv-CVO-R GGTGGTGGTGCTCGAGTCATTACAGCCAGATGTTTTCCAGTTC

Inv-CCO-R GGTGGTGGTGCTCGAGTCATTACAGCCAGATGTTTTCCAGTTC

Inv-SSO-R GGTGGTGGTGCTCGAGTTATCATAACCAGATATTTTCCAGTTCG

5.3.3 Gene cloning

The three designed genes (CV - commercial vendor, CC - codon context,

SS - secondary structure) were synthesized by a commercial vendor, ampli-

fied via polymerase chain reaction (PCR) with the respective primer pairs

(Table 5.1), and the resulting bands were spin-column purified (Qiagen).

pET28a (Novagen) was used as the expression plasmid vector, and was

linearized with NcoI and XhoI. The linearized vector was gel-purified. The

In-Fusion HD cloning kit (Clontech) was used for insertion of the various in-

vertase sequences into the linearized vector, as per manufacturer’s protocol.

Recombinant pET28a-invertase plasmids were sequenced (Axil Scientific)

to ensure no mutations were present.

5.3.4 Expression and isolation of invertase in E. coli

The various pET28a-invertase recombinant plasmids with CVO, CCO, and

SSO were transformed into E. coli BL21 (DE3) (Invitrogen) as per man-

ufacturer’s protocol. A single colony was picked and incubated overnight

at 37 ◦C with shaking in 5mL of 2YT media supplemented with glucose

(per litre: 16 g tryptone; 10 g yeast extract; 5 g NaCl; 1 g glucose), and con-

taining kanamycin at a concentration of 50µg L−1. The overnight culture

was used to inoculate a larger culture volume of 2YT/kanamycin to an

Page 88: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

5. CODON CONTEXT BASED SYNTHETIC GENE DESIGN OF ATHERMOSTABLE INVERTASE FOR ESCHERICHIA COLI 75

optical density 600nm (OD600) of 0.05, and incubated at 37 ◦C with shak-

ing. Upon reaching an OD600 of 0.5, Isopropyl β-D-1-thiogalactopyranoside

(IPTG) was added to a final concentration of 0.5mmol to induce invertase

expression. Protein induction was carried out for 5 h before harvesting. One

OD600 of cells were collected for subsequent analysis.

For Western and enzyme activity assays, one OD600 of cells were col-

lected and centrifuged for 5min at 12, 000× g, and the resulting cell pellet

was washed with 0.5mL of lysis-equilibration-wash (LEW) buffer (per litre:

50mmol NaH2PO4; 300mM NaCl; pH 8.0). The cell pellet was resuspended

in 0.5mL of LEW buffer, and sonicated six times for 25 s each, at a power

output of 4W. The suspension was centrifuged at 12, 000 × g for 20min

at 4 ◦C. The supernatant (soluble fraction) was collected, and the pellet

was washed with 0.5mL of LEW buffer. The washed pellet was then thor-

oughly resuspended in 0.5mL of LEW buffer containing 8mol urea, before

being centrifuged at 12, 000 × g for 20min at 4 ◦C. The supernatant was

also collected (insoluble fraction) for further analysis.

For determination of protein yield, 500mL of culture was centrifuged

at 4000 g for 20min at 4 ◦C. The cell pellet was lysed with a homogeniser

(Model MP-110P, Microfluidics, MA, USA), per manufacturer’s instruc-

tions. The crude lysate was centrifuged at 15, 000 × g for 20min at 4 ◦C.

The clarified supernatant was loaded onto a gravity-flow chromatography

column containing 4mL (packed bed volume) of Ni-NTA agarose beads

(Qiagen). The beads were washed once with 40mL of LEW buffer, and

stepwise elution was carried out with 40mL each of LEW buffer containing

10, 25, 50, 100, and 250mmol imidazole, in that order. Protein concen-

tration was determined by Bradford assay (Pierce Coomassie Plus Protein

Assay, Thermo Scientific).

Page 89: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

5. CODON CONTEXT BASED SYNTHETIC GENE DESIGN OF ATHERMOSTABLE INVERTASE FOR ESCHERICHIA COLI 76

5.3.5 Gel electrophoresis and Western blot analysis

For Western analysis, soluble and insoluble fractions were run on a 4-12%

reducing gradient gel (Invitrogen), and transferred to a nitrocellulose mem-

brane was achieved with a Trans-Blot SD Semi-Dry Electrophoretic Trans-

fer Cell (Bio-Rad). The membrane was probed with anti-His-HRP anti-

bodies (Novagen). For determination of protein purity after nickel nitrilo-

triacetic acid (Ni-NTA) purification, cell lysate and eluted samples (1 µg)

were run on 4 − 12% reducing gradient gel (Invitrogen) and visualized by

Coomassie blue straining. All protocols were performed as per manufactur-

ers’ protocols.

5.3.6 Enzyme activity assay for invertase

The protocol for determining the enzyme activity of the expressed recom-

binant invertase was adapted from Liebl et al. [158]. Briefly, 1µg of protein

(as determined by Bradford assay) in 40µL of either LEW buffer (soluble

fraction) or 8mol urea (insoluble fraction) was added to 0.5mL of reaction

buffer (per litre: 50mmol sodium acetate; 120mmol sucrose, pH 5.5, ad-

justed at 75 ◦C), and the solution was incubated at 75 ◦C for 15 min in a heat

block with shaking.The mixture was cooled to 4 ◦C on ice, and 750µL of

Stop solution (per 100mL: 1 g 3,5-dinitrosalicyclic acid; 20mL 2 N NaOH;

30 g Rochelle salt; 0.05 g sodium sulphite) was added. The mixture was

further incubated at 95 ◦C for 15min in a heat block with shaking, after

which it was cooled immediately to 4 ◦C on ice and centrifuged briefly. The

absorbance at 575 nm was measured to determine the amount of invertase

activity. The volume of crude protein samples used was proportional to the

volume of culture, factoring in the metabolic burden of protein expression

Page 90: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

5. CODON CONTEXT BASED SYNTHETIC GENE DESIGN OF ATHERMOSTABLE INVERTASE FOR ESCHERICHIA COLI 77

as seen by the differing biomass yield.

5.4 Results and discussion

5.4.1 Codon context fitness to improve protein ex-

pression in heterologous hosts

Among several design criteria for codon optimization, codon context-based

fitness has been recently demonstrated to significantly improve protein ex-

pression in yeast and mammalian systems [44, 47]. Therefore, we have ap-

plied the same criterion to the microbial production system E. coli, in

order to evaluate its efficacy and relevance. Arguably, the protein transla-

tion rates should match the protein folding rates to increase the fraction

of soluble proteins and at the same time reduce the formation of inclusion

bodies, especially when molecular chaperones are not co-expressed [159].

Thus, the relative importance of protein secondary structure for designing

sequences of high expression protein can be explored by implementing an

SS based strategy; the codon pair fitness of the secondary structure regions

of a given gene sequence can be optimized by matching with those of the

host organism (Figure 5.1, Appendix Figure C.1). To do so, each type of

secondary structures, i.e., α helices, β sheets, and other remaining regions

are extracted from host genome information based on structural data in

the Protein Data Bank so that their codon pair patterns can be established

as reference inputs to the algorithm [59]. Similarly, secondary structure re-

gions of the target gene are collected based on the structural model and

matched to the host reference inputs by the codon optimization, resulting

in the SS-based sequence. The current strategy was applied to invertase

from Thermotoga maritima, which has extensive amounts of beta sheets in

Page 91: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

5. CODON CONTEXT BASED SYNTHETIC GENE DESIGN OF ATHERMOSTABLE INVERTASE FOR ESCHERICHIA COLI 78

its secondary structure.

5.4.2 Sequence alignment and protein expression

Invertase is an enzyme used in the food industry to break down sucrose into

glucose and fructose. The wild-type invertase sequence derived from the

hyperthermophilic Thermotoga maritima is characterized by a bimodular

arrangement with extensive beta sheets [139]. Initially, the enzyme sequence

(WT) was codon optimized for expression in E. coli using three different

strategies: (1) CVO, (2) CCO, and (3) SSO. The CVO strategy used a

commercial vendor optimized gene algorithm by Genscript (San Diego, CA.,

USA), while the CCO and SSO strategies used the previously developed

codon context approach to optimize the gene based on the whole gene and

the secondary structure, respectively. It should be noted that the resultant

amino acid sequences of the various codon optimized invertases identical to

the native enzyme. The difference among the nucleotide sequences (WT,

CVO, CCO, and SSO) are highlighted in Appendix Tables C.1 − C.4.

Subsequently, the WT, CVO, CCO, and SSO sequences were trans-

formed and expressed in E. coli shake flask culture, and the optical den-

sity at 600 nm (OD600) was measured at regular intervals. Figure 5.2A

illustrates that cells expressing the codon-optimized invertases have similar

growth curves while cells expressing the WT coding sequence exhibited a

shorter exponential phase, with a subsequent linear growth rate, reaching a

lower final OD600 as compared to the other coding sequences. This is most

likely explained by the higher metabolic burden imposed on the cell by the

non-codon-optimized invertase, i.e., WT, which may deplete cellular pools

of rare tRNA [36].

Invertase was expressed in the cytoplasm and extracted by cell lysis

Page 92: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

5. CODON CONTEXT BASED SYNTHETIC GENE DESIGN OF ATHERMOSTABLE INVERTASE FOR ESCHERICHIA COLI 79

Ho

st C

od

on

Pa

ir F

req

ue

ncy

CODON OPTIMIZATION Codon pair frequency based on the

secondary structure regions.

Back

Other 0 helices 2 sheets

Target

Gene

Host

Genome

Target Gene Protein

Structure

X

t

r

Front

Protein Secondary Structure

Figure 5.1: Schematic illustrating the process of codon context based fitnessof the secondary structure regions. The hosts’ genes are categorized ac-cording to their secondary structure, and the codon context profile for eachsecondary structure is derived (A, B, X). A principal component analysisplot of codon context shows the differences between the secondary struc-ture regions. Subsequently, the target protein, invertase, with the proteinshown and its secondary structure regions identified as obtained from theProtein Data Bank (PDB ID: 1UYP; http://www.rcsb.org/pdb/) [44, 76],is optimized based on the codon context profile derived for each secondarystructure from the hosts’ genes.

Page 93: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

5. CODON CONTEXT BASED SYNTHETIC GENE DESIGN OF ATHERMOSTABLE INVERTASE FOR ESCHERICHIA COLI 80

Figure 5.2: Growth curve of invertase expressing E. coli and Western anal-ysis. (A) OD at 600 nm was plotted against time for each strain. Cells ex-pressing the CV, CC, and SS optimized gene sequences (CVO, CCO, SSO)exhibited similar growth characteristics, while the WT control cells hada linear growth curve, reaching a similar final OD after 8 hour. Inductionwith Isopropyl β-D-1-thiogalactopyranoside (IPTG) was performed 2 hourafter inoculation, as indicated by the arrow. (B) Protein expression wasqualitatively analyzed by Western blot. The overexpression of the proteinat approximately 50 kDa matches is confirmed by detection of the targetprotein.

Page 94: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

5. CODON CONTEXT BASED SYNTHETIC GENE DESIGN OF ATHERMOSTABLE INVERTASE FOR ESCHERICHIA COLI 81

using sonication. The crude samples were separated into soluble and in-

soluble fractions, and examined for protein expression by Western blot

(Figure 5.2B). A no vector (BL21) and no insert (pET28a) control were

run to confirm that the protein is only expressed in the engineered vector

upon induction. A clear visible band representing invertase (∼ 50 kDa) was

seen on the Western blot. Visual comparison of the soluble protein bands

between the different samples revealed a stronger signal for CCO and SSO,

both of which were optimized with respect to the codon pair frequency, as

compared to WT and CVO [48]. Here we assume that SS based fitness may

have improved activity since the adjustment of codon context based on the

secondary structure should result in a higher percentage of folded proteins.

5.4.3 Comparison of codon-optimized invertase using

an enzyme activity assay

In order to measure the expression level of invertase, we first used an en-

zyme activity assay which exploited its ability to hydrolyse sucrose to form

glucose and fructose. Glucose further undergoes a reaction where it re-

duces 3,5-dinitrosalicylic acid to 3-amino-5-nitrosalicylic acid, the presence

of which can be detected by measuring the absorbance at 575 nm. Thus,

based on the stoichiometric relationship, the amount of absorbance of 3-

amino-5-nitrosalicylic acid is directly proportional to the level of invertase

activity present in the sample (Figure 5.3A). Absorbance at 575 nm (af-

ter correcting for background) was plotted in Figure 5.3B, and the WT

and CVO measurements were seen to be similar, indicating that no signifi-

cant improvement was observed when the gene was optimized based on the

CVO. Expectedly, the CCO invertase clearly showed an increased activity

of 39.8% and 41.8% greater than the WT and CVO, respectively. However,

Page 95: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

5. CODON CONTEXT BASED SYNTHETIC GENE DESIGN OF ATHERMOSTABLE INVERTASE FOR ESCHERICHIA COLI 82

for the SSO, which was assumed to have improved activity compared to

the CCO, was seen to have the lowest activity (p < 0.05). In addition to

enzyme activity, we also compared the volumetric protein yield from the

codon optimised cells (CVO, CCO, SSO) with the WT. His-tagged pro-

teins were purified from 500ml cultures using nickel nitrilotriacetic acid

(Ni-NTA) columns, and the expected 50 kDa protein bands representing

invertase can be seen on the sodium dodecyl sulfate polyacrylamide gel

electrophoresis (SDS-PAGE) assay after imidazole elution (Figure 5.3C).

In line with the enzyme activity assay, it was observed that total recom-

binant protein yield was significantly higher (53.9% increase) in the CCO

(21.7mg L−1) over WT (14.1mg L−1).

To interpret the enzyme activity and protein yield results using statis-

tical genome analysis, CVO, CCO, and SSO sequences were mapped into

the optimized codon sequences plot in terms of both individual codon usage

and codon context scores in Figure 5.4. It should be noted that the solu-

tions on the Pareto front (black circles), generated by the multi-objective

optimization algorithm, are not dominated by any other solutions [85]. One

of the solutions is the CCO sequence which was obtained by optimizing the

single objective of codon context, and therefore has the best fitness with

respect to this design parameter. From the plot, it is clear that the CVO

sequence is positioned relatively far from the Pareto front, indicating that

it was not optimized in terms of either individual codon usage or codon

context. This was not surprising as the sequence was designed by the ven-

dor based on multiple design parameters. Similarly, the SS sequence has a

lower codon context fitness compared to the CCO sequence, although it is

still higher than the CVO sequence.

From the Western blot results, the CCO and SSO sequences showed

Page 96: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

5. CODON CONTEXT BASED SYNTHETIC GENE DESIGN OF ATHERMOSTABLE INVERTASE FOR ESCHERICHIA COLI 83

Sucrose Fructose + Glucose

3,5-dinitrosalicylic acid 3-amino,5-nitrosalicylic acid

Absorbs light at 575nm

A

C

Invertase

Glucose +

+ Gluconic acid

*

B

*

D

Figure 5.3: Enzyme activity assay of wild-type and codon optimized in-vertase expressed in E. coli. (A) Stoichiometric reaction of the enzymeactivity assay to measure invertase activity. Sucrose is hydrolysed to formglucose and fructose; the glucose further reduces 3,5-dinitrosalicylic acidto 3-amino,5-nitrosalicylic acid, which can be detected at 575 nm. (B) Ab-sorbance at 575 nm per cell culture volume was plotted for each DNA se-quence. CC optimized illustrated the highest level of enzyme activity, withWT, CVO and SSO having comparable levels. (C) SDS-PAGE of cell lysatebefore (left of ladder) and after purification (right of ladder) using Ni-NTAagarose beads, eluted with 100mmol imidazole. Approximately 1µg proteinwere loaded into each lane. The main protein band after purification has anapparent molecular weight of 50 kDa, which correspond with the recombi-nant invertase protein (D) Volumetric protein yield of the purified enzymefrom triplicate experiments were measured using Bradford assay. CCO dis-played the highest protein yield which correlated with the enzyme activityassay. All data were derived from at least 3 biological replicates. Statisticalsignificance was determined by t-test relative to WT (*:p < 0.05).

Page 97: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

5. CODON CONTEXT BASED SYNTHETIC GENE DESIGN OF ATHERMOSTABLE INVERTASE FOR ESCHERICHIA COLI 84

CC & ICU Fitness Plot

-0.10

-0.11

-0.12

-0.13

-0.14

-0.20 -0.16 -0.12 -0.08 -0.04 0.00

Co

do

n c

on

tex

t fi

tne

ss

Individual codon usage fitness

1.0

0.8

0.6

0.4

0.2

0.0

Co

do

n A

da

pta

tio

n I

nd

ex

CCO

SSO

CVO

WT

Figure 5.4: Individual codon usage and codon context characteristics ofwild type and optimized sequences. The figure shows a comparison of ICUand CC distributions in wild type, CVO, SSO, and CCO sequences. Theresulting differences in host specific fitness are depicted in the CC & ICUfitness plot. The Pareto front (denoted by black circles) depicts the trade-offbetween individual codon usage and codon context fitness. The shading ofplot points (squares) indicates the codon adaptation index, the geometricmean of the weight of each codon for the coding sequence.

Page 98: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

5. CODON CONTEXT BASED SYNTHETIC GENE DESIGN OF ATHERMOSTABLE INVERTASE FOR ESCHERICHIA COLI 85

higher expression levels compared to the CVO and WT sequences; this may

be correlated with the codon context fitness scores. In addition, the highest

enzyme activity of the CCO invertase confirmed that codon context is one

of most relevant parameters for synthetic gene design in E. coli expression

system. However, the comparatively lower enzymatic activity measured for

the SS sequence raises new question the validity of secondary structure

based design parameter for codon optimization and its relation with protein

folding. One possible reason to explain such a lower activity in the SS

sequence is the effect of individual codon usage bias. From Figure 5.4, the

SS sequence has the lowest score for individual codon usage when compared

to the CVO and CCO sequences, which is consistent with the activity result.

Although we have previously shown that codon context is more effective

and relevant than individual codon usage for codon optimization [44], there

maybe a threshold that separate the regions where the importance of codon

context or individual codon usage dominate the other. In the current set of

experiments, the individual codon usage did not affect protein expression

levels as seen in the Western blot. Instead, the use of rare codons could

have increased translational pauses to an extent that ribosomes detached,

leading to misfolding and loss of enzyme activity [157]. Clearly, further

investigation should be required to deconvolute the effects of codon context

and individual codon usage on protein expression and folding in future.

5.5 Conclusion

A non-native gene to the E. coli host coding for invertase derived from

Thermotoga maritima was designed based on CVO, CCO, and SSO, and

expressed to compare the activity of the enzymes. Amongst the codon op-

Page 99: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

5. CODON CONTEXT BASED SYNTHETIC GENE DESIGN OF ATHERMOSTABLE INVERTASE FOR ESCHERICHIA COLI 86

timization criteria considered, CCO was found to generate the sequence

with the highest enzyme activity per culture volume. Furthermore, SSO,

which adopts the secondary structure as the key element of gene design,

showed a decrease in enzyme activity compared to the wild-type. Our study

further illustrates the importance of CCO fitness as a design parameter for

optimizing the sequence towards improved heterologous protein expression.

Page 100: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

Chapter 6

Codon Optimization of ATP7B

for Gene Therapy Application

In this chapter, the multi-objective codon optimization framework was ap-

plied towards gene design of the human ATPase Copper Transporting Beta,

ATP7B gene for gene therapy application. Initial efforts to establish a hu-

man liver tissue specific codon bias found that the highly expressed liver

genes have a codon usage that is highly similar to the human genomic av-

erage, in contrast with other tissue types. Using the multi-objective codon

optimization framework, the tradeoffs in individual codon usage (ICU)

and codon context (CC) fitnesses with reductions in cytosine-phosphate-

guanine (CpG) dinucleotides and increments in guanine-cytosine (GC) con-

tent could be quantified and studied to guide gene design.

87

Page 101: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

6. CODON OPTIMIZATION OF ATP7B FOR GENE THERAPYAPPLICATION 88

6.1 Abstract

A study on the application of multi-objective codon optimization for gene

therapy was performed herein. In particular, the ATPase Copper Trans-

porting Beta, ATP7B gene was designed for delivery into human liver tis-

sue to treat Wilson’s disease. Gene expression data of human tissue was

first compiled to identify high expression genes to derive the reference in-

dividual codon and codon pair frequencies. Tissue specific codon usage

was then analyzed using principal component analysis. The codon usage

of high expression genes in liver tissue was found to be more similar to

the global codon usage in the human genome when compared to other pri-

mary tissue types. Using the human genome codon usage as the reference

codon bias, the ATP7B gene was designed using the individual codon usage

(ICU) and codon context (CC) design criteria, and progressively reduced

cytosine-phosphate-guanine (CpG) dinucleotide count. The removal of CpG

dinucleotides substantially reduced the achievable fitness scores, especially

in the case of ICU design. Further investigations carried out to raise the

designed sequence guanine-cytosine (GC) content resulted in further re-

ductions of fitness scores, such that at 55% GC content, the achievable

ICU score was even lower than the wild type sequence. The analysis pre-

sented herein illustrates the tradeoffs encountered between improving the

ICU or CC design criterion while eliminating CpG dinucleotides, as well

as increasing sequence GC content. This study demonstrates the utility of

the multi-objective codon optimization framework in guiding gene design

in the face of multiple and conflicting design objectives.

Page 102: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

6. CODON OPTIMIZATION OF ATP7B FOR GENE THERAPYAPPLICATION 89

6.2 Introduction

The ATPase Copper Transporting Beta gene, ATP7B, is a P-type ATPase

responsible for copper transportation. It is primarily expressed in hepa-

tocytes, where it has two major functions for maintaining copper homeo-

statis [62]. It is responsible for loading copper to ceruloplasmin, the main

carrier of copper in the blood stream. ATP7B is also involved in the traf-

ficking of copper for excretion in bile when the cytosolic copper level is ele-

vated [160]. Mutations in the gene results in Wilson’s disease, where copper

builds up over time in the liver, followed deposition in other organs includ-

ing the brain [161,162]. Current treatment regimes of zinc salts and copper

chelators target the reduction of copper stores followed by maintenance at

physiological levels [163]. While these lifelong treatments reduce built-up

copper and prevent reaccumulation, they do not restore serum ceruloplas-

min levels, a key aspect of normal copper metabolism. In addition to side

effects, not all patients respond to such drug treatment, especially for late

stage patients with liver failure. Liver transplant is currently the only effec-

tive treatment that can restore full metabolic function, but has associated

risks of graft failure and rejection [164].

One promising approach under active research is the delivery of DNA

that encodes the ATP7B protein into patient tissue, also known as gene

therapy. The ATP7B gene in a vector or DNA complex is delivered into

the patient’s liver tissue for therapy [165]. This approach towards curing

Wilson’s disease has been demonstrated in a murine model recently [166].

For any gene therapy to be successful, it requires a sufficiently large pop-

ulation of gene corrected cells that escape immunological recognition and

survive long term [167]. The gene corrected cells must also produce suf-

ficient quantities of the therapeutic protein to ensure treatment efficacy.

Page 103: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

6. CODON OPTIMIZATION OF ATP7B FOR GENE THERAPYAPPLICATION 90

Codon optimization is an approach that can help increase protein produc-

tion, as well as reduce the likelihood of triggering an immune response to

the therapy.

As discussed in Chapter 1, codon optimization seeks to alter the codon

usage of coding sequences within the target gene to match that of the

expression host. Although the gene of interest for gene therapy may origi-

nate from the host, codon optimization of the target gene can enhance its

protein expression level limited by the wild type sequence. Indeed, in-vivo

studies conducted have shown the enhancement of gene therapy efficacy

through codon optimization [60, 168]. Furthermore, human tissue specific

codon bias has been reported for the most highly expressed genes [169]. As

gene therapy targets a particular tissue type, a tissue specific codon bias

can be beneficial. Another benefit of codon optimization is the ability to re-

move motifs that are potentially detrimental to protein expression or invoke

immunological recognition, subject to the constraint of the encoded amino

acid composition. For example, the cytosine-phosphate-guanine (CpG) sites

in gene therapy vectors are known to trigger an immune response in patient

tissue, which is a serious hurdle in successful gene therapy [61, 72]. Mean-

while, there are also reports that guanine-cytosine (GC) rich sequences

being less immunogenic [63].

The codon optimization workflow described in Chapter 1 can be em-

ployed. The protein sequence and host reference codon bias are the primary

inputs into the codon optimization procedure. The appropriate primary de-

sign criteria individual codon usage (ICU) and codon context (CC), as well

as other design factors such as exclusion motifs are specified to guide the op-

timization procedure to produce the optimized sequences. Initially, the host

reference codon bias can be established based on the codon bias of highly

Page 104: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

6. CODON OPTIMIZATION OF ATP7B FOR GENE THERAPYAPPLICATION 91

expressed genes which may be identified using various -omics profiling data,

e.g., transcriptome, translatome, and proteome data. Subsequently, codon

optimization can be performed with the selected design criteria and con-

straints as well as the host reference codon bias.

In this chapter, the application of the multi-objective codon optimiza-

tion framework to gene therapy is demonstrated. The impact of remov-

ing CpG dinucleotides on the ICU and CC design objectives is presented

here. The tradeoff between minimizing CpG dinucleotides and maintain-

ing a limit on GC content is also illustrated. The ATP7B protein sequence

and host reference codon bias are the primary inputs into the codon op-

timization procedure. A literature survey was first performed to collect

suitable -omics profiling data in order to identify highly expressed genes of

different human liver tissue. Omics profiling data, namely, transcriptome,

translatome, and proteome data of human liver tissue were compiled and

analyzed to determine the appropriate reference codon bias. Thereafter,

new coding sequences were designed using the codon optimization proce-

dure with either ICU or CC as the main design criterion with additional

consideration on CpG dinucleotides, cis regulatory elements, and GC con-

tent. The designed sequences were then analyzed for sequences similarity

and codon usage in terms ICU and CC.

6.3 Materials and methods

Data from RNA-seq [170] and microarray [171] experiments characterizing

the human liver transcriptome, and LC-MS (liquid chromatography-mass

spectrometry) [172] data for the human liver proteome were obtained from

literature for analysis. The RNA-seq data contains expression profiling of

Page 105: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

6. CODON OPTIMIZATION OF ATP7B FOR GENE THERAPYAPPLICATION 92

32 different normal primary human tissue types, including liver tissue. All

tissues samples were collected from the Uppsala Biobank and RNA sam-

ples were extracted from frozen tissue sections obtained from a total of

122 individuals. The dataset has a coverage of 18610 genes. After removing

non-coding genes, the genes were filtered using a cutoff of 1 FPKM (Frag-

ments Per Kilobase of transcript per Million mapped reads) to remove

non-expressed genes. After filtering, each different tissue dataset contains

12000− 13900 expressed genes.

The microarray data contains the expression profiling of adult human

liver tissue samples with a coverage of 12043 coding genes. The samples

were obtained from 10 adult human, surgically resected from the portion

unaffected by the hemangioma and pooled together. No filtering was applied

to remove non-expressed genes.

The LC-MS data contains expression profiling of human liver tissue by

spectral counting. 10 human liver samples were obtained from Chinese Han

nationality by hepatic hemangioma resection and pooled together. The data

contains 6788 IPI (International Protein Index) IDs. The IPI database has

been discontinued and the IDs were mapped to 4878 Uniprot IDs.

Gene and transcript identifiers from each -omics dataset were mapped

onto National Center for Biotechnology (NCBI) gene IDs using available an-

notation at NCBI. This is to ensure all resulting gene sets refer to the same

transcripts for consistency. Coding sequences from the human genome were

downloaded from NCBI RefSeq [173]. Since many genes have more than

one transcript variant, the longest transcript is used. The wild type human

ATP7B coding sequence (CDS) (GenBank accession number U03464) was

also obtained from NCBI [174].

The codon optimization of the ATP7B gene was performed using the

Page 106: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

6. CODON OPTIMIZATION OF ATP7B FOR GENE THERAPYAPPLICATION 93

Table 6.1: Exclusion motifs for codon optimization of ATP7B

Splice sitesCAG|G 3’ splice siteMAG|GTRAGT 5’ splice site, where M is A or C and R is A or G

Transcriptional regulation sitesTATAAA TATA box, transcriptional regulation siteGG(T/C)CAATCT CAAT box, transcriptional regulation site

codon bias computed in this chapter. The formulation of the codon op-

timization problem and optimization algorithm employed have been dis-

cussed in Chapter 2. The ICU and CC fitness values are computed with

the definitions provided in Section 2.1.1. The raw count of CpG motifs in

the candidate sequences are used to measure CpG fitness, with the aim

to minimize the count. Due to the large protein size (1466 amino acids),

the codon optimization was performed using a population size of 1000 and

was executed for 100000 iterations. Exclusion motifs removed from the op-

timized sequences are given in Table 6.1.

6.4 Results and discussion

6.4.1 Establishing codon bias

6.4.1.1 Codon bias of highly expressed genes

A literature review was conducted to obtain -omics profiling data to iden-

tify highly expressed genes in primary human liver tissue. RNA-seq [170],

microarray [171], and LC-MS [172] data were processed to quantitatively

rank genes according to expression levels. Table 6.2 shows the ICU com-

puted from the top 10% highly expressed genes identified using the collected

-omics data. Comparative analysis of the ICU shows variation among dif-

ferent data sources. The microarray based ICU values show an average

Page 107: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

6. CODON OPTIMIZATION OF ATP7B FOR GENE THERAPYAPPLICATION 94

of 8% difference from the RNA-seq based ICU, while the LC-MS based

ICU values show 4.3% from the RNA-seq based ICU. The smaller differ-

ences between the ICU values computed from RNA-seq and LC-MS data

is somewhat surprising, given that both -omics methods profile different

molecules (transcriptome and proteome respectively), and that the LC-MS

data has a much smaller coverage than the other datasets. On the other

hand, both the RNA-seq and microarray experiments characterize the tran-

scriptome and have fairly similar gene coverage while mapping a common

set of transcripts. Therefore, the differences may be attributed to different

data acquisition platforms resulting in different gene expression quantita-

tion, and not to any systematic differences in codon bias.

The RNA-seq data was then analyzed for codon bias across different

tissue types (Table 6.3). For the top 10% highly expressed genes, the codon

bias is far more uniform, in contrast to the variations observed with differ-

ent data acquisition platforms (RNA-seq, microarray, LC-MS). The gene

lists of the top 10% highly expressed genes in the liver, kidney, and brain

were compared for overlaps in the gene lists (Figure 6.1). Brain tissue, with

a metabolic role that is substantially different from the kidney and liver,

has 47% non overlapping genes. Despite this uniqueness, the brain tissue

ICU values show an average of 1.6% and 3.2% difference from the kidney

tissue and liver tissue ICUs respectively. On the hand, the liver tissue ICU

values differed an average of 2.9% from the ICU of kidney tissue. These

differences are substantially smaller than the values found across the dif-

ferent data acquisition platforms. This further supports the argument that

the differences in codon bias observed between platforms is due to platform

specific technological limitations and not indicative of any systematic bias

in gene expression.

Page 108: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

6. CODON OPTIMIZATION OF ATP7B FOR GENE THERAPYAPPLICATION 95

Table 6.2: ICU computed from top 10% high expression genes identifiedusing -omics profiling data of human liver tissue

RNA-seq Microarray LC-MS

AA Codon Genome Transcript Hi10% Transcript Hi10% Protein Hi10%

* TAA 0.285 0.329 0.368 0.356

* TAG 0.222 0.216 0.200 0.191

* TGA 0.494 0.456 0.432 0.453

A GCA 0.230 0.227 0.245 0.215

A GCC 0.398 0.387 0.363 0.396

A GCG 0.109 0.095 0.092 0.090

A GCT 0.263 0.291 0.301 0.299

C TGC 0.534 0.545 0.507 0.546

C TGT 0.466 0.455 0.493 0.454

D GAC 0.528 0.523 0.491 0.524

D GAT 0.472 0.477 0.509 0.476

E GAA 0.433 0.429 0.484 0.407

E GAG 0.567 0.571 0.516 0.593

F TTC 0.530 0.533 0.499 0.528

F TTT 0.470 0.467 0.501 0.472

G GGA 0.253 0.267 0.287 0.259

G GGC 0.338 0.327 0.307 0.333

G GGG 0.247 0.228 0.218 0.215

G GGT 0.162 0.178 0.188 0.193

H CAC 0.573 0.576 0.541 0.580

H CAT 0.427 0.424 0.459 0.420

I ATA 0.176 0.145 0.169 0.131

I ATC 0.455 0.475 0.428 0.494

I ATT 0.369 0.380 0.404 0.376

K AAA 0.445 0.414 0.451 0.389

K AAG 0.555 0.586 0.549 0.611

L CTA 0.072 0.068 0.072 0.064

L CTC 0.190 0.190 0.178 0.184

L CTG 0.392 0.406 0.366 0.432

L CTT 0.135 0.134 0.149 0.127

L TTA 0.080 0.067 0.087 0.063

L TTG 0.131 0.135 0.149 0.131

M ATG 1.000 1.000 1.000 1.000

N AAC 0.518 0.534 0.494 0.549

N AAT 0.482 0.466 0.506 0.451

P CCA 0.277 0.279 0.294 0.271

P CCC 0.321 0.322 0.289 0.325

P CCG 0.116 0.105 0.101 0.098

P CCT 0.286 0.294 0.316 0.307

Q CAA 0.270 0.263 0.289 0.235

Q CAG 0.730 0.737 0.711 0.765

R AGA 0.216 0.209 0.247 0.193

R AGG 0.210 0.195 0.205 0.185

R CGA 0.109 0.115 0.117 0.112

R CGC 0.183 0.187 0.162 0.202

R CGG 0.203 0.198 0.173 0.201

R CGT 0.080 0.096 0.096 0.109

S AGC 0.239 0.227 0.217 0.229

S AGT 0.153 0.145 0.158 0.137

S TCA 0.154 0.146 0.165 0.139

S TCC 0.212 0.224 0.206 0.234

S TCG 0.055 0.055 0.050 0.059

S TCT 0.188 0.204 0.204 0.202

T ACA 0.288 0.275 0.295 0.254

T ACC 0.346 0.369 0.333 0.378

T ACG 0.112 0.102 0.099 0.112

T ACT 0.255 0.254 0.273 0.256

V GTA 0.121 0.113 0.130 0.108

V GTC 0.234 0.232 0.224 0.223

V GTG 0.459 0.460 0.429 0.484

V GTT 0.186 0.194 0.217 0.185

W TGG 1.000 1.000 1.000 1.000

Y TAC 0.547 0.546 0.515 0.556

Y TAT 0.453 0.454 0.485 0.444

Page 109: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

6. CODON OPTIMIZATION OF ATP7B FOR GENE THERAPYAPPLICATION 96

Tab

le6.3:

ICU

computedfrom

top10%

highexpressiongenes

identified

usingRNA-seq

profilingdataof

32human

tissuetypes

AA

Codon

Genome

adipose

adrenal

appendix

bone

marrow

brain

colon

duode-

num

endome-

trium

esopha-

gus

fallopian

gall

bladder

heart

kidney

liver

lung

lymph

ovary

pancreas

placenta

prostate

rectum

salivary

skeletal

skin

small

intestine

smooth

muscle

spleen

stomach

testis

thyroid

tonsil

bladder

*TAA

0.285

0.329

0.351

0.369

0.337

0.346

0.348

0.327

0.359

0.351

0.331

0.338

0.346

0.327

0.329

0.310

0.348

0.347

0.326

0.340

0.353

0.361

0.322

0.310

0.319

0.336

0.348

0.312

0.338

0.337

0.343

0.361

0.337

*TAG

0.222

0.215

0.200

0.203

0.215

0.201

0.197

0.213

0.210

0.215

0.212

0.214

0.220

0.209

0.216

0.224

0.203

0.205

0.209

0.209

0.209

0.195

0.211

0.220

0.217

0.205

0.208

0.214

0.209

0.213

0.197

0.195

0.215

*TGA

0.494

0.457

0.449

0.428

0.448

0.452

0.455

0.459

0.431

0.434

0.457

0.448

0.434

0.464

0.456

0.466

0.449

0.448

0.465

0.451

0.438

0.444

0.466

0.470

0.464

0.459

0.444

0.474

0.453

0.450

0.459

0.444

0.448

AGCA

0.230

0.212

0.225

0.224

0.225

0.228

0.223

0.218

0.233

0.222

0.216

0.223

0.227

0.222

0.227

0.217

0.230

0.230

0.212

0.224

0.216

0.236

0.208

0.225

0.219

0.218

0.230

0.211

0.211

0.241

0.239

0.231

0.225

AGCC

0.398

0.411

0.384

0.390

0.388

0.392

0.391

0.398

0.376

0.400

0.399

0.395

0.390

0.393

0.387

0.400

0.383

0.384

0.406

0.388

0.399

0.375

0.414

0.401

0.406

0.397

0.386

0.412

0.403

0.372

0.370

0.377

0.388

AGCG

0.109

0.102

0.102

0.095

0.097

0.100

0.096

0.096

0.096

0.094

0.103

0.095

0.095

0.100

0.095

0.099

0.094

0.095

0.106

0.097

0.105

0.090

0.109

0.099

0.098

0.098

0.093

0.104

0.104

0.094

0.094

0.089

0.097

AGCT

0.263

0.275

0.289

0.292

0.290

0.280

0.290

0.289

0.295

0.284

0.283

0.287

0.287

0.285

0.291

0.284

0.293

0.292

0.277

0.291

0.280

0.300

0.269

0.275

0.276

0.288

0.292

0.272

0.282

0.293

0.297

0.302

0.290

CTGC

0.534

0.586

0.550

0.558

0.561

0.560

0.560

0.564

0.545

0.566

0.576

0.562

0.556

0.558

0.545

0.578

0.541

0.554

0.576

0.551

0.573

0.537

0.575

0.562

0.579

0.564

0.555

0.577

0.585

0.523

0.543

0.538

0.561

CTGT

0.466

0.414

0.450

0.442

0.439

0.440

0.440

0.436

0.455

0.434

0.424

0.438

0.444

0.442

0.455

0.422

0.459

0.446

0.424

0.449

0.427

0.463

0.425

0.438

0.421

0.436

0.445

0.423

0.415

0.477

0.457

0.462

0.439

DGAC

0.528

0.541

0.510

0.521

0.518

0.516

0.518

0.526

0.498

0.524

0.532

0.523

0.517

0.522

0.523

0.533

0.512

0.508

0.533

0.515

0.525

0.495

0.546

0.520

0.537

0.523

0.510

0.557

0.534

0.493

0.492

0.503

0.518

DGAT

0.472

0.459

0.490

0.479

0.482

0.484

0.482

0.474

0.502

0.476

0.468

0.477

0.483

0.478

0.477

0.467

0.488

0.492

0.467

0.485

0.475

0.505

0.454

0.480

0.463

0.477

0.490

0.443

0.466

0.507

0.508

0.497

0.482

EGAA

0.433

0.394

0.422

0.414

0.417

0.416

0.413

0.393

0.435

0.402

0.392

0.416

0.415

0.408

0.429

0.399

0.422

0.425

0.397

0.424

0.397

0.439

0.380

0.415

0.384

0.399

0.426

0.370

0.391

0.444

0.443

0.424

0.417

EGAG

0.567

0.606

0.578

0.586

0.583

0.584

0.587

0.607

0.565

0.598

0.608

0.584

0.585

0.592

0.571

0.601

0.578

0.575

0.603

0.576

0.603

0.561

0.620

0.585

0.616

0.601

0.574

0.630

0.609

0.556

0.557

0.576

0.583

FTTC

0.530

0.574

0.540

0.551

0.548

0.545

0.548

0.551

0.532

0.554

0.562

0.552

0.542

0.543

0.533

0.567

0.541

0.533

0.558

0.547

0.553

0.528

0.570

0.549

0.569

0.549

0.545

0.579

0.568

0.512

0.513

0.533

0.548

FTTT

0.470

0.426

0.460

0.449

0.452

0.455

0.452

0.449

0.468

0.446

0.438

0.448

0.458

0.457

0.467

0.433

0.459

0.467

0.442

0.453

0.447

0.472

0.430

0.451

0.431

0.451

0.455

0.421

0.432

0.488

0.487

0.467

0.452

GGGA

0.253

0.243

0.250

0.254

0.257

0.250

0.250

0.247

0.262

0.248

0.243

0.257

0.248

0.251

0.267

0.246

0.254

0.255

0.240

0.260

0.242

0.263

0.236

0.235

0.239

0.249

0.259

0.232

0.239

0.259

0.267

0.256

0.257

GGGC

0.338

0.347

0.334

0.330

0.328

0.341

0.341

0.344

0.321

0.341

0.341

0.330

0.334

0.339

0.327

0.341

0.320

0.329

0.347

0.328

0.342

0.322

0.357

0.342

0.345

0.341

0.325

0.348

0.348

0.322

0.322

0.322

0.328

GGGG

0.247

0.229

0.230

0.227

0.221

0.234

0.218

0.230

0.220

0.221

0.229

0.223

0.226

0.228

0.228

0.229

0.230

0.224

0.234

0.219

0.226

0.218

0.234

0.236

0.233

0.226

0.223

0.245

0.225

0.225

0.222

0.223

0.221

GGGT

0.162

0.181

0.185

0.189

0.194

0.175

0.192

0.179

0.197

0.191

0.187

0.190

0.192

0.181

0.178

0.184

0.195

0.192

0.178

0.193

0.190

0.196

0.173

0.187

0.184

0.183

0.192

0.175

0.188

0.194

0.190

0.198

0.194

HCAC

0.573

0.616

0.577

0.586

0.582

0.581

0.591

0.589

0.561

0.596

0.602

0.591

0.590

0.589

0.576

0.596

0.573

0.574

0.600

0.581

0.595

0.566

0.607

0.603

0.598

0.592

0.580

0.621

0.604

0.549

0.548

0.561

0.582

HCAT

0.427

0.384

0.423

0.414

0.418

0.419

0.409

0.411

0.439

0.404

0.398

0.409

0.410

0.411

0.424

0.404

0.427

0.426

0.400

0.419

0.405

0.434

0.393

0.397

0.402

0.408

0.420

0.379

0.396

0.451

0.452

0.439

0.418

IATA

0.176

0.122

0.137

0.134

0.133

0.134

0.128

0.128

0.143

0.130

0.122

0.133

0.134

0.136

0.145

0.129

0.138

0.140

0.128

0.136

0.129

0.136

0.120

0.139

0.128

0.128

0.133

0.120

0.122

0.156

0.147

0.133

0.133

IATC

0.455

0.525

0.485

0.501

0.499

0.499

0.495

0.504

0.475

0.505

0.518

0.500

0.504

0.493

0.475

0.514

0.495

0.479

0.507

0.493

0.508

0.474

0.527

0.495

0.516

0.505

0.493

0.539

0.518

0.460

0.460

0.491

0.499

IATT

0.369

0.353

0.378

0.365

0.368

0.367

0.377

0.368

0.383

0.365

0.359

0.367

0.362

0.371

0.380

0.358

0.368

0.381

0.365

0.371

0.363

0.390

0.354

0.366

0.356

0.367

0.374

0.341

0.360

0.384

0.393

0.376

0.368

KAAA

0.445

0.388

0.403

0.397

0.401

0.404

0.393

0.383

0.419

0.388

0.381

0.403

0.401

0.397

0.414

0.391

0.405

0.409

0.385

0.403

0.386

0.411

0.371

0.407

0.382

0.390

0.408

0.365

0.380

0.428

0.417

0.403

0.401

KAAG

0.555

0.612

0.597

0.603

0.599

0.596

0.607

0.617

0.581

0.612

0.619

0.597

0.599

0.603

0.586

0.609

0.595

0.591

0.615

0.597

0.614

0.589

0.629

0.593

0.618

0.610

0.592

0.635

0.620

0.572

0.583

0.597

0.599

LCTA

0.072

0.062

0.068

0.068

0.069

0.069

0.069

0.067

0.072

0.068

0.065

0.069

0.068

0.066

0.068

0.065

0.069

0.070

0.062

0.067

0.065

0.074

0.063

0.068

0.065

0.067

0.069

0.062

0.065

0.075

0.072

0.070

0.069

LCTC

0.190

0.197

0.185

0.192

0.188

0.186

0.187

0.190

0.183

0.189

0.194

0.190

0.188

0.192

0.190

0.195

0.189

0.185

0.194

0.192

0.188

0.184

0.193

0.186

0.193

0.190

0.189

0.201

0.192

0.177

0.180

0.188

0.188

LCTG

0.392

0.437

0.409

0.415

0.409

0.411

0.412

0.424

0.390

0.418

0.426

0.412

0.413

0.414

0.406

0.426

0.406

0.400

0.428

0.410

0.425

0.391

0.443

0.422

0.433

0.424

0.402

0.450

0.434

0.382

0.382

0.399

0.409

LCTT

0.135

0.122

0.134

0.129

0.133

0.131

0.134

0.127

0.140

0.131

0.126

0.132

0.131

0.131

0.134

0.125

0.132

0.136

0.128

0.133

0.129

0.140

0.122

0.128

0.123

0.127

0.135

0.114

0.124

0.143

0.145

0.137

0.133

LTTA

0.080

0.057

0.068

0.065

0.068

0.070

0.065

0.061

0.075

0.064

0.059

0.065

0.068

0.064

0.067

0.061

0.069

0.073

0.060

0.066

0.063

0.072

0.056

0.068

0.061

0.061

0.070

0.053

0.059

0.081

0.077

0.069

0.068

LTTG

0.131

0.124

0.136

0.130

0.132

0.132

0.133

0.130

0.140

0.130

0.129

0.132

0.132

0.133

0.135

0.129

0.134

0.137

0.128

0.132

0.130

0.139

0.124

0.128

0.126

0.130

0.135

0.121

0.127

0.140

0.143

0.138

0.132

MATG

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

NAAC

0.518

0.571

0.536

0.548

0.547

0.545

0.550

0.551

0.533

0.558

0.570

0.551

0.551

0.551

0.534

0.562

0.540

0.540

0.561

0.545

0.558

0.532

0.568

0.547

0.566

0.552

0.545

0.583

0.568

0.521

0.519

0.537

0.547

NAAT

0.482

0.429

0.464

0.452

0.453

0.455

0.450

0.449

0.467

0.442

0.430

0.449

0.449

0.449

0.466

0.438

0.460

0.460

0.439

0.455

0.442

0.468

0.432

0.453

0.434

0.448

0.455

0.417

0.432

0.479

0.481

0.463

0.453

PCCA

0.277

0.265

0.276

0.282

0.283

0.281

0.273

0.275

0.287

0.275

0.270

0.279

0.278

0.272

0.279

0.269

0.280

0.284

0.263

0.283

0.270

0.289

0.265

0.287

0.268

0.274

0.283

0.269

0.268

0.289

0.293

0.293

0.283

PCCC

0.321

0.334

0.317

0.314

0.308

0.315

0.317

0.328

0.300

0.320

0.322

0.315

0.316

0.324

0.322

0.324

0.309

0.307

0.334

0.308

0.322

0.298

0.333

0.314

0.335

0.326

0.310

0.334

0.326

0.299

0.292

0.297

0.308

PCCG

0.116

0.110

0.110

0.103

0.105

0.112

0.105

0.106

0.105

0.105

0.111

0.104

0.105

0.111

0.105

0.107

0.104

0.106

0.117

0.101

0.112

0.097

0.121

0.106

0.105

0.105

0.100

0.114

0.111

0.103

0.103

0.098

0.105

PCCT

0.286

0.292

0.297

0.301

0.303

0.292

0.305

0.292

0.309

0.300

0.297

0.302

0.302

0.293

0.294

0.299

0.306

0.304

0.286

0.308

0.296

0.316

0.281

0.294

0.292

0.294

0.307

0.284

0.295

0.309

0.311

0.312

0.303

QCAA

0.270

0.225

0.241

0.240

0.244

0.239

0.240

0.230

0.253

0.232

0.223

0.244

0.247

0.239

0.263

0.234

0.242

0.247

0.225

0.246

0.226

0.254

0.216

0.242

0.218

0.236

0.249

0.210

0.221

0.263

0.253

0.243

0.244

QCAG

0.730

0.775

0.759

0.760

0.756

0.761

0.760

0.770

0.747

0.768

0.777

0.756

0.753

0.761

0.737

0.766

0.758

0.753

0.775

0.754

0.774

0.746

0.784

0.758

0.782

0.764

0.751

0.790

0.779

0.737

0.747

0.757

0.756

RAGA

0.216

0.183

0.197

0.205

0.208

0.191

0.194

0.190

0.213

0.196

0.186

0.204

0.197

0.196

0.209

0.190

0.211

0.202

0.184

0.202

0.193

0.214

0.181

0.194

0.183

0.195

0.205

0.177

0.188

0.217

0.216

0.209

0.208

RAGG

0.210

0.182

0.184

0.187

0.183

0.184

0.180

0.183

0.184

0.187

0.179

0.187

0.190

0.185

0.195

0.186

0.189

0.182

0.182

0.187

0.177

0.184

0.178

0.189

0.184

0.186

0.184

0.185

0.180

0.185

0.186

0.186

0.183

RCGA

0.109

0.112

0.118

0.115

0.116

0.119

0.118

0.115

0.122

0.117

0.117

0.116

0.114

0.120

0.115

0.114

0.118

0.120

0.114

0.115

0.115

0.123

0.113

0.107

0.113

0.114

0.120

0.111

0.112

0.121

0.121

0.122

0.116

RCGC

0.183

0.211

0.195

0.185

0.189

0.197

0.196

0.196

0.180

0.196

0.201

0.190

0.192

0.192

0.187

0.197

0.175

0.190

0.201

0.191

0.201

0.178

0.208

0.197

0.200

0.194

0.186

0.202

0.204

0.177

0.176

0.178

0.189

RCGG

0.203

0.212

0.202

0.202

0.202

0.211

0.204

0.213

0.195

0.205

0.213

0.200

0.208

0.209

0.198

0.213

0.202

0.200

0.218

0.199

0.211

0.190

0.221

0.219

0.220

0.208

0.201

0.227

0.213

0.199

0.196

0.198

0.202

RCGT

0.080

0.100

0.106

0.105

0.104

0.097

0.108

0.102

0.106

0.099

0.103

0.103

0.099

0.098

0.096

0.100

0.105

0.106

0.100

0.105

0.102

0.111

0.099

0.093

0.101

0.103

0.104

0.098

0.102

0.101

0.105

0.108

0.104

SAGC

0.239

0.250

0.232

0.237

0.233

0.238

0.237

0.237

0.225

0.240

0.241

0.237

0.232

0.234

0.227

0.242

0.230

0.230

0.243

0.235

0.238

0.225

0.247

0.237

0.246

0.237

0.230

0.254

0.245

0.220

0.221

0.227

0.233

SAGT

0.153

0.140

0.149

0.150

0.148

0.149

0.145

0.144

0.157

0.147

0.142

0.147

0.148

0.143

0.145

0.144

0.153

0.152

0.141

0.149

0.145

0.153

0.139

0.148

0.142

0.143

0.150

0.141

0.137

0.161

0.155

0.155

0.148

STCA

0.154

0.134

0.140

0.142

0.145

0.139

0.142

0.139

0.150

0.137

0.135

0.142

0.145

0.138

0.146

0.140

0.145

0.148

0.135

0.141

0.137

0.150

0.132

0.148

0.144

0.139

0.147

0.134

0.134

0.157

0.152

0.143

0.145

STCC

0.212

0.228

0.218

0.216

0.217

0.220

0.219

0.227

0.210

0.222

0.227

0.223

0.222

0.227

0.224

0.222

0.214

0.213

0.229

0.219

0.223

0.214

0.231

0.217

0.221

0.227

0.216

0.226

0.228

0.203

0.209

0.216

0.217

STCG

0.055

0.059

0.058

0.055

0.056

0.056

0.058

0.058

0.055

0.058

0.060

0.056

0.055

0.059

0.055

0.057

0.054

0.055

0.059

0.056

0.060

0.053

0.062

0.057

0.056

0.058

0.054

0.059

0.060

0.051

0.053

0.052

0.056

STCT

0.188

0.189

0.203

0.199

0.201

0.197

0.199

0.195

0.203

0.195

0.195

0.196

0.198

0.200

0.204

0.195

0.203

0.202

0.193

0.201

0.197

0.207

0.188

0.194

0.191

0.196

0.203

0.186

0.197

0.208

0.209

0.208

0.201

TACA

0.288

0.259

0.276

0.279

0.280

0.277

0.283

0.269

0.288

0.273

0.268

0.272

0.275

0.271

0.275

0.269

0.280

0.280

0.264

0.275

0.269

0.296

0.260

0.277

0.271

0.272

0.283

0.262

0.270

0.292

0.293

0.282

0.280

TACC

0.346

0.387

0.363

0.363

0.363

0.364

0.368

0.377

0.348

0.373

0.376

0.371

0.363

0.369

0.369

0.375

0.356

0.356

0.379

0.366

0.371

0.351

0.386

0.357

0.369

0.374

0.361

0.385

0.383

0.340

0.345

0.359

0.363

TACG

0.112

0.114

0.105

0.108

0.104

0.112

0.104

0.109

0.102

0.107

0.111

0.108

0.109

0.109

0.102

0.110

0.108

0.103

0.119

0.107

0.113

0.096

0.121

0.113

0.112

0.108

0.102

0.119

0.112

0.102

0.099

0.102

0.104

TACT

0.255

0.240

0.256

0.250

0.253

0.247

0.245

0.245

0.262

0.247

0.246

0.249

0.253

0.251

0.254

0.246

0.256

0.261

0.238

0.252

0.247

0.257

0.233

0.253

0.248

0.246

0.255

0.234

0.235

0.265

0.263

0.257

0.253

VGTA

0.121

0.104

0.118

0.115

0.116

0.118

0.114

0.110

0.123

0.112

0.107

0.112

0.111

0.112

0.113

0.109

0.120

0.120

0.105

0.114

0.109

0.123

0.104

0.112

0.105

0.110

0.114

0.100

0.108

0.131

0.128

0.121

0.116

VGTC

0.234

0.239

0.228

0.235

0.233

0.233

0.232

0.238

0.223

0.233

0.237

0.233

0.231

0.232

0.232

0.238

0.228

0.230

0.240

0.238

0.233

0.228

0.242

0.227

0.232

0.237

0.230

0.242

0.237

0.219

0.224

0.228

0.233

VGTG

0.459

0.482

0.462

0.463

0.459

0.464

0.461

0.471

0.454

0.468

0.478

0.466

0.469

0.468

0.460

0.473

0.460

0.457

0.478

0.458

0.477

0.446

0.487

0.472

0.491

0.471

0.463

0.497

0.477

0.446

0.444

0.455

0.459

VGTT

0.186

0.175

0.191

0.187

0.192

0.185

0.193

0.181

0.200

0.187

0.179

0.189

0.190

0.187

0.194

0.180

0.192

0.193

0.177

0.190

0.181

0.204

0.167

0.189

0.171

0.182

0.193

0.161

0.179

0.203

0.204

0.196

0.192

WTGG

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

YTAC

0.547

0.583

0.556

0.559

0.555

0.558

0.559

0.560

0.543

0.560

0.575

0.562

0.566

0.561

0.546

0.572

0.555

0.552

0.571

0.554

0.568

0.536

0.582

0.563

0.581

0.563

0.555

0.589

0.580

0.533

0.528

0.546

0.555

YTAT

0.453

0.417

0.444

0.441

0.445

0.442

0.441

0.440

0.457

0.440

0.425

0.438

0.434

0.439

0.454

0.428

0.445

0.448

0.429

0.446

0.432

0.464

0.418

0.437

0.419

0.437

0.445

0.411

0.420

0.467

0.472

0.454

0.445

Page 110: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

6. CODON OPTIMIZATION OF ATP7B FOR GENE THERAPYAPPLICATION 97

Liver (1211)

Brain (1360)

Kidney (1338)

462

227

32 303

414

346 639

Figure 6.1: Comparison of gene list among select human tissue

The RNA-seq data for liver tissue was next examined in terms of quan-

titative gene expression levels. The data shows that the gene expression

levels in human liver tissue does not vary linearly (Figure 6.2). Note that

the y-axis used the log scale. The average expression level between the top

1% highly expressed genes is about 10 times of the average of the next 9%

of highly expressed genes. Similar gene expression profiles were observed in

other human tissue within the RNA seq dataset (analysis not shown). This

suggests the need to further examine the codon bias of smaller subsets of

highly expressed genes in the human liver tissue.

Further comparison was made between the top 10%, top 5%, top 3%,

and top 1% highly expressed genes identified in the human liver transcrip-

tome using RNA-seq and human liver proteome using LC-MS (Figure 6.4).

Relatively small variations can be seen between different the ICU of gene

subsets, as well as with the genomic average. These variations can be at-

tributed to the differences in platform and gene coverage since the LC-MS

Page 111: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

6. CODON OPTIMIZATION OF ATP7B FOR GENE THERAPYAPPLICATION 98

1

10

100

1000

10000

1100120013001400150016001700180019001100011100112001

All

Top 10%

Top 5%

Top 3%

Top 1%

Figure 6.2: Genes expressed in human liver sorted by FPKM (fragmentsper kilobase of transcript per million mapped reads) based quantitation onthe y-axis plotted on the log scale. Genes with FPKM < 1 are consideredas non-expressed and thus not plotted.

data has less than half the gene coverage of the RNA-seq data. In contrast,

the ICU of the wild type ATP7B coding sequence is substantially different

from the ICU of the other gene sets from the transcriptome and proteome,

as well as the genomic average. This suggests substantial intragenomic vari-

ations in codon usage within the human genome.

The RNA-seq dataset has the most comprehensive gene coverage com-

pared to the other available expression profiling platforms (microarray and

LC-MS), and it is also part of a larger collection of RNA-seq based gene

expression profiling for 32 different human primary tissue types [170]. Al-

though both RNA-seq and microarray are not capable of absolute quantita-

tion, RNA-seq edges out microarray in terms of correlation with RT-qPCR

and linearity [175]. Therefore, the wider set of RNA-seq data is used to

analyze the differences in codon bias between the top 1% highly expressed

genes in different human tissue types.

Page 112: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

6. CODON OPTIMIZATION OF ATP7B FOR GENE THERAPYAPPLICATION 99

Table 6.4: Codon bias of top 10%, 5%, 3%, and 1% gene subsets identifiedfrom RNA-seq and LC-MS datasets for liver tissue is compared to the codonbias of the human genome and wild type ATP7B gene.

AA Codon Genome Trans 10% Trans 5% Trans 3% Trans 1% Prot 10% Prot 5% Prot 3% Prot 1% ASS1 WT

* TAA 0.285 0.329 0.346 0.356 0.408 0.356 0.358 0.386 0.347 0.000

* TAG 0.222 0.216 0.228 0.231 0.217 0.191 0.198 0.186 0.204 1.000

* TGA 0.494 0.456 0.427 0.414 0.375 0.453 0.444 0.428 0.449 0.000

A GCA 0.230 0.227 0.223 0.225 0.229 0.215 0.218 0.223 0.196 0.143

A GCC 0.398 0.387 0.393 0.394 0.392 0.396 0.387 0.378 0.400 0.643

A GCG 0.109 0.095 0.087 0.084 0.070 0.090 0.087 0.085 0.082 0.071

A GCT 0.263 0.291 0.297 0.297 0.310 0.299 0.307 0.314 0.322 0.143

C TGC 0.534 0.545 0.549 0.535 0.519 0.546 0.542 0.539 0.546 0.800

C TGT 0.466 0.455 0.451 0.465 0.481 0.454 0.458 0.461 0.454 0.200

D GAC 0.528 0.523 0.527 0.531 0.524 0.524 0.515 0.506 0.520 0.625

D GAT 0.472 0.477 0.473 0.469 0.476 0.476 0.485 0.494 0.480 0.375

E GAA 0.433 0.429 0.425 0.431 0.445 0.407 0.414 0.428 0.427 0.286

E GAG 0.567 0.571 0.575 0.569 0.555 0.593 0.586 0.572 0.573 0.714

F TTC 0.530 0.533 0.540 0.535 0.530 0.528 0.517 0.512 0.510 0.733

F TTT 0.470 0.467 0.460 0.465 0.470 0.472 0.483 0.488 0.490 0.267

G GGA 0.253 0.267 0.272 0.275 0.276 0.259 0.262 0.260 0.240 0.097

G GGC 0.338 0.327 0.319 0.320 0.325 0.333 0.327 0.325 0.327 0.548

G GGG 0.247 0.228 0.230 0.233 0.232 0.215 0.218 0.215 0.223 0.226

G GGT 0.162 0.178 0.178 0.172 0.167 0.193 0.192 0.200 0.211 0.129

H CAC 0.573 0.576 0.580 0.568 0.549 0.580 0.580 0.568 0.582 0.600

H CAT 0.427 0.424 0.420 0.432 0.451 0.420 0.420 0.432 0.418 0.400

I ATA 0.176 0.145 0.143 0.147 0.144 0.131 0.129 0.123 0.087 0.037

I ATC 0.455 0.475 0.487 0.487 0.486 0.494 0.485 0.479 0.511 0.667

I ATT 0.369 0.380 0.369 0.367 0.370 0.376 0.386 0.398 0.403 0.296

K AAA 0.445 0.414 0.408 0.413 0.418 0.389 0.397 0.401 0.402 0.333

K AAG 0.555 0.586 0.592 0.587 0.582 0.611 0.603 0.599 0.598 0.667

L CTA 0.072 0.068 0.069 0.068 0.067 0.064 0.064 0.063 0.059 0.000

L CTC 0.190 0.190 0.195 0.190 0.197 0.184 0.182 0.177 0.165 0.353

L CTG 0.392 0.406 0.407 0.407 0.407 0.432 0.425 0.424 0.456 0.471

L CTT 0.135 0.134 0.132 0.136 0.129 0.127 0.130 0.134 0.125 0.088

L TTA 0.080 0.067 0.064 0.067 0.069 0.063 0.065 0.064 0.061 0.029

L TTG 0.131 0.135 0.132 0.133 0.132 0.131 0.135 0.138 0.135 0.059

M ATG 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000

N AAC 0.518 0.534 0.543 0.542 0.534 0.549 0.538 0.531 0.542 0.813

N AAT 0.482 0.466 0.457 0.458 0.466 0.451 0.462 0.469 0.458 0.188

P CCA 0.277 0.279 0.278 0.281 0.279 0.271 0.276 0.278 0.270 0.250

P CCC 0.321 0.322 0.331 0.332 0.324 0.325 0.325 0.320 0.350 0.350

P CCG 0.116 0.105 0.093 0.088 0.080 0.098 0.096 0.094 0.098 0.150

P CCT 0.286 0.294 0.298 0.299 0.317 0.307 0.303 0.308 0.281 0.250

Q CAA 0.270 0.263 0.272 0.283 0.297 0.235 0.239 0.251 0.239 0.294

Q CAG 0.730 0.737 0.728 0.717 0.703 0.765 0.761 0.749 0.761 0.706

R AGA 0.216 0.209 0.218 0.223 0.246 0.193 0.195 0.201 0.177 0.000

R AGG 0.210 0.195 0.206 0.212 0.215 0.185 0.184 0.179 0.180 0.250

R CGA 0.109 0.115 0.109 0.109 0.106 0.112 0.106 0.108 0.101 0.100

R CGC 0.183 0.187 0.189 0.185 0.165 0.202 0.202 0.204 0.215 0.300

R CGG 0.203 0.198 0.184 0.176 0.170 0.201 0.201 0.192 0.195 0.250

R CGT 0.080 0.096 0.095 0.095 0.098 0.109 0.111 0.117 0.132 0.100

S AGC 0.239 0.227 0.223 0.212 0.212 0.229 0.232 0.225 0.215 0.375

S AGT 0.153 0.145 0.139 0.141 0.141 0.137 0.134 0.130 0.128 0.042

S TCA 0.154 0.146 0.146 0.152 0.160 0.139 0.138 0.133 0.125 0.042

S TCC 0.212 0.224 0.235 0.235 0.233 0.234 0.228 0.241 0.248 0.417

S TCG 0.055 0.055 0.052 0.052 0.047 0.059 0.061 0.063 0.066 0.042

S TCT 0.188 0.204 0.206 0.208 0.207 0.202 0.207 0.208 0.217 0.083

T ACA 0.288 0.275 0.265 0.268 0.273 0.254 0.256 0.268 0.257 0.056

T ACC 0.346 0.369 0.384 0.379 0.389 0.378 0.378 0.369 0.406 0.722

T ACG 0.112 0.102 0.098 0.099 0.091 0.112 0.106 0.102 0.090 0.056

T ACT 0.255 0.254 0.253 0.255 0.247 0.256 0.260 0.262 0.247 0.167

V GTA 0.121 0.113 0.108 0.109 0.112 0.108 0.108 0.113 0.111 0.000

V GTC 0.234 0.232 0.239 0.240 0.249 0.223 0.225 0.215 0.236 0.367

V GTG 0.459 0.460 0.465 0.463 0.457 0.484 0.475 0.470 0.454 0.600

V GTT 0.186 0.194 0.188 0.188 0.181 0.185 0.193 0.202 0.199 0.033

W TGG 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000

Y TAC 0.547 0.546 0.551 0.563 0.551 0.556 0.559 0.549 0.591 0.632

Y TAT 0.453 0.454 0.449 0.437 0.449 0.444 0.441 0.451 0.409 0.368

Page 113: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

6. CODON OPTIMIZATION OF ATP7B FOR GENE THERAPYAPPLICATION 100

6.4.1.2 Codon bias of tissue specific high expression genes

Further analysis was conducted using the RNA-seq data of 32 different

human tissue types [170]. The highly expressed top 10%, top 5%, top 3%,

and top 1% gene sets of each tissue type were identified for computing their

respective ICU and CC frequency values. The highly expressed genes sets

showed small variations, except for the top 1% gene sets (Figure 6.5). To

analyze the variations in tissue specific codon bias, principal component

analysis (PCA) was performed to analyze the ICU and CC frequencies of

the top 1% gene sets. Both ICU and CC frequency values of human liver

are different from other human tissue, but are surprisingly more similar to

the genomic average (Figures 6.3 and 6.4). The results obtained in Figures

6.4, 6.3, and 6.4 indicate that the codon bias in the top 1% highly expressed

genes of human liver tissue do not differ in a significant fashion from the

average codon usage of the human genome. Comparatively, the codon usage

of single genes such as the wild type ATP7B show a greater difference from

the average codon usage of the human genome. Therefore, the ICU and CC

frequency values computed from the human genome were selected as the

reference bias input to codon optimization.

6.4.2 Codon optimization of ATP7B gene

6.4.2.1 Impact of reducing CpG dinucleotides

In the multi-objective codon optimization framework, all design criteria

are treated as objectives to be optimized. Here, two main design criteria

were considered: ICU and CC. In addition, the CpG dinucleotide count and

exclusion sequence motifs were taken also into consideration. A target of

0 was set for exclusion motifs, and a series of targets, 20, 10, and 0, were

Page 114: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

6. CODON OPTIMIZATION OF ATP7B FOR GENE THERAPYAPPLICATION 101

Tab

le6.5:

ICU

computedfrom

top1%

highexpressiongenes

identified

usingRNA-seq

profilingdataof

32human

tissuetypes

AA

Codon

Genome

adipose

adrenal

appendix

bone

marrow

brain

colon

duode-

num

endome-

trium

esopha-

gus

fallopian

gall

bladder

heart

kidney

liver

lung

lymph

ovary

pancreas

placenta

prostate

rectum

salivary

skeletal

skin

small

intestine

smooth

muscle

spleen

stomach

testis

thyroid

tonsil

bladder

*TAA

0.285

0.444

0.443

0.527

0.509

0.382

0.450

0.420

0.489

0.466

0.478

0.430

0.371

0.443

0.408

0.376

0.472

0.496

0.424

0.481

0.451

0.481

0.480

0.339

0.492

0.386

0.508

0.456

0.409

0.452

0.421

0.512

0.451

*TAG

0.222

0.198

0.198

0.153

0.173

0.206

0.221

0.198

0.168

0.198

0.172

0.230

0.210

0.214

0.217

0.203

0.171

0.146

0.254

0.194

0.195

0.176

0.200

0.275

0.167

0.212

0.148

0.208

0.197

0.158

0.214

0.150

0.180

*TGA

0.494

0.357

0.359

0.321

0.318

0.412

0.328

0.382

0.344

0.336

0.351

0.341

0.419

0.344

0.375

0.421

0.358

0.358

0.322

0.326

0.353

0.344

0.320

0.385

0.341

0.402

0.344

0.336

0.394

0.390

0.365

0.339

0.368

AGCA

0.230

0.176

0.189

0.190

0.191

0.200

0.188

0.209

0.195

0.183

0.187

0.173

0.191

0.207

0.229

0.189

0.184

0.201

0.185

0.193

0.202

0.211

0.200

0.202

0.186

0.207

0.189

0.190

0.171

0.206

0.205

0.186

0.186

AGCC

0.398

0.440

0.419

0.389

0.406

0.409

0.408

0.392

0.383

0.446

0.418

0.424

0.422

0.401

0.392

0.439

0.412

0.411

0.428

0.392

0.413

0.370

0.403

0.430

0.412

0.395

0.403

0.411

0.466

0.385

0.393

0.399

0.405

AGCG

0.109

0.095

0.093

0.079

0.087

0.093

0.082

0.075

0.078

0.083

0.080

0.095

0.082

0.072

0.070

0.079

0.085

0.075

0.076

0.078

0.084

0.070

0.075

0.082

0.079

0.079

0.071

0.090

0.079

0.089

0.084

0.076

0.079

AGCT

0.263

0.289

0.300

0.341

0.316

0.299

0.322

0.323

0.344

0.288

0.315

0.307

0.305

0.320

0.310

0.293

0.319

0.314

0.311

0.337

0.301

0.349

0.322

0.285

0.324

0.319

0.336

0.309

0.284

0.321

0.318

0.339

0.331

CTGC

0.534

0.627

0.588

0.590

0.582

0.596

0.569

0.529

0.628

0.622

0.588

0.625

0.607

0.615

0.519

0.601

0.576

0.586

0.576

0.605

0.611

0.538

0.539

0.602

0.600

0.560

0.608

0.572

0.663

0.571

0.555

0.577

0.612

CTGT

0.466

0.373

0.412

0.410

0.418

0.404

0.431

0.471

0.372

0.378

0.412

0.375

0.393

0.385

0.481

0.399

0.424

0.414

0.424

0.395

0.389

0.462

0.461

0.398

0.400

0.440

0.392

0.428

0.337

0.429

0.445

0.423

0.388

DGAC

0.528

0.594

0.568

0.536

0.558

0.541

0.553

0.524

0.540

0.593

0.558

0.584

0.567

0.526

0.524

0.563

0.553

0.542

0.544

0.543

0.577

0.508

0.545

0.549

0.549

0.544

0.563

0.561

0.605

0.518

0.514

0.542

0.557

DGAT

0.472

0.406

0.432

0.464

0.442

0.459

0.447

0.476

0.460

0.407

0.442

0.416

0.433

0.474

0.476

0.437

0.447

0.458

0.456

0.457

0.423

0.492

0.455

0.451

0.451

0.456

0.437

0.439

0.395

0.482

0.486

0.458

0.443

EGAA

0.433

0.379

0.386

0.399

0.391

0.395

0.363

0.402

0.391

0.335

0.365

0.371

0.334

0.418

0.445

0.375

0.381

0.397

0.400

0.428

0.363

0.434

0.402

0.374

0.390

0.389

0.381

0.375

0.335

0.416

0.432

0.385

0.379

EGAG

0.567

0.621

0.614

0.601

0.609

0.605

0.637

0.598

0.609

0.665

0.635

0.629

0.666

0.582

0.555

0.625

0.619

0.603

0.600

0.572

0.637

0.566

0.598

0.626

0.610

0.611

0.619

0.625

0.665

0.584

0.568

0.615

0.621

FTTC

0.530

0.619

0.596

0.597

0.601

0.586

0.582

0.530

0.590

0.624

0.588

0.636

0.589

0.538

0.530

0.618

0.598

0.590

0.560

0.590

0.590

0.543

0.581

0.599

0.559

0.553

0.608

0.583

0.606

0.554

0.562

0.585

0.603

FTTT

0.470

0.381

0.404

0.403

0.399

0.414

0.418

0.470

0.410

0.376

0.412

0.364

0.411

0.462

0.470

0.382

0.402

0.410

0.440

0.410

0.410

0.457

0.419

0.401

0.441

0.447

0.392

0.417

0.394

0.446

0.438

0.415

0.397

GGGA

0.253

0.214

0.223

0.240

0.201

0.232

0.222

0.251

0.228

0.194

0.194

0.220

0.221

0.239

0.276

0.238

0.221

0.226

0.239

0.267

0.210

0.240

0.276

0.208

0.242

0.245

0.230

0.225

0.217

0.238

0.244

0.223

0.222

GGGC

0.338

0.360

0.359

0.328

0.360

0.364

0.357

0.349

0.330

0.381

0.388

0.342

0.358

0.341

0.325

0.340

0.354

0.352

0.355

0.305

0.380

0.326

0.325

0.379

0.344

0.336

0.342

0.352

0.377

0.331

0.336

0.346

0.342

GGGG

0.247

0.213

0.220

0.200

0.214

0.216

0.217

0.192

0.174

0.230

0.212

0.197

0.225

0.214

0.232

0.226

0.219

0.211

0.209

0.179

0.217

0.209

0.202

0.225

0.182

0.221

0.177

0.225

0.209

0.222

0.215

0.203

0.179

GGGT

0.162

0.213

0.199

0.232

0.224

0.188

0.203

0.208

0.268

0.194

0.207

0.241

0.196

0.206

0.167

0.196

0.207

0.211

0.197

0.249

0.193

0.225

0.196

0.188

0.232

0.198

0.251

0.198

0.197

0.209

0.205

0.228

0.256

HCAC

0.573

0.654

0.622

0.626

0.658

0.582

0.603

0.564

0.632

0.615

0.632

0.630

0.620

0.568

0.549

0.629

0.648

0.644

0.620

0.615

0.640

0.582

0.585

0.603

0.547

0.581

0.617

0.628

0.644

0.591

0.615

0.619

0.620

HCAT

0.427

0.346

0.378

0.374

0.342

0.418

0.397

0.436

0.368

0.385

0.368

0.370

0.380

0.432

0.451

0.371

0.352

0.356

0.380

0.385

0.360

0.418

0.415

0.397

0.453

0.419

0.383

0.372

0.356

0.409

0.385

0.381

0.380

IATA

0.176

0.094

0.093

0.089

0.088

0.095

0.095

0.114

0.095

0.081

0.080

0.097

0.096

0.104

0.144

0.089

0.085

0.088

0.102

0.111

0.097

0.111

0.097

0.091

0.107

0.115

0.086

0.101

0.088

0.113

0.106

0.084

0.093

IATC

0.455

0.604

0.572

0.577

0.581

0.571

0.567

0.511

0.564

0.629

0.581

0.603

0.565

0.530

0.486

0.585

0.589

0.565

0.535

0.556

0.580

0.515

0.549

0.569

0.564

0.528

0.582

0.566

0.607

0.527

0.522

0.582

0.586

IATT

0.369

0.301

0.335

0.334

0.331

0.334

0.338

0.375

0.341

0.290

0.339

0.299

0.339

0.366

0.370

0.326

0.326

0.346

0.364

0.333

0.323

0.374

0.354

0.340

0.329

0.357

0.332

0.333

0.305

0.360

0.372

0.334

0.321

KAAA

0.445

0.348

0.359

0.357

0.363

0.368

0.347

0.363

0.361

0.331

0.336

0.338

0.331

0.386

0.418

0.338

0.352

0.352

0.371

0.379

0.342

0.380

0.370

0.362

0.353

0.351

0.336

0.361

0.331

0.383

0.387

0.352

0.340

KAAG

0.555

0.652

0.641

0.643

0.637

0.632

0.653

0.637

0.639

0.669

0.664

0.662

0.669

0.614

0.582

0.662

0.648

0.648

0.629

0.621

0.658

0.620

0.630

0.638

0.647

0.649

0.664

0.639

0.669

0.617

0.613

0.648

0.660

LCTA

0.072

0.055

0.056

0.056

0.055

0.056

0.057

0.063

0.062

0.056

0.057

0.059

0.063

0.061

0.067

0.053

0.049

0.053

0.054

0.060

0.059

0.061

0.062

0.059

0.047

0.060

0.061

0.052

0.051

0.070

0.060

0.051

0.060

LCTC

0.190

0.209

0.190

0.206

0.202

0.196

0.210

0.195

0.201

0.208

0.209

0.219

0.189

0.198

0.197

0.211

0.217

0.204

0.208

0.214

0.199

0.202

0.203

0.193

0.208

0.202

0.213

0.205

0.220

0.193

0.199

0.219

0.212

LCTG

0.392

0.476

0.457

0.428

0.448

0.444

0.442

0.418

0.423

0.478

0.438

0.465

0.463

0.428

0.407

0.457

0.449

0.434

0.438

0.434

0.452

0.406

0.430

0.476

0.450

0.424

0.439

0.449

0.476

0.403

0.416

0.429

0.449

LCTT

0.135

0.114

0.132

0.139

0.138

0.125

0.130

0.132

0.144

0.110

0.133

0.117

0.119

0.134

0.129

0.123

0.128

0.139

0.135

0.136

0.132

0.150

0.139

0.106

0.133

0.134

0.131

0.133

0.111

0.143

0.146

0.131

0.129

LTTA

0.080

0.034

0.044

0.045

0.043

0.050

0.039

0.059

0.048

0.036

0.041

0.036

0.046

0.054

0.069

0.038

0.041

0.047

0.050

0.052

0.040

0.045

0.050

0.047

0.049

0.056

0.047

0.042

0.031

0.061

0.051

0.039

0.042

LTTG

0.131

0.112

0.121

0.127

0.114

0.130

0.122

0.133

0.120

0.111

0.122

0.104

0.119

0.125

0.132

0.117

0.116

0.123

0.115

0.105

0.118

0.136

0.116

0.118

0.113

0.124

0.109

0.118

0.111

0.129

0.128

0.131

0.108

MATG

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

NAAC

0.518

0.615

0.607

0.588

0.600

0.605

0.604

0.544

0.598

0.642

0.622

0.634

0.617

0.586

0.534

0.595

0.593

0.600

0.578

0.591

0.608

0.556

0.578

0.596

0.599

0.569

0.594

0.597

0.660

0.566

0.582

0.602

0.604

NAAT

0.482

0.385

0.393

0.412

0.400

0.395

0.396

0.456

0.402

0.358

0.378

0.366

0.383

0.414

0.466

0.405

0.407

0.400

0.422

0.409

0.392

0.444

0.422

0.404

0.401

0.431

0.406

0.403

0.340

0.434

0.418

0.398

0.396

PCCA

0.277

0.241

0.251

0.282

0.281

0.245

0.264

0.277

0.254

0.258

0.242

0.223

0.268

0.274

0.279

0.262

0.274

0.261

0.258

0.270

0.258

0.275

0.339

0.268

0.287

0.269

0.241

0.286

0.236

0.278

0.272

0.283

0.232

PCCC

0.321

0.361

0.370

0.315

0.334

0.360

0.362

0.357

0.315

0.384

0.375

0.364

0.344

0.344

0.324

0.338

0.352

0.366

0.364

0.311

0.361

0.338

0.302

0.329

0.314

0.361

0.338

0.325

0.358

0.336

0.336

0.332

0.348

PCCG

0.116

0.095

0.092

0.077

0.095

0.098

0.085

0.078

0.077

0.072

0.087

0.077

0.078

0.078

0.080

0.117

0.083

0.084

0.087

0.072

0.092

0.081

0.063

0.113

0.077

0.083

0.068

0.090

0.116

0.083

0.093

0.076

0.069

PCCT

0.286

0.304

0.288

0.326

0.290

0.298

0.289

0.288

0.354

0.287

0.297

0.335

0.310

0.304

0.317

0.283

0.291

0.289

0.291

0.347

0.288

0.306

0.296

0.291

0.322

0.287

0.352

0.299

0.290

0.303

0.299

0.309

0.351

QCAA

0.270

0.212

0.212

0.220

0.215

0.219

0.217

0.249

0.243

0.199

0.216

0.228

0.208

0.232

0.297

0.215

0.210

0.209

0.239

0.272

0.225

0.255

0.311

0.230

0.263

0.247

0.236

0.214

0.186

0.252

0.243

0.222

0.232

QCAG

0.730

0.788

0.788

0.780

0.785

0.781

0.783

0.751

0.757

0.801

0.784

0.772

0.792

0.768

0.703

0.785

0.790

0.791

0.761

0.728

0.775

0.745

0.689

0.770

0.737

0.753

0.764

0.786

0.814

0.748

0.757

0.778

0.768

RAGA

0.216

0.169

0.192

0.205

0.205

0.168

0.177

0.208

0.210

0.171

0.166

0.175

0.180

0.191

0.246

0.197

0.191

0.174

0.189

0.210

0.189

0.218

0.219

0.170

0.223

0.223

0.187

0.214

0.182

0.190

0.215

0.198

0.177

RAGG

0.210

0.166

0.186

0.175

0.194

0.172

0.174

0.198

0.173

0.204

0.156

0.201

0.176

0.185

0.215

0.196

0.172

0.177

0.167

0.178

0.187

0.174

0.184

0.182

0.189

0.195

0.179

0.172

0.199

0.180

0.188

0.166

0.183

RCGA

0.109

0.094

0.096

0.104

0.099

0.104

0.102

0.110

0.107

0.095

0.098

0.106

0.094

0.104

0.106

0.095

0.097

0.099

0.105

0.110

0.102

0.106

0.113

0.090

0.103

0.100

0.108

0.101

0.091

0.101

0.099

0.097

0.102

RCGC

0.183

0.270

0.244

0.228

0.217

0.246

0.254

0.204

0.219

0.235

0.267

0.237

0.235

0.223

0.165

0.227

0.245

0.254

0.233

0.218

0.230

0.223

0.217

0.246

0.221

0.205

0.228

0.222

0.236

0.224

0.219

0.250

0.242

RCGG

0.203

0.191

0.172

0.169

0.163

0.183

0.176

0.164

0.164

0.193

0.181

0.173

0.210

0.176

0.170

0.168

0.178

0.172

0.185

0.156

0.183

0.152

0.153

0.197

0.159

0.166

0.166

0.177

0.181

0.182

0.168

0.164

0.170

RCGT

0.080

0.111

0.110

0.118

0.121

0.127

0.117

0.115

0.127

0.102

0.132

0.108

0.106

0.120

0.098

0.115

0.117

0.124

0.120

0.127

0.108

0.128

0.113

0.115

0.105

0.111

0.133

0.114

0.111

0.123

0.111

0.125

0.126

SAGC

0.239

0.241

0.231

0.199

0.204

0.216

0.224

0.212

0.215

0.258

0.227

0.239

0.232

0.210

0.212

0.231

0.223

0.223

0.208

0.237

0.234

0.211

0.191

0.224

0.206

0.234

0.245

0.202

0.283

0.224

0.222

0.217

0.241

SAGT

0.153

0.119

0.133

0.124

0.135

0.131

0.120

0.136

0.136

0.125

0.118

0.120

0.120

0.137

0.141

0.119

0.124

0.123

0.131

0.134

0.136

0.132

0.122

0.156

0.134

0.132

0.133

0.121

0.101

0.148

0.133

0.126

0.125

STCA

0.154

0.110

0.114

0.122

0.122

0.120

0.112

0.140

0.128

0.100

0.108

0.111

0.122

0.122

0.160

0.112

0.118

0.111

0.111

0.113

0.118

0.124

0.133

0.137

0.146

0.124

0.118

0.125

0.087

0.129

0.123

0.120

0.115

STCC

0.212

0.279

0.259

0.258

0.279

0.250

0.281

0.260

0.242

0.278

0.281

0.277

0.271

0.264

0.233

0.272

0.270

0.272

0.283

0.256

0.250

0.256

0.259

0.235

0.239

0.256

0.254

0.253

0.257

0.235

0.260

0.263

0.266

STCG

0.055

0.064

0.056

0.047

0.048

0.059

0.058

0.049

0.048

0.054

0.057

0.059

0.058

0.056

0.047

0.060

0.048

0.052

0.044

0.050

0.056

0.051

0.042

0.061

0.041

0.050

0.050

0.048

0.057

0.049

0.055

0.046

0.057

STCT

0.188

0.188

0.207

0.249

0.212

0.223

0.205

0.204

0.230

0.185

0.209

0.194

0.198

0.211

0.207

0.206

0.218

0.219

0.223

0.210

0.205

0.225

0.253

0.187

0.235

0.203

0.200

0.250

0.214

0.215

0.207

0.229

0.196

TACA

0.288

0.200

0.220

0.224

0.197

0.216

0.215

0.246

0.225

0.217

0.206

0.201

0.224

0.218

0.273

0.209

0.215

0.217

0.226

0.227

0.215

0.234

0.250

0.235

0.235

0.248

0.230

0.221

0.234

0.216

0.228

0.206

0.210

TACC

0.346

0.449

0.427

0.415

0.432

0.415

0.420

0.398

0.398

0.437

0.433

0.443

0.407

0.399

0.389

0.456

0.421

0.428

0.401

0.412

0.415

0.395

0.387

0.405

0.406

0.396

0.415

0.426

0.479

0.406

0.393

0.425

0.418

TACG

0.112

0.099

0.090

0.091

0.097

0.100

0.096

0.090

0.098

0.103

0.089

0.106

0.096

0.096

0.091

0.083

0.091

0.076

0.091

0.084

0.104

0.080

0.077

0.104

0.076

0.090

0.090

0.089

0.079

0.090

0.096

0.087

0.103

TACT

0.255

0.251

0.263

0.270

0.274

0.269

0.269

0.266

0.279

0.243

0.272

0.250

0.273

0.287

0.247

0.252

0.273

0.280

0.282

0.276

0.266

0.292

0.286

0.256

0.284

0.267

0.264

0.264

0.208

0.288

0.282

0.283

0.269

VGTA

0.121

0.090

0.097

0.104

0.103

0.100

0.103

0.107

0.108

0.081

0.090

0.087

0.098

0.108

0.112

0.102

0.100

0.103

0.095

0.097

0.098

0.117

0.104

0.092

0.106

0.103

0.104

0.104

0.082

0.117

0.106

0.102

0.097

VGTC

0.234

0.259

0.245

0.261

0.249

0.239

0.259

0.250

0.245

0.282

0.257

0.264

0.252

0.249

0.249

0.286

0.264

0.249

0.256

0.271

0.252

0.248

0.254

0.254

0.258

0.252

0.262

0.245

0.283

0.242

0.248

0.272

0.262

VGTG

0.459

0.498

0.489

0.460

0.463

0.483

0.465

0.455

0.465

0.486

0.482

0.494

0.485

0.465

0.457

0.458

0.460

0.455

0.467

0.451

0.490

0.441

0.461

0.490

0.459

0.463

0.456

0.480

0.475

0.446

0.458

0.442

0.477

VGTT

0.186

0.154

0.169

0.175

0.185

0.178

0.174

0.188

0.183

0.151

0.172

0.155

0.165

0.178

0.181

0.154

0.176

0.193

0.181

0.181

0.159

0.194

0.181

0.163

0.177

0.182

0.178

0.171

0.160

0.195

0.188

0.184

0.163

WTGG

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

1.000

YTAC

0.547

0.655

0.625

0.622

0.623

0.605

0.596

0.555

0.590

0.615

0.615

0.645

0.633

0.611

0.551

0.632

0.623

0.593

0.603

0.607

0.626

0.569

0.600

0.600

0.587

0.564

0.622

0.620

0.650

0.594

0.558

0.620

0.617

YTAT

0.453

0.345

0.375

0.378

0.377

0.395

0.404

0.445

0.410

0.385

0.385

0.355

0.367

0.389

0.449

0.368

0.377

0.407

0.397

0.393

0.374

0.431

0.400

0.400

0.413

0.436

0.378

0.380

0.350

0.406

0.442

0.380

0.383

Page 115: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

6. CODON OPTIMIZATION OF ATP7B FOR GENE THERAPYAPPLICATION 102

�0.4 �0.3 �0.2 �0.1 0 0.1 0.2 0.3�0.2

�0.15

�0.1

�0.05

0

0.05

0.1

0.15

adipose tissue

adrenal

appendix

bone marrow

braincolonduodenum

endometrium

esophagus

fallopian

gall bladder

heart muscle

kidney

liver

lung

lymph nodeovary

pancreas

placenta

prostate

rectum salivary gland

skeletal muscle

skin

small intestine

smooth muscle

spleen

stomach

testisthyroid

tonsilurinary bladder

genome

First Principal Component

SecondPrincipalComponent

Figure 6.3: PCA of tissue specific ICU computed from top 1% high ex-pression genes identified using RNA-seq profiling data of 32 human tissuetypes

�2 �1.5 �1 �0.5 0 0.5 1 1.5�1.5

�1

�0.5

0

0.5

1

1.5

adipose tissue

adrenal

appendix

bone marrow

brain

colon

duodenum

endometrium

esophagus

fallopian

gall bladder

heart muscle

kidney

liver

lung

lymph node

ovary

pancreas

placenta

prostate

rectum

salivary gland

skeletal muscle

skin

small intestine

smooth muscle

spleen

stomach

testis

thyroid

tonsil

urinary bladder

genome

First Principal Component

SecondPrincipalComponent

Figure 6.4: PCA of tissue specific CC computed from top 1% high expres-sion genes identified using RNA-seq profiling data of 32 human tissue types

Page 116: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

6. CODON OPTIMIZATION OF ATP7B FOR GENE THERAPYAPPLICATION 103

successively set for CpG counts.

The effect of reducing CpG dinucleotides on ICU and CC fitness was

first investigated to quantify their trade-off. The reductions in ICU and

CC scores are illustrated in Figure 6.5. The square data points represent

sequences designed for the CC or ICU criterion without constraint on CpG

dinucleotides, and the circle data points represent sequences designed with-

out constraint on CpG dinucleotides for the ICU-CC Pareto front. The

diamond data points represent the sequences designed with increasing con-

straint on the CpG dinucleotides, with labels denoting ICU and CC design

criteria. The triangle shaped data point represents the wild type fitness

scores.

Without any limit on CpG dinucleotides, the IC and CC designed se-

quences have a high CpG count (> 130). When a limit of 20 was imposed,

the maximum achieved ICU fitness was reduced for both ICU and CC de-

signed sequences In addition, the CC fitness of the ICU designed sequence

was also significantly reduced. In contrast, there was little impact on the

CC fitness of the CC designed sequence. With the continued reduction to

10 and then to 0, the maximum achieved ICU fitness was further reduced,

while both the ICU and CC designed sequences showed small decreases

in CC fitness. The detailed Pareto fronts of ICU vs CpG count, and CC

vs CpG count are shown in Figure 6.6. The fitness scores, GC content,

and CpG counts of the designed sequences are given in Table 6.6. It is no-

ticeable that the GC content of the designed sequences lower as the CpG

count is reduced. This is unsurprising as a higher GC content increases the

likelihood of CpG motifs appearing in the sequences.

Page 117: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

6. CODON OPTIMIZATION OF ATP7B FOR GENE THERAPYAPPLICATION 104

0

50

100

150

CpG count

Figure 6.5: ICU-CC fitness plot for designed sequences with reduction inallowed CpG dinucleotides. Squares denote IC or CC designed sequenceswithout any CpG dinucleotide limit, and the circle data points denote theICU-CC Pareto front without any CpG dinucleotide limit. Diamond datapoints denote sequences designed with increasing constraint on the CpGdinucleotides, with labels denoting ICU and CC design criteria and limiton CpG dinucleotides. The triangle shaped data point represents the wildtype fitness scores.IC denotes sequence designed with the ICU design criterion, CC denotessequence designed with the CC design criterion, N -CG denotes N numberof CpGs present, WT denotes wild type.

Table 6.6: Fitness scores of designed sequences with limit on CpG

Main design

criterion IC scores CC scores

% GC

content

CpG

dinucleotide

CC -0.05299 -0.09103 53.09 105

IC -0.02486 -0.09382 52.27 128

CC (20 CpG) -0.06218 -0.09269 51.05 20

IC (20 CpG) -0.03816 -0.11735 51.50 20

CC (10 CpG) -0.06813 -0.09355 50.57 10

IC (10 CpG) -0.04405 -0.11659 51.14 10

CC (0 CpG) -0.07644 -0.09471 50.14 0

IC (0 CpG) -0.04995 -0.11811 50.89 0

WT -0.06715 -0.11718 53.27 107

Page 118: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

6. CODON OPTIMIZATION OF ATP7B FOR GENE THERAPYAPPLICATION 105

Individual codon fitness

-0.05 -0.045 -0.04 -0.035 -0.03 -0.025 -0.02

CpGcount

-60

-50

-40

-30

-20

-10

0

(a) Pareto front of ICU fitness and CpG dinucleotide count.

Codon context fitness

-0.095 -0.0945 -0.094 -0.0935 -0.093 -0.0925 -0.092 -0.0915

CpGcount

-35

-30

-25

-20

-15

-10

-5

0

(b) Pareto front of CC fitness and CpG dinucleotide count.

Figure 6.6: Pareto fronts of ICU vs CpG, and CC vs CpG. The effect ofreducing CpG counts on ICU and CC is clearly seen.

Page 119: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

6. CODON OPTIMIZATION OF ATP7B FOR GENE THERAPYAPPLICATION 106

Transcription

Transcript A:

High copy numbers

Translation

Protein A ribosome

expanding protein sequence

Protein B

Transcript B:

High translational

efficiency

DNA

mRNA

Figure 6.7: Transcription vs translation. Gene expression can be potentiallyenhanced in two ways, increasing mRNA copy numbers, and increasingtranslational efficiency.

6.4.2.2 Increasing GC content without CpG dinucleotides

In codon optimization, the codon usage of the target gene is modified to

match the host codon usage, thus increasing the translation elongation rate

and consequently enhancing gene expression. Alternatively, gene expression

can also be enhanced by increasing mRNA copy numbers (Figure 6.7). It

has been reported that steady-state mRNA levels are correlated with GC

content in mammalian cells [64]. Interestingly, it has also been reported

that find GC rich sequences to be less immunogenic, due to lower uridine

(U) content, and thus less likely to activate RNA receptors such as Toll-like

receptor 7 [63]. Therefore, raising the coding sequence GC content can be

beneficial. As the appearance of CpG dinucleotides has strongly positive

relationship with GC content, increasing sequence GC content is expected

to be difficult with the stringent CpG dinucleotide requirement.

In Table 6.6, the GC content of the optimized CpG free sequences fall

in the range of 50% − 51%. This is below the mean (53.3%) as well as

median (53.2%) GC content of coding sequences in the human genome

(Figure 6.8). The effects of imposing GC content as an additional gene

design criterion was then investigated. A target of 55% GC content was first

used. A subsequent target of 60% was attempted but optimized sequences

Page 120: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

6. CODON OPTIMIZATION OF ATP7B FOR GENE THERAPYAPPLICATION 107

20 30 40 50 60 70 80

0

200

400

600

800

1000

1200

Figure 6.8: Histogram of human coding sequences GC content in percent-age. The mean is 53.3% and the median is 53.2%.

could not be generated. The effects on ICU and CC scores are illustrated

in Figure 6.9. The square data points represent sequences designed for the

CC or ICU criterion with no CpG dinucleotides present, and the circle data

points represent sequences designed with no CpG dinucleotides present for

the ICU-CC Pareto front. The diamond data points represent the sequences

designed with an additional target of 55% GC content with labels denoting

ICU and CC design criteria. The triangle shaped data point represents the

wild type fitness scores.

The ICU design sequence with no CpG dinucleotides and 55% GC con-

tent has a lower ICU score than the wild type sequence. The limit on GC

content also reduced the maximum achieved ICU and CC fitness scores of

the CC design sequence, though the CC fitness score is still substantially

higher than that of the wild type sequence. The fitness scores are given in

Table 6.7.

With the restriction on CpG dinucleotides, sequences with higher ICU

and CC scores than the wild type sequences could be designed. When the

limit on GC content was applied, the maximum achievable ICU scores were

Page 121: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

6. CODON OPTIMIZATION OF ATP7B FOR GENE THERAPYAPPLICATION 108

�0.1 �0.09 �0.08 �0.07 �0.06 �0.05 �0.04�0.12

�0.115

�0.11

�0.105

�0.1

�0.095

�0.09

Individual codon usage fitness

Codoncontextfitness

CC (0�CG)

IC (0�CG)

CC (0�CG, 55�GC)

IC (0�CG, 55�GC)

WT

Figure 6.9: ICU-CC fitness plot for designed sequences with increasing GCcontent. Squares denote IC or CC designed sequences with no CpG dinu-cleotides, and the circle data points denote the ICU-CC Pareto front withno CpG dinucleotides. Diamond data points denote sequences designedwith additional limit of 55% GC content, with labels denoting ICU andCC design criteria and limit on CpG dinucleotides. The triangle shapeddata point represents the wild type fitness scores. IC denotes sequence de-signed with the ICU design criterion, CC denotes sequence designed withthe CC design criterion, 0-CG denotes no CpGs, 55-GC denotes 55% GCcontent, WT denotes wild type.

Table 6.7: Fitness scores of designed sequences with limits on CpG and GCcontent

Main design

criterion IC scores CC scores

% GC

content

CpG

dinucleotide

CC (0 CpG) -0.07644 -0.09471 50.14 0

IC (0 CpG) -0.04995 -0.11811 50.89 0

CC (0 CpG, 55 GC) -0.09558 -0.09922 55.00 0

IC (0 CpG, 55 GC) -0.07946 -0.11531 55.00 0

WT -0.06715 -0.11718 53.27 107

Page 122: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

6. CODON OPTIMIZATION OF ATP7B FOR GENE THERAPYAPPLICATION 109

even lower than the wild type. A further increases of the GC content limit

to 60% did not yield any sequences. This highlights the substantial limits on

achievable fitness by applying removing CpG dinucleotides and increasing

GC content. While the correlations have been observed between mRNA lev-

els and GC content, as well between translation efficiency and codon bias,

it is not clear which is more effective towards enhancing overall gene ex-

pression. Experimental studies will be necessary to resolve this tradeoff and

determine the most optimal approach to enhance overall gene expression.

6.5 Conclusion

The ATP7B gene was designed for gene therapy to treat Wilson’s disease.

Human tissue specific gene expression data was first analyzed to establish

the human liver tissue specific codon bias. It was found that the codon usage

of top 1% highly expressed genes in human liver tissue did not significantly

differ from the human genomic average. The ATP7B gene was then designed

using the codon bias computed from the human genome. Reducing the CpG

dinucleotide count and increasing the GC content resulted in substantial

reductions in the maximum achievable ICU and CC fitness in the designed

sequences, especially ICU fitness. In comparison, the CC fitness showed

potential improvement over the wild type sequence. The multi-objective

codon optimization framework also clearly illustrated the tradeoff between

different gene design criteria relevant towards gene therapy application.

This framework can be applied to similar gene therapy applications for

rational gene design in-silico.

Page 123: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

Chapter 7

Conclusions & Future Work

7.1 Conclusions

Codon optimization is a strategy that has been successfully employed to

enhance heterologous gene expression. The strategy arises from the de-

generacy of the genetic code, i.e. all but two proteinogenic amino acids are

encoded by two to six codons, and synonymous codons utilization is uneven

across different organisms. Thus, the basic principle of codon optimization

is to algorithmically modify the heterologous gene’s codon usage to match

the host’s preferred codon usage, thus increasing the protein translation

rate.

While codon optimization can enhance heterologous gene expression,

direct correlations between gene expression and different gene features (in-

cluding ICU and CC) are not fully established. It is also not clear how

different gene features might interact synergistically or antagonistically to

modulate gene expression. Using the current state of art, this thesis studied

the use of -omics data to select the appropriate codon usage to represent

the expression host, as well as effective design criteria for synthetic gene de-

sign. The overall aim is to determine the suitable inputs for effective codon

optimization.

110

Page 124: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

7. CONCLUSIONS & FUTURE WORK 111

In Chapter 3, the establishment of reference host codon usage for four

industrially important hosts (Escherichia coli, Saccharomyces cerevisiae,

Pichia pastoris, Chinese hamster ovary cells) was studied using different -

omics profiling datasets. In particular, the recently available ribosome pro-

filing data that characterize host translatomes are of the greatest inter-

est since translatome profiling represents translation efficiency better than

other available -omics profiling data. To our knowledge, translatome data

has not been used in identifying highly translated genes to compute the

associated codon bias for codon optimization.

The lists of highly expressed genes identified using different -omics

datasets were first analyzed for similarities within each host. The gene lists

showed little overlap, which implied low correlations between gene tran-

script abundance, ribosome occupancy, and protein abundance. This result

is unsurprising given the poor correlation between gene transcripts and pro-

teins reported in literature. Despite the gene list mismatches, it was found

that highly expressed genes of the three microbial hosts examined (E. coli,

S. cerevisiae, and P. pastoris) identified by different -omics datasets shared

a similar codon bias distinct from their respective genomic codon bias. Sur-

prisingly, the translatome datasets did not provide new information towards

deriving the appropriate reference codon bias in this analysis. Instead, the

results appear to support the hypothesis that the organisms have evolved

such that highly expressed genes are naturally optimized in both tran-

scription and translation steps. In terms of codon optimization application,

the results support the current practice using transcriptome data to iden-

tify highly expressed genes to compute the reference host codon bias. For

mammalian Chinese hamster ovary (CHO) cells, no unique codon bias was

found among the -omics defined gene subsets. Therefore, there is presently

Page 125: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

7. CONCLUSIONS & FUTURE WORK 112

no evidence to support the use of any particular subset of genes to derive

the representative codon bias. For other hosts with no distinct codon usage

pattern among high expression genes, the genomic average or a sufficiently

large gene set representative of the host will be sufficient. The host specific

reference codon biases computed in this chapter were subsequently applied

in the following chapters.

In typical codon optimization experiments to date, only one main de-

sign criterion such as ICU, CC, or CAI is used. It is therefore unclear if any

synergistic effects can be achieved with a multi-objective design strategy

that consider more than one main design criterion at the same time. In

Chapter 4, the efficacy of using ICU and CC as individual design criteria,

as well as combined together, was examined. For this study, the S. cere-

visiae-derived mating factor α prepro-leader sequence (MFLS) was codon

optimized to improve the secretory production of Candida antarctica lipase

B (CAL-B) using the P. pastoris host. Three different codon optimization

strategies were tested. In the first two, ICU and CC were used as the

main gene design criterion respectively. To investigate possible synergistic

improvements, the third strategy considered ICU and CC together in a

multi-objective fashion. The signal peptide designed using the CC strategy

increased the secreted CAL-B activity by 295% over the wild type sequence.

In contrast, the ICU based strategy only yielded 132% improvement over

the wild type. The ICU-CC multi-objective design increased the secreted

CAL-B activity by 241%, which is less than the CC based design. From

the results, there appears to be no synergistic effect from considering both

ICU and CC together, and the CC strategy is more effective than the ICU

strategy for this gene. The latter result is interesting as ICU is the more

established and popular design criterion. This motivated further investiga-

Page 126: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

7. CONCLUSIONS & FUTURE WORK 113

tions with the CC design criterion.

In view of the success with codon context, the design criterion was ex-

tended to consider protein secondary structure specific codon context. The

aim is to modulate protein translation rates according to different protein

secondary structures by tuning the gene’s codon usage to match the host’s

native secondary structure specific codon usage. In this way, the protein

translation process can be slowed down to ensure correct folding, thus re-

ducing inclusion body formations, and improving product bioactivity. In

Chapter 5, the thermostable invertase from Thermotoga maritima was se-

lected for expression in E. coli to test the new strategy. The codon context

bias of different protein secondary structures in E. coli native proteins

were computed to serve as the optimization target. The secondary struc-

ture based design was experimentally benchmarked against three other se-

quences, the wild type sequence and two competing designs. The first com-

peting design was supplied by a vendor using a CAI based strategy, while

the second competing design was optimized using the original CC strategy

without secondary structure considerations. Unfortunately, neither did the

CAI based design, nor the secondary structure based design produced in

higher protein titer or enzymatic activity over the wild type sequence. This

lack of success by the secondary structure based design motivates future

work which is discussed in the next section. In contrast, the CC based design

achieved 53.9% higher protein yield and 39.8% higher enzyme activity over

the wild type. Among the competing designs, only the CC design showed

improvement in terms of expression and enzymatic activity. Together with

Chapter 4, the results continue to highlight the efficacy of the CC design

criterion.

Finally, an in silico study on sequence design for gene therapy was per-

Page 127: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

7. CONCLUSIONS & FUTURE WORK 114

formed in Chapter 6. The ATPase Copper Transporting Beta (ATP7B)

gene was designed for liver tissue targeted gene therapy using the multi-

objective codon optimization framework. First, highly expressed genes in

human liver tissue were identified to compute their codon bias. Using the

most comprehensive available transcriptome data for different human pri-

mary tissue types, the highly expressed tissue specific genes were identified,

and the respective codon biases were computed. Generally, the gene lists

showed substantial uniqueness across different tissue types, but the differ-

ences in computed codon biases were found to be small. Furthermore, the

codon bias (ICU & CC) of top 1% highly expressed liver genes was found

to be closer to the genomic average than the high expression genes of other

tissue types. Therefore, no tissue specific codon bias was deemed to be

necessary.

Unlike the previous two gene design problems, DNA gene therapy re-

quires additional design considerations to combat potentially fatal immune

responses. Inflammation causing CpG motifs have to be removed from the

sequence; to further reduce the likelihood of immune responses and in-

crease transcript count, sequence GC content needs to be increased. The

combination of these two design considerations can be expected constrain

potential improvements in ICU and CC fitness values. The multi-objective

design framework was applied to the ATP7B gene design problem, and the

interactions between the competing design criteria were quantified and visu-

alized. With all CpG motifs removed and GC content constrained to a 55%

minimum, the highest achievable ICU fitness was found to be marginally

lower than the wild type, while the highest achievable CC fitness was higher

than the wild type. Together with the efficacy of CC based design demon-

strated in the earlier chapters, the results suggest potential enhancement

Page 128: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

7. CONCLUSIONS & FUTURE WORK 115

in expression using the CC design.

Firstly, the study analyzed human tissue specific codon bias using gene

expression profiling data of different human tissue types. This information

is useful for future gene therapy applications, which may target other tis-

sue types. Next, the study highlights how the framework can be used to

examine the interactions between competing design criteria. In the pre-

sented analysis, the CpG motif and GC content criteria strongly interact,

reducing the gene design space, and thus limit potential improvements to

the ICU and CC criteria. The interactive effects of the CpG motif and GC

content are expected simply due to the respective natures of both crite-

ria. Such similar situations can be expected when designing other genes for

gene therapy. Therefore, the multi-objective design framework is a useful

in silico tool for guiding future gene design efforts for gene therapy.

7.2 Future work

The studies presented in this body of work contribute towards advancing

our understanding and application of codon optimization. Nevertheless,

limitations and shortcomings also exist in the studies, which motivate the

future work discussed below.

In Chapter 4, the codon optimization of the secretory peptide resulted

in a substantial increase in secreted protein yield. A possible explanation is

that while the attached CAL-B sequence had already been codon optimized

for expression in P. pastoris, the wild-type secretory peptide became the

bottleneck in the overall protein translation process. By codon optimizing

the leading signal peptide sequence, this bottleneck was removed and thus

increased yield. To verify this hypothesis, the optimized secretory peptide

Page 129: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

7. CONCLUSIONS & FUTURE WORK 116

sequence can be paired with a non-optimized CAL-B sequence for compar-

ison. To further investigate the broader applicability of secretory peptide

engineering, an extended study may involve a different secreted product to

examine how the secretory peptide design can impact the overall protein

production for different target proteins.

In most codon optimization applications, the gene coding sequence is

treated as a monolithic entity. However, a more sophisticated framework

will divide the coding sequence into different domains with tailored design

strategies for each respective section. Such a protein context based approach

may yield superior performance in yield as well as bioactivity. In Chapter

5, a codon optimization strategy based on the protein secondary structure

was tested. Unfortunately, the performance of the designed sequence was

marginally inferior to the wild type. In our view, this does not invalidate

the strategy of appropriately dividing the sequence into different domains.

Instead, this calls for a different approach. It may be necessary to first re-

duce the scope, and instead perform an in-depth study into different protein

secondary structures separately. For example, insulin is a relatively small

protein that contains two α helices, while the human β-2 microglobulin pri-

marily contains β-pleated sheet structures. Using these two proteins, as well

as other proteins that contain either only α helices or β sheets, we can refine

our understanding on the relationship between protein secondary structure

folding and codon bias, and thus develop a more appropriate codon op-

timization strategy. Consideration of the boundary between the different

protein domains will also need to be further developed as an integral part

of the design to govern transitions between domains.

A protein context based approach can also be extended to account for

requirements related to protein modifications such as glycosylation. Indeed,

Page 130: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

7. CONCLUSIONS & FUTURE WORK 117

modifications to codon usage have been found to affect co-translational N-

linked glycosylation in heterologous glycoproteins [176]. Presumably, the

higher rate of protein translation reduces the probability of glycosylation

occurring. For certain biologics such as monoclonal antibodies, undergly-

cosylation will negatively impact molecular half-life and consequently drug

efficacy [177]. Therefore, the appropriate approach is to first study coding

regions preceded by glycosylation sites on glycosylated host cell proteins

to obtain the appropriate codon bias. During the gene design process, the

regions preceded by glycosylation sites can then be designed to modulate

translation rates so as to increase the dwell time of the glycosylation site

in the endoplasmic reticulum to ensure proper glycoslyation.

7.2.1 Gene design criteria

The efficacy of the CC based design criterion for codon optimization was

demonstrated with the mating factor α prepro-leader sequence, and inver-

tase enzyme in Chapters 4 and 5 respectively. These results do not imply

that the CC criterion is universally superior to the ICU criteron, or any

other design criteria, since comparisons were made with only two sequences.

As noted in Chapter 1, the evolutionary and molecular basis of codon bias

has not been fully elucidated, nor is it clear how so many coding sequence

properties (ICU, CC, mRNA folding, etc.) that have been observed and

tested experimentally, modulate overall protein expression levels individ-

ually, synergistically, or even antagonistically. The test for synergistic im-

provements with ICU and CC in Chapter 4 are limited, with only one short

sequence tested. In a reexamination of the data from Kudla and cowork-

ers [26] by Tuller et al. [29], the analysis suggests that the effects of codon

bias on protein expression is greater when the mRNA folding at the 5’

Page 131: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

7. CONCLUSIONS & FUTURE WORK 118

end of the coding sequence is sufficiently weak, presumably due to initia-

tion being no longer the rate limiting step. Protein translation is a complex

biological process, and the impact of different sequence properties on trans-

lation speed is likely to be vary at different thresholds. Substantial progress

is therefore needed to elucidate the interactions between different sequence

properties on protein translation. For the GFP protein tested by Tuller et

al. [29], the peptide sequence is fairly short, i.e. 238 amino acids. Similar

experiments can be performed using larger proteins to see if the role of

translation initiation (folding at 5’ end) or translation elongation (codon

bias) dominates in overall protein expression.

In the definition of ICU in Chapter 2, codon usage is not position spe-

cific, i.e. the positions of synonymous codons in a sequence may be swapped

without altering the ICU distribution. However, it is not clear if such posi-

tional swappings will affect gene expression. Therefore, a set of experiments

may be proposed to test three or more different ICU optimized sequences

with the same ICU fitness scores but different combinations of codon po-

sitions within each sequence. However, this may be complicated by the

different mRNA folding conformations and CC bias as a result of the shuf-

fled individual codons. Therefore, a multivariate analysis approach will be

needed to help deconvolute the roles of the different sequence characteristics

on protein yield.

In this body of work, the effects of mRNA folding and stability on overall

gene expression has not been considered. In addition to the mRNA folding

at the 5’ end of the sequence, there is also experimental evidence that the

formation of highly stable mRNA structures along the sequence can also

be detrimental to protein expression [178]. Two major issues plague the

consideration of mRNA folding in gene design. The first is the O(n3) com-

Page 132: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

7. CONCLUSIONS & FUTURE WORK 119

putational complexity that makes the computational cost prohibitive for

typical sequence lengths in most applications [179]. To some extent, this

has been partly mitigated by correlations based approximations which re-

duce the order of computational complexity to O(n2) [38]. Another method

is to scan along the sequence with a small (∼ 40 nucleotide long) window

approximately the footprint of the ribosome [27]. However, this approach

will neglect the potential formation of larger, and highly stable mRNA

structures that are larger than the scanning window. Highly stable mRNA

structures such as stem-loops can hinder translation. The second issue is

that the predicted structures are based on thermodynamic considerations

(i.e. the most thermodynamically stable structure), and thus do not nec-

essarily reflect the structures encountered in vivo [180]. Consequently, the

development of more efficient mRNA secondary structure prediction algo-

rithms that give in vivo relevant structures will be necessary for the reliable

integration of mRNA stability considerations into synthetic gene design.

Page 133: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

Bibliography

[1] Russo, E., Learning how to manipulate DNA’s double helix has fu-elled job growth in biotechnology during the past 50 years. Nature,421, pp. 456–457. 2003.

[2] Walsh, G., Biopharmaceuticals benchmark 2014. Nature Biotechnol-ogy, 32, pp. 992–1000. 2014.

[3] Adrio, J. L. and A. L. Demain, Microbial Enzymes: Tools for Biotech-nological Processes. Biomolecules, 4, pp. 117–139. 2014.

[4] Lee, S.-Y. and E. T. Papoutsakis, Metabolic Engineering. InMetabolic Engineering, edited by S.-Y. Lee and E. T. Papoutsakis,CRC Press. 1999.

[5] Prather, K. L. and C. H. Martin, De novo biosynthetic pathways:rational design of microbial chemical factories. Current Opinion inBiotechnology, 19, pp. 468–474. 2008.

[6] Lardau, R. et al., Pharmaceutical Innovation: Revolutionizing HumanHealth (The Chemical Heritage Foundation Series in Innovation andEntrepreneurship). Chemical Heritage Foundation. 1999.

[7] Adrio, J.-L. and A. L. Demain, Recombinant organisms for produc-tion of industrial products. Bioingeered Bugs, 1, pp. 116–131. 2010.

[8] Kay, M. A., State-of-the-art gene-based therapies: the road ahead.Nature Reviews Genetics, 12, pp. 316–328. 2011.

[9] Skinner, M. W., Gene Therapy for Hemophilia: Addressing the Com-ing Challenges of Affordability and Accessibility. Molecular Therapy,21, pp. 1–2. 2013.

[10] Zhang, R., Q. Wang, L. Zhang and S. Chen, Optimized humanfactor IX expression cassettes for hepatic-directed gene therapy ofhemophilia. Front Med, 9, pp. 90–99. 2015.

[11] Elena, C., P. Ravasi, M. E. Castelli, S. Peiru and H. G. Menzella,Expression of codon optimized genes in microbial systems: currentindustrial applications and perspectives. Front Microbiol, 5, p. 21.2014.

120

Page 134: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

BIBLIOGRAPHY 121

[12] Graf, M., T. Schoedl and R. Wagner, Rationales of gene design andde novo gene construction. In Systems Biology and Synthetic Biology,edited by S. P. Pengcheng Fu, chap. 12, pp. 411–438, Wiley. 2009.

[13] Morange, M., A History of Molecular Biology. Cambridge, Mas-sachusetts: Harvard University Press. 2000.

[14] Caskey, C. T. and P. Leder, The RNA code: Nature’s Rosetta Stone.Proc Natl Acad Sci U S A., 111, pp. 5758–5759. 2014.

[15] Acland, A. et al., Database resources of the National Center forBiotechnology Information. Nucl Acids Res, 42(Database issue, pp.D7–D17. 2014.

[16] Hutchison, C. A., DNA sequencing: bench to bedside and beyond.Nucl Acids Res, 35, pp. 6227–6237. 2007.

[17] Mardis, E. R., Next-Generation Sequencing Platforms. Annu RevAnal Chem, 6, pp. 287–303. 2013.

[18] Hershberg, R. and D. A. Petrov, Selection on Codon Bias. Annu. Rev.Genet., 42, pp. 287–299. 2008.

[19] Nakamura, Y., T. Gojobori and T. Ikemura, Codon usage tabulatedfrom the international DNA sequence databases: status for the year2000. Nucl Acids Res, 28, p. 292. 2000.

[20] Gouy, M. and C. Gautier, Codon usage in bacteria: correlation withgene expressivity. Nucl Acids Res, 10, pp. 7055–7074. 1982.

[21] Sharp, P. M., L. R. Emery and K. Zeng, Forces that influence theevolution of codon bias. Phil Trans R Soc B, 365, pp. 1203–1212.2010.

[22] Trotta, E., Selection on codon bias in yeast: a transcriptional hypoth-esis. Nucl Acids Res, 41, pp. 9382–9395. 2013.

[23] Sharp, P. M. and W.-H. Li, The Codon Adaptation Index–a mea-sure of directional synonymous codon usage bias, and its potentialapplications. Nucl Acids Res, 15, pp. 1281–1295. 1987.

[24] Ou, K.-C. et al., Optimization protein productivity of humaninterleukin-2 through codon usage, gene copy number and intracel-lular tRNA concentration in CHO cells. Biochem Biophys Res Com-mun, 454, pp. 347–352. 2014.

[25] Angov, E., Codon usage: Nature’s roadmap to expression and foldingof proteins. Biotechnol J, 6, pp. 650–659. 2011.

Page 135: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

BIBLIOGRAPHY 122

[26] Kudla, G., A. W. Murray, D. Tollervey and J. B. Plotkin, Coding-sequence determinants of gene expression in Escherichia coli . Science,324, pp. 255–258. 2009.

[27] Gu, W., T. Zhou and C. O. Wilke, A Universal Trend of ReducedmRNA Stability near the Translation-Initiation Site in Prokaryotesand Eukaryotes. PLoS Comput Biol, 6, p. e1000664. 2010.

[28] Supek, F. and T. Smuc, On Relevance of Codon Usage to Expressionof Synthetic and Natural Genes in Escherichia coli . Genetics, 185,pp. 1129–1134. 2010.

[29] Tuller, T., Y. Y. Waldman, M. Kupiec and E. Ruppin, Translationefficiency is determined by both codon bias and folding energy. ProcNatl Acad Sci USA, 107, pp. 3645–3650. 2010.

[30] Zur, H. and T. Tuller, Strong association between mRNA foldingstrength and protein abundance in S. cerevisiae. EMBO Rep, 13, pp.272–277. 2012.

[31] Ingolia, N. T., S. Ghaemmaghami, J. R. S. Newman and J. S. Weiss-man, Genome-Wide Analysis in Vivo of Translation with NucleotideResolution Using Ribosome Profiling. Science, 324, pp. 218–223. 2009.

[32] King, H. A. and A. P. Gerber, Translatome profiling: methods forgenome-scale analysis of mRNA translation. Brief Funct Genomics,pp. 1–10. 2014.

[33] Dana, A. and T. Tuller, Determinants of translation elongation speedand ribosomal profiling biases in mouse embryonic stem cells. PLoSComput Biol, 8, p. e1002755. 2012.

[34] Tang, N., S. Ma and J. Tian, New Tools for Cost-Effective DNASynthesis. In Synthetic Biology, 1st Edition Tools and Applications,edited by H. Zhao, pp. 3–22, Elsevier. 2013.

[35] Quax, T. E., N. J. Claassens, D. Soll and J. van der Oost, Codon Biasas a Means to Fine-Tune Gene Expression. Mol Cell, 59, pp. 149–161.2015.

[36] Gustafsson, C., S. G. S and J. Minshull, Codon bias and heterologousprotein expression. Trends Biotechnol, 22, pp. 346–353. 2004.

[37] Esvelt, K. M. and H. H. Wang, Genome-scale engineering for systemsand synthetic biology. Mol Syst Biol, 9, p. 641. 2013.

[38] Gaspar, P., G. Moura, M. A. S. Santos and J. L. Oliveira, mRNAsecondary structure optimization using a correlated stem-loop pre-diction. Nucl Acids Res, 41, p. e73. 2013.

Page 136: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

BIBLIOGRAPHY 123

[39] Puigbo, P., E. Guzman, A. Romeu and S. Garcia-Vallve, OPTI-MIZER: A web server for optimizing the codon usage of DNA se-quences. Nucl Acids Res, 35, pp. W126–W131. 2007.

[40] Welch, M., S. Govindarajan, J. E. Ness, A. Villalobos, A. Gurney,J. Minshull and C. Gustafsson, Design Parameters to Control Syn-thetic Gene Expression in Escherichia coli. PLoS ONE, 4, p. e7002.2009.

[41] Plotkin, J. B. and G. Kudla, Synonymous but not the same: thecauses and consequences of codon bias. Nature Reviews Genetics, 12,pp. 32–42. 2011.

[42] Menzella, H. G., Comparison of two codon optimization strategies toenhance recombinant protein production in Escherichia coli. MicrobCell Fact, 10, p. 15. 2011.

[43] Zhu, D., G. Cai, D. Wu and J. Lu, Comparison of two codon opti-mization strategies enhancing recombinant Sus scrofa lysozyme pro-duction in Pichia pastoris . Cell Mol Biol (Noisy-le-grand), 61, pp.43–49. 2015.

[44] Chung, B. K.-S. and D.-Y. Lee, Computational codon optimizationof synthetic gene for protein expression. BMC Syst Biol, 6, p. 134.2012.

[45] Gutman, G. A. and G. W. Hatfield, Nonrandom utilization of codonpairs in Escherichia coli . Proc. Natl. Acad. Sci. USA, 86, pp. 3699–3703. 1989.

[46] Coleman, J. R., D. Papamichail, S. Skiena, B. Futcher, E. Wim-mer and S. Mueller, Virus Attenuation by Genome-Scale Changesin Codon Pair Bias. Science, 320, pp. 1784–1787. 2008.

[47] Lanza, A. M., K. A. Curran, L. G. Rey and H. S. Alper, A condition-specific codon optimization approach for improved heterologous geneexpression in Saccharomyces cerevisiae. BMC Syst Biol, 8, p. 33. 2014.

[48] Chung, B. K.-S., F. N. Yusufi, Mariati, Y. Yang and D.-Y. Lee, En-hanced expression of codon optimized interferon gamma in CHO cells.J Biotechnol, 167, pp. 326–333. 2013.

[49] Kuljeet-Singh, S., P. Sunil, M. Souvik and P. Beena, GASCO: geneticalgorithm simulation for codon optimization. In Silico Biol, 8, pp.187–192. 2008.

[50] Cai, Y., J. Sun, J. Wang, Y. Ding, N. Tian, X. Liao and W. Xu,Optimizing the codon usage of synthetic gene with QPSO algorithm.J Theor Biol, 254, pp. 123–127. 2008.

Page 137: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

BIBLIOGRAPHY 124

[51] Gaspar, P., J. L. Oliveira, J. Frommlet, M. A. Santos and G. Moura,EuGene: maximizing synthetic gene design for heterologous expres-sion. Bioinformatics, 28, pp. 2683–2684. 2012.

[52] Guimaraes, J. C., M. Rocha, A. P. Arkin and G. Cambray, D-Tailor:automated analysis and design of DNA sequences. Bioinformatics, 30,pp. 1087–1094. 2014.

[53] Jung, S.-K. and K. McDonald, Visual gene developer: a fully pro-grammable bioinformatics software for synthetic gene optimization.BMC Bioinform, 12, p. 340. 2011.

[54] Ang, K.-S., Parameter Estimation of Oscillatory Systems. Master’sthesis, National University of Singapore, Singapore. 2003.

[55] Maier, T., M. Guell and L. Serrano, Correlation of mRNA and proteinin complex biological samples. FEBS Lett, 583, pp. 3966–3973. 2009.

[56] Siller, E., D. C. DeZwaan, J. F. Anderson, B. C. Freeman and J. M.Barral, Slowing bacterial translation speed enhances eukaryotic pro-tein folding efficiency. J Mol Biol, 396, pp. 1310–1318. 2010.

[57] Baneyx, F. and M. Mujacic, Recombinant protein folding and mis-folding in Escherichia coli . Nat Biotechnol, 22, pp. 1399–1408. 2004.

[58] Angov, E., P. M. Legler and R. M. Mease, Adjustment of CodonUsage Frequencies by Codon Harmonization Improves Protein Ex-pression and Folding. In Heterologous Gene Expression in E. coli ,vol. 705, pp. 1–13, Springer. 2010.

[59] Berman, H. M., J. Westbrook, Z. Feng, G. Gilliland, T. N. Bhat,H. Weissig, I. N. Shindyalov and P. E. Bourne, The Protein DataBank. Nucl Acids Res, 28, pp. 235–242. 2000.

[60] Foster, H., P. S. Sharp, T. Athanasopoulos, C. Trollet, I. R. Gra-ham, K. Foster, D. J. Wells and G. Dickson, Codon and mRNA Se-quence Optimization of Microdystrophin Transgenes Improves Ex-pression and Physiological Outcome in Dystrophic mdx Mice Follow-ing AAV2/8 Gene Transfer. Mol Ther, 16, pp. 1825–1832. 2008.

[61] Scheule, R. K., The role of CpG motifs in immunostimulation andgene therapy. Adv Drug Deliv Re, 44, pp. 119–134. 2000.

[62] Weiss, K. H., J. C. Lozoya, S. Tuma, D. Gotthardt, J. Re-ichert, R. Ehehalt, W. Stremmel and J. Fullekrug, Copper-InducedTranslocation of the Wilson Disease Protein ATP7B Independent ofMurr1/COMMD1 and Rab7. Am J Pathol, 173, pp. 1783–1794. 2008.

Page 138: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

BIBLIOGRAPHY 125

[63] Weissman, D. and K. Kariko, mRNA: Fulfilling the Promise of GeneTherapy. Molecular Therapy, 23, pp. 1416–1417. 2015.

[64] Kudla, G., L. Lipinski, F. Caffin, A. Helwak and M. Zylicz, Highguanine and cytosine content increases mRNA levels in mammaliancells. PLoS Biol, 4, p. e180. 2006.

[65] Hoffman, D. C., R. C. Anderson, M. L. DuBois and D. M. Prescott,Macronuclear gene-sized molecules of hypotrichs. Nucl Acids Res, 23,pp. 1279–1283. 1995.

[66] Schneider, S. U., M. B. Leible and X.-P. Yang, Strong homol-ogy between the small subunit of ribulose-1,5-bisphosphate carboxy-lase/oxygenase of two species of Acetabularia and the occurrence ofunusual codon usage. Mol Gen Genet, 218, pp. 445–452. 1989.

[67] Ohama, T., T. Suzuki, M. Mori, S. Osawa, T. Ueda, K. Watanabe,and T. Nakase, Non-universal decoding of the leucine codon CUG inseveral Candida species. Nucl Acids Res, 21, pp. 4039–4045. 1993.

[68] Loughran, G., M.-Y. Chou, I. P. Ivanov, I. Jungreis, M. Kellis, A. M.Kiran, P. V. Baranov and J. F. Atkins, Evidence of efficient stopcodon readthrough in four mammalian genes. Nucl Acids Res, 42,pp. 8928–8938. 2014.

[69] White, E., K. Kamieniarz-Gdula, M. J. Dye and N. J. Proudfoot, AT-rich sequence elements promote nascent transcript cleavage leading toRNA polymerase II termination. Nucl Acids Res, 41, pp. 1797–1806.2013.

[70] Welch, M., A. Villalobos, C. Gustafsson and J. Minshull, Designinggenes for successful protein expression. Methods Enzymol, 498, pp.43–66. 2011.

[71] Klinman, D. M., G. Yamshchikov and Y. lshigatsubot, Contributionof CpG motifs to the immunogenicity of DNA vaccines. J Immunol,158, pp. 3635–3639. 1997.

[72] Faust, S. M. et al., CpG-depleted adeno-associated virus vectors evadeimmune detection. Journal of Clinical Investigation, 23, pp. 2994–3001. 2013.

[73] Seligmann, H. and D. D. Pollock, The Ambush Hypothesis: HiddenStop Codons Prevent Off-Frame Gene Reading. DNA Cell Biol, 23,pp. 701–705. 2004.

[74] Linderoth, J. T. and A. Lodi, MILP Software. In Wiley Encyclopediaof Operations Research and Management Science, edited by J. J.Cochran, Wiley. 2010.

Page 139: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

BIBLIOGRAPHY 126

[75] Boussaıd, I., J. Lepagnot and P. Siarry, A survey on optimizationmetaheuristics. Prediction, Control and Diagnosis using AdvancedNeural Computations, 237, pp. 82–117. 2013.

[76] Goldberg, D. E., Genetic Algorithms in Search, Optimization, andMachine Learning. Reading, MA: Addison-Wesley. 1989.

[77] Schwefel, H.-P., Evolution and Optimum Seeking. New York: Wiley& Sons. 1995.

[78] Storn, R. M. and K. V. Price, Differential Evolution - a simple and ef-ficient heuristic for global optimization over continuous spaces. Jour-nal of Global Optimization, 11, pp. 341–359. 1997.

[79] Kirkpatrick, S., C. D. Gelatt and M. P. Vecchi, Optimization by sim-ulated annealing. Science, 220, pp. 671–680. 1983.

[80] Kennedy, J., S. Yu and R. C. Eberhart, Swarm Intelligence. San Fran-ciso, CA.: Morgan Kaufmann. 2001.

[81] Dorigo, M., V. Maniezzo and A. Colorni, Ant System: Optimizationby a Colony of Cooperating Agents. IEEE Transactions on Systems,Man, and Cybernetics - Part B, 26, pp. 29–41. 1996.

[82] Glover, F. and M. Laguna, Tabu Search. Norwell, MA.: Kluwer. 1997.

[83] Laguna, M. and R. C. Martı, Scatter Search: Methodology and Im-plementations in C. Berlin, Germany: Springer. 2003.

[84] Edgar, T. F., D. M. Himmelblau and L. S. Lasdon, Optimization ofChemical Processes. New York, N.Y.: McGraw Hill, 2nd ed. 2001.

[85] Chin, J.-X., B. K.-S. Chung and D.-Y. Lee, Codon Optimization On-Line (COOL): a web-based multi-objective optimization platform forsynthetic gene design. Bioinformatics, 30, pp. 2210–2212. 2014.

[86] Bonilla-Petriciolet, A. and G. P. Rangaiah, Multi-Objective Opti-mization in Chemical Engineering: Developments and Applications.In Multi-Objective Optimization in Chemical Engineering: Develop-ments and Applications, edited by G. P. Rangaiah and A. Bonilla-Petriciol, Wiley. 2013.

[87] Zitzler, E., L. Thiele, M. Laumanns, C. M. Fonseca and V. G.da Fonseca, Performance Assessment of Multiobjective Optimizers:An Analysis and Review. IEEE Trans Evolut Comput, 7, pp. 117–132. 2003.

[88] Konak, A., D. W. Coit and A. E. Smith, Multi-objective optimiza-tion using genetic algorithms: A tutorial. Reliability Engineering andSystem Safety, 91, pp. 992–1007. 2006.

Page 140: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

BIBLIOGRAPHY 127

[89] Deb, K., A. Pratap, S. Agarwal and T. Meyarivan, A Fast and Eli-tist Multiobjective Genetic Algorithm: NSGA-II. IEEE Trans EvolutComput, 6, pp. 182–197. 2002.

[90] Zitzler, E., M. Laumanns and S. Bleuler, A Tutorial on Evolution-ary Multiobjective Optimization. In Metaheuristics for Multiobjec-tive Optimisation, Lecture Notes in Economics and MathematicalSystems, vol. 535, edited by X. Gandibleux, M. Sevaux, K. Sorensenand V. T’kindt, chap. 1, pp. 3–37, Springer. 2010.

[91] Snajder, M., M. Mihelic, D. Turk and N. P. Ulrih, Codon Optimi-sation Is Key for Pernisine Expression in Escherichia coli. Plos One,10, p. e0123288. 2015.

[92] Pek, H.-B., M. Klement, K.-S. Ang, B. K.-S. Chung, D. S.-W. Ow andD.-Y. Lee, Exploring codon context bias for synthetic gene design of athermostable invertase in Escherichia coli. Enzyme Microb Technol,75-76, pp. 57–63. 2015.

[93] Lu, X., J. Wang, X. Jin and J. Zhu, High-level expression of anovel liver-targeting fusion interferon with preferred Escherichia colicodon preference and its anti-hepatitis B virus activity in vivo. BMCBiotechnol, 15, p. 54. 2015.

[94] Liu, G.-L., G.-Y. Fu, Z. Chi and Z.-M. Chi, Enhanced expression ofthe codon-optimized exo-inulinase gene from the yeast Meyerozymaguilliermondii in Saccharomyces sp. W0 and bioethanol productionfrom inulin. Appl Microbiol Biotechnol, 98, pp. 9129–9138. 2014.

[95] Kim, H.-J., H.-L. Kwag and H.-J. Kim, Codon optimization of thehuman papillomavirus type 58 L1 gene enhances the expression ofsoluble L1 protein in Saccharomyces cerevisiae. Biotechnol Lett, 35,pp. 413–421. 2013.

[96] Ozge Ata, E. Boy, H. Gunes and P. Calık, Codon optimization of xylAgene for recombinant glucose isomerase production in Pichia pastorisand fed-batch feeding strategies to fine-tune bioreactor performance.Bioprocess Biosyst Eng, 38, pp. 889–903. 2015.

[97] He, M., D. Wu, J. Wu and J. Chen, Enhanced expression of endoinuli-nase from Aspergillus niger by codon optimization in Pichia pastorisand its application in inulooligosaccharide production. J Ind Micro-biol Biotechnol, 41, pp. 105–114. 2014.

[98] Tu, Y., Y. Wang, G. Wang, J. Wu, Y. Liu, S. Wang and X. C. Cheng-gang Jiang, High-level expression and immunogenicity of a porcinecircovirus type 2 capsid protein through codon optimization in Pichiapastoris. Appl Microbiol Biotechnol, 97, pp. 2867–2875. 2013.

Page 141: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

BIBLIOGRAPHY 128

[99] Wei, W., J. M. Kim, D. Medina, E. G. Lakatta and L. Lin, GeneOpti-mizer Program-assisted cDNA Reengineering Enhances sRAGE Au-tologous Expression in Chinese Hamster Ovary Cells. Protein ExprPurif, 95, pp. 143–148. 2014.

[100] Shukurov, R., K. Kazachenko, D. Kozlov, A. Nurbakov, E. Sautkina,R. Khamitov and Y. Seryogin, Optimization of genetic constructs forhigh-level expression of the darbepoetin gene in mammalian cells.Appl Biochem Microbiol, 50, pp. 802–811. 2014.

[101] Welch, M., A. Villalobos, C. Gustafsson and J. Minshull, You’re onein a googol: optimizing genes for protein expression. J R Soc Interface,6, pp. S467–S476. 2009.

[102] Liu, X., R. Deng, J. Wang and X. Wang, COStar: a D-star Lite-baseddynamic search algorithm for codon optimization. J Theor Biol, 344,pp. 19–30. 2014.

[103] Raab, D., M. Graf, F. Notka, T. Schodl, and R. Wagner, The GeneOp-timizer Algorithm: using a sliding window approach to cope with thevast sequence space in multiparameter DNA sequence optimization.Syst Synth Biol, 4, pp. 215–225. 2010.

[104] Kyriakopoulos, S. and C. Kontoravdi, Analysis of the landscape ofbiologically-derived pharmaceuticals in Europe: dominant productionsystems, molecule types on the rise and approval trends. Eur J PharmSci, 48, pp. 428–441. 2013.

[105] Courtes, F. C., J. Lin, H.-L. Lim, S.-W. Ng, N. S. Wong, G. Koh,L. Vardy, M. G. Yap, B. Loo and D.-Y. Lee, Translatome analysisof CHO cells to identify key growth genes. J Biotechnol, 167, pp.215–224. 2013.

[106] Prielhofer, R., S. P. Cartwright, A. B. Graf, M. Valli, R. M. Bill andD. M. andBrigitte Gasser, Pichia pastoris regulates its gene-specificresponse to different carbon sources at the transcriptional, ratherthan the translational, level. BMC Genomics, 16, p. 167. 2015.

[107] Riley, M., T. Abe, M. Arnaud, M. Berlyn, F. Blattner, R. Chaud-huri, J. Glasner, T. Horiuchi, I. Keseler, T. Kosuge, H. Mori,N. Perna, G. Plunkett, K. Rudd, M. Serres, G. Thomas, NR, Thom-son, D. Wishart and B. Wanner, Escherichia coli K-12: a coopera-tively developed annotation snapshot-2005. Nucleic Acids Res., 34(1),pp. 1–9. 2006.

[108] Lewis, N. E., B.-K. Cho, E. M. Knight and B. O. Palsson, Gene ex-pression profiling and the use of genome-scale in silico models of Es-

Page 142: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

BIBLIOGRAPHY 129

cherichia coli for analysis: providing context for content. J Bacteriol,191, pp. 3437–3444. 2009.

[109] Li, G.-W., D. Burkhardt, C. Gross and J. S. Weissman, Quantify-ing Absolute Protein Synthesis Rates Reveals Principles UnderlyingAllocation of Cellular Resources. Cell, 157, pp. 624–635. 2014.

[110] Krug, K., A. Carpy, G. Behrends, K. Matic, N. Soares and B. Macek,Deep coverage of the Escherichia coli proteome enables the assess-ment of false discovery rates in simple proteogenomic experiments.Mol Cell Proteomics, 12, pp. 3420–3430. 2013.

[111] Engel, S. R., F. Dietrich, D. Fisk, G. Binkley, R. Balakrishnan,M. Costanzo, S. Dwight, B. Hitz, K. Karra, R. Nash, S. Weng,E. D. Wong, P. Lloyd, M. Skrzypek, S. Miyasato, M. Simison andJ. M. Cherry, The Reference Genome Sequence of Saccharomycescerevisiae: Then and Now. G3 (Bethesda), 4(3), pp. 389–398. 2014.

[112] Adhikari, H. and P. J. Cullen, Metabolic Respiration Induces AMPK-and Ire1p-Dependent Activation of the p38-Type HOG MAPK Path-way. PLOS, 10, p. e1004734. 2014.

[113] Gerashchenko, M., A. Lobanov and V. Gladyshev, Genome-wide ri-bosome profiling reveals complex translational regulation in responseto oxidative stress. Proc Natl Acad Sci U S A, 109(43), pp. 17394–17399. 2012.

[114] Ghaemmaghami, S., W.-K. Huh, K. Bower, R. Howson, A. Belle,N. Dephoure, E. K. O’Shea and J. Weissman, Global analysis of pro-tein expression in yeast. Nature, 425, pp. 737–741. 2003.

[115] Schutter, K. D., Y.-C. Lin, P. Tiels, A. V. Hecke, S. Glinka, J. Weber-Lehmann, P. R. Y. V. de Peer and N. Callewaert, Genome sequenceof the recombinant protein production host Pichia pastoris. NatBiotechnol, 27, pp. 561–566. 2009.

[116] Liang, S., B. Wang, L. Pan, Y. Ye, M. He, S. Han, S. Zheng, X. Wangand Y. Lin, Comprehensive structural annotation of Pichia pastoristranscriptome and the response to various carbon sources using deeppaired-end RNA sequencing. BMC Genomics, 13, p. 738. 2012.

[117] Renuse, S., A. K. Madugundu, P. Kumar, B. G. Nair, H. Gowda,T. Prasad and A. Pandey, Proteomic analysis and genome annotationof Pichia pastoris , a recombinant protein expression host. Proteomics,14, pp. 2769–2779. 2014.

Page 143: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

BIBLIOGRAPHY 130

[118] Xu, X., H. Nagarajan, N. E. Lewis, S. Pan, Z. Cai, X. Liu, W. Chen,M. Xie, W. Wang, S. Hammond, M. R. Andersen, N. Neff, B. Pas-sarelli, W. Koh, H. C. Fan, J. Wang, Y. Gui, K. H. Lee, M. J. Beten-baugh, S. R. Quake, I. Famili, B. O. Palsson and J. Wang, The ge-nomic sequence of the Chinese hamster ovary (CHO)-K1 cell line.Nat Biotechnol, 29(8), pp. 735–741. 2011.

[119] Baycin-Hizal, D., D. L. Tabb, R. Chaerkady, L. Chen, N. E. Lewis,H. Nagarajan, V. Sarkaria, A. Kumar, D. Wolozny, J. Colao, E. Ja-cobson, Y. Tian, R. N. O’Meally, S. S. Krag, R. N. Cole, B. O. Pals-son, H. Zhang and M. Betenbaugh, Proteomic Analysis of ChineseHamster Ovary Cells. J Proteome Res, 11, pp. 5265–5276. 2012.

[120] R Core Team, R: A Language and Environment for Statistical Com-puting. R Foundation for Statistical Computing, Vienna, Austria.2013, URL http://www.R-project.org/.

[121] Suzuki, R. and H. Shimodaira, Pvclust: an R package for assessing theuncertainty in hierarchical clustering. Bioinformatics, 22, pp. 1540–1542. 2006.

[122] Ahn, J., M.-J. Jang, K. S. Ang, H. Lee, E.-S. Choi and D.-Y. Lee,Codon optimization of Saccharomyces cerevisiae mating factor alphaprepro-leader to improve recombinant protein production in Pichiapastoris. Biotechnology Letters, 38, pp. 2137–2143. 2016.

[123] Anderson, E. M., K. M. Larsson and O. Kirk, One Biocatalyst - ManyApplications: The Use of Candida Antarctica B-Lipase in OrganicSynthesis. Biocatal Biotransfor, 16, pp. 181–204. 1998.

[124] Larsen, M.W., U. T. Bornscheuer and K. Hult, Expression of Candidaantarctica lipase B in Pichia pastoris and various Escherichia colisystems. Protein Expr Purif, 62, pp. 90–97. 2008.

[125] Jahic, M., F. Wallberg, M. Bollok, P. Garcia and S.-O. Enfors, Tem-perature limited fed-batch technique for control of proteolysis inPichia pastoris bioreactor cultures. Microb Cell Fact, 2, p. 6. 2003.

[126] Dikicioglu, D., V. Wood, K. M. Rutherford, M. D. McDowall andS. G. Oliver, Improving functional annotation for industrial microbes:a case study with Pichia pastoris. Trends Biotechnol, 32, pp. 396–399.2014.

[127] Lin-Cereghino, G. P., C. M. Stark, D. Kim, J. Chang, N. Shaheen,H. Poerwanto, K. Agari, P. Moua, L. K. Low, N. Tran, A. D. Huang,M. Nattestad, K. T. Oshiro, J. W. Chang, A. Chavan, J. W. Tsai and

Page 144: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

BIBLIOGRAPHY 131

J. Lin-Cereghino, The effect of α-mating factor secretion signal mu-tations on recombinant protein expression in Pichia pastoris. Gene,519, pp. 311–317. 2013.

[128] Karlin, S., J. Mrazek, A. Campbell and D. Kaiser, Characterizationsof highly expressed genes of four fast-growing bacteria. J Bacteriol,183, pp. 5025–5040. 2001.

[129] Kim, S.-Y., J.-H. Sohn, Y.-R. Pyun, I.-S. Yang, K.-H. Kim and E.-S.Choi, In vitro evolution of lipase B from Candida antarctica usingsurface display in Hansenula polymorpha. J Microbiol Biotechnol, 17,pp. 1308–1315. 2007.

[130] Ahn, J., J. Hong, H. Lee, M. Park, E. C. Eungyo Lee, Chunsuk Kim,J. Jung and H. Lee, Translation elongation factor 1-a gene from Pichiapastoris: Molecular cloning, sequence, and use of its promoter. ApplMicrobiol Biotechnol, 74, pp. 601–608. 2007.

[131] Whang, J., J. Ahn, C.-S. Chun, Y.-J. Son, H. Lee and E.-S. Choi,Efficient, galactose-free production of Candida antarctica lipase Bby GAL10 promoter in ∆gal80 mutant of Saccharomyces cerevisiae.Process Biochemistry, 44, pp. 1190–1192. 2009.

[132] Xiong, A., Q. Yao, R. Peng, P. Han, Z. Cheng and Y. Li, High levelexpression of a recombinant acid phytase gene in Pichia pastoris. JAppl Microbiol, 98, pp. 418–428. 2005.

[133] Fuglsang, A., Codon optimizer: a freeware tool for codon optimiza-tion. Protein Expr and Purif, 31, pp. 247–249. 2003.

[134] Grote, A., K. Hiller, M. Scheer, R. Munch, B. Nortemann, D. C.Hempel and D. Jahn, JCat: a novel tool to adapt codon usage of atarget gene to its potential expression host. Nucl Acids Res, 33 (WebServer issue), pp. W526–531. 2005.

[135] Zuker, M., Mfold web server for nucleic acid folding and hybridizationprediction. Nucl Acids Res, 31, pp. 3406–3415. 2003.

[136] Majer-Baranyi, K., N. Adanyi and M. Varadi, Investigation of amulti-enzyme based amperometric biosensor for determination of su-crose in fruit juices. Eur Food Res Technol, 228, pp. 139–144. 2008.

[137] Veana, F., J. A. Fuentes-Garibay, C. N. Aguilar, R. Rodrıguez-Herrerab, M. Guerrero-Olazarana and J. M. Viader-Salvadoa, Geneencoding a novel invertase from a xerophilic Aspergillus niger strainand production of the enzyme in Pichia pastoris. Enzy MicrobialTechnol, 63, pp. 28–33. 2014.

Page 145: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

BIBLIOGRAPHY 132

[138] Guimaraes, L. H. S., H. F. Terenzi, M. de Lourdes Teixeira deMoraes Polizeli and J. ao Atılio Jorge, Production and character-ization of a thermostable extracellular β-D-fructofuranosidase pro-duced by Aspergillus ochraceus with agroindustrial residues as carbonsources. Enzy Microbial Technol, 42, pp. 52–57. 2007.

[139] Alberto, F., C. Bignon, G. Sulzenbacher, B. Henrissat and M. Czjzek,The three-dimensional structure of invertase (β-fructosidase) fromThermotoga maritima reveals a bimodular arrangement and an evo-lutionary relationship between retaining and inverting glycosidases.J Biol Chem, 279, pp. 18903–18910. 2004.

[140] Grantham, R., C. Gautier, M. Gouy, R. Mercier and A. Pave, Codoncatalog usage and the genome hypothesis. Nucl Acids Res, 8, pp.r49–r62. 1980.

[141] Plotkin, J. B., J. Dushoff and H. B. Fraser, Detecting selection using asingle genome sequence of M. tuberculosis and P. falciparum. Nature,428, pp. 942–945. 2004.

[142] Duret, L. and D. Mouchiroud, Expression pattern and, surprisingly,gene length shape codon usage in Caenorhabditis, Drosophila, andArabidopsis. PNAS U S A, 96, pp. 4482–4487. 1999.

[143] Villalobos, A., J. E. Ness, C. Gustafsson, J. Minshull and S. Govin-darajan, Gene Designer: a synthetic biology tool for constructing ar-tificial DNA segments. BMC Bioinform, 7, p. 285. 2006.

[144] Bentele, K., P. Saffert, R. Rauscher, Z. Ignatova and N. Bluthgen,Efficient translation initiation dictates codon usage at gene start. MolSyst Biol, 9, p. 675. 2013.

[145] Smith, D. and M. Yarus, tRNA-tRNA interactions within cellularribosomes. PNAS U S A, 86, pp. 4397–4401. 1989.

[146] Michael A. Sørensen, S. P., Absolute in vivo translation rates of in-dividual codons in Escherichia coli . The two glutamic acid codonsGAA and GAG are translated with a threefold difference in rate. JMol Biol, 222, pp. 265–280. 1991.

[147] Goetz, R. M. and A. Fuglsang, Correlation of codon bias measureswith mRNA levels: analysis of transcriptome data from Escherichiacoli . Biochem Biophys Res Commun, 327, pp. 4–7. 2005.

[148] Feng, C., C. Xu, Y. Wang, W. Liu, X. Yin, X. Li, M. Chen andK. Chen, Codon usage patterns in Chinese bayberry (Myrica rubra)based on RNA-Seq data. BMC Genomics, 14, p. 732. 2013.

Page 146: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

BIBLIOGRAPHY 133

[149] de Sousa Abreu, R., L. O. Penalva, E. M. Marcotte and C. Vo-gel, Global signatures of protein and mRNA expression levels. MolBiosyst, 5, pp. 1512–1526. 2009.

[150] Gygi, S. P., B. Rist and R. Aebersold, Measuring gene expression byquantitative proteome analysis. Curr Opin Biotechnol, 11, pp. 396–401. 2000.

[151] Yarus, M. and L. S. Folley, Sense codons are found in specific contexts.J Mol Biol, 182, pp. 529–540. 1985.

[152] Tats, A., T. Tenson and M. Remm, Preferred and avoided codon pairsin three domains of life. BMC Genomics, 9, p. 463. 2008.

[153] Deane, C. M. and R. Saunders, The imprint of codons on proteinstructure. Biotechnol J, 6, pp. 641–649. 2011.

[154] Spencer, P. S. and J. M. Barral, Genetic code redundancy and itsinfluence on the encoded polypeptides. Comput Struct Biotechnol J,1, p. e201204006. 2012.

[155] Gromadski, K. B. and M. V. Rodnina, Kinetic determinants of high-fidelity tRNA discrimination on the ribosome. Mol Cell, 13, pp. 191–200. 2004.

[156] Fedorov, A. N. and T. O. Baldwin, Cotranslational protein folding.J Biol Chem, 272, pp. 32715–32718. 1997.

[157] Spencer, P. S., E. Siller, J. F. Anderson and J. M. Barral, Silent sub-stitutions predictably alter translation elongation rates and proteinfolding efficiencies. J Mol Biol, 422, pp. 328–335. 2012.

[158] Liebl, W., B. D and A. Gotschlich, Analysis of the gene for beta-fructosidase (invertase, inulinase) of the hyperthermophilic bacteriumThermotoga maritima, and characterisation of the enzyme expressedin Escherichia coli . Appl Microbiol Biotechnol, 50, pp. 55–64. 1998.

[159] Ow, D. S.-W., D. Y.-X. Lim, P. M. Nissom, A. Camattari and V. V.-T. Wong, Co-expression of Skp and FkpA chaperones improves cellviability and alters the global expressionof stress response genes dur-ing scFvD1.3 production. Microb Cell Fact, 9, p. 22. 2010.

[160] Bartee, M. Y. and S. Lutsenko, Hepatic copper-transporting ATPaseATP7B: function and inactivation at the molecular and cellular level.Biometals, 20, pp. 627–637. 2007.

[161] Forbes, J. R. and D. W. Cox, Functional Characterization of MissenseMutations in ATP7B: Wilson Disease Mutation or Normal Variant?Am J Hum Genet, 63, pp. 1663–1674. 1998.

Page 147: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

BIBLIOGRAPHY 134

[162] Forbes, J. R. and D. W. Cox, Copper-dependent trafficking of Wilsondisease mutant ATP7B proteins. Hum Mol Genet, 9, pp. 1927–1935.2000.

[163] Roberts, E. A. and M. L. Schilsky, Diagnosis and treatment of Wilsondisease: An update. Hepatology, 47, pp. 2089–2111. 2008.

[164] Sevmis, S., H. Karakayali, I. Aliosmanoglu, U. Yilmaz, F. Ozcay,A. Torgay, G. Arslan and M. Haberal, Liver transplantation for Wil-son’s disease. Transplant Proc, 40, pp. 228–230. 2008.

[165] Chandler, R. J., T. N. Tarasenko, K. Cusmano-Ozog, Q. Sun, C. P. V.V R Sutton and P. J. McGuire, Liver-directed adeno-associated virusserotype 8 gene transfer rescues a lethal murine model of citrullinemiatype 1. Gene Therapy, 20, pp. 1188–1191. 2013.

[166] Murillo, O., D. M. Luqui, C. Gazquez, D. Martinez-Espartosa,I. nigo Navarro-Blasco, J. I. Monreal, L. Guembe, A. M.-C. no,F. J. Corrales, J. Prieto, R. Hernandez-Alcoceba and G. Gonzalez-Aseguinolaza, Long-term metabolic correction of Wilson’s disease ina murine model by gene therapy. J Hepatol, In press. 2016.

[167] Naldini, L., Gene therapy returns to centre stage. Nature, 526, pp.351–360. 2015.

[168] Wu, Z., J. Sun, T. Zhang, C. Yin, F. Yin, T. V. Dyke, R. J. Samul-ski and P. E. Monahan, Optimization of self-complementary AAVvectors for liver-directed expression results in sustained correction ofhemophilia B at low vector dose. Mol Ther, 16, pp. 280–289. 2008.

[169] Plotkin, J. B., H. Robins and A. J. Levine, Tissue-specific codonusage and the expression of human genes. PNAS U S A, 101, pp.12588–12591. 2004.

[170] Uhlen, M. et al., Tissue-based map of the human proteome. Science,347, p. 1260419. 2015.

[171] Yu, Y., J. Ping, H. Chen, L. Jiao, S. Zheng, Z.-G. Han, P. Hao andJ. Huang, A comparative analysis of liver transcriptome suggests di-vergent liver function among human, mouse and rat. Genomics, 96,pp. 281–289. 2010.

[172] Consortium, C. H. L. P. P., First insight into the human liver pro-teome from PROTEOMESKY -LIVERHu 1.0, a publicly availabledatabase. J Proteome Res, 9, pp. 79–94. 2010.

[173] Pruitt, K. D. et al., RefSeq: an update on mammalian reference se-quences. Nucl Acids Res, 42(Database issue), pp. D756–D763. 2014.

Page 148: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

BIBLIOGRAPHY 135

[174] Benson, D. A., I. Karsch-Mizrachi, D. J. Lipman, J. Ostell and D. L.Wheeler, GenBank. Nucl Acids Res, 33, pp. D34–D38. 2004.

[175] SEQC/MAQC-III Consortium, A comprehensive assessment of RNA-seq accuracy, reproducibility and information content by the Sequenc-ing Quality Control Consortium. Nature Biotechnol, 32, pp. 903–914.2014.

[176] Ebrahimi, K. H., G. M. West and R. Flefil, Mass spectrometry ap-proach and ELISA reveal the effect of codon optimization on N-linkedglycosylation of HIV-1 gp120. J Proteome Res, 13, pp. 5801–5811.2014.

[177] Zheng, K., C. Bantog and R. Bayer, The impact of glycosylation onmonoclonal antibody conformation and stability. MAbs, 3, pp. 568–576. 2011.

[178] Nackley, A., S. Shabalina, I. Tchivileva, K. Satterfield, O. Korchyn-skyi, S. Makarov, W. Maixner and L. Diatchenko, Human Catechol-O-Methyltransferase Haplotypes Modulate Protein Expression by Al-tering mRNA Secondary Structure. Science, 314, pp. 1930–3. 2006.

[179] Wexler, Y., C. Zilberstein and M. Ziv-Ukelson, A study of accessiblemotifs and RNA folding complexity. J Comput Biol, 14, pp. 856–872.2007.

[180] Proctor, J. R. and I. M. Meyer, CoFold: an RNA secondary structureprediction method that takes co-transcriptional folding into account.Nucl Acids Res, 41, p. e102. 2013.

Page 149: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

Appendix A

Supplementary forEstablishing Reference CodonBiases Using -omics Datasets

The following abbreviations apply to the table here.

� E. coli : Escherichia coli

� S. cerevisiae : Saccharomyces cerevisiae

� P. pastoris: Pichia pastoris

� CHO cells: Chinese hamster ovary cells

Table A.1: Codon context frequency table derived with -omics datasets

E. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

A* GCATAA 0.17 0.21 0.20 0.24 0.14 0.32 0.14 0.06 0.14 0.15 0.07 0.18 0.13 0.06 0.20 0.00 0.29 0.06 0.08 0.06 0.00 0.09 0.04A* GCATAG 0.01 0.02 0.00 0.00 0.00 0.04 0.08 0.05 0.05 0.02 0.02 0.12 0.07 0.02 0.04 0.02 0.00 0.07 0.09 0.07 0.04 0.00 0.04A* GCATGA 0.13 0.03 0.28 0.00 0.00 0.09 0.10 0.03 0.14 0.13 0.07 0.06 0.09 0.00 0.16 0.02 0.00 0.10 0.12 0.11 0.04 0.07 0.04A* GCCTAA 0.01 0.03 0.00 0.00 0.06 0.00 0.07 0.02 0.19 0.07 0.04 0.18 0.08 0.10 0.04 0.12 0.12 0.13 0.10 0.08 0.23 0.17 0.27A* GCCTAG 0.00 0.00 0.00 0.00 0.00 0.00 0.04 0.02 0.00 0.02 0.02 0.06 0.04 0.04 0.00 0.07 0.00 0.11 0.14 0.14 0.14 0.09 0.23A* GCCTGA 0.21 0.19 0.17 0.24 0.20 0.18 0.05 0.00 0.05 0.07 0.00 0.06 0.04 0.06 0.08 0.00 0.00 0.26 0.18 0.26 0.41 0.23 0.19A* GCGTAA 0.22 0.26 0.13 0.20 0.26 0.18 0.03 0.02 0.05 0.00 0.00 0.00 0.02 0.02 0.00 0.00 0.00 0.01 0.02 0.00 0.04 0.02 0.00A* GCGTAG 0.02 0.02 0.02 0.00 0.06 0.04 0.01 0.00 0.00 0.00 0.00 0.00 0.03 0.02 0.00 0.02 0.06 0.01 0.01 0.01 0.00 0.00 0.08A* GCGTGA 0.06 0.02 0.04 0.08 0.06 0.09 0.03 0.03 0.00 0.02 0.00 0.00 0.01 0.00 0.04 0.00 0.06 0.04 0.05 0.03 0.04 0.04 0.08A* GCTTAA 0.11 0.21 0.11 0.20 0.23 0.04 0.27 0.62 0.24 0.33 0.63 0.12 0.20 0.40 0.20 0.50 0.18 0.07 0.09 0.06 0.00 0.14 0.00A* GCTTAG 0.02 0.02 0.00 0.00 0.00 0.00 0.07 0.08 0.10 0.11 0.06 0.18 0.15 0.19 0.08 0.14 0.00 0.05 0.04 0.11 0.00 0.04 0.00A* GCTTGA 0.03 0.00 0.04 0.04 0.00 0.00 0.10 0.08 0.05 0.09 0.09 0.06 0.14 0.08 0.16 0.10 0.29 0.10 0.08 0.07 0.04 0.12 0.04AA GCAGCA 0.05 0.06 0.05 0.06 0.07 0.05 0.09 0.05 0.07 0.06 0.04 0.11 0.09 0.05 0.11 0.03 0.10 0.10 0.10 0.09 0.12 0.09 0.12AA GCAGCC 0.03 0.03 0.03 0.02 0.02 0.03 0.05 0.03 0.06 0.03 0.03 0.05 0.06 0.05 0.06 0.03 0.06 0.13 0.12 0.15 0.13 0.12 0.13AA GCAGCG 0.06 0.08 0.06 0.08 0.08 0.06 0.02 0.01 0.03 0.01 0.01 0.04 0.02 0.01 0.03 0.00 0.03 0.02 0.03 0.02 0.02 0.02 0.02AA GCAGCT 0.03 0.07 0.02 0.06 0.07 0.03 0.09 0.06 0.08 0.07 0.06 0.10 0.11 0.09 0.12 0.07 0.12 0.12 0.12 0.11 0.13 0.10 0.12AA GCCGCA 0.07 0.05 0.08 0.05 0.04 0.07 0.05 0.04 0.05 0.05 0.04 0.05 0.04 0.03 0.05 0.02 0.05 0.02 0.01 0.02 0.01 0.01 0.02AA GCCGCC 0.09 0.05 0.12 0.05 0.04 0.10 0.05 0.05 0.06 0.06 0.06 0.03 0.04 0.05 0.03 0.06 0.03 0.04 0.04 0.04 0.03 0.05 0.03AA GCCGCG 0.07 0.04 0.07 0.04 0.05 0.07 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.00 0.00 0.01 0.01 0.02 0.01 0.01 0.02 0.01AA GCCGCT 0.05 0.06 0.06 0.07 0.06 0.04 0.09 0.12 0.08 0.12 0.13 0.08 0.07 0.12 0.04 0.12 0.06 0.02 0.02 0.02 0.02 0.02 0.02AA GCGGCA 0.11 0.09 0.10 0.11 0.08 0.10 0.04 0.01 0.04 0.02 0.01 0.04 0.02 0.01 0.03 0.01 0.03 0.02 0.01 0.02 0.01 0.02 0.01AA GCGGCC 0.03 0.02 0.04 0.02 0.03 0.03 0.02 0.01 0.02 0.01 0.01 0.02 0.02 0.01 0.02 0.01 0.02 0.03 0.04 0.04 0.04 0.05 0.02AA GCGGCG 0.16 0.11 0.17 0.10 0.12 0.18 0.01 0.00 0.02 0.00 0.00 0.01 0.01 0.00 0.01 0.00 0.01 0.02 0.02 0.01 0.01 0.02 0.01AA GCGGCT 0.04 0.04 0.03 0.05 0.04 0.04 0.04 0.02 0.06 0.03 0.02 0.05 0.03 0.02 0.03 0.01 0.04 0.02 0.02 0.02 0.02 0.03 0.02AA GCTGCA 0.04 0.08 0.03 0.09 0.08 0.05 0.11 0.07 0.10 0.10 0.07 0.13 0.11 0.07 0.12 0.06 0.12 0.11 0.12 0.09 0.12 0.12 0.12AA GCTGCC 0.06 0.07 0.06 0.05 0.06 0.05 0.11 0.16 0.09 0.13 0.16 0.07 0.13 0.17 0.12 0.20 0.12 0.16 0.15 0.18 0.14 0.15 0.16AA GCTGCG 0.07 0.08 0.06 0.06 0.07 0.07 0.04 0.02 0.05 0.03 0.01 0.04 0.04 0.01 0.04 0.01 0.05 0.03 0.03 0.03 0.02 0.02 0.02AA GCTGCT 0.04 0.09 0.02 0.10 0.10 0.03 0.20 0.34 0.17 0.27 0.35 0.16 0.23 0.31 0.20 0.37 0.17 0.15 0.16 0.14 0.15 0.16 0.17AC GCATGC 0.03 0.04 0.03 0.02 0.01 0.07 0.16 0.07 0.23 0.09 0.06 0.17 0.11 0.05 0.12 0.02 0.16 0.07 0.08 0.07 0.07 0.07 0.06AC GCATGT 0.06 0.08 0.03 0.11 0.08 0.07 0.20 0.17 0.15 0.20 0.19 0.17 0.18 0.14 0.21 0.10 0.20 0.09 0.08 0.06 0.08 0.07 0.11AC GCCTGC 0.30 0.18 0.36 0.29 0.21 0.31 0.07 0.06 0.06 0.06 0.06 0.06 0.08 0.10 0.08 0.06 0.09 0.29 0.30 0.37 0.33 0.30 0.26AC GCCTGT 0.30 0.34 0.34 0.22 0.34 0.29 0.16 0.17 0.21 0.13 0.17 0.12 0.19 0.22 0.20 0.29 0.17 0.26 0.24 0.25 0.26 0.27 0.28AC GCGTGC 0.07 0.06 0.07 0.07 0.08 0.07 0.05 0.02 0.05 0.03 0.01 0.04 0.02 0.03 0.02 0.00 0.03 0.03 0.02 0.03 0.03 0.02 0.04AC GCGTGT 0.07 0.11 0.04 0.02 0.12 0.06 0.06 0.03 0.07 0.05 0.04 0.07 0.04 0.01 0.04 0.00 0.05 0.03 0.03 0.03 0.04 0.03 0.03AC GCTTGC 0.08 0.10 0.08 0.18 0.09 0.03 0.09 0.06 0.12 0.08 0.07 0.12 0.13 0.15 0.09 0.15 0.12 0.10 0.13 0.10 0.10 0.12 0.11AC GCTTGT 0.09 0.08 0.05 0.09 0.08 0.11 0.22 0.42 0.12 0.36 0.40 0.24 0.24 0.30 0.24 0.38 0.18 0.12 0.12 0.10 0.10 0.12 0.12AD GCAGAC 0.06 0.11 0.05 0.08 0.11 0.04 0.12 0.08 0.10 0.10 0.09 0.11 0.11 0.08 0.11 0.06 0.11 0.19 0.18 0.20 0.15 0.17 0.19AD GCAGAT 0.11 0.08 0.09 0.08 0.07 0.12 0.22 0.13 0.23 0.18 0.09 0.28 0.18 0.12 0.19 0.07 0.21 0.20 0.20 0.19 0.21 0.19 0.20AD GCCGAC 0.13 0.10 0.17 0.10 0.11 0.17 0.05 0.07 0.07 0.07 0.07 0.05 0.07 0.11 0.05 0.13 0.07 0.06 0.05 0.07 0.07 0.06 0.06AD GCCGAT 0.24 0.18 0.25 0.21 0.18 0.25 0.10 0.12 0.12 0.10 0.12 0.09 0.12 0.13 0.10 0.14 0.11 0.04 0.04 0.04 0.05 0.05 0.04AD GCGGAC 0.06 0.06 0.07 0.06 0.06 0.05 0.05 0.02 0.05 0.03 0.02 0.04 0.03 0.03 0.04 0.01 0.03 0.04 0.04 0.05 0.03 0.04 0.03AD GCGGAT 0.15 0.10 0.17 0.09 0.09 0.16 0.08 0.04 0.07 0.06 0.03 0.09 0.06 0.02 0.07 0.03 0.06 0.03 0.04 0.03 0.04 0.04 0.03AD GCTGAC 0.11 0.21 0.10 0.21 0.23 0.09 0.13 0.22 0.14 0.17 0.23 0.10 0.16 0.24 0.14 0.28 0.14 0.23 0.24 0.24 0.21 0.24 0.23AD GCTGAT 0.14 0.16 0.10 0.17 0.16 0.12 0.26 0.32 0.22 0.30 0.36 0.24 0.28 0.27 0.29 0.28 0.27 0.20 0.20 0.18 0.23 0.21 0.22AE GCAGAA 0.20 0.20 0.18 0.25 0.22 0.19 0.24 0.14 0.24 0.19 0.13 0.31 0.16 0.08 0.19 0.06 0.18 0.18 0.19 0.14 0.18 0.16 0.20AE GCAGAG 0.08 0.07 0.08 0.06 0.06 0.07 0.10 0.05 0.12 0.06 0.04 0.09 0.13 0.08 0.12 0.05 0.14 0.24 0.22 0.24 0.24 0.23 0.23AE GCCGAA 0.16 0.12 0.19 0.11 0.11 0.20 0.10 0.14 0.09 0.12 0.16 0.10 0.11 0.10 0.13 0.10 0.12 0.03 0.04 0.03 0.02 0.04 0.03AE GCCGAG 0.07 0.06 0.08 0.06 0.06 0.06 0.04 0.03 0.05 0.03 0.02 0.04 0.07 0.12 0.05 0.13 0.05 0.08 0.08 0.09 0.07 0.09 0.07AE GCGGAA 0.20 0.17 0.21 0.14 0.15 0.19 0.08 0.05 0.09 0.07 0.03 0.08 0.05 0.02 0.06 0.02 0.08 0.02 0.03 0.02 0.02 0.02 0.02AE GCGGAG 0.07 0.03 0.06 0.04 0.04 0.06 0.04 0.02 0.03 0.03 0.02 0.05 0.04 0.02 0.04 0.01 0.05 0.05 0.06 0.05 0.05 0.05 0.04AE GCTGAA 0.18 0.28 0.17 0.28 0.29 0.17 0.30 0.48 0.28 0.39 0.53 0.24 0.27 0.27 0.26 0.31 0.24 0.16 0.16 0.16 0.18 0.16 0.18AE GCTGAG 0.05 0.06 0.02 0.05 0.07 0.06 0.10 0.09 0.09 0.11 0.08 0.10 0.17 0.30 0.15 0.32 0.13 0.24 0.24 0.26 0.24 0.25 0.22AF GCATTC 0.09 0.17 0.08 0.19 0.19 0.07 0.12 0.10 0.13 0.11 0.08 0.12 0.13 0.08 0.16 0.06 0.16 0.07 0.06 0.06 0.08 0.07 0.10AF GCATTT 0.15 0.10 0.15 0.10 0.09 0.12 0.22 0.14 0.21 0.18 0.12 0.21 0.20 0.12 0.20 0.11 0.19 0.11 0.11 0.08 0.11 0.10 0.12AF GCCTTC 0.10 0.12 0.11 0.11 0.13 0.15 0.09 0.14 0.08 0.12 0.15 0.07 0.09 0.18 0.10 0.21 0.06 0.31 0.29 0.39 0.26 0.33 0.27AF GCCTTT 0.16 0.11 0.17 0.12 0.09 0.19 0.13 0.16 0.12 0.16 0.15 0.13 0.11 0.10 0.10 0.13 0.12 0.21 0.21 0.21 0.21 0.20 0.20AF GCGTTC 0.11 0.17 0.11 0.18 0.17 0.09 0.05 0.04 0.07 0.04 0.04 0.06 0.05 0.04 0.04 0.01 0.07 0.02 0.01 0.02 0.03 0.01 0.03AF GCGTTT 0.22 0.17 0.24 0.18 0.15 0.21 0.08 0.05 0.10 0.06 0.05 0.09 0.07 0.04 0.09 0.02 0.06 0.03 0.03 0.02 0.03 0.02 0.02AF GCTTTC 0.07 0.09 0.07 0.09 0.11 0.09 0.13 0.25 0.10 0.18 0.29 0.10 0.16 0.28 0.14 0.32 0.13 0.13 0.14 0.13 0.14 0.13 0.13AF GCTTTT 0.11 0.08 0.08 0.05 0.07 0.09 0.17 0.13 0.18 0.15 0.13 0.22 0.18 0.17 0.17 0.13 0.22 0.13 0.15 0.09 0.15 0.14 0.14AG GCAGGA 0.03 0.01 0.03 0.01 0.01 0.03 0.07 0.02 0.06 0.05 0.02 0.11 0.10 0.04 0.13 0.04 0.11 0.10 0.08 0.10 0.09 0.08 0.11AG GCAGGC 0.09 0.13 0.08 0.11 0.12 0.07 0.06 0.03 0.07 0.04 0.03 0.08 0.05 0.03 0.05 0.03 0.06 0.10 0.08 0.10 0.09 0.07 0.10AG GCAGGG 0.04 0.03 0.04 0.02 0.02 0.05 0.03 0.01 0.03 0.02 0.00 0.05 0.04 0.02 0.05 0.02 0.03 0.09 0.07 0.09 0.10 0.06 0.09AG GCAGGT 0.08 0.10 0.08 0.10 0.10 0.07 0.13 0.12 0.11 0.12 0.11 0.10 0.10 0.08 0.10 0.07 0.10 0.06 0.06 0.05 0.06 0.06 0.06

Continued on next page

136

Page 150: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 137

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

AG GCCGGA 0.09 0.05 0.11 0.05 0.04 0.07 0.03 0.01 0.02 0.02 0.01 0.04 0.05 0.06 0.04 0.05 0.07 0.02 0.02 0.03 0.02 0.02 0.02AG GCCGGC 0.01 0.01 0.01 0.02 0.01 0.02 0.03 0.03 0.03 0.02 0.03 0.04 0.02 0.03 0.01 0.02 0.03 0.04 0.04 0.04 0.03 0.05 0.03AG GCCGGG 0.09 0.02 0.11 0.04 0.04 0.12 0.01 0.01 0.02 0.01 0.01 0.02 0.01 0.01 0.01 0.00 0.01 0.03 0.03 0.03 0.03 0.03 0.03AG GCCGGT 0.10 0.13 0.10 0.12 0.13 0.09 0.11 0.19 0.08 0.15 0.18 0.07 0.07 0.12 0.05 0.17 0.05 0.01 0.02 0.02 0.02 0.02 0.01AG GCGGGA 0.04 0.02 0.04 0.02 0.01 0.04 0.03 0.01 0.03 0.02 0.01 0.04 0.03 0.01 0.04 0.01 0.03 0.02 0.01 0.02 0.02 0.01 0.01AG GCGGGC 0.11 0.12 0.13 0.10 0.10 0.14 0.03 0.01 0.04 0.02 0.01 0.04 0.02 0.01 0.01 0.00 0.01 0.03 0.03 0.04 0.03 0.04 0.02AG GCGGGG 0.05 0.03 0.06 0.04 0.03 0.06 0.01 0.00 0.03 0.01 0.00 0.02 0.01 0.01 0.01 0.00 0.01 0.02 0.02 0.02 0.02 0.01 0.02AG GCGGGT 0.10 0.12 0.08 0.13 0.13 0.10 0.04 0.03 0.02 0.03 0.03 0.04 0.02 0.01 0.02 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01AG GCTGGA 0.02 0.01 0.01 0.01 0.01 0.01 0.07 0.03 0.11 0.05 0.03 0.10 0.16 0.12 0.18 0.10 0.19 0.13 0.15 0.11 0.12 0.15 0.14AG GCTGGC 0.07 0.13 0.06 0.12 0.16 0.07 0.07 0.05 0.10 0.07 0.06 0.08 0.06 0.05 0.04 0.05 0.06 0.13 0.15 0.15 0.15 0.16 0.14AG GCTGGG 0.02 0.01 0.02 0.02 0.01 0.01 0.03 0.02 0.03 0.02 0.01 0.03 0.05 0.02 0.05 0.01 0.05 0.12 0.10 0.12 0.11 0.10 0.12AG GCTGGT 0.06 0.09 0.04 0.09 0.10 0.04 0.24 0.43 0.20 0.35 0.46 0.17 0.23 0.38 0.20 0.42 0.17 0.09 0.11 0.08 0.10 0.12 0.09AH GCACAC 0.07 0.13 0.08 0.12 0.16 0.07 0.10 0.06 0.10 0.07 0.07 0.10 0.07 0.07 0.08 0.04 0.07 0.14 0.12 0.14 0.14 0.11 0.14AH GCACAT 0.10 0.07 0.09 0.11 0.08 0.13 0.21 0.14 0.24 0.14 0.11 0.24 0.15 0.12 0.14 0.05 0.16 0.11 0.10 0.08 0.11 0.09 0.12AH GCCCAC 0.10 0.09 0.09 0.15 0.09 0.09 0.06 0.09 0.06 0.09 0.10 0.04 0.11 0.16 0.10 0.20 0.09 0.23 0.21 0.26 0.19 0.20 0.22AH GCCCAT 0.13 0.11 0.15 0.11 0.09 0.11 0.12 0.13 0.11 0.12 0.16 0.13 0.16 0.13 0.18 0.10 0.14 0.17 0.18 0.17 0.20 0.19 0.17AH GCGCAC 0.17 0.22 0.15 0.17 0.20 0.13 0.05 0.02 0.06 0.04 0.02 0.03 0.02 0.01 0.03 0.00 0.03 0.04 0.04 0.04 0.03 0.05 0.03AH GCGCAT 0.25 0.17 0.24 0.15 0.19 0.27 0.10 0.05 0.11 0.08 0.03 0.12 0.04 0.02 0.03 0.03 0.07 0.02 0.02 0.01 0.03 0.02 0.01AH GCTCAC 0.09 0.14 0.09 0.13 0.12 0.07 0.15 0.24 0.14 0.20 0.27 0.12 0.15 0.28 0.13 0.32 0.15 0.15 0.16 0.18 0.15 0.17 0.17AH GCTCAT 0.09 0.07 0.11 0.06 0.07 0.13 0.22 0.26 0.19 0.26 0.24 0.23 0.28 0.22 0.30 0.25 0.30 0.14 0.17 0.12 0.15 0.18 0.15AI GCAATA 0.02 0.01 0.02 0.00 0.00 0.03 0.07 0.02 0.08 0.03 0.01 0.08 0.06 0.02 0.06 0.01 0.09 0.04 0.04 0.03 0.04 0.02 0.04AI GCAATC 0.07 0.12 0.07 0.12 0.12 0.07 0.07 0.04 0.09 0.06 0.04 0.08 0.07 0.05 0.09 0.04 0.07 0.05 0.05 0.05 0.04 0.05 0.06AI GCAATT 0.09 0.08 0.08 0.08 0.08 0.10 0.12 0.08 0.12 0.10 0.06 0.13 0.14 0.11 0.14 0.09 0.15 0.07 0.06 0.04 0.09 0.06 0.09AI GCCATA 0.01 0.01 0.01 0.00 0.00 0.01 0.07 0.03 0.06 0.04 0.02 0.08 0.06 0.03 0.09 0.02 0.08 0.07 0.06 0.07 0.07 0.05 0.07AI GCCATC 0.12 0.10 0.13 0.10 0.10 0.12 0.09 0.13 0.10 0.13 0.15 0.07 0.10 0.14 0.07 0.17 0.07 0.34 0.35 0.42 0.31 0.34 0.28AI GCCATT 0.17 0.13 0.18 0.12 0.12 0.17 0.17 0.22 0.15 0.18 0.23 0.15 0.16 0.21 0.15 0.22 0.13 0.20 0.21 0.20 0.20 0.23 0.20AI GCGATA 0.04 0.01 0.03 0.02 0.01 0.04 0.03 0.01 0.03 0.01 0.00 0.04 0.02 0.01 0.02 0.00 0.02 0.01 0.01 0.01 0.01 0.00 0.01AI GCGATC 0.10 0.13 0.10 0.11 0.11 0.10 0.02 0.01 0.03 0.02 0.01 0.02 0.02 0.01 0.02 0.01 0.03 0.01 0.01 0.02 0.02 0.01 0.02AI GCGATT 0.21 0.17 0.21 0.20 0.19 0.19 0.04 0.02 0.03 0.03 0.02 0.05 0.03 0.02 0.03 0.01 0.04 0.01 0.01 0.01 0.01 0.02 0.02AI GCTATA 0.01 0.00 0.01 0.00 0.00 0.01 0.07 0.03 0.06 0.06 0.03 0.08 0.07 0.04 0.08 0.02 0.10 0.04 0.02 0.02 0.03 0.01 0.04AI GCTATC 0.09 0.16 0.09 0.15 0.19 0.08 0.10 0.17 0.08 0.13 0.19 0.07 0.11 0.15 0.09 0.18 0.09 0.07 0.08 0.07 0.08 0.09 0.08AI GCTATT 0.08 0.08 0.07 0.09 0.08 0.08 0.18 0.24 0.17 0.22 0.24 0.15 0.16 0.21 0.15 0.22 0.13 0.08 0.09 0.06 0.10 0.11 0.09AK GCAAAA 0.21 0.17 0.20 0.22 0.14 0.23 0.16 0.06 0.18 0.12 0.04 0.20 0.13 0.07 0.15 0.05 0.16 0.11 0.10 0.07 0.10 0.10 0.12AK GCAAAG 0.04 0.03 0.04 0.02 0.02 0.06 0.12 0.09 0.13 0.10 0.09 0.13 0.14 0.10 0.14 0.09 0.15 0.14 0.13 0.11 0.16 0.13 0.14AK GCCAAA 0.18 0.13 0.24 0.14 0.13 0.19 0.16 0.14 0.15 0.17 0.13 0.16 0.21 0.17 0.21 0.16 0.21 0.19 0.18 0.20 0.19 0.18 0.21AK GCCAAG 0.02 0.03 0.02 0.01 0.02 0.03 0.15 0.24 0.19 0.18 0.27 0.11 0.18 0.31 0.17 0.35 0.15 0.36 0.38 0.44 0.34 0.39 0.32AK GCGAAA 0.30 0.31 0.30 0.30 0.34 0.29 0.06 0.02 0.06 0.05 0.01 0.07 0.03 0.01 0.03 0.00 0.04 0.01 0.01 0.01 0.01 0.01 0.01AK GCGAAG 0.12 0.10 0.11 0.11 0.12 0.10 0.05 0.02 0.05 0.03 0.02 0.05 0.03 0.01 0.04 0.01 0.04 0.03 0.03 0.02 0.03 0.03 0.02AK GCTAAA 0.11 0.19 0.08 0.16 0.19 0.10 0.17 0.17 0.14 0.18 0.18 0.19 0.14 0.09 0.14 0.09 0.14 0.08 0.09 0.06 0.08 0.08 0.09AK GCTAAG 0.02 0.04 0.01 0.04 0.04 0.01 0.12 0.24 0.09 0.16 0.26 0.09 0.13 0.23 0.12 0.25 0.10 0.09 0.07 0.08 0.08 0.08 0.09AL GCACTA 0.01 0.01 0.01 0.01 0.01 0.01 0.04 0.03 0.05 0.03 0.02 0.05 0.03 0.01 0.03 0.01 0.03 0.02 0.02 0.01 0.02 0.01 0.02AL GCACTC 0.02 0.01 0.02 0.01 0.01 0.02 0.02 0.01 0.03 0.01 0.00 0.02 0.02 0.01 0.01 0.01 0.03 0.03 0.04 0.03 0.04 0.04 0.04AL GCACTG 0.10 0.16 0.09 0.17 0.17 0.09 0.03 0.01 0.05 0.02 0.01 0.04 0.04 0.02 0.04 0.02 0.04 0.08 0.06 0.08 0.08 0.07 0.07AL GCACTT 0.02 0.01 0.02 0.01 0.01 0.02 0.03 0.02 0.04 0.03 0.01 0.04 0.04 0.03 0.05 0.02 0.04 0.03 0.03 0.02 0.04 0.03 0.04AL GCATTA 0.05 0.03 0.03 0.03 0.02 0.05 0.08 0.06 0.07 0.07 0.05 0.07 0.06 0.03 0.07 0.02 0.08 0.02 0.01 0.01 0.02 0.01 0.02AL GCATTG 0.04 0.04 0.04 0.03 0.02 0.04 0.08 0.07 0.09 0.07 0.06 0.09 0.09 0.06 0.10 0.06 0.09 0.03 0.03 0.02 0.03 0.03 0.03AL GCCCTA 0.00 0.00 0.00 0.00 0.00 0.00 0.03 0.03 0.03 0.03 0.02 0.03 0.03 0.03 0.03 0.02 0.03 0.03 0.03 0.03 0.03 0.02 0.03AL GCCCTC 0.01 0.01 0.02 0.01 0.00 0.02 0.01 0.01 0.02 0.01 0.01 0.02 0.02 0.02 0.02 0.02 0.01 0.07 0.07 0.08 0.07 0.06 0.06AL GCCCTG 0.07 0.06 0.09 0.08 0.09 0.06 0.02 0.01 0.03 0.01 0.01 0.02 0.03 0.04 0.03 0.04 0.04 0.17 0.15 0.21 0.15 0.17 0.17AL GCCCTT 0.01 0.01 0.02 0.01 0.01 0.02 0.03 0.03 0.04 0.04 0.02 0.03 0.04 0.04 0.05 0.04 0.04 0.05 0.06 0.04 0.05 0.06 0.05AL GCCTTA 0.02 0.01 0.02 0.01 0.01 0.02 0.05 0.06 0.04 0.06 0.06 0.05 0.03 0.03 0.03 0.03 0.04 0.03 0.03 0.03 0.03 0.03 0.04AL GCCTTG 0.01 0.01 0.01 0.01 0.01 0.02 0.05 0.08 0.04 0.07 0.09 0.05 0.05 0.07 0.06 0.07 0.05 0.08 0.08 0.08 0.09 0.09 0.07AL GCGCTA 0.03 0.02 0.03 0.01 0.02 0.03 0.03 0.02 0.03 0.02 0.02 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.01 0.00AL GCGCTC 0.03 0.02 0.04 0.02 0.02 0.04 0.01 0.00 0.01 0.01 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.02 0.01 0.02 0.01 0.02 0.01AL GCGCTG 0.31 0.32 0.32 0.32 0.37 0.29 0.02 0.00 0.04 0.01 0.00 0.02 0.01 0.01 0.01 0.01 0.01 0.04 0.03 0.04 0.04 0.04 0.03AL GCGCTT 0.04 0.03 0.04 0.03 0.03 0.05 0.02 0.01 0.03 0.01 0.01 0.02 0.01 0.01 0.02 0.00 0.02 0.01 0.01 0.01 0.01 0.01 0.01AL GCGTTA 0.06 0.05 0.06 0.05 0.03 0.07 0.03 0.02 0.04 0.03 0.01 0.04 0.02 0.01 0.02 0.01 0.02 0.00 0.00 0.00 0.01 0.00 0.00AL GCGTTG 0.06 0.04 0.07 0.04 0.03 0.06 0.03 0.02 0.04 0.02 0.01 0.03 0.03 0.02 0.03 0.01 0.04 0.01 0.01 0.01 0.01 0.01 0.01AL GCTCTA 0.00 0.00 0.00 0.00 0.00 0.00 0.04 0.05 0.04 0.06 0.06 0.04 0.04 0.04 0.05 0.03 0.05 0.02 0.02 0.02 0.02 0.02 0.02AL GCTCTC 0.01 0.00 0.01 0.01 0.01 0.01 0.02 0.01 0.03 0.01 0.01 0.03 0.04 0.03 0.03 0.04 0.03 0.05 0.03 0.05 0.04 0.04 0.04AL GCTCTG 0.04 0.11 0.04 0.10 0.10 0.04 0.03 0.02 0.02 0.03 0.02 0.03 0.06 0.08 0.05 0.10 0.05 0.10 0.11 0.12 0.10 0.11 0.10AL GCTCTT 0.01 0.01 0.01 0.01 0.01 0.01 0.05 0.05 0.05 0.05 0.05 0.06 0.08 0.11 0.07 0.12 0.07 0.04 0.05 0.03 0.05 0.05 0.05AL GCTTTA 0.02 0.02 0.01 0.01 0.01 0.02 0.11 0.13 0.09 0.13 0.14 0.12 0.08 0.07 0.08 0.08 0.08 0.03 0.03 0.01 0.02 0.03 0.03AL GCTTTG 0.01 0.01 0.02 0.01 0.01 0.02 0.13 0.26 0.08 0.19 0.30 0.10 0.13 0.21 0.11 0.26 0.10 0.06 0.07 0.04 0.06 0.06 0.06AM GCAATG 0.24 0.28 0.23 0.30 0.31 0.26 0.33 0.19 0.35 0.28 0.09 0.36 0.28 0.15 0.27 0.08 0.32 0.18 0.14 0.14 0.21 0.13 0.21AM GCCATG 0.17 0.13 0.21 0.08 0.14 0.18 0.28 0.31 0.35 0.29 0.37 0.25 0.32 0.43 0.38 0.48 0.26 0.60 0.63 0.67 0.57 0.66 0.59AM GCGATG 0.53 0.49 0.50 0.55 0.44 0.51 0.10 0.05 0.08 0.07 0.07 0.10 0.10 0.05 0.07 0.03 0.16 0.05 0.07 0.05 0.04 0.04 0.04AM GCTATG 0.06 0.10 0.06 0.07 0.10 0.05 0.29 0.45 0.21 0.35 0.47 0.28 0.30 0.37 0.28 0.40 0.27 0.18 0.16 0.15 0.18 0.17 0.17AN GCAAAC 0.09 0.13 0.09 0.12 0.12 0.11 0.13 0.10 0.15 0.11 0.08 0.12 0.13 0.12 0.16 0.08 0.13 0.12 0.11 0.10 0.11 0.10 0.12AN GCAAAT 0.08 0.03 0.06 0.05 0.01 0.08 0.20 0.11 0.19 0.15 0.08 0.24 0.15 0.07 0.17 0.03 0.19 0.14 0.14 0.09 0.14 0.12 0.14AN GCCAAC 0.20 0.20 0.23 0.20 0.21 0.21 0.11 0.18 0.11 0.14 0.22 0.08 0.18 0.28 0.17 0.31 0.15 0.32 0.30 0.38 0.27 0.31 0.31AN GCCAAT 0.16 0.10 0.18 0.11 0.07 0.19 0.16 0.13 0.20 0.15 0.14 0.16 0.21 0.19 0.23 0.21 0.20 0.23 0.24 0.27 0.26 0.27 0.22AN GCGAAC 0.11 0.15 0.09 0.13 0.20 0.07 0.05 0.02 0.06 0.04 0.02 0.05 0.03 0.01 0.03 0.00 0.03 0.02 0.03 0.02 0.02 0.02 0.01AN GCGAAT 0.12 0.09 0.12 0.06 0.07 0.11 0.06 0.02 0.05 0.04 0.01 0.06 0.03 0.02 0.03 0.01 0.04 0.01 0.01 0.01 0.02 0.01 0.01AN GCTAAC 0.15 0.25 0.17 0.27 0.29 0.15 0.13 0.25 0.10 0.19 0.28 0.10 0.13 0.21 0.10 0.27 0.10 0.08 0.08 0.08 0.09 0.07 0.07AN GCTAAT 0.08 0.04 0.07 0.05 0.04 0.08 0.17 0.18 0.14 0.18 0.17 0.18 0.15 0.11 0.11 0.09 0.15 0.09 0.10 0.07 0.09 0.10 0.10AP GCACCA 0.07 0.08 0.06 0.11 0.06 0.07 0.13 0.11 0.13 0.13 0.10 0.13 0.09 0.06 0.10 0.05 0.12 0.08 0.09 0.07 0.09 0.07 0.09AP GCACCC 0.02 0.02 0.03 0.03 0.01 0.03 0.05 0.02 0.03 0.02 0.02 0.04 0.04 0.02 0.04 0.01 0.04 0.08 0.07 0.09 0.08 0.07 0.07AP GCACCG 0.17 0.19 0.20 0.21 0.22 0.18 0.03 0.01 0.03 0.02 0.00 0.04 0.03 0.02 0.04 0.01 0.04 0.02 0.02 0.03 0.01 0.02 0.02AP GCACCT 0.05 0.06 0.04 0.03 0.04 0.03 0.11 0.06 0.14 0.09 0.04 0.11 0.09 0.06 0.09 0.06 0.11 0.08 0.07 0.07 0.09 0.07 0.09AP GCCCCA 0.02 0.00 0.02 0.01 0.01 0.03 0.08 0.14 0.08 0.12 0.15 0.06 0.08 0.14 0.08 0.13 0.06 0.11 0.08 0.12 0.09 0.10 0.11AP GCCCCC 0.03 0.02 0.02 0.02 0.01 0.02 0.03 0.02 0.03 0.02 0.03 0.04 0.03 0.03 0.03 0.01 0.03 0.09 0.08 0.10 0.06 0.10 0.08AP GCCCCG 0.06 0.07 0.08 0.04 0.03 0.05 0.01 0.00 0.01 0.00 0.00 0.02 0.02 0.02 0.02 0.01 0.03 0.04 0.04 0.04 0.03 0.04 0.03AP GCCCCT 0.03 0.01 0.03 0.01 0.03 0.02 0.04 0.04 0.04 0.04 0.03 0.06 0.06 0.05 0.05 0.06 0.05 0.11 0.12 0.12 0.13 0.13 0.12AP GCGCCA 0.12 0.10 0.09 0.12 0.09 0.11 0.06 0.03 0.05 0.05 0.01 0.04 0.03 0.02 0.03 0.01 0.04 0.02 0.02 0.02 0.02 0.01 0.01AP GCGCCC 0.03 0.02 0.02 0.01 0.01 0.04 0.03 0.01 0.05 0.01 0.00 0.03 0.02 0.01 0.02 0.00 0.01 0.03 0.04 0.03 0.02 0.03 0.02AP GCGCCG 0.22 0.24 0.24 0.26 0.24 0.20 0.01 0.00 0.00 0.01 0.00 0.02 0.01 0.00 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01AP GCGCCT 0.05 0.03 0.04 0.02 0.04 0.07 0.04 0.02 0.03 0.04 0.01 0.05 0.02 0.01 0.02 0.00 0.03 0.02 0.02 0.02 0.02 0.01 0.02AP GCTCCA 0.02 0.02 0.02 0.01 0.02 0.02 0.17 0.39 0.12 0.24 0.43 0.15 0.20 0.27 0.20 0.32 0.17 0.10 0.09 0.09 0.11 0.10 0.10AP GCTCCC 0.02 0.01 0.02 0.01 0.01 0.03 0.07 0.03 0.10 0.05 0.03 0.06 0.07 0.07 0.07 0.06 0.07 0.08 0.09 0.09 0.08 0.10 0.08AP GCTCCG 0.07 0.13 0.06 0.12 0.15 0.07 0.03 0.02 0.04 0.03 0.02 0.05 0.05 0.02 0.05 0.02 0.06 0.02 0.02 0.02 0.03 0.02 0.02AP GCTCCT 0.02 0.01 0.02 0.02 0.02 0.01 0.12 0.12 0.10 0.13 0.11 0.10 0.17 0.21 0.14 0.24 0.15 0.11 0.14 0.09 0.14 0.12 0.12AQ GCACAA 0.11 0.09 0.09 0.10 0.09 0.12 0.20 0.13 0.20 0.17 0.13 0.21 0.11 0.07 0.10 0.07 0.13 0.07 0.09 0.05 0.07 0.06 0.07AQ GCACAG 0.12 0.15 0.12 0.14 0.14 0.10 0.09 0.03 0.11 0.06 0.03 0.09 0.10 0.07 0.10 0.06 0.10 0.17 0.15 0.16 0.17 0.18 0.19AQ GCCCAA 0.03 0.03 0.04 0.02 0.01 0.03 0.14 0.19 0.13 0.15 0.18 0.12 0.17 0.20 0.16 0.20 0.14 0.09 0.07 0.09 0.09 0.07 0.09AQ GCCCAG 0.13 0.13 0.10 0.14 0.14 0.12 0.05 0.02 0.06 0.05 0.02 0.06 0.10 0.11 0.10 0.09 0.10 0.35 0.33 0.39 0.35 0.36 0.34AQ GCGCAA 0.21 0.16 0.22 0.13 0.15 0.24 0.09 0.05 0.09 0.07 0.05 0.12 0.04 0.02 0.03 0.01 0.06 0.01 0.01 0.01 0.01 0.01 0.01AQ GCGCAG 0.28 0.23 0.32 0.26 0.28 0.27 0.05 0.02 0.04 0.03 0.01 0.06 0.03 0.03 0.04 0.01 0.05 0.04 0.06 0.04 0.04 0.06 0.03AQ GCTCAA 0.02 0.04 0.02 0.03 0.04 0.02 0.29 0.48 0.27 0.37 0.53 0.23 0.29 0.33 0.30 0.39 0.28 0.07 0.07 0.07 0.07 0.06 0.08AQ GCTCAG 0.09 0.17 0.09 0.17 0.14 0.10 0.10 0.09 0.10 0.09 0.06 0.11 0.16 0.16 0.16 0.18 0.14 0.20 0.22 0.20 0.20 0.20 0.20AR GCAAGA 0.01 0.01 0.01 0.00 0.01 0.03 0.21 0.16 0.22 0.20 0.14 0.20 0.15 0.10 0.17 0.09 0.18 0.06 0.06 0.05 0.08 0.05 0.08AR GCAAGG 0.01 0.01 0.01 0.00 0.00 0.00 0.09 0.04 0.10 0.07 0.04 0.10 0.06 0.01 0.06 0.02 0.09 0.05 0.05 0.04 0.05 0.04 0.05AR GCACGA 0.02 0.01 0.02 0.01 0.01 0.03 0.02 0.00 0.04 0.00 0.00 0.02 0.02 0.01 0.03 0.01 0.02 0.02 0.02 0.02 0.03 0.02 0.02AR GCACGC 0.06 0.08 0.07 0.05 0.07 0.05 0.02 0.00 0.03 0.01 0.00 0.03 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.03 0.02 0.01 0.03AR GCACGG 0.02 0.01 0.02 0.01 0.01 0.02 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.00 0.02 0.00 0.02 0.04 0.03 0.04 0.05 0.04 0.04AR GCACGT 0.06 0.12 0.06 0.13 0.14 0.05 0.04 0.04 0.04 0.06 0.04 0.03 0.02 0.03 0.03 0.02 0.02 0.02 0.02 0.02 0.01 0.02 0.02AR GCCAGA 0.04 0.02 0.04 0.01 0.01 0.03 0.10 0.19 0.05 0.13 0.22 0.07 0.15 0.24 0.14 0.27 0.12 0.10 0.09 0.10 0.10 0.08 0.10AR GCCAGG 0.01 0.01 0.01 0.01 0.00 0.01 0.05 0.02 0.05 0.03 0.02 0.05 0.05 0.03 0.06 0.03 0.06 0.13 0.11 0.14 0.11 0.10 0.12AR GCCCGA 0.01 0.01 0.02 0.01 0.01 0.02 0.01 0.00 0.02 0.00 0.00 0.01 0.03 0.02 0.03 0.01 0.02 0.06 0.06 0.06 0.07 0.06 0.06AR GCCCGC 0.11 0.07 0.14 0.09 0.08 0.13 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.02 0.01 0.01 0.07 0.07 0.09 0.06 0.09 0.06AR GCCCGG 0.03 0.02 0.03 0.01 0.00 0.02 0.01 0.00 0.02 0.00 0.00 0.01 0.01 0.01 0.01 0.00 0.02 0.10 0.08 0.12 0.10 0.10 0.10AR GCCCGT 0.10 0.11 0.10 0.11 0.09 0.11 0.04 0.06 0.02 0.06 0.06 0.01 0.06 0.08 0.06 0.09 0.04 0.04 0.06 0.05 0.05 0.06 0.04AR GCGAGA 0.01 0.00 0.01 0.00 0.00 0.02 0.04 0.02 0.03 0.03 0.01 0.06 0.02 0.00 0.02 0.00 0.03 0.01 0.01 0.01 0.01 0.01 0.01AR GCGAGG 0.01 0.00 0.01 0.00 0.00 0.00 0.02 0.01 0.02 0.01 0.01 0.03 0.01 0.00 0.02 0.00 0.02 0.01 0.01 0.01 0.01 0.01 0.01AR GCGCGA 0.04 0.02 0.05 0.02 0.01 0.04 0.00 0.00 0.01 0.00 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.01 0.01 0.01 0.00 0.01 0.00AR GCGCGC 0.12 0.11 0.13 0.12 0.11 0.12 0.01 0.00 0.01 0.01 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.02 0.02 0.02 0.01 0.01 0.01AR GCGCGG 0.06 0.02 0.07 0.01 0.01 0.04 0.01 0.00 0.00 0.00 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.02 0.02 0.01 0.01 0.02 0.01AR GCGCGT 0.17 0.22 0.13 0.21 0.24 0.17 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.00AR GCTAGA 0.00 0.00 0.00 0.00 0.00 0.00 0.14 0.24 0.13 0.16 0.26 0.11 0.16 0.21 0.14 0.25 0.12 0.03 0.03 0.03 0.04 0.02 0.04AR GCTAGG 0.00 0.00 0.00 0.00 0.00 0.00 0.05 0.04 0.05 0.04 0.03 0.07 0.05 0.04 0.07 0.03 0.06 0.03 0.02 0.02 0.02 0.02 0.03AR GCTCGA 0.01 0.00 0.00 0.00 0.00 0.01 0.02 0.00 0.03 0.01 0.00 0.03 0.03 0.02 0.01 0.01 0.04 0.04 0.06 0.04 0.06 0.07 0.05AR GCTCGC 0.05 0.07 0.04 0.10 0.08 0.04 0.02 0.01 0.03 0.02 0.02 0.02 0.02 0.02 0.01 0.01 0.02 0.03 0.04 0.03 0.03 0.05 0.03AR GCTCGG 0.01 0.00 0.01 0.00 0.00 0.01 0.02 0.00 0.02 0.00 0.00 0.01 0.02 0.01 0.02 0.01 0.02 0.06 0.06 0.04 0.06 0.06 0.05AR GCTCGT 0.05 0.10 0.04 0.08 0.12 0.05 0.06 0.13 0.05 0.10 0.12 0.06 0.09 0.12 0.06 0.14 0.05 0.03 0.04 0.02 0.02 0.05 0.03AS GCAAGC 0.04 0.06 0.03 0.06 0.05 0.04 0.04 0.02 0.04 0.03 0.02 0.04 0.03 0.02 0.03 0.01 0.05 0.03 0.04 0.03 0.03 0.03 0.03AS GCAAGT 0.02 0.02 0.02 0.01 0.02 0.03 0.05 0.03 0.07 0.05 0.01 0.07 0.05 0.02 0.06 0.02 0.06 0.03 0.03 0.03 0.03 0.02 0.04AS GCATCA 0.03 0.04 0.02 0.02 0.04 0.01 0.06 0.04 0.07 0.05 0.03 0.08 0.06 0.04 0.05 0.02 0.07 0.04 0.04 0.03 0.04 0.03 0.05AS GCATCC 0.02 0.03 0.01 0.03 0.04 0.03 0.04 0.05 0.04 0.05 0.05 0.04 0.04 0.05 0.04 0.03 0.05 0.05 0.06 0.05 0.04 0.06 0.05AS GCATCG 0.04 0.02 0.04 0.03 0.01 0.05 0.03 0.02 0.03 0.02 0.02 0.04 0.03 0.02 0.03 0.01 0.04 0.01 0.01 0.01 0.01 0.01 0.01AS GCATCT 0.02 0.03 0.01 0.04 0.05 0.02 0.08 0.08 0.06 0.09 0.07 0.09 0.07 0.06 0.08 0.05 0.08 0.05 0.06 0.04 0.07 0.05 0.06AS GCCAGC 0.21 0.16 0.22 0.22 0.14 0.21 0.03 0.02 0.04 0.01 0.01 0.02 0.03 0.02 0.03 0.02 0.03 0.13 0.14 0.15 0.13 0.13 0.12AS GCCAGT 0.11 0.04 0.12 0.04 0.04 0.16 0.04 0.02 0.05 0.03 0.03 0.04 0.05 0.04 0.05 0.03 0.04 0.08 0.08 0.08 0.09 0.09 0.08AS GCCTCA 0.03 0.01 0.04 0.02 0.01 0.03 0.03 0.04 0.03 0.04 0.02 0.04 0.04 0.04 0.04 0.03 0.04 0.07 0.04 0.07 0.06 0.05 0.06AS GCCTCC 0.04 0.04 0.04 0.08 0.05 0.03 0.04 0.07 0.03 0.06 0.06 0.02 0.04 0.05 0.04 0.09 0.04 0.10 0.10 0.12 0.08 0.10 0.09AS GCCTCG 0.05 0.03 0.06 0.03 0.03 0.06 0.02 0.02 0.03 0.01 0.02 0.02 0.02 0.02 0.01 0.01 0.01 0.02 0.02 0.03 0.02 0.02 0.02AS GCCTCT 0.05 0.07 0.06 0.08 0.08 0.04 0.06 0.10 0.05 0.07 0.10 0.05 0.06 0.10 0.06 0.12 0.05 0.09 0.08 0.09 0.08 0.10 0.09AS GCGAGC 0.03 0.04 0.03 0.04 0.05 0.04 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.00 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.01AS GCGAGT 0.02 0.01 0.02 0.01 0.00 0.02 0.01 0.00 0.02 0.01 0.00 0.01 0.01 0.00 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.01AS GCGTCA 0.03 0.03 0.03 0.02 0.03 0.03 0.02 0.01 0.02 0.01 0.01 0.03 0.02 0.01 0.02 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.00AS GCGTCC 0.02 0.03 0.02 0.01 0.03 0.02 0.02 0.01 0.01 0.01 0.01 0.02 0.02 0.01 0.02 0.00 0.01 0.01 0.03 0.01 0.01 0.02 0.01AS GCGTCG 0.04 0.03 0.04 0.02 0.02 0.04 0.01 0.00 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.01 0.00 0.01 0.00 0.01 0.00 0.00AS GCGTCT 0.03 0.05 0.02 0.05 0.06 0.02 0.03 0.02 0.03 0.03 0.01 0.03 0.02 0.01 0.03 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01

Continued on next page

Page 151: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 138

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

AS GCTAGC 0.01 0.01 0.01 0.01 0.00 0.01 0.03 0.02 0.04 0.02 0.01 0.03 0.03 0.03 0.02 0.01 0.02 0.02 0.02 0.02 0.03 0.02 0.02AS GCTAGT 0.00 0.00 0.00 0.00 0.00 0.01 0.04 0.04 0.03 0.04 0.03 0.05 0.04 0.04 0.04 0.03 0.04 0.02 0.03 0.02 0.03 0.03 0.03AS GCTTCA 0.03 0.03 0.02 0.02 0.03 0.03 0.08 0.07 0.09 0.07 0.06 0.08 0.08 0.08 0.09 0.07 0.09 0.05 0.05 0.04 0.06 0.06 0.06AS GCTTCC 0.04 0.09 0.04 0.07 0.07 0.04 0.08 0.12 0.07 0.10 0.15 0.05 0.08 0.13 0.08 0.17 0.07 0.07 0.05 0.07 0.07 0.05 0.06AS GCTTCG 0.04 0.02 0.05 0.01 0.02 0.02 0.04 0.02 0.04 0.03 0.02 0.04 0.04 0.03 0.05 0.03 0.04 0.01 0.01 0.01 0.01 0.01 0.01AS GCTTCT 0.05 0.12 0.04 0.10 0.14 0.03 0.11 0.21 0.08 0.16 0.23 0.10 0.12 0.19 0.10 0.23 0.11 0.07 0.07 0.06 0.08 0.08 0.08AT GCAACA 0.05 0.04 0.04 0.04 0.04 0.03 0.09 0.05 0.07 0.06 0.04 0.12 0.08 0.05 0.10 0.01 0.10 0.07 0.08 0.05 0.07 0.07 0.08AT GCAACC 0.10 0.15 0.09 0.12 0.14 0.08 0.04 0.04 0.05 0.05 0.04 0.04 0.06 0.05 0.06 0.05 0.06 0.05 0.05 0.04 0.06 0.04 0.06AT GCAACG 0.10 0.08 0.09 0.09 0.06 0.11 0.04 0.02 0.05 0.03 0.01 0.04 0.04 0.02 0.03 0.01 0.04 0.01 0.01 0.01 0.01 0.01 0.02AT GCAACT 0.04 0.07 0.03 0.06 0.06 0.04 0.08 0.06 0.09 0.07 0.06 0.10 0.11 0.08 0.12 0.06 0.13 0.06 0.06 0.04 0.06 0.04 0.06AT GCCACA 0.03 0.02 0.04 0.02 0.01 0.03 0.07 0.06 0.07 0.07 0.06 0.07 0.07 0.07 0.06 0.06 0.07 0.17 0.15 0.17 0.16 0.18 0.17AT GCCACC 0.13 0.11 0.17 0.11 0.11 0.10 0.07 0.11 0.08 0.09 0.12 0.05 0.07 0.10 0.06 0.14 0.05 0.20 0.21 0.23 0.18 0.20 0.16AT GCCACG 0.08 0.04 0.10 0.06 0.04 0.10 0.04 0.03 0.04 0.03 0.03 0.03 0.03 0.02 0.04 0.02 0.03 0.05 0.05 0.07 0.05 0.06 0.04AT GCCACT 0.05 0.04 0.03 0.05 0.05 0.06 0.11 0.14 0.09 0.13 0.15 0.09 0.11 0.15 0.11 0.19 0.09 0.14 0.13 0.14 0.14 0.13 0.14AT GCGACA 0.06 0.04 0.05 0.02 0.04 0.06 0.03 0.01 0.04 0.02 0.01 0.04 0.02 0.01 0.03 0.01 0.03 0.01 0.01 0.01 0.01 0.01 0.01AT GCGACC 0.10 0.15 0.11 0.14 0.15 0.10 0.01 0.01 0.02 0.01 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.02 0.01 0.01 0.01AT GCGACG 0.10 0.06 0.11 0.09 0.07 0.12 0.01 0.00 0.03 0.01 0.00 0.02 0.01 0.00 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.00AT GCGACT 0.04 0.07 0.02 0.05 0.07 0.04 0.03 0.01 0.03 0.01 0.01 0.03 0.03 0.01 0.03 0.01 0.03 0.01 0.01 0.01 0.01 0.01 0.01AT GCTACA 0.01 0.01 0.01 0.01 0.01 0.03 0.10 0.08 0.08 0.10 0.07 0.12 0.10 0.07 0.11 0.05 0.12 0.07 0.06 0.05 0.07 0.06 0.09AT GCTACC 0.05 0.09 0.04 0.06 0.08 0.04 0.08 0.16 0.08 0.12 0.16 0.07 0.09 0.14 0.08 0.15 0.07 0.06 0.06 0.07 0.07 0.07 0.07AT GCTACG 0.03 0.01 0.03 0.03 0.02 0.04 0.04 0.03 0.04 0.03 0.02 0.05 0.04 0.02 0.03 0.02 0.03 0.01 0.02 0.01 0.02 0.02 0.01AT GCTACT 0.02 0.04 0.02 0.05 0.05 0.02 0.16 0.21 0.15 0.18 0.23 0.12 0.14 0.20 0.12 0.23 0.12 0.06 0.07 0.05 0.06 0.09 0.07AV GCAGTA 0.04 0.06 0.03 0.07 0.07 0.04 0.07 0.03 0.09 0.04 0.02 0.10 0.06 0.03 0.07 0.02 0.08 0.04 0.04 0.03 0.05 0.04 0.05AV GCAGTC 0.03 0.03 0.04 0.02 0.03 0.02 0.04 0.03 0.05 0.04 0.03 0.05 0.05 0.04 0.04 0.03 0.05 0.06 0.06 0.06 0.05 0.05 0.06AV GCAGTG 0.06 0.07 0.06 0.04 0.05 0.07 0.05 0.02 0.07 0.03 0.03 0.06 0.07 0.03 0.07 0.03 0.08 0.13 0.12 0.13 0.13 0.11 0.13AV GCAGTT 0.03 0.06 0.03 0.05 0.07 0.04 0.09 0.06 0.06 0.09 0.07 0.09 0.11 0.06 0.11 0.06 0.11 0.06 0.07 0.05 0.07 0.05 0.07AV GCCGTA 0.04 0.05 0.05 0.05 0.04 0.04 0.04 0.03 0.04 0.03 0.03 0.04 0.03 0.03 0.04 0.02 0.03 0.01 0.01 0.01 0.01 0.01 0.01AV GCCGTC 0.06 0.02 0.07 0.04 0.02 0.06 0.04 0.08 0.03 0.06 0.10 0.03 0.04 0.08 0.03 0.09 0.03 0.03 0.03 0.03 0.02 0.04 0.02AV GCCGTG 0.07 0.04 0.08 0.07 0.04 0.07 0.04 0.03 0.03 0.03 0.04 0.03 0.04 0.03 0.04 0.02 0.03 0.06 0.06 0.07 0.06 0.08 0.06AV GCCGTT 0.08 0.10 0.08 0.08 0.09 0.07 0.09 0.12 0.08 0.12 0.12 0.08 0.07 0.12 0.07 0.13 0.06 0.01 0.02 0.01 0.02 0.01 0.02AV GCGGTA 0.11 0.10 0.09 0.12 0.12 0.11 0.03 0.02 0.03 0.02 0.01 0.04 0.02 0.01 0.02 0.00 0.02 0.01 0.01 0.01 0.01 0.01 0.01AV GCGGTC 0.06 0.04 0.07 0.04 0.03 0.07 0.02 0.02 0.03 0.02 0.02 0.02 0.02 0.01 0.01 0.01 0.02 0.01 0.02 0.02 0.01 0.02 0.02AV GCGGTG 0.19 0.11 0.22 0.10 0.12 0.18 0.02 0.01 0.02 0.02 0.01 0.03 0.02 0.01 0.03 0.00 0.04 0.04 0.04 0.05 0.04 0.06 0.04AV GCGGTT 0.09 0.10 0.08 0.09 0.11 0.09 0.03 0.02 0.04 0.03 0.01 0.04 0.02 0.02 0.03 0.01 0.03 0.01 0.01 0.01 0.01 0.01 0.01AV GCTGTA 0.03 0.05 0.03 0.06 0.06 0.03 0.08 0.04 0.09 0.05 0.04 0.09 0.08 0.05 0.09 0.06 0.09 0.06 0.06 0.05 0.06 0.06 0.06AV GCTGTC 0.03 0.03 0.03 0.04 0.03 0.03 0.09 0.18 0.09 0.12 0.18 0.07 0.10 0.16 0.10 0.19 0.09 0.12 0.12 0.13 0.11 0.13 0.12AV GCTGTG 0.03 0.04 0.02 0.04 0.03 0.05 0.08 0.07 0.10 0.07 0.05 0.07 0.09 0.09 0.10 0.07 0.10 0.25 0.23 0.26 0.27 0.22 0.23AV GCTGTT 0.05 0.10 0.03 0.09 0.11 0.03 0.18 0.25 0.14 0.23 0.26 0.17 0.18 0.24 0.17 0.24 0.15 0.10 0.11 0.08 0.09 0.11 0.10AW GCATGG 0.21 0.31 0.21 0.31 0.32 0.23 0.31 0.19 0.27 0.27 0.24 0.45 0.27 0.28 0.26 0.12 0.37 0.17 0.20 0.15 0.18 0.16 0.24AW GCCTGG 0.53 0.47 0.58 0.47 0.49 0.51 0.19 0.22 0.15 0.17 0.19 0.22 0.20 0.20 0.21 0.27 0.17 0.57 0.55 0.60 0.51 0.62 0.50AW GCGTGG 0.25 0.21 0.21 0.20 0.18 0.26 0.12 0.07 0.18 0.09 0.05 0.09 0.08 0.08 0.10 0.03 0.09 0.07 0.05 0.06 0.10 0.10 0.06AW GCTTGG 0.01 0.01 0.00 0.02 0.00 0.01 0.38 0.52 0.40 0.48 0.52 0.24 0.45 0.45 0.43 0.58 0.37 0.19 0.20 0.19 0.21 0.12 0.20AY GCATAC 0.04 0.09 0.04 0.10 0.07 0.04 0.13 0.11 0.18 0.12 0.09 0.14 0.12 0.10 0.16 0.07 0.15 0.09 0.08 0.07 0.07 0.07 0.09AY GCATAT 0.06 0.04 0.04 0.07 0.05 0.08 0.19 0.08 0.14 0.15 0.08 0.25 0.13 0.07 0.13 0.06 0.16 0.10 0.10 0.08 0.11 0.09 0.12AY GCCTAC 0.12 0.10 0.15 0.15 0.12 0.11 0.08 0.12 0.06 0.10 0.15 0.07 0.14 0.22 0.10 0.25 0.12 0.28 0.28 0.34 0.25 0.28 0.26AY GCCTAT 0.21 0.19 0.26 0.14 0.16 0.26 0.11 0.08 0.13 0.09 0.07 0.09 0.14 0.10 0.12 0.09 0.17 0.24 0.23 0.25 0.24 0.22 0.20AY GCGTAC 0.06 0.07 0.06 0.02 0.07 0.06 0.06 0.04 0.06 0.05 0.03 0.07 0.05 0.03 0.04 0.04 0.04 0.03 0.04 0.03 0.01 0.03 0.02AY GCGTAT 0.14 0.10 0.14 0.09 0.07 0.11 0.08 0.04 0.11 0.05 0.03 0.08 0.05 0.02 0.06 0.01 0.04 0.02 0.02 0.02 0.04 0.03 0.04AY GCTTAC 0.16 0.25 0.15 0.23 0.30 0.12 0.15 0.31 0.17 0.21 0.36 0.12 0.18 0.32 0.16 0.35 0.12 0.11 0.11 0.10 0.14 0.13 0.12AY GCTTAT 0.21 0.17 0.17 0.21 0.16 0.23 0.19 0.21 0.15 0.23 0.19 0.18 0.20 0.15 0.23 0.13 0.20 0.13 0.14 0.11 0.14 0.16 0.15C* TGCTAA 0.27 0.50 0.00 0.00 1.00 0.25 0.09 0.00 0.25 0.25 0.00 0.00 0.10 0.00 0.20 0.00 0.14 0.18 0.09 0.14 0.15 0.25 0.08C* TGCTAG 0.00 0.00 0.00 0.00 0.00 0.00 0.05 0.00 0.00 0.12 0.00 0.00 0.15 0.00 0.20 0.00 0.00 0.12 0.13 0.17 0.15 0.17 0.15C* TGCTGA 0.27 0.00 0.67 0.00 0.00 0.25 0.09 0.00 0.00 0.00 0.00 0.00 0.07 0.00 0.10 0.00 0.14 0.40 0.24 0.43 0.46 0.25 0.39C* TGTTAA 0.25 0.50 0.33 0.00 0.00 0.25 0.37 0.78 0.50 0.25 0.50 0.67 0.25 0.12 0.10 0.00 0.57 0.07 0.22 0.07 0.00 0.25 0.15C* TGTTAG 0.07 0.00 0.00 0.00 0.00 0.00 0.15 0.11 0.25 0.12 0.00 0.00 0.26 0.50 0.30 0.50 0.14 0.12 0.13 0.09 0.08 0.00 0.15C* TGTTGA 0.14 0.00 0.00 0.00 0.00 0.25 0.25 0.11 0.00 0.25 0.50 0.33 0.18 0.38 0.10 0.50 0.00 0.10 0.20 0.10 0.15 0.08 0.08CA TGCGCA 0.11 0.16 0.13 0.25 0.17 0.09 0.08 0.07 0.08 0.06 0.03 0.08 0.06 0.05 0.05 0.04 0.07 0.03 0.05 0.03 0.03 0.02 0.03CA TGCGCC 0.18 0.15 0.27 0.12 0.16 0.22 0.06 0.07 0.09 0.07 0.07 0.05 0.07 0.05 0.06 0.06 0.05 0.06 0.07 0.07 0.09 0.08 0.04CA TGCGCG 0.15 0.14 0.15 0.16 0.16 0.17 0.03 0.00 0.06 0.03 0.00 0.03 0.01 0.00 0.01 0.00 0.01 0.02 0.03 0.02 0.02 0.02 0.01CA TGCGCT 0.08 0.05 0.05 0.04 0.04 0.08 0.09 0.07 0.09 0.11 0.10 0.09 0.08 0.09 0.06 0.06 0.09 0.03 0.03 0.03 0.02 0.03 0.03CA TGTGCA 0.10 0.03 0.07 0.14 0.07 0.12 0.19 0.12 0.25 0.13 0.11 0.25 0.19 0.07 0.26 0.04 0.22 0.22 0.16 0.22 0.23 0.17 0.25CA TGTGCC 0.13 0.11 0.13 0.09 0.07 0.09 0.15 0.21 0.10 0.16 0.29 0.16 0.23 0.26 0.22 0.38 0.21 0.32 0.30 0.32 0.30 0.30 0.31CA TGTGCG 0.16 0.23 0.14 0.12 0.23 0.15 0.09 0.06 0.13 0.09 0.04 0.10 0.06 0.04 0.06 0.02 0.09 0.05 0.04 0.05 0.04 0.06 0.05CA TGTGCT 0.08 0.14 0.05 0.09 0.10 0.08 0.29 0.40 0.21 0.35 0.35 0.24 0.31 0.43 0.28 0.39 0.26 0.26 0.33 0.27 0.27 0.31 0.29CC TGCTGC 0.40 0.67 0.56 0.58 1.00 0.25 0.17 0.14 0.16 0.10 0.14 0.17 0.13 0.11 0.08 0.05 0.10 0.42 0.39 0.46 0.38 0.35 0.36CC TGCTGT 0.30 0.17 0.26 0.25 0.00 0.25 0.28 0.25 0.24 0.16 0.19 0.18 0.29 0.26 0.35 0.32 0.28 0.36 0.40 0.36 0.34 0.30 0.39CC TGTTGC 0.14 0.17 0.00 0.08 0.00 0.17 0.21 0.20 0.36 0.20 0.16 0.32 0.21 0.20 0.22 0.05 0.24 0.10 0.09 0.10 0.12 0.17 0.11CC TGTTGT 0.16 0.00 0.17 0.08 0.00 0.33 0.34 0.41 0.24 0.54 0.51 0.32 0.37 0.43 0.35 0.58 0.38 0.11 0.12 0.08 0.16 0.17 0.15CD TGCGAC 0.27 0.33 0.35 0.38 0.36 0.28 0.11 0.07 0.20 0.09 0.08 0.11 0.11 0.13 0.09 0.13 0.07 0.07 0.11 0.09 0.07 0.13 0.06CD TGCGAT 0.35 0.18 0.43 0.29 0.22 0.43 0.20 0.13 0.19 0.17 0.04 0.22 0.17 0.15 0.17 0.07 0.22 0.05 0.06 0.05 0.08 0.07 0.05CD TGTGAC 0.16 0.24 0.11 0.15 0.24 0.14 0.24 0.31 0.21 0.29 0.39 0.20 0.27 0.29 0.29 0.37 0.26 0.50 0.44 0.51 0.48 0.44 0.48CD TGTGAT 0.22 0.26 0.11 0.18 0.18 0.15 0.44 0.48 0.39 0.45 0.49 0.47 0.45 0.43 0.44 0.43 0.45 0.38 0.39 0.35 0.36 0.36 0.41CE TGCGAA 0.36 0.38 0.38 0.62 0.52 0.32 0.21 0.18 0.21 0.16 0.16 0.18 0.16 0.10 0.16 0.09 0.12 0.04 0.04 0.05 0.06 0.03 0.03CE TGCGAG 0.13 0.12 0.20 0.06 0.15 0.11 0.10 0.02 0.10 0.06 0.04 0.09 0.12 0.17 0.14 0.14 0.12 0.09 0.12 0.12 0.11 0.13 0.07CE TGTGAA 0.37 0.43 0.28 0.28 0.33 0.45 0.47 0.61 0.49 0.55 0.64 0.48 0.46 0.36 0.51 0.39 0.51 0.40 0.40 0.36 0.41 0.38 0.46CE TGTGAG 0.14 0.07 0.14 0.03 0.00 0.12 0.23 0.18 0.21 0.23 0.16 0.25 0.25 0.38 0.18 0.38 0.25 0.47 0.44 0.47 0.42 0.46 0.44CF TGCTTC 0.25 0.33 0.27 0.35 0.58 0.28 0.15 0.11 0.17 0.17 0.13 0.17 0.15 0.16 0.17 0.12 0.12 0.36 0.31 0.46 0.31 0.30 0.36CF TGCTTT 0.28 0.18 0.27 0.47 0.12 0.26 0.27 0.15 0.29 0.19 0.17 0.27 0.21 0.14 0.18 0.07 0.22 0.27 0.29 0.24 0.34 0.32 0.26CF TGTTTC 0.17 0.36 0.13 0.18 0.19 0.18 0.24 0.42 0.21 0.31 0.45 0.20 0.31 0.55 0.29 0.62 0.29 0.18 0.20 0.17 0.17 0.20 0.19CF TGTTTT 0.30 0.12 0.32 0.00 0.12 0.28 0.34 0.32 0.32 0.33 0.25 0.36 0.34 0.14 0.36 0.19 0.37 0.19 0.20 0.13 0.18 0.17 0.19CG TGCGGA 0.06 0.04 0.04 0.02 0.03 0.06 0.06 0.02 0.08 0.02 0.01 0.05 0.08 0.08 0.10 0.05 0.12 0.02 0.03 0.02 0.03 0.03 0.02CG TGCGGC 0.23 0.25 0.27 0.20 0.18 0.23 0.06 0.04 0.09 0.06 0.03 0.08 0.03 0.01 0.02 0.00 0.03 0.05 0.05 0.07 0.08 0.04 0.03CG TGCGGG 0.07 0.06 0.07 0.00 0.04 0.12 0.04 0.03 0.02 0.04 0.02 0.06 0.03 0.01 0.04 0.02 0.01 0.04 0.04 0.05 0.05 0.04 0.04CG TGCGGT 0.22 0.21 0.23 0.28 0.30 0.22 0.14 0.13 0.19 0.12 0.15 0.12 0.08 0.08 0.11 0.08 0.07 0.02 0.03 0.03 0.02 0.02 0.04CG TGTGGA 0.04 0.01 0.03 0.02 0.07 0.00 0.13 0.07 0.16 0.09 0.05 0.17 0.27 0.18 0.25 0.19 0.28 0.21 0.21 0.19 0.19 0.20 0.23CG TGTGGC 0.17 0.21 0.17 0.30 0.16 0.13 0.14 0.08 0.12 0.12 0.07 0.16 0.10 0.08 0.12 0.04 0.14 0.24 0.25 0.25 0.26 0.28 0.24CG TGTGGG 0.05 0.04 0.07 0.00 0.03 0.04 0.09 0.04 0.08 0.07 0.05 0.10 0.10 0.08 0.10 0.04 0.10 0.25 0.22 0.21 0.23 0.17 0.20CG TGTGGT 0.16 0.18 0.13 0.18 0.21 0.20 0.34 0.59 0.27 0.49 0.63 0.26 0.30 0.48 0.26 0.58 0.25 0.15 0.18 0.17 0.15 0.21 0.20CH TGCCAC 0.30 0.46 0.34 0.36 0.43 0.21 0.16 0.13 0.14 0.18 0.16 0.20 0.13 0.12 0.12 0.15 0.12 0.36 0.32 0.41 0.33 0.30 0.31CH TGCCAT 0.36 0.39 0.34 0.46 0.43 0.35 0.26 0.14 0.32 0.19 0.21 0.25 0.29 0.29 0.30 0.31 0.36 0.25 0.24 0.25 0.28 0.26 0.29CH TGTCAC 0.12 0.07 0.09 0.00 0.04 0.21 0.23 0.36 0.14 0.24 0.37 0.21 0.23 0.35 0.19 0.39 0.18 0.22 0.23 0.20 0.19 0.23 0.20CH TGTCAT 0.21 0.07 0.23 0.18 0.11 0.23 0.35 0.36 0.41 0.38 0.26 0.34 0.35 0.24 0.39 0.15 0.34 0.17 0.21 0.14 0.20 0.21 0.20CI TGCATA 0.03 0.00 0.03 0.00 0.00 0.00 0.13 0.05 0.15 0.06 0.03 0.16 0.12 0.04 0.15 0.00 0.14 0.10 0.07 0.10 0.12 0.08 0.11CI TGCATC 0.17 0.21 0.25 0.33 0.26 0.13 0.10 0.09 0.11 0.09 0.07 0.09 0.12 0.07 0.12 0.06 0.13 0.33 0.34 0.43 0.29 0.37 0.32CI TGCATT 0.26 0.19 0.20 0.14 0.32 0.26 0.18 0.09 0.15 0.14 0.04 0.17 0.20 0.20 0.23 0.19 0.19 0.23 0.25 0.21 0.23 0.25 0.22CI TGTATA 0.04 0.00 0.01 0.00 0.00 0.05 0.15 0.07 0.21 0.10 0.07 0.15 0.11 0.11 0.10 0.03 0.13 0.07 0.04 0.03 0.07 0.03 0.07CI TGTATC 0.21 0.47 0.18 0.33 0.35 0.18 0.17 0.25 0.14 0.20 0.34 0.16 0.20 0.27 0.17 0.44 0.19 0.14 0.17 0.15 0.18 0.14 0.15CI TGTATT 0.30 0.14 0.33 0.19 0.07 0.38 0.28 0.44 0.24 0.41 0.45 0.27 0.26 0.33 0.24 0.27 0.21 0.13 0.14 0.08 0.11 0.13 0.13CK TGCAAA 0.40 0.55 0.42 0.60 0.33 0.23 0.25 0.16 0.28 0.23 0.14 0.27 0.31 0.17 0.33 0.12 0.33 0.27 0.28 0.29 0.28 0.29 0.27CK TGCAAG 0.07 0.02 0.04 0.04 0.13 0.07 0.18 0.12 0.22 0.18 0.06 0.17 0.29 0.28 0.30 0.29 0.29 0.34 0.38 0.42 0.34 0.41 0.33CK TGTAAA 0.40 0.31 0.42 0.36 0.40 0.47 0.36 0.37 0.33 0.36 0.43 0.39 0.23 0.15 0.22 0.15 0.22 0.20 0.16 0.13 0.24 0.13 0.21CK TGTAAG 0.13 0.12 0.12 0.00 0.13 0.23 0.21 0.35 0.17 0.23 0.37 0.17 0.18 0.41 0.16 0.43 0.16 0.19 0.18 0.16 0.14 0.17 0.18CL TGCCTA 0.01 0.00 0.01 0.00 0.00 0.01 0.04 0.03 0.04 0.03 0.03 0.06 0.03 0.02 0.03 0.02 0.04 0.04 0.04 0.05 0.05 0.02 0.04CL TGCCTC 0.06 0.11 0.07 0.05 0.12 0.04 0.03 0.00 0.04 0.01 0.00 0.04 0.03 0.04 0.05 0.02 0.02 0.12 0.11 0.15 0.10 0.13 0.12CL TGCCTG 0.36 0.52 0.43 0.54 0.48 0.31 0.04 0.02 0.03 0.01 0.01 0.05 0.04 0.06 0.05 0.02 0.04 0.22 0.23 0.27 0.22 0.24 0.19CL TGCCTT 0.06 0.04 0.02 0.05 0.05 0.06 0.06 0.02 0.05 0.04 0.01 0.05 0.05 0.04 0.06 0.01 0.06 0.09 0.09 0.09 0.08 0.07 0.10CL TGCTTA 0.04 0.04 0.03 0.00 0.05 0.03 0.10 0.07 0.12 0.07 0.06 0.10 0.06 0.07 0.07 0.03 0.09 0.04 0.05 0.03 0.04 0.05 0.04CL TGCTTG 0.03 0.00 0.01 0.03 0.02 0.01 0.09 0.06 0.11 0.07 0.05 0.09 0.09 0.09 0.08 0.06 0.09 0.08 0.10 0.07 0.12 0.10 0.08CL TGTCTA 0.01 0.01 0.01 0.03 0.05 0.01 0.08 0.11 0.07 0.10 0.10 0.08 0.08 0.04 0.08 0.07 0.07 0.03 0.02 0.03 0.03 0.04 0.04CL TGTCTC 0.03 0.04 0.03 0.00 0.00 0.04 0.04 0.03 0.04 0.04 0.00 0.04 0.07 0.07 0.06 0.05 0.05 0.07 0.06 0.07 0.05 0.06 0.07CL TGTCTG 0.25 0.15 0.26 0.20 0.10 0.31 0.07 0.06 0.09 0.06 0.04 0.07 0.10 0.16 0.09 0.11 0.09 0.12 0.13 0.12 0.11 0.12 0.12CL TGTCTT 0.04 0.03 0.04 0.03 0.05 0.04 0.08 0.05 0.08 0.06 0.05 0.08 0.12 0.15 0.12 0.16 0.14 0.07 0.08 0.05 0.06 0.05 0.07CL TGTTTA 0.07 0.04 0.05 0.03 0.05 0.09 0.18 0.22 0.14 0.23 0.20 0.14 0.12 0.05 0.15 0.11 0.12 0.04 0.04 0.03 0.05 0.04 0.05CL TGTTTG 0.05 0.03 0.05 0.05 0.05 0.04 0.19 0.33 0.19 0.28 0.44 0.20 0.20 0.22 0.16 0.33 0.19 0.07 0.05 0.05 0.09 0.08 0.08CM TGCATG 0.46 0.50 0.44 0.44 0.29 0.47 0.46 0.19 0.45 0.31 0.19 0.34 0.48 0.26 0.59 0.39 0.55 0.67 0.69 0.73 0.68 0.69 0.63CM TGTATG 0.54 0.50 0.56 0.56 0.71 0.53 0.54 0.81 0.55 0.69 0.81 0.66 0.52 0.74 0.41 0.61 0.45 0.33 0.31 0.27 0.32 0.31 0.37CN TGCAAC 0.20 0.18 0.28 0.29 0.20 0.18 0.15 0.12 0.14 0.15 0.11 0.10 0.23 0.20 0.24 0.09 0.20 0.33 0.41 0.42 0.29 0.34 0.29CN TGCAAT 0.22 0.09 0.26 0.23 0.00 0.23 0.25 0.10 0.24 0.15 0.03 0.35 0.29 0.18 0.33 0.04 0.35 0.26 0.28 0.29 0.31 0.30 0.28CN TGTAAC 0.29 0.41 0.19 0.23 0.47 0.32 0.26 0.37 0.24 0.31 0.49 0.22 0.23 0.36 0.20 0.66 0.23 0.20 0.18 0.18 0.19 0.17 0.24CN TGTAAT 0.28 0.32 0.28 0.23 0.33 0.27 0.35 0.41 0.37 0.40 0.37 0.33 0.26 0.26 0.23 0.21 0.23 0.21 0.13 0.11 0.22 0.19 0.19CP TGCCCA 0.11 0.07 0.09 0.16 0.05 0.17 0.13 0.13 0.15 0.10 0.14 0.13 0.10 0.23 0.09 0.23 0.11 0.17 0.18 0.19 0.13 0.14 0.18CP TGCCCC 0.04 0.00 0.03 0.00 0.00 0.00 0.07 0.07 0.07 0.05 0.05 0.07 0.07 0.05 0.11 0.04 0.04 0.16 0.15 0.18 0.16 0.17 0.14CP TGCCCG 0.46 0.66 0.55 0.55 0.59 0.39 0.04 0.00 0.05 0.01 0.00 0.03 0.03 0.01 0.03 0.02 0.06 0.05 0.05 0.05 0.07 0.06 0.03CP TGCCCT 0.08 0.02 0.08 0.07 0.03 0.15 0.10 0.07 0.12 0.14 0.10 0.10 0.14 0.19 0.12 0.20 0.18 0.16 0.15 0.15 0.15 0.11 0.16CP TGTCCA 0.04 0.02 0.06 0.00 0.05 0.00 0.21 0.37 0.15 0.29 0.37 0.20 0.24 0.20 0.21 0.28 0.21 0.14 0.12 0.12 0.19 0.16 0.15CP TGTCCC 0.02 0.02 0.05 0.00 0.00 0.02 0.15 0.12 0.18 0.13 0.14 0.21 0.14 0.09 0.15 0.04 0.15 0.14 0.14 0.16 0.11 0.16 0.14CP TGTCCG 0.21 0.18 0.12 0.19 0.27 0.18 0.07 0.03 0.05 0.06 0.04 0.07 0.06 0.04 0.05 0.02 0.03 0.02 0.04 0.02 0.01 0.04 0.02CP TGTCCT 0.04 0.02 0.02 0.03 0.00 0.09 0.23 0.20 0.23 0.23 0.14 0.19 0.23 0.19 0.24 0.18 0.23 0.16 0.18 0.13 0.18 0.15 0.18CQ TGCCAA 0.10 0.02 0.05 0.00 0.06 0.10 0.32 0.25 0.35 0.29 0.26 0.26 0.23 0.16 0.25 0.17 0.26 0.17 0.21 0.17 0.20 0.18 0.18CQ TGCCAG 0.51 0.70 0.54 0.69 0.69 0.51 0.14 0.03 0.12 0.11 0.05 0.15 0.19 0.18 0.20 0.25 0.16 0.47 0.44 0.53 0.44 0.53 0.46CQ TGTCAA 0.04 0.04 0.04 0.00 0.06 0.02 0.40 0.56 0.35 0.46 0.57 0.43 0.36 0.38 0.40 0.39 0.37 0.12 0.08 0.10 0.11 0.08 0.11CQ TGTCAG 0.35 0.23 0.38 0.31 0.19 0.37 0.14 0.16 0.17 0.14 0.12 0.15 0.22 0.28 0.14 0.19 0.20 0.25 0.27 0.20 0.26 0.21 0.24CR TGCAGA 0.02 0.00 0.02 0.00 0.00 0.00 0.17 0.11 0.26 0.14 0.09 0.16 0.16 0.13 0.14 0.27 0.10 0.15 0.16 0.15 0.14 0.09 0.18CR TGCAGG 0.01 0.02 0.02 0.00 0.00 0.00 0.09 0.04 0.09 0.07 0.04 0.17 0.06 0.04 0.07 0.01 0.09 0.15 0.15 0.17 0.17 0.13 0.12CR TGCCGA 0.04 0.00 0.03 0.00 0.00 0.05 0.04 0.02 0.01 0.01 0.00 0.06 0.08 0.07 0.12 0.04 0.16 0.09 0.11 0.08 0.10 0.16 0.09CR TGCCGC 0.26 0.24 0.30 0.46 0.36 0.19 0.03 0.02 0.02 0.06 0.04 0.04 0.02 0.04 0.04 0.04 0.03 0.12 0.10 0.15 0.10 0.15 0.11CR TGCCGG 0.07 0.02 0.11 0.00 0.03 0.11 0.03 0.00 0.06 0.01 0.00 0.02 0.03 0.00 0.05 0.01 0.04 0.12 0.10 0.14 0.12 0.08 0.10CR TGCCGT 0.26 0.46 0.27 0.39 0.44 0.31 0.09 0.10 0.06 0.10 0.12 0.07 0.08 0.17 0.05 0.17 0.07 0.06 0.05 0.06 0.06 0.07 0.06CR TGTAGA 0.01 0.00 0.00 0.00 0.00 0.02 0.20 0.34 0.16 0.24 0.34 0.16 0.15 0.16 0.14 0.18 0.12 0.06 0.07 0.04 0.06 0.06 0.08CR TGTAGG 0.00 0.00 0.00 0.00 0.00 0.00 0.11 0.06 0.05 0.10 0.04 0.10 0.07 0.03 0.08 0.01 0.07 0.05 0.03 0.05 0.05 0.01 0.06CR TGTCGA 0.03 0.02 0.01 0.00 0.00 0.02 0.06 0.00 0.06 0.05 0.00 0.06 0.12 0.11 0.08 0.00 0.12 0.05 0.06 0.03 0.06 0.06 0.05CR TGTCGC 0.10 0.04 0.12 0.07 0.05 0.11 0.04 0.01 0.07 0.01 0.00 0.04 0.06 0.03 0.05 0.00 0.07 0.05 0.07 0.05 0.06 0.09 0.05

Continued on next page

Page 152: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 139

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

CR TGTCGG 0.09 0.06 0.07 0.00 0.05 0.08 0.03 0.01 0.05 0.01 0.00 0.01 0.04 0.02 0.06 0.00 0.01 0.06 0.05 0.04 0.06 0.04 0.06CR TGTCGT 0.11 0.14 0.04 0.07 0.08 0.12 0.12 0.30 0.12 0.20 0.32 0.11 0.14 0.18 0.14 0.25 0.10 0.04 0.04 0.03 0.04 0.05 0.03CS TGCAGC 0.12 0.08 0.09 0.12 0.09 0.14 0.05 0.04 0.04 0.05 0.02 0.05 0.04 0.03 0.04 0.00 0.05 0.17 0.15 0.20 0.15 0.20 0.17CS TGCAGT 0.06 0.07 0.05 0.07 0.03 0.03 0.06 0.03 0.09 0.03 0.01 0.05 0.07 0.03 0.05 0.01 0.08 0.12 0.12 0.12 0.15 0.13 0.13CS TGCTCA 0.07 0.07 0.07 0.12 0.09 0.03 0.08 0.03 0.08 0.08 0.03 0.10 0.08 0.08 0.11 0.07 0.07 0.08 0.07 0.07 0.07 0.10 0.09CS TGCTCC 0.07 0.12 0.07 0.20 0.18 0.08 0.07 0.06 0.05 0.08 0.07 0.09 0.09 0.12 0.10 0.08 0.08 0.14 0.14 0.18 0.13 0.14 0.10CS TGCTCG 0.07 0.08 0.05 0.07 0.12 0.05 0.03 0.01 0.05 0.03 0.00 0.06 0.04 0.02 0.04 0.00 0.04 0.02 0.02 0.02 0.02 0.02 0.02CS TGCTCT 0.08 0.12 0.11 0.15 0.15 0.09 0.11 0.12 0.12 0.11 0.11 0.10 0.13 0.12 0.13 0.11 0.14 0.11 0.10 0.11 0.09 0.13 0.10CS TGTAGC 0.09 0.03 0.07 0.00 0.03 0.08 0.05 0.04 0.03 0.04 0.03 0.05 0.03 0.00 0.04 0.01 0.04 0.06 0.05 0.05 0.07 0.04 0.06CS TGTAGT 0.05 0.02 0.04 0.03 0.03 0.08 0.07 0.06 0.08 0.05 0.05 0.06 0.05 0.06 0.07 0.03 0.06 0.05 0.04 0.04 0.06 0.03 0.07CS TGTTCA 0.11 0.10 0.13 0.05 0.03 0.10 0.14 0.11 0.14 0.14 0.09 0.16 0.13 0.11 0.14 0.10 0.12 0.06 0.08 0.05 0.07 0.04 0.07CS TGTTCC 0.09 0.12 0.10 0.05 0.09 0.14 0.10 0.21 0.11 0.14 0.27 0.06 0.12 0.13 0.10 0.27 0.09 0.08 0.09 0.08 0.07 0.05 0.09CS TGTTCG 0.10 0.03 0.11 0.03 0.06 0.09 0.06 0.03 0.07 0.05 0.03 0.09 0.07 0.10 0.05 0.05 0.08 0.01 0.02 0.01 0.01 0.01 0.01CS TGTTCT 0.09 0.18 0.09 0.10 0.12 0.08 0.17 0.24 0.14 0.20 0.31 0.14 0.16 0.21 0.15 0.27 0.14 0.09 0.13 0.07 0.11 0.12 0.10CT TGCACA 0.06 0.02 0.07 0.05 0.00 0.06 0.12 0.07 0.09 0.06 0.04 0.13 0.15 0.09 0.23 0.05 0.09 0.20 0.20 0.19 0.19 0.14 0.21CT TGCACC 0.24 0.14 0.23 0.38 0.26 0.18 0.09 0.07 0.10 0.07 0.02 0.06 0.09 0.09 0.10 0.12 0.08 0.21 0.23 0.26 0.18 0.23 0.18CT TGCACG 0.09 0.08 0.10 0.07 0.08 0.14 0.05 0.03 0.04 0.04 0.01 0.07 0.06 0.01 0.06 0.03 0.05 0.06 0.05 0.09 0.05 0.10 0.05CT TGCACT 0.07 0.12 0.09 0.10 0.10 0.02 0.13 0.07 0.18 0.09 0.04 0.13 0.15 0.10 0.12 0.10 0.20 0.15 0.15 0.16 0.18 0.13 0.15CT TGTACA 0.07 0.08 0.09 0.05 0.03 0.18 0.16 0.21 0.15 0.16 0.16 0.17 0.15 0.12 0.19 0.12 0.16 0.12 0.13 0.06 0.16 0.15 0.12CT TGTACC 0.22 0.21 0.26 0.12 0.13 0.16 0.14 0.23 0.17 0.22 0.38 0.14 0.14 0.24 0.10 0.19 0.11 0.13 0.12 0.14 0.14 0.15 0.14CT TGTACG 0.16 0.17 0.09 0.10 0.29 0.16 0.09 0.08 0.14 0.08 0.06 0.12 0.07 0.06 0.06 0.03 0.10 0.02 0.03 0.02 0.03 0.03 0.02CT TGTACT 0.10 0.19 0.09 0.12 0.10 0.08 0.21 0.23 0.14 0.29 0.29 0.18 0.20 0.28 0.14 0.36 0.23 0.11 0.09 0.09 0.08 0.08 0.13CV TGCGTA 0.10 0.18 0.10 0.06 0.17 0.01 0.09 0.02 0.12 0.04 0.02 0.05 0.04 0.03 0.04 0.03 0.05 0.01 0.01 0.01 0.01 0.02 0.01CV TGCGTC 0.12 0.08 0.14 0.18 0.06 0.17 0.06 0.05 0.04 0.05 0.05 0.05 0.05 0.05 0.04 0.00 0.07 0.03 0.03 0.04 0.05 0.04 0.02CV TGCGTG 0.23 0.20 0.32 0.15 0.21 0.31 0.06 0.03 0.05 0.03 0.02 0.06 0.05 0.03 0.04 0.00 0.06 0.07 0.07 0.08 0.06 0.07 0.05CV TGCGTT 0.12 0.12 0.12 0.15 0.08 0.13 0.12 0.09 0.16 0.08 0.08 0.13 0.10 0.03 0.09 0.07 0.12 0.02 0.01 0.02 0.02 0.01 0.02CV TGTGTA 0.06 0.04 0.03 0.06 0.10 0.07 0.12 0.08 0.13 0.08 0.07 0.15 0.10 0.09 0.10 0.06 0.08 0.10 0.12 0.08 0.11 0.09 0.13CV TGTGTC 0.11 0.11 0.10 0.06 0.00 0.09 0.16 0.22 0.14 0.18 0.23 0.09 0.20 0.23 0.24 0.29 0.12 0.22 0.19 0.23 0.18 0.18 0.20CV TGTGTG 0.16 0.20 0.13 0.27 0.29 0.13 0.11 0.11 0.13 0.13 0.08 0.12 0.16 0.14 0.09 0.12 0.16 0.38 0.35 0.40 0.38 0.42 0.34CV TGTGTT 0.10 0.08 0.07 0.09 0.10 0.09 0.28 0.42 0.22 0.42 0.47 0.34 0.31 0.41 0.36 0.44 0.35 0.16 0.20 0.14 0.19 0.17 0.22CW TGCTGG 0.82 1.00 0.89 0.80 1.00 0.93 0.41 0.33 0.30 0.38 0.13 0.49 0.43 0.44 0.33 0.27 0.44 0.74 0.70 0.81 0.73 0.89 0.70CW TGTTGG 0.18 0.00 0.11 0.20 0.00 0.07 0.59 0.67 0.70 0.62 0.87 0.51 0.57 0.56 0.67 0.73 0.56 0.26 0.30 0.19 0.27 0.11 0.30CY TGCTAC 0.29 0.52 0.37 0.40 0.23 0.31 0.18 0.16 0.20 0.13 0.15 0.23 0.23 0.28 0.15 0.30 0.22 0.39 0.42 0.45 0.40 0.33 0.32CY TGCTAT 0.30 0.14 0.26 0.40 0.41 0.31 0.26 0.14 0.33 0.23 0.08 0.17 0.25 0.18 0.32 0.07 0.28 0.29 0.27 0.30 0.31 0.40 0.33CY TGTTAC 0.17 0.19 0.14 0.00 0.18 0.21 0.22 0.38 0.17 0.31 0.44 0.27 0.27 0.48 0.24 0.46 0.28 0.19 0.20 0.17 0.16 0.16 0.20CY TGTTAT 0.25 0.14 0.23 0.20 0.18 0.17 0.33 0.33 0.29 0.33 0.32 0.33 0.24 0.05 0.30 0.17 0.21 0.14 0.12 0.08 0.13 0.10 0.15D* GACTAA 0.20 0.36 0.06 0.33 0.21 0.14 0.15 0.15 0.09 0.12 0.20 0.30 0.20 0.13 0.32 0.14 0.13 0.16 0.17 0.16 0.17 0.20 0.17D* GACTAG 0.02 0.14 0.00 0.00 0.00 0.00 0.10 0.09 0.17 0.06 0.08 0.13 0.09 0.22 0.04 0.23 0.13 0.14 0.14 0.27 0.00 0.11 0.17D* GACTGA 0.16 0.07 0.31 0.08 0.07 0.29 0.10 0.03 0.22 0.00 0.00 0.03 0.11 0.13 0.23 0.04 0.07 0.43 0.43 0.39 0.58 0.41 0.50D* GATTAA 0.52 0.36 0.44 0.50 0.64 0.57 0.32 0.53 0.17 0.53 0.44 0.23 0.25 0.26 0.23 0.27 0.20 0.09 0.12 0.06 0.04 0.11 0.04D* GATTAG 0.04 0.00 0.19 0.00 0.00 0.00 0.17 0.15 0.22 0.21 0.16 0.17 0.21 0.22 0.09 0.27 0.33 0.09 0.08 0.06 0.12 0.13 0.04D* GATTGA 0.06 0.07 0.00 0.08 0.07 0.00 0.16 0.06 0.13 0.09 0.12 0.13 0.13 0.04 0.09 0.04 0.13 0.09 0.06 0.07 0.08 0.04 0.08DA GACGCA 0.06 0.10 0.06 0.09 0.12 0.06 0.08 0.04 0.09 0.07 0.05 0.08 0.06 0.04 0.09 0.04 0.07 0.03 0.02 0.03 0.02 0.02 0.03DA GACGCC 0.12 0.10 0.15 0.10 0.12 0.12 0.07 0.08 0.08 0.08 0.08 0.06 0.06 0.08 0.05 0.08 0.05 0.07 0.07 0.08 0.05 0.07 0.06DA GACGCG 0.10 0.11 0.10 0.12 0.13 0.09 0.02 0.02 0.04 0.02 0.01 0.02 0.02 0.01 0.02 0.01 0.03 0.02 0.02 0.02 0.02 0.02 0.01DA GACGCT 0.06 0.10 0.04 0.09 0.11 0.05 0.11 0.17 0.13 0.14 0.17 0.10 0.10 0.14 0.08 0.14 0.08 0.04 0.05 0.04 0.05 0.05 0.03DA GATGCA 0.10 0.11 0.08 0.12 0.09 0.09 0.20 0.11 0.18 0.15 0.08 0.24 0.17 0.11 0.18 0.08 0.22 0.21 0.20 0.18 0.19 0.19 0.23DA GATGCC 0.23 0.17 0.23 0.20 0.18 0.27 0.15 0.17 0.13 0.16 0.18 0.16 0.19 0.22 0.19 0.24 0.17 0.31 0.32 0.33 0.33 0.32 0.31DA GATGCG 0.22 0.18 0.25 0.14 0.13 0.22 0.08 0.06 0.09 0.06 0.03 0.09 0.07 0.04 0.08 0.02 0.08 0.04 0.03 0.05 0.03 0.03 0.04DA GATGCT 0.11 0.12 0.09 0.13 0.13 0.10 0.29 0.34 0.26 0.32 0.39 0.24 0.32 0.36 0.30 0.38 0.30 0.28 0.29 0.27 0.30 0.30 0.30DC GACTGC 0.33 0.43 0.37 0.47 0.58 0.29 0.14 0.04 0.17 0.09 0.06 0.12 0.13 0.11 0.16 0.07 0.11 0.37 0.37 0.42 0.36 0.36 0.32DC GACTGT 0.18 0.13 0.26 0.08 0.03 0.22 0.27 0.48 0.30 0.34 0.50 0.31 0.29 0.49 0.23 0.58 0.25 0.39 0.37 0.39 0.38 0.40 0.42DC GATTGC 0.31 0.23 0.23 0.36 0.27 0.31 0.20 0.08 0.18 0.14 0.06 0.22 0.23 0.12 0.24 0.11 0.27 0.11 0.11 0.10 0.12 0.08 0.10DC GATTGT 0.18 0.21 0.14 0.08 0.12 0.18 0.39 0.40 0.34 0.44 0.38 0.36 0.34 0.27 0.36 0.23 0.36 0.14 0.14 0.08 0.14 0.16 0.17DD GACGAC 0.15 0.21 0.15 0.21 0.27 0.14 0.11 0.12 0.13 0.11 0.14 0.10 0.13 0.19 0.12 0.20 0.12 0.10 0.09 0.13 0.10 0.10 0.09DD GACGAT 0.26 0.18 0.31 0.23 0.22 0.30 0.20 0.20 0.20 0.20 0.17 0.19 0.21 0.23 0.21 0.20 0.20 0.08 0.08 0.08 0.08 0.07 0.07DD GATGAC 0.27 0.28 0.29 0.27 0.24 0.24 0.24 0.28 0.26 0.26 0.30 0.22 0.25 0.28 0.23 0.30 0.22 0.42 0.40 0.45 0.42 0.40 0.42DD GATGAT 0.32 0.32 0.25 0.29 0.27 0.33 0.45 0.41 0.41 0.44 0.38 0.50 0.41 0.30 0.44 0.30 0.46 0.40 0.43 0.34 0.41 0.44 0.42DE GACGAA 0.24 0.36 0.24 0.31 0.37 0.17 0.22 0.28 0.20 0.24 0.30 0.20 0.20 0.18 0.20 0.18 0.18 0.05 0.05 0.06 0.05 0.05 0.05DE GACGAG 0.10 0.13 0.13 0.11 0.13 0.09 0.09 0.08 0.12 0.08 0.06 0.07 0.13 0.19 0.12 0.23 0.13 0.11 0.12 0.13 0.11 0.12 0.10DE GATGAA 0.45 0.35 0.41 0.40 0.38 0.50 0.48 0.52 0.41 0.52 0.52 0.53 0.41 0.32 0.44 0.30 0.43 0.41 0.41 0.37 0.44 0.39 0.43DE GATGAG 0.21 0.16 0.21 0.18 0.12 0.23 0.21 0.13 0.26 0.17 0.12 0.20 0.26 0.32 0.24 0.29 0.26 0.43 0.42 0.43 0.40 0.44 0.42DF GACTTC 0.17 0.36 0.17 0.32 0.34 0.21 0.13 0.18 0.18 0.16 0.18 0.11 0.14 0.28 0.11 0.31 0.11 0.36 0.38 0.44 0.31 0.42 0.31DF GACTTT 0.14 0.12 0.16 0.12 0.15 0.14 0.18 0.17 0.21 0.17 0.16 0.19 0.26 0.25 0.25 0.31 0.23 0.28 0.26 0.26 0.26 0.26 0.28DF GATTTC 0.33 0.29 0.29 0.34 0.34 0.23 0.28 0.41 0.23 0.32 0.43 0.25 0.25 0.25 0.25 0.21 0.27 0.17 0.19 0.16 0.20 0.16 0.19DF GATTTT 0.36 0.23 0.38 0.21 0.18 0.42 0.41 0.24 0.39 0.34 0.24 0.45 0.36 0.22 0.39 0.17 0.39 0.20 0.17 0.14 0.23 0.17 0.21DG GACGGA 0.03 0.02 0.05 0.03 0.02 0.03 0.06 0.03 0.10 0.04 0.02 0.06 0.10 0.11 0.14 0.11 0.08 0.03 0.04 0.04 0.03 0.04 0.03DG GACGGC 0.20 0.25 0.23 0.26 0.23 0.17 0.06 0.04 0.07 0.04 0.05 0.05 0.05 0.05 0.04 0.04 0.05 0.06 0.06 0.07 0.07 0.07 0.05DG GACGGG 0.05 0.02 0.07 0.03 0.03 0.10 0.04 0.03 0.03 0.03 0.03 0.03 0.04 0.02 0.04 0.01 0.04 0.04 0.05 0.05 0.04 0.04 0.04DG GACGGT 0.18 0.27 0.15 0.24 0.25 0.18 0.14 0.22 0.15 0.20 0.26 0.12 0.10 0.18 0.08 0.22 0.09 0.03 0.02 0.03 0.03 0.02 0.03DG GATGGA 0.04 0.02 0.04 0.01 0.02 0.05 0.15 0.08 0.14 0.11 0.08 0.20 0.24 0.21 0.23 0.16 0.25 0.23 0.20 0.21 0.21 0.21 0.26DG GATGGC 0.27 0.23 0.24 0.26 0.25 0.28 0.14 0.09 0.15 0.12 0.07 0.15 0.12 0.10 0.13 0.08 0.13 0.25 0.28 0.26 0.26 0.27 0.23DG GATGGG 0.04 0.03 0.03 0.02 0.01 0.05 0.09 0.06 0.12 0.07 0.04 0.11 0.10 0.06 0.11 0.03 0.11 0.20 0.18 0.20 0.19 0.19 0.19DG GATGGT 0.19 0.16 0.18 0.15 0.18 0.16 0.31 0.46 0.23 0.39 0.45 0.28 0.26 0.27 0.22 0.35 0.26 0.16 0.17 0.14 0.17 0.16 0.18DH GACCAC 0.17 0.28 0.23 0.24 0.29 0.15 0.15 0.20 0.16 0.18 0.25 0.14 0.16 0.34 0.14 0.35 0.12 0.37 0.39 0.47 0.33 0.34 0.34DH GACCAT 0.20 0.17 0.19 0.17 0.15 0.14 0.27 0.26 0.27 0.27 0.27 0.24 0.26 0.22 0.23 0.19 0.25 0.28 0.28 0.24 0.26 0.26 0.26DH GATCAC 0.33 0.36 0.28 0.38 0.37 0.42 0.20 0.16 0.24 0.18 0.15 0.23 0.22 0.20 0.25 0.24 0.25 0.18 0.14 0.17 0.20 0.21 0.20DH GATCAT 0.29 0.18 0.30 0.21 0.19 0.28 0.38 0.38 0.33 0.37 0.33 0.38 0.36 0.25 0.38 0.21 0.38 0.17 0.19 0.12 0.21 0.20 0.21DI GACATA 0.01 0.01 0.00 0.00 0.00 0.01 0.09 0.04 0.10 0.07 0.03 0.09 0.08 0.05 0.08 0.04 0.09 0.10 0.09 0.09 0.10 0.07 0.09DI GACATC 0.13 0.24 0.13 0.18 0.27 0.11 0.10 0.13 0.11 0.09 0.15 0.07 0.11 0.19 0.11 0.20 0.10 0.33 0.33 0.42 0.30 0.34 0.30DI GACATT 0.12 0.16 0.14 0.14 0.10 0.13 0.15 0.18 0.17 0.16 0.20 0.14 0.19 0.25 0.19 0.27 0.17 0.23 0.25 0.23 0.27 0.26 0.24DI GATATA 0.03 0.00 0.02 0.00 0.00 0.02 0.17 0.09 0.15 0.13 0.07 0.21 0.13 0.07 0.13 0.04 0.13 0.07 0.05 0.05 0.05 0.04 0.08DI GATATC 0.36 0.39 0.38 0.42 0.42 0.33 0.18 0.22 0.17 0.21 0.23 0.16 0.20 0.22 0.20 0.21 0.20 0.12 0.14 0.11 0.13 0.13 0.12DI GATATT 0.35 0.21 0.33 0.25 0.21 0.40 0.31 0.34 0.28 0.35 0.32 0.33 0.29 0.22 0.29 0.25 0.31 0.15 0.14 0.11 0.16 0.15 0.17DK GACAAA 0.29 0.42 0.33 0.35 0.42 0.24 0.23 0.24 0.24 0.24 0.24 0.20 0.25 0.20 0.27 0.22 0.24 0.28 0.27 0.25 0.24 0.26 0.28DK GACAAG 0.08 0.12 0.06 0.11 0.13 0.09 0.19 0.31 0.21 0.21 0.34 0.16 0.25 0.47 0.21 0.51 0.19 0.39 0.42 0.49 0.39 0.45 0.37DK GATAAA 0.49 0.37 0.48 0.46 0.38 0.51 0.37 0.25 0.33 0.32 0.22 0.44 0.27 0.15 0.30 0.11 0.34 0.18 0.16 0.14 0.23 0.15 0.19DK GATAAG 0.14 0.09 0.13 0.08 0.07 0.16 0.21 0.20 0.22 0.23 0.19 0.21 0.22 0.18 0.23 0.16 0.23 0.14 0.15 0.12 0.14 0.14 0.16DL GACCTA 0.01 0.00 0.01 0.00 0.00 0.01 0.04 0.03 0.06 0.03 0.03 0.04 0.04 0.02 0.04 0.02 0.04 0.05 0.05 0.05 0.05 0.04 0.05DL GACCTC 0.04 0.04 0.05 0.05 0.05 0.05 0.02 0.01 0.02 0.01 0.01 0.02 0.03 0.04 0.04 0.04 0.04 0.13 0.11 0.14 0.11 0.11 0.11DL GACCTG 0.16 0.28 0.16 0.29 0.30 0.15 0.04 0.03 0.05 0.03 0.02 0.03 0.05 0.07 0.04 0.07 0.04 0.24 0.22 0.29 0.22 0.27 0.22DL GACCTT 0.03 0.03 0.04 0.04 0.02 0.03 0.05 0.02 0.05 0.04 0.03 0.06 0.06 0.08 0.06 0.08 0.05 0.09 0.08 0.09 0.09 0.08 0.09DL GACTTA 0.03 0.03 0.02 0.02 0.02 0.03 0.08 0.08 0.10 0.08 0.08 0.09 0.05 0.06 0.05 0.05 0.05 0.04 0.04 0.04 0.04 0.03 0.05DL GACTTG 0.02 0.03 0.01 0.01 0.02 0.02 0.10 0.19 0.08 0.13 0.21 0.08 0.12 0.19 0.11 0.23 0.12 0.10 0.10 0.10 0.10 0.10 0.10DL GATCTA 0.02 0.00 0.01 0.00 0.00 0.02 0.07 0.06 0.08 0.07 0.06 0.07 0.07 0.05 0.08 0.04 0.08 0.03 0.03 0.02 0.04 0.02 0.03DL GATCTC 0.13 0.06 0.17 0.08 0.09 0.17 0.04 0.01 0.05 0.03 0.02 0.04 0.06 0.04 0.07 0.04 0.06 0.06 0.07 0.06 0.05 0.06 0.07DL GATCTG 0.27 0.35 0.25 0.32 0.31 0.22 0.06 0.03 0.05 0.04 0.03 0.06 0.10 0.10 0.10 0.09 0.10 0.10 0.11 0.10 0.10 0.10 0.09DL GATCTT 0.07 0.05 0.06 0.07 0.06 0.09 0.08 0.05 0.09 0.07 0.05 0.08 0.12 0.10 0.12 0.09 0.14 0.07 0.07 0.04 0.07 0.07 0.06DL GATTTA 0.13 0.05 0.14 0.06 0.05 0.13 0.20 0.19 0.17 0.21 0.16 0.23 0.11 0.07 0.11 0.07 0.11 0.04 0.04 0.03 0.04 0.04 0.05DL GATTTG 0.10 0.06 0.10 0.06 0.07 0.09 0.22 0.29 0.20 0.26 0.31 0.20 0.18 0.17 0.18 0.19 0.17 0.07 0.08 0.05 0.09 0.07 0.07DM GACATG 0.27 0.35 0.21 0.24 0.32 0.22 0.35 0.42 0.40 0.39 0.44 0.35 0.42 0.58 0.41 0.55 0.36 0.71 0.67 0.79 0.66 0.64 0.72DM GATATG 0.73 0.65 0.79 0.76 0.68 0.78 0.65 0.58 0.60 0.61 0.56 0.65 0.58 0.41 0.59 0.45 0.64 0.28 0.33 0.21 0.34 0.36 0.28DN GACAAC 0.21 0.35 0.23 0.32 0.37 0.17 0.17 0.27 0.19 0.18 0.31 0.14 0.22 0.42 0.19 0.50 0.18 0.39 0.42 0.44 0.33 0.41 0.33DN GACAAT 0.13 0.09 0.14 0.13 0.12 0.09 0.22 0.24 0.22 0.23 0.22 0.24 0.27 0.24 0.28 0.26 0.29 0.29 0.27 0.30 0.31 0.26 0.31DN GATAAC 0.43 0.44 0.42 0.40 0.40 0.50 0.23 0.22 0.20 0.23 0.22 0.24 0.22 0.19 0.25 0.17 0.23 0.15 0.16 0.13 0.14 0.14 0.17DN GATAAT 0.22 0.11 0.20 0.15 0.11 0.24 0.38 0.28 0.39 0.37 0.25 0.39 0.29 0.15 0.27 0.07 0.30 0.17 0.15 0.13 0.23 0.19 0.20DP GACCCA 0.04 0.04 0.04 0.06 0.03 0.05 0.14 0.24 0.11 0.17 0.30 0.12 0.14 0.24 0.12 0.23 0.11 0.17 0.17 0.17 0.16 0.17 0.16DP GACCCC 0.03 0.00 0.03 0.02 0.00 0.04 0.06 0.04 0.07 0.04 0.02 0.06 0.07 0.06 0.07 0.06 0.06 0.19 0.21 0.22 0.16 0.22 0.17DP GACCCG 0.21 0.27 0.27 0.23 0.26 0.22 0.04 0.02 0.06 0.03 0.01 0.04 0.04 0.03 0.04 0.01 0.03 0.05 0.04 0.04 0.05 0.05 0.04DP GACCCT 0.03 0.02 0.02 0.03 0.01 0.03 0.12 0.11 0.15 0.13 0.13 0.12 0.13 0.18 0.12 0.20 0.14 0.20 0.18 0.21 0.21 0.20 0.20DP GATCCA 0.11 0.09 0.09 0.14 0.11 0.11 0.24 0.33 0.17 0.29 0.30 0.26 0.23 0.20 0.22 0.20 0.23 0.12 0.12 0.09 0.14 0.11 0.15DP GATCCC 0.10 0.05 0.13 0.06 0.05 0.12 0.09 0.04 0.12 0.07 0.04 0.09 0.11 0.08 0.14 0.06 0.12 0.11 0.13 0.13 0.11 0.12 0.11DP GATCCG 0.36 0.43 0.34 0.37 0.47 0.33 0.09 0.04 0.10 0.06 0.02 0.08 0.06 0.04 0.07 0.04 0.07 0.02 0.03 0.02 0.03 0.02 0.02DP GATCCT 0.11 0.09 0.07 0.09 0.08 0.12 0.22 0.19 0.22 0.21 0.17 0.23 0.23 0.17 0.22 0.21 0.23 0.14 0.14 0.12 0.15 0.11 0.13DQ GACCAA 0.07 0.06 0.08 0.04 0.05 0.10 0.29 0.43 0.25 0.37 0.45 0.25 0.26 0.34 0.28 0.39 0.23 0.18 0.17 0.17 0.14 0.15 0.16DQ GACCAG 0.27 0.36 0.29 0.33 0.37 0.20 0.14 0.10 0.17 0.10 0.11 0.17 0.16 0.22 0.14 0.24 0.15 0.47 0.50 0.54 0.48 0.53 0.46DQ GATCAA 0.22 0.19 0.20 0.19 0.14 0.22 0.40 0.39 0.37 0.39 0.35 0.41 0.36 0.26 0.35 0.21 0.38 0.13 0.12 0.11 0.13 0.10 0.14DQ GATCAG 0.44 0.39 0.44 0.43 0.44 0.49 0.17 0.09 0.21 0.14 0.09 0.17 0.22 0.18 0.23 0.16 0.24 0.22 0.21 0.18 0.25 0.23 0.24DR GACAGA 0.04 0.02 0.05 0.02 0.01 0.06 0.18 0.29 0.18 0.19 0.34 0.15 0.20 0.29 0.20 0.37 0.16 0.19 0.17 0.18 0.19 0.18 0.19DR GACAGG 0.03 0.00 0.02 0.02 0.00 0.03 0.08 0.04 0.09 0.06 0.04 0.07 0.08 0.09 0.08 0.06 0.10 0.17 0.15 0.20 0.16 0.12 0.18DR GACCGA 0.02 0.01 0.02 0.00 0.02 0.04 0.02 0.00 0.03 0.01 0.00 0.02 0.05 0.04 0.05 0.02 0.04 0.09 0.11 0.08 0.10 0.12 0.10DR GACCGC 0.17 0.18 0.22 0.11 0.17 0.17 0.03 0.02 0.03 0.03 0.02 0.03 0.02 0.03 0.03 0.02 0.02 0.10 0.10 0.13 0.08 0.09 0.08DR GACCGG 0.04 0.02 0.05 0.02 0.01 0.03 0.01 0.00 0.02 0.01 0.00 0.02 0.02 0.01 0.01 0.00 0.02 0.12 0.12 0.10 0.11 0.11 0.11DR GACCGT 0.17 0.27 0.15 0.27 0.32 0.12 0.08 0.14 0.09 0.12 0.12 0.07 0.07 0.16 0.04 0.22 0.04 0.06 0.07 0.07 0.05 0.07 0.06DR GATAGA 0.01 0.01 0.00 0.01 0.00 0.01 0.26 0.23 0.22 0.26 0.22 0.27 0.24 0.16 0.28 0.14 0.25 0.06 0.06 0.04 0.06 0.07 0.07DR GATAGG 0.00 0.00 0.00 0.00 0.00 0.00 0.11 0.08 0.10 0.10 0.06 0.17 0.09 0.04 0.07 0.03 0.12 0.04 0.05 0.04 0.04 0.04 0.04DR GATCGA 0.02 0.00 0.01 0.01 0.02 0.02 0.04 0.01 0.06 0.02 0.00 0.06 0.07 0.04 0.08 0.02 0.08 0.05 0.05 0.04 0.06 0.05 0.05DR GATCGC 0.27 0.28 0.25 0.36 0.21 0.25 0.04 0.02 0.05 0.04 0.02 0.05 0.03 0.01 0.03 0.01 0.04 0.04 0.05 0.04 0.06 0.06 0.04DR GATCGG 0.05 0.01 0.06 0.02 0.01 0.09 0.02 0.01 0.02 0.01 0.01 0.02 0.03 0.01 0.04 0.01 0.05 0.05 0.04 0.04 0.07 0.05 0.05DR GATCGT 0.18 0.20 0.17 0.18 0.21 0.17 0.10 0.16 0.11 0.16 0.16 0.08 0.09 0.12 0.09 0.10 0.08 0.04 0.03 0.03 0.02 0.05 0.04DS GACAGC 0.24 0.21 0.25 0.32 0.23 0.23 0.04 0.04 0.05 0.04 0.04 0.05 0.05 0.04 0.06 0.03 0.05 0.18 0.19 0.22 0.17 0.18 0.17DS GACAGT 0.12 0.11 0.12 0.08 0.06 0.10 0.06 0.05 0.08 0.06 0.06 0.08 0.07 0.06 0.06 0.06 0.07 0.14 0.14 0.14 0.13 0.12 0.15DS GACTCA 0.04 0.02 0.04 0.01 0.04 0.05 0.06 0.05 0.05 0.05 0.03 0.05 0.08 0.07 0.09 0.07 0.09 0.09 0.07 0.09 0.09 0.07 0.09DS GACTCC 0.07 0.15 0.09 0.10 0.17 0.07 0.06 0.10 0.05 0.07 0.12 0.04 0.07 0.13 0.07 0.16 0.07 0.12 0.12 0.14 0.10 0.16 0.11DS GACTCG 0.04 0.05 0.04 0.02 0.04 0.07 0.03 0.02 0.04 0.02 0.02 0.04 0.04 0.04 0.05 0.03 0.04 0.03 0.04 0.04 0.03 0.04 0.03DS GACTCT 0.04 0.06 0.04 0.04 0.09 0.02 0.10 0.17 0.10 0.13 0.19 0.08 0.12 0.18 0.11 0.25 0.08 0.11 0.11 0.11 0.12 0.10 0.12DS GATAGC 0.14 0.09 0.16 0.09 0.08 0.15 0.06 0.04 0.07 0.04 0.03 0.07 0.05 0.03 0.05 0.01 0.06 0.04 0.04 0.04 0.04 0.03 0.06DS GATAGT 0.04 0.03 0.03 0.02 0.01 0.05 0.09 0.06 0.10 0.08 0.04 0.10 0.08 0.06 0.08 0.03 0.09 0.04 0.03 0.03 0.04 0.04 0.05DS GATTCA 0.06 0.05 0.05 0.03 0.03 0.06 0.14 0.08 0.14 0.13 0.07 0.14 0.12 0.10 0.11 0.08 0.14 0.06 0.06 0.05 0.07 0.05 0.06DS GATTCC 0.08 0.13 0.08 0.09 0.11 0.08 0.10 0.12 0.10 0.12 0.12 0.10 0.10 0.09 0.09 0.11 0.09 0.07 0.08 0.07 0.07 0.08 0.07DS GATTCG 0.06 0.02 0.08 0.07 0.07 0.10 0.07 0.05 0.07 0.06 0.03 0.07 0.06 0.04 0.06 0.03 0.06 0.01 0.02 0.01 0.01 0.01 0.01DS GATTCT 0.06 0.07 0.04 0.12 0.08 0.03 0.18 0.21 0.16 0.20 0.25 0.18 0.16 0.15 0.16 0.14 0.16 0.10 0.11 0.06 0.10 0.10 0.11

Continued on next page

Page 153: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 140

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

DT GACACA 0.04 0.04 0.05 0.05 0.02 0.04 0.11 0.10 0.13 0.08 0.10 0.12 0.12 0.10 0.13 0.10 0.12 0.23 0.23 0.23 0.25 0.21 0.22DT GACACC 0.20 0.27 0.24 0.27 0.32 0.21 0.09 0.17 0.08 0.12 0.23 0.07 0.11 0.21 0.09 0.21 0.08 0.22 0.22 0.28 0.17 0.26 0.21DT GACACG 0.09 0.07 0.10 0.06 0.05 0.10 0.04 0.03 0.06 0.04 0.02 0.04 0.05 0.04 0.05 0.03 0.06 0.07 0.07 0.07 0.07 0.07 0.05DT GACACT 0.06 0.12 0.04 0.06 0.09 0.03 0.15 0.22 0.15 0.19 0.23 0.13 0.17 0.26 0.13 0.30 0.15 0.18 0.17 0.17 0.17 0.16 0.19DT GATACA 0.06 0.04 0.03 0.03 0.04 0.05 0.19 0.10 0.19 0.13 0.09 0.18 0.14 0.09 0.16 0.08 0.16 0.10 0.11 0.09 0.12 0.10 0.11DT GATACC 0.32 0.29 0.34 0.34 0.35 0.30 0.13 0.15 0.15 0.14 0.11 0.14 0.14 0.11 0.16 0.12 0.12 0.09 0.10 0.09 0.10 0.10 0.10DT GATACG 0.14 0.08 0.15 0.11 0.06 0.14 0.09 0.04 0.06 0.07 0.02 0.08 0.07 0.02 0.08 0.01 0.09 0.02 0.02 0.01 0.01 0.01 0.02DT GATACT 0.09 0.08 0.06 0.09 0.08 0.12 0.20 0.19 0.18 0.24 0.21 0.23 0.19 0.16 0.19 0.14 0.20 0.09 0.09 0.06 0.11 0.09 0.10DV GACGTA 0.05 0.10 0.04 0.12 0.10 0.03 0.07 0.03 0.08 0.05 0.03 0.07 0.04 0.03 0.05 0.02 0.04 0.02 0.01 0.01 0.02 0.01 0.02DV GACGTC 0.09 0.07 0.11 0.05 0.08 0.08 0.06 0.08 0.06 0.07 0.10 0.04 0.07 0.09 0.06 0.10 0.05 0.04 0.05 0.06 0.04 0.03 0.04DV GACGTG 0.11 0.14 0.13 0.12 0.14 0.12 0.06 0.04 0.07 0.05 0.04 0.05 0.05 0.04 0.06 0.03 0.05 0.10 0.09 0.10 0.10 0.12 0.08DV GACGTT 0.12 0.21 0.10 0.20 0.22 0.09 0.13 0.15 0.14 0.14 0.15 0.13 0.13 0.17 0.13 0.18 0.12 0.03 0.03 0.02 0.03 0.03 0.03DV GATGTA 0.07 0.07 0.04 0.05 0.07 0.07 0.13 0.06 0.11 0.11 0.05 0.16 0.10 0.06 0.12 0.05 0.12 0.10 0.09 0.10 0.12 0.10 0.10DV GATGTC 0.17 0.10 0.19 0.12 0.12 0.19 0.15 0.22 0.16 0.18 0.21 0.12 0.17 0.20 0.18 0.20 0.15 0.20 0.22 0.23 0.20 0.23 0.21DV GATGTG 0.23 0.20 0.23 0.20 0.16 0.26 0.13 0.10 0.14 0.10 0.06 0.13 0.14 0.12 0.15 0.06 0.18 0.34 0.35 0.33 0.31 0.31 0.31DV GATGTT 0.16 0.12 0.15 0.13 0.11 0.16 0.28 0.33 0.24 0.32 0.35 0.28 0.29 0.30 0.26 0.35 0.29 0.17 0.16 0.14 0.18 0.16 0.20DW GACTGG 0.93 0.93 0.97 0.96 0.93 0.94 0.36 0.43 0.43 0.38 0.54 0.30 0.44 0.71 0.44 0.72 0.36 0.76 0.80 0.83 0.79 0.76 0.74DW GATTGG 0.07 0.07 0.03 0.04 0.07 0.07 0.64 0.57 0.57 0.62 0.46 0.70 0.56 0.29 0.56 0.28 0.64 0.24 0.20 0.17 0.21 0.24 0.26DY GACTAC 0.17 0.25 0.20 0.28 0.34 0.15 0.17 0.26 0.25 0.19 0.28 0.13 0.22 0.35 0.22 0.41 0.16 0.33 0.31 0.40 0.33 0.33 0.31DY GACTAT 0.16 0.18 0.19 0.16 0.15 0.16 0.21 0.18 0.26 0.20 0.19 0.20 0.21 0.18 0.22 0.17 0.21 0.29 0.29 0.30 0.26 0.27 0.29DY GATTAC 0.34 0.42 0.34 0.34 0.33 0.39 0.23 0.27 0.21 0.27 0.28 0.27 0.26 0.28 0.26 0.28 0.28 0.17 0.18 0.17 0.18 0.19 0.17DY GATTAT 0.32 0.15 0.27 0.22 0.17 0.30 0.38 0.29 0.28 0.33 0.25 0.40 0.31 0.19 0.29 0.14 0.35 0.21 0.22 0.14 0.24 0.22 0.23E* GAATAA 0.39 0.45 0.42 0.33 0.45 0.43 0.34 0.60 0.32 0.42 0.54 0.28 0.24 0.20 0.39 0.15 0.32 0.14 0.19 0.13 0.09 0.18 0.11E* GAATAG 0.03 0.00 0.04 0.00 0.00 0.05 0.13 0.10 0.08 0.19 0.23 0.12 0.19 0.13 0.25 0.24 0.16 0.09 0.04 0.08 0.09 0.11 0.06E* GAATGA 0.12 0.03 0.12 0.08 0.03 0.10 0.19 0.10 0.21 0.14 0.04 0.28 0.18 0.13 0.11 0.09 0.32 0.19 0.17 0.07 0.00 0.07 0.21E* GAGTAA 0.32 0.47 0.27 0.50 0.45 0.38 0.15 0.13 0.26 0.14 0.19 0.12 0.17 0.33 0.07 0.33 0.10 0.15 0.17 0.24 0.09 0.20 0.19E* GAGTAG 0.05 0.03 0.04 0.00 0.07 0.05 0.08 0.05 0.05 0.06 0.00 0.12 0.10 0.07 0.07 0.09 0.00 0.15 0.18 0.23 0.23 0.14 0.15E* GAGTGA 0.10 0.03 0.12 0.08 0.00 0.00 0.10 0.00 0.08 0.06 0.00 0.08 0.12 0.13 0.11 0.09 0.10 0.29 0.24 0.24 0.50 0.29 0.28EA GAAGCA 0.14 0.20 0.11 0.17 0.18 0.15 0.19 0.11 0.23 0.14 0.12 0.22 0.17 0.09 0.18 0.07 0.21 0.14 0.15 0.11 0.16 0.13 0.16EA GAAGCC 0.21 0.19 0.24 0.20 0.19 0.24 0.14 0.19 0.15 0.17 0.21 0.13 0.13 0.14 0.16 0.13 0.12 0.16 0.18 0.17 0.16 0.15 0.17EA GAAGCG 0.33 0.34 0.31 0.36 0.36 0.27 0.07 0.05 0.09 0.05 0.04 0.07 0.05 0.01 0.05 0.01 0.07 0.02 0.02 0.02 0.03 0.03 0.02EA GAAGCT 0.10 0.17 0.07 0.17 0.18 0.10 0.27 0.44 0.21 0.35 0.46 0.21 0.26 0.26 0.26 0.24 0.24 0.15 0.16 0.12 0.17 0.16 0.17EA GAGGCA 0.04 0.03 0.04 0.01 0.02 0.06 0.12 0.06 0.13 0.09 0.03 0.13 0.11 0.10 0.11 0.08 0.12 0.13 0.12 0.13 0.12 0.12 0.13EA GAGGCC 0.04 0.02 0.06 0.03 0.01 0.05 0.07 0.05 0.07 0.07 0.06 0.08 0.10 0.14 0.09 0.16 0.07 0.20 0.18 0.24 0.18 0.20 0.18EA GAGGCG 0.10 0.04 0.13 0.04 0.04 0.10 0.04 0.01 0.04 0.03 0.01 0.04 0.03 0.01 0.03 0.01 0.04 0.04 0.04 0.04 0.03 0.05 0.03EA GAGGCT 0.03 0.01 0.04 0.01 0.01 0.04 0.10 0.09 0.07 0.10 0.07 0.10 0.16 0.25 0.13 0.30 0.13 0.15 0.15 0.17 0.15 0.16 0.15EC GAATGC 0.28 0.27 0.31 0.25 0.27 0.31 0.24 0.08 0.31 0.19 0.13 0.24 0.25 0.11 0.28 0.12 0.24 0.17 0.20 0.20 0.18 0.23 0.17EC GAATGT 0.27 0.32 0.22 0.46 0.50 0.25 0.47 0.67 0.37 0.59 0.66 0.46 0.43 0.36 0.44 0.39 0.46 0.31 0.20 0.22 0.24 0.17 0.26EC GAGTGC 0.25 0.18 0.28 0.14 0.13 0.25 0.13 0.13 0.18 0.08 0.06 0.11 0.13 0.23 0.09 0.19 0.11 0.22 0.28 0.28 0.31 0.22 0.27EC GAGTGT 0.20 0.23 0.19 0.14 0.10 0.19 0.16 0.13 0.13 0.14 0.15 0.19 0.20 0.30 0.19 0.30 0.19 0.30 0.32 0.29 0.28 0.38 0.30ED GAAGAC 0.27 0.44 0.31 0.36 0.40 0.26 0.24 0.30 0.26 0.27 0.32 0.21 0.25 0.29 0.24 0.30 0.23 0.24 0.22 0.24 0.22 0.21 0.26ED GAAGAT 0.59 0.49 0.52 0.60 0.57 0.62 0.46 0.50 0.42 0.49 0.48 0.49 0.41 0.32 0.40 0.28 0.45 0.29 0.34 0.23 0.34 0.33 0.30ED GAGGAC 0.04 0.03 0.07 0.01 0.01 0.06 0.11 0.08 0.13 0.09 0.08 0.10 0.13 0.19 0.13 0.22 0.11 0.26 0.22 0.31 0.22 0.24 0.23ED GAGGAT 0.09 0.03 0.11 0.02 0.02 0.07 0.19 0.12 0.18 0.15 0.11 0.20 0.22 0.19 0.22 0.20 0.21 0.21 0.22 0.22 0.22 0.22 0.21EE GAAGAA 0.44 0.57 0.42 0.51 0.57 0.43 0.49 0.63 0.47 0.55 0.66 0.46 0.36 0.27 0.36 0.26 0.38 0.25 0.26 0.20 0.26 0.23 0.27EE GAAGAG 0.42 0.37 0.41 0.43 0.38 0.40 0.21 0.16 0.21 0.19 0.15 0.22 0.27 0.27 0.27 0.29 0.28 0.23 0.24 0.21 0.24 0.22 0.23EE GAGGAA 0.09 0.04 0.10 0.04 0.03 0.10 0.20 0.15 0.22 0.18 0.14 0.22 0.21 0.22 0.22 0.19 0.20 0.20 0.19 0.20 0.19 0.19 0.20EE GAGGAG 0.05 0.02 0.07 0.02 0.01 0.06 0.10 0.06 0.10 0.08 0.05 0.10 0.16 0.24 0.15 0.26 0.14 0.32 0.31 0.40 0.31 0.36 0.31EF GAATTC 0.15 0.24 0.14 0.26 0.27 0.12 0.23 0.33 0.21 0.27 0.36 0.20 0.17 0.19 0.15 0.21 0.18 0.18 0.18 0.21 0.17 0.17 0.19EF GAATTT 0.33 0.29 0.36 0.24 0.22 0.36 0.42 0.42 0.41 0.43 0.41 0.46 0.28 0.21 0.28 0.19 0.30 0.25 0.24 0.19 0.28 0.22 0.28EF GAGTTC 0.21 0.27 0.18 0.29 0.31 0.17 0.12 0.11 0.14 0.11 0.11 0.10 0.20 0.30 0.19 0.32 0.17 0.29 0.28 0.33 0.29 0.32 0.28EF GAGTTT 0.31 0.19 0.32 0.22 0.20 0.36 0.23 0.15 0.24 0.19 0.13 0.25 0.35 0.30 0.37 0.28 0.35 0.27 0.30 0.27 0.27 0.29 0.26EG GAAGGA 0.08 0.04 0.08 0.04 0.05 0.10 0.16 0.06 0.17 0.10 0.07 0.18 0.23 0.16 0.22 0.15 0.26 0.17 0.17 0.15 0.18 0.15 0.20EG GAAGGC 0.32 0.41 0.35 0.38 0.39 0.28 0.13 0.09 0.12 0.12 0.09 0.12 0.11 0.08 0.14 0.07 0.11 0.15 0.16 0.16 0.14 0.17 0.16EG GAAGGG 0.18 0.11 0.17 0.11 0.10 0.22 0.09 0.04 0.12 0.07 0.04 0.11 0.09 0.04 0.10 0.02 0.10 0.13 0.11 0.11 0.14 0.10 0.14EG GAAGGT 0.28 0.36 0.24 0.38 0.40 0.23 0.34 0.62 0.27 0.48 0.66 0.29 0.25 0.30 0.24 0.35 0.24 0.11 0.13 0.10 0.11 0.12 0.11EG GAGGGA 0.02 0.00 0.02 0.01 0.01 0.02 0.08 0.03 0.11 0.05 0.01 0.10 0.13 0.17 0.11 0.15 0.11 0.10 0.09 0.09 0.10 0.10 0.10EG GAGGGC 0.05 0.03 0.06 0.04 0.03 0.06 0.07 0.04 0.09 0.04 0.02 0.06 0.06 0.05 0.07 0.04 0.06 0.16 0.15 0.18 0.16 0.18 0.13EG GAGGGG 0.04 0.02 0.05 0.02 0.01 0.05 0.04 0.01 0.04 0.03 0.01 0.04 0.04 0.02 0.04 0.01 0.04 0.10 0.09 0.12 0.09 0.09 0.09EG GAGGGT 0.03 0.03 0.04 0.02 0.03 0.04 0.10 0.10 0.09 0.10 0.11 0.10 0.11 0.19 0.09 0.21 0.08 0.09 0.09 0.10 0.08 0.10 0.08EH GAACAC 0.23 0.36 0.24 0.33 0.30 0.20 0.23 0.33 0.20 0.25 0.40 0.23 0.22 0.24 0.20 0.22 0.21 0.21 0.24 0.22 0.21 0.21 0.23EH GAACAT 0.33 0.18 0.35 0.21 0.19 0.32 0.38 0.38 0.44 0.44 0.36 0.36 0.34 0.24 0.40 0.16 0.36 0.22 0.23 0.18 0.19 0.23 0.23EH GAGCAC 0.20 0.29 0.18 0.27 0.30 0.26 0.13 0.08 0.14 0.10 0.07 0.14 0.18 0.30 0.15 0.43 0.17 0.32 0.28 0.34 0.31 0.30 0.30EH GAGCAT 0.24 0.17 0.23 0.19 0.21 0.22 0.26 0.22 0.22 0.21 0.17 0.27 0.26 0.22 0.25 0.19 0.26 0.25 0.24 0.26 0.28 0.26 0.23EI GAAATA 0.06 0.02 0.04 0.03 0.01 0.08 0.21 0.10 0.23 0.15 0.09 0.25 0.15 0.07 0.16 0.05 0.15 0.12 0.11 0.09 0.12 0.08 0.12EI GAAATC 0.30 0.44 0.26 0.47 0.42 0.27 0.18 0.28 0.14 0.22 0.31 0.16 0.15 0.17 0.16 0.18 0.14 0.17 0.17 0.20 0.16 0.17 0.18EI GAAATT 0.28 0.23 0.34 0.21 0.25 0.30 0.35 0.43 0.35 0.41 0.45 0.33 0.27 0.26 0.28 0.25 0.28 0.18 0.20 0.15 0.20 0.19 0.20EI GAGATA 0.03 0.03 0.06 0.01 0.03 0.04 0.07 0.03 0.08 0.04 0.02 0.09 0.10 0.06 0.11 0.03 0.12 0.09 0.07 0.08 0.09 0.07 0.09EI GAGATC 0.17 0.19 0.17 0.18 0.21 0.13 0.07 0.06 0.07 0.06 0.05 0.05 0.13 0.18 0.11 0.23 0.12 0.26 0.26 0.30 0.23 0.28 0.23EI GAGATT 0.15 0.11 0.13 0.10 0.09 0.18 0.12 0.10 0.13 0.12 0.09 0.12 0.20 0.27 0.18 0.26 0.18 0.18 0.21 0.18 0.19 0.21 0.18EK GAAAAA 0.53 0.52 0.56 0.60 0.53 0.48 0.39 0.33 0.38 0.39 0.33 0.39 0.26 0.14 0.31 0.11 0.28 0.17 0.13 0.12 0.14 0.13 0.20EK GAAAAG 0.13 0.10 0.13 0.07 0.08 0.15 0.31 0.46 0.30 0.36 0.49 0.29 0.29 0.26 0.29 0.27 0.29 0.21 0.23 0.20 0.21 0.22 0.23EK GAGAAA 0.25 0.26 0.22 0.25 0.29 0.27 0.18 0.10 0.21 0.15 0.08 0.21 0.23 0.19 0.23 0.21 0.24 0.25 0.22 0.23 0.23 0.22 0.23EK GAGAAG 0.09 0.11 0.09 0.08 0.11 0.10 0.12 0.10 0.12 0.10 0.09 0.12 0.21 0.40 0.17 0.40 0.18 0.38 0.41 0.45 0.41 0.44 0.34EL GAACTA 0.02 0.01 0.02 0.01 0.02 0.01 0.11 0.09 0.12 0.10 0.09 0.13 0.08 0.06 0.09 0.03 0.09 0.04 0.04 0.03 0.05 0.04 0.05EL GAACTC 0.05 0.04 0.07 0.06 0.03 0.05 0.04 0.02 0.04 0.02 0.01 0.04 0.05 0.04 0.05 0.05 0.04 0.07 0.06 0.07 0.07 0.07 0.06EL GAACTG 0.35 0.45 0.38 0.47 0.48 0.30 0.08 0.06 0.10 0.07 0.06 0.09 0.10 0.07 0.09 0.09 0.10 0.12 0.13 0.12 0.12 0.12 0.12EL GAACTT 0.05 0.03 0.03 0.04 0.02 0.05 0.08 0.05 0.10 0.06 0.04 0.09 0.10 0.08 0.11 0.09 0.10 0.07 0.06 0.06 0.07 0.06 0.08EL GAATTA 0.07 0.03 0.05 0.04 0.03 0.09 0.18 0.23 0.12 0.21 0.22 0.18 0.09 0.07 0.08 0.07 0.09 0.04 0.04 0.02 0.04 0.03 0.06EL GAATTG 0.06 0.04 0.04 0.03 0.05 0.06 0.18 0.31 0.15 0.25 0.36 0.14 0.14 0.17 0.14 0.18 0.14 0.05 0.05 0.03 0.05 0.05 0.05EL GAGCTA 0.02 0.01 0.03 0.00 0.01 0.03 0.05 0.04 0.05 0.04 0.02 0.06 0.06 0.06 0.07 0.04 0.06 0.06 0.05 0.06 0.06 0.05 0.06EL GAGCTC 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.01 0.04 0.01 0.01 0.02 0.04 0.04 0.04 0.04 0.04 0.11 0.12 0.13 0.11 0.12 0.10EL GAGCTG 0.23 0.28 0.21 0.23 0.27 0.21 0.05 0.03 0.06 0.04 0.03 0.05 0.08 0.10 0.08 0.12 0.07 0.28 0.28 0.34 0.27 0.30 0.25EL GAGCTT 0.04 0.04 0.06 0.03 0.04 0.04 0.04 0.02 0.07 0.04 0.02 0.05 0.08 0.08 0.08 0.08 0.08 0.08 0.08 0.07 0.06 0.07 0.07EL GAGTTA 0.05 0.03 0.05 0.04 0.03 0.09 0.08 0.07 0.08 0.07 0.06 0.08 0.07 0.06 0.06 0.06 0.08 0.03 0.03 0.03 0.04 0.03 0.04EL GAGTTG 0.06 0.04 0.06 0.05 0.02 0.05 0.08 0.08 0.08 0.09 0.08 0.06 0.11 0.17 0.10 0.16 0.10 0.06 0.06 0.06 0.07 0.07 0.06EM GAAATG 0.55 0.66 0.56 0.61 0.62 0.56 0.76 0.82 0.68 0.81 0.88 0.78 0.62 0.53 0.63 0.43 0.68 0.42 0.41 0.33 0.42 0.35 0.46EM GAGATG 0.45 0.34 0.44 0.39 0.38 0.44 0.24 0.18 0.32 0.19 0.12 0.22 0.38 0.47 0.37 0.57 0.32 0.58 0.58 0.67 0.58 0.65 0.54EN GAAAAC 0.44 0.56 0.45 0.56 0.58 0.46 0.28 0.39 0.30 0.32 0.46 0.27 0.25 0.26 0.25 0.25 0.23 0.22 0.22 0.22 0.22 0.20 0.24EN GAAAAT 0.32 0.22 0.33 0.27 0.21 0.29 0.44 0.39 0.41 0.42 0.35 0.46 0.30 0.17 0.30 0.17 0.33 0.27 0.26 0.22 0.28 0.22 0.30EN GAGAAC 0.13 0.16 0.11 0.10 0.14 0.10 0.11 0.11 0.12 0.10 0.09 0.10 0.20 0.34 0.19 0.38 0.18 0.28 0.28 0.33 0.28 0.31 0.25EN GAGAAT 0.11 0.05 0.11 0.07 0.07 0.15 0.16 0.11 0.17 0.16 0.10 0.17 0.26 0.23 0.26 0.19 0.27 0.23 0.24 0.23 0.23 0.27 0.20EP GAACCA 0.08 0.08 0.09 0.10 0.09 0.10 0.24 0.39 0.23 0.31 0.43 0.20 0.23 0.20 0.24 0.22 0.23 0.12 0.13 0.11 0.16 0.10 0.15EP GAACCC 0.09 0.07 0.12 0.11 0.08 0.07 0.09 0.04 0.12 0.06 0.05 0.12 0.09 0.08 0.06 0.06 0.12 0.09 0.10 0.10 0.09 0.10 0.09EP GAACCG 0.33 0.35 0.26 0.29 0.36 0.32 0.08 0.02 0.12 0.05 0.03 0.10 0.06 0.04 0.07 0.01 0.07 0.02 0.03 0.02 0.02 0.02 0.02EP GAACCT 0.11 0.10 0.10 0.11 0.07 0.12 0.21 0.28 0.16 0.27 0.26 0.20 0.19 0.15 0.16 0.15 0.17 0.11 0.14 0.10 0.12 0.13 0.12EP GAGCCA 0.10 0.09 0.14 0.11 0.10 0.12 0.15 0.14 0.13 0.14 0.10 0.15 0.19 0.30 0.21 0.32 0.18 0.19 0.18 0.19 0.17 0.18 0.20EP GAGCCC 0.01 0.01 0.01 0.02 0.00 0.00 0.07 0.04 0.09 0.05 0.04 0.07 0.07 0.08 0.08 0.07 0.07 0.21 0.21 0.22 0.18 0.22 0.19EP GAGCCG 0.22 0.27 0.24 0.22 0.24 0.22 0.03 0.01 0.02 0.02 0.02 0.05 0.04 0.02 0.05 0.01 0.04 0.05 0.05 0.05 0.06 0.06 0.04EP GAGCCT 0.06 0.03 0.04 0.04 0.06 0.05 0.12 0.09 0.14 0.10 0.07 0.12 0.14 0.14 0.12 0.15 0.12 0.20 0.17 0.20 0.18 0.18 0.19EQ GAACAA 0.22 0.20 0.22 0.24 0.22 0.20 0.43 0.57 0.38 0.51 0.60 0.43 0.33 0.30 0.32 0.33 0.36 0.15 0.14 0.13 0.13 0.12 0.16EQ GAACAG 0.30 0.27 0.31 0.27 0.31 0.32 0.20 0.16 0.25 0.17 0.14 0.21 0.25 0.21 0.27 0.21 0.25 0.24 0.24 0.22 0.26 0.25 0.24EQ GAGCAA 0.19 0.19 0.20 0.15 0.13 0.23 0.24 0.22 0.25 0.24 0.20 0.26 0.25 0.30 0.24 0.34 0.25 0.16 0.16 0.15 0.13 0.14 0.17EQ GAGCAG 0.28 0.35 0.27 0.33 0.34 0.25 0.12 0.06 0.12 0.09 0.06 0.11 0.16 0.18 0.17 0.12 0.14 0.45 0.46 0.50 0.48 0.49 0.43ER GAAAGA 0.02 0.02 0.01 0.01 0.01 0.03 0.37 0.50 0.30 0.43 0.56 0.29 0.29 0.23 0.34 0.24 0.28 0.14 0.13 0.10 0.14 0.11 0.13ER GAAAGG 0.02 0.00 0.02 0.00 0.00 0.03 0.16 0.10 0.15 0.14 0.08 0.18 0.13 0.06 0.13 0.04 0.14 0.10 0.09 0.09 0.09 0.07 0.10ER GAACGA 0.03 0.01 0.05 0.01 0.02 0.04 0.05 0.01 0.06 0.03 0.01 0.05 0.09 0.04 0.09 0.02 0.09 0.04 0.06 0.03 0.05 0.04 0.05ER GAACGC 0.21 0.16 0.23 0.18 0.15 0.23 0.03 0.01 0.04 0.03 0.01 0.05 0.03 0.02 0.03 0.01 0.04 0.04 0.05 0.05 0.03 0.04 0.04ER GAACGG 0.06 0.04 0.06 0.04 0.03 0.07 0.03 0.01 0.05 0.01 0.01 0.04 0.03 0.02 0.04 0.01 0.04 0.05 0.06 0.05 0.05 0.06 0.06ER GAACGT 0.21 0.31 0.19 0.25 0.35 0.20 0.09 0.17 0.09 0.14 0.16 0.10 0.08 0.10 0.07 0.12 0.06 0.03 0.04 0.02 0.03 0.04 0.04ER GAGAGA 0.01 0.00 0.00 0.01 0.00 0.01 0.12 0.11 0.12 0.11 0.08 0.12 0.19 0.31 0.15 0.37 0.17 0.15 0.14 0.15 0.14 0.11 0.16ER GAGAGG 0.01 0.00 0.01 0.01 0.00 0.02 0.06 0.02 0.07 0.03 0.02 0.07 0.07 0.03 0.06 0.04 0.06 0.15 0.13 0.20 0.14 0.13 0.16ER GAGCGA 0.04 0.01 0.04 0.01 0.01 0.03 0.02 0.01 0.04 0.01 0.00 0.03 0.03 0.03 0.02 0.01 0.03 0.06 0.07 0.06 0.07 0.07 0.06ER GAGCGC 0.15 0.19 0.18 0.22 0.16 0.14 0.02 0.01 0.04 0.02 0.01 0.02 0.02 0.03 0.02 0.02 0.02 0.09 0.09 0.10 0.08 0.11 0.07ER GAGCGG 0.06 0.02 0.06 0.02 0.01 0.06 0.01 0.00 0.03 0.01 0.00 0.01 0.02 0.01 0.02 0.00 0.02 0.10 0.10 0.10 0.11 0.14 0.09ER GAGCGT 0.18 0.24 0.15 0.24 0.25 0.14 0.04 0.05 0.02 0.04 0.05 0.04 0.04 0.12 0.04 0.13 0.03 0.05 0.05 0.05 0.05 0.07 0.04ES GAAAGC 0.22 0.24 0.21 0.27 0.25 0.19 0.10 0.09 0.12 0.09 0.07 0.12 0.08 0.06 0.08 0.03 0.08 0.10 0.09 0.09 0.09 0.08 0.10ES GAAAGT 0.13 0.06 0.12 0.05 0.06 0.13 0.17 0.13 0.18 0.14 0.12 0.18 0.12 0.07 0.12 0.07 0.12 0.10 0.09 0.08 0.10 0.07 0.11ES GAATCA 0.08 0.05 0.06 0.08 0.04 0.09 0.13 0.10 0.14 0.13 0.10 0.15 0.12 0.08 0.13 0.08 0.14 0.06 0.05 0.06 0.05 0.05 0.06ES GAATCC 0.10 0.14 0.10 0.09 0.16 0.08 0.10 0.16 0.08 0.12 0.16 0.08 0.08 0.09 0.10 0.09 0.08 0.06 0.06 0.07 0.05 0.06 0.06ES GAATCG 0.07 0.07 0.10 0.06 0.07 0.07 0.06 0.04 0.07 0.05 0.04 0.07 0.06 0.05 0.06 0.03 0.06 0.01 0.01 0.01 0.01 0.02 0.01ES GAATCT 0.08 0.13 0.07 0.15 0.13 0.08 0.17 0.28 0.12 0.22 0.34 0.15 0.15 0.15 0.17 0.18 0.14 0.08 0.10 0.06 0.09 0.08 0.08ES GAGAGC 0.08 0.05 0.11 0.09 0.05 0.07 0.04 0.02 0.05 0.03 0.01 0.04 0.05 0.04 0.04 0.04 0.05 0.16 0.17 0.19 0.15 0.15 0.14ES GAGAGT 0.05 0.01 0.03 0.03 0.01 0.07 0.05 0.03 0.06 0.04 0.04 0.05 0.06 0.06 0.06 0.04 0.07 0.11 0.11 0.11 0.13 0.12 0.12ES GAGTCA 0.04 0.04 0.05 0.01 0.03 0.05 0.05 0.04 0.06 0.05 0.03 0.05 0.08 0.08 0.07 0.08 0.07 0.08 0.08 0.08 0.07 0.09 0.09ES GAGTCC 0.04 0.08 0.05 0.05 0.08 0.03 0.03 0.04 0.03 0.04 0.02 0.03 0.06 0.09 0.05 0.12 0.05 0.10 0.11 0.12 0.11 0.14 0.09ES GAGTCG 0.07 0.04 0.07 0.04 0.03 0.07 0.03 0.02 0.04 0.02 0.01 0.03 0.04 0.04 0.03 0.02 0.03 0.02 0.03 0.03 0.02 0.03 0.02ES GAGTCT 0.05 0.09 0.04 0.08 0.09 0.04 0.06 0.06 0.05 0.06 0.05 0.06 0.11 0.18 0.10 0.22 0.10 0.11 0.10 0.11 0.12 0.12 0.11ET GAAACA 0.11 0.06 0.12 0.10 0.04 0.14 0.23 0.17 0.28 0.20 0.17 0.24 0.17 0.09 0.19 0.06 0.20 0.15 0.15 0.13 0.15 0.14 0.17ET GAAACC 0.39 0.48 0.36 0.42 0.45 0.37 0.14 0.22 0.12 0.19 0.23 0.13 0.13 0.13 0.11 0.11 0.12 0.12 0.10 0.10 0.12 0.11 0.12ET GAAACG 0.25 0.19 0.32 0.18 0.21 0.24 0.11 0.07 0.09 0.08 0.05 0.11 0.08 0.05 0.08 0.03 0.09 0.03 0.02 0.02 0.04 0.03 0.03ET GAAACT 0.10 0.16 0.03 0.14 0.20 0.09 0.26 0.38 0.25 0.34 0.40 0.26 0.24 0.21 0.25 0.25 0.26 0.13 0.14 0.10 0.12 0.15 0.14ET GAGACA 0.04 0.01 0.02 0.04 0.01 0.04 0.08 0.04 0.09 0.05 0.03 0.09 0.10 0.09 0.12 0.08 0.10 0.18 0.18 0.20 0.16 0.17 0.18ET GAGACC 0.02 0.02 0.03 0.02 0.01 0.02 0.05 0.04 0.05 0.04 0.05 0.05 0.08 0.18 0.07 0.19 0.06 0.19 0.19 0.24 0.17 0.20 0.16ET GAGACG 0.08 0.05 0.09 0.07 0.05 0.07 0.04 0.02 0.04 0.03 0.02 0.04 0.05 0.04 0.04 0.02 0.06 0.06 0.06 0.08 0.07 0.06 0.05ET GAGACT 0.02 0.02 0.03 0.03 0.02 0.03 0.08 0.06 0.09 0.07 0.05 0.08 0.15 0.23 0.14 0.26 0.14 0.14 0.15 0.13 0.17 0.14 0.14EV GAAGTA 0.08 0.10 0.08 0.09 0.10 0.09 0.16 0.06 0.15 0.11 0.06 0.18 0.12 0.09 0.13 0.07 0.12 0.09 0.10 0.06 0.09 0.08 0.10EV GAAGTC 0.16 0.15 0.17 0.13 0.13 0.17 0.14 0.22 0.14 0.17 0.23 0.08 0.14 0.15 0.14 0.15 0.13 0.11 0.10 0.11 0.10 0.10 0.12EV GAAGTG 0.38 0.33 0.38 0.41 0.38 0.35 0.14 0.10 0.12 0.12 0.09 0.16 0.13 0.07 0.14 0.05 0.15 0.18 0.19 0.17 0.17 0.19 0.18EV GAAGTT 0.17 0.31 0.12 0.29 0.31 0.17 0.29 0.44 0.28 0.38 0.47 0.28 0.26 0.23 0.26 0.29 0.26 0.12 0.12 0.10 0.15 0.12 0.13EV GAGGTA 0.03 0.01 0.02 0.01 0.01 0.03 0.06 0.03 0.08 0.04 0.02 0.07 0.07 0.06 0.07 0.04 0.08 0.06 0.06 0.06 0.05 0.06 0.06EV GAGGTC 0.04 0.02 0.03 0.01 0.01 0.05 0.05 0.04 0.06 0.04 0.04 0.07 0.08 0.12 0.06 0.15 0.07 0.12 0.09 0.14 0.09 0.11 0.11

Continued on next page

Page 154: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 141

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

EV GAGGTG 0.09 0.05 0.14 0.03 0.04 0.10 0.06 0.03 0.08 0.03 0.02 0.06 0.07 0.06 0.08 0.05 0.08 0.24 0.25 0.28 0.23 0.26 0.21EV GAGGTT 0.05 0.03 0.06 0.04 0.02 0.04 0.10 0.09 0.10 0.10 0.06 0.10 0.14 0.23 0.13 0.20 0.13 0.08 0.08 0.08 0.10 0.07 0.08EW GAATGG 0.54 0.40 0.58 0.41 0.47 0.62 0.74 0.80 0.73 0.79 0.80 0.71 0.73 0.82 0.70 0.78 0.80 0.42 0.44 0.36 0.43 0.45 0.46EW GAGTGG 0.46 0.60 0.42 0.59 0.53 0.38 0.26 0.20 0.27 0.21 0.20 0.29 0.27 0.18 0.30 0.22 0.20 0.58 0.56 0.64 0.57 0.55 0.55EY GAATAC 0.28 0.45 0.23 0.38 0.36 0.28 0.28 0.43 0.30 0.33 0.43 0.23 0.25 0.27 0.28 0.28 0.23 0.20 0.19 0.23 0.20 0.18 0.21EY GAATAT 0.37 0.28 0.31 0.22 0.34 0.38 0.39 0.33 0.36 0.40 0.35 0.43 0.26 0.18 0.25 0.17 0.30 0.26 0.26 0.22 0.27 0.26 0.28EY GAGTAC 0.16 0.17 0.22 0.23 0.19 0.12 0.15 0.13 0.16 0.14 0.11 0.16 0.22 0.34 0.20 0.38 0.20 0.29 0.29 0.32 0.29 0.30 0.27EY GAGTAT 0.19 0.10 0.23 0.18 0.10 0.23 0.18 0.11 0.17 0.14 0.11 0.18 0.26 0.21 0.28 0.17 0.27 0.25 0.26 0.22 0.23 0.26 0.23F* TTCTAA 0.12 0.36 0.00 0.23 0.19 0.11 0.16 0.38 0.14 0.32 0.48 0.12 0.20 0.26 0.14 0.32 0.12 0.16 0.12 0.15 0.17 0.26 0.04F* TTCTAG 0.01 0.00 0.06 0.00 0.06 0.00 0.07 0.03 0.00 0.14 0.00 0.06 0.13 0.15 0.00 0.16 0.19 0.11 0.11 0.16 0.06 0.11 0.04F* TTCTGA 0.40 0.29 0.44 0.53 0.62 0.44 0.08 0.06 0.14 0.05 0.00 0.12 0.07 0.07 0.07 0.05 0.12 0.36 0.29 0.29 0.61 0.29 0.52F* TTTTAA 0.31 0.36 0.25 0.23 0.12 0.22 0.33 0.47 0.29 0.32 0.43 0.35 0.22 0.18 0.43 0.21 0.06 0.17 0.21 0.11 0.06 0.23 0.08F* TTTTAG 0.04 0.00 0.06 0.00 0.00 0.00 0.16 0.03 0.14 0.08 0.00 0.12 0.24 0.33 0.29 0.26 0.31 0.09 0.11 0.11 0.00 0.11 0.16F* TTTTGA 0.13 0.00 0.19 0.00 0.00 0.22 0.20 0.03 0.29 0.08 0.10 0.23 0.15 0.00 0.07 0.00 0.19 0.12 0.16 0.18 0.11 0.00 0.16FA TTCGCA 0.04 0.06 0.03 0.12 0.07 0.04 0.07 0.05 0.06 0.06 0.06 0.06 0.04 0.05 0.05 0.03 0.05 0.03 0.02 0.04 0.03 0.03 0.03FA TTCGCC 0.14 0.12 0.15 0.12 0.14 0.14 0.06 0.07 0.05 0.06 0.09 0.05 0.04 0.07 0.03 0.11 0.04 0.07 0.07 0.09 0.04 0.06 0.06FA TTCGCG 0.07 0.07 0.06 0.07 0.07 0.05 0.02 0.01 0.05 0.02 0.01 0.03 0.00 0.00 0.01 0.00 0.01 0.01 0.01 0.02 0.01 0.01 0.01FA TTCGCT 0.06 0.10 0.07 0.13 0.10 0.07 0.08 0.13 0.07 0.10 0.16 0.06 0.04 0.10 0.03 0.07 0.04 0.04 0.04 0.05 0.05 0.04 0.03FA TTTGCA 0.07 0.08 0.05 0.07 0.08 0.05 0.21 0.15 0.20 0.18 0.12 0.23 0.24 0.13 0.27 0.11 0.27 0.23 0.25 0.19 0.23 0.21 0.25FA TTTGCC 0.33 0.24 0.38 0.27 0.21 0.37 0.20 0.21 0.21 0.21 0.22 0.20 0.24 0.28 0.24 0.29 0.24 0.28 0.28 0.32 0.26 0.30 0.27FA TTTGCG 0.14 0.14 0.13 0.10 0.11 0.14 0.08 0.05 0.11 0.06 0.03 0.10 0.07 0.07 0.08 0.02 0.08 0.03 0.03 0.03 0.03 0.03 0.02FA TTTGCT 0.15 0.19 0.14 0.13 0.22 0.15 0.27 0.32 0.24 0.31 0.32 0.27 0.32 0.30 0.30 0.36 0.30 0.29 0.30 0.26 0.34 0.32 0.32FC TTCTGC 0.32 0.39 0.26 0.61 0.46 0.23 0.15 0.15 0.19 0.18 0.07 0.15 0.16 0.14 0.22 0.27 0.14 0.36 0.37 0.39 0.40 0.35 0.36FC TTCTGT 0.21 0.25 0.25 0.27 0.36 0.22 0.23 0.41 0.23 0.34 0.61 0.15 0.28 0.55 0.28 0.47 0.26 0.37 0.34 0.39 0.34 0.39 0.33FC TTTTGC 0.29 0.25 0.35 0.08 0.14 0.37 0.25 0.24 0.17 0.18 0.11 0.28 0.23 0.17 0.26 0.04 0.27 0.11 0.13 0.09 0.11 0.10 0.12FC TTTTGT 0.18 0.11 0.14 0.04 0.04 0.18 0.36 0.20 0.42 0.30 0.22 0.42 0.32 0.14 0.24 0.22 0.33 0.16 0.16 0.13 0.14 0.16 0.18FD TTCGAC 0.17 0.28 0.17 0.24 0.29 0.18 0.11 0.17 0.10 0.13 0.19 0.10 0.10 0.20 0.09 0.22 0.07 0.08 0.08 0.12 0.07 0.09 0.06FD TTCGAT 0.22 0.22 0.22 0.25 0.23 0.27 0.20 0.24 0.25 0.21 0.27 0.18 0.13 0.13 0.13 0.18 0.13 0.07 0.07 0.08 0.05 0.06 0.06FD TTTGAC 0.23 0.26 0.27 0.26 0.27 0.23 0.24 0.23 0.28 0.24 0.22 0.25 0.32 0.31 0.32 0.35 0.31 0.40 0.39 0.42 0.41 0.38 0.40FD TTTGAT 0.38 0.25 0.35 0.25 0.21 0.32 0.45 0.36 0.37 0.41 0.31 0.47 0.45 0.35 0.47 0.24 0.49 0.45 0.46 0.38 0.47 0.47 0.48FE TTCGAA 0.22 0.32 0.20 0.32 0.36 0.20 0.21 0.29 0.18 0.24 0.34 0.19 0.17 0.18 0.15 0.19 0.18 0.04 0.05 0.04 0.03 0.03 0.04FE TTCGAG 0.09 0.09 0.14 0.07 0.09 0.12 0.09 0.08 0.11 0.08 0.08 0.07 0.04 0.12 0.04 0.14 0.04 0.10 0.08 0.12 0.09 0.11 0.08FE TTTGAA 0.49 0.48 0.51 0.51 0.47 0.45 0.51 0.49 0.52 0.51 0.46 0.53 0.48 0.37 0.50 0.31 0.47 0.43 0.43 0.36 0.42 0.43 0.47FE TTTGAG 0.20 0.11 0.16 0.11 0.09 0.23 0.19 0.13 0.19 0.17 0.12 0.21 0.31 0.32 0.31 0.35 0.32 0.43 0.44 0.47 0.46 0.42 0.41FF TTCTTC 0.30 0.50 0.33 0.52 0.66 0.29 0.18 0.27 0.18 0.21 0.33 0.15 0.20 0.31 0.20 0.33 0.15 0.41 0.37 0.51 0.40 0.41 0.39FF TTCTTT 0.29 0.33 0.27 0.34 0.23 0.26 0.20 0.25 0.20 0.24 0.28 0.18 0.23 0.24 0.25 0.29 0.22 0.27 0.29 0.26 0.26 0.30 0.27FF TTTTTC 0.21 0.11 0.23 0.09 0.06 0.21 0.31 0.30 0.26 0.33 0.28 0.30 0.30 0.27 0.27 0.24 0.29 0.17 0.16 0.14 0.15 0.17 0.16FF TTTTTT 0.20 0.06 0.17 0.05 0.05 0.24 0.31 0.17 0.36 0.22 0.10 0.36 0.27 0.18 0.27 0.14 0.34 0.15 0.17 0.09 0.18 0.13 0.18FG TTCGGA 0.02 0.02 0.01 0.01 0.03 0.01 0.05 0.03 0.06 0.04 0.02 0.06 0.07 0.09 0.06 0.08 0.06 0.03 0.04 0.03 0.03 0.03 0.03FG TTCGGC 0.15 0.20 0.15 0.18 0.19 0.17 0.05 0.04 0.07 0.05 0.04 0.05 0.03 0.03 0.03 0.02 0.03 0.06 0.05 0.07 0.03 0.04 0.04FG TTCGGG 0.03 0.02 0.05 0.02 0.02 0.03 0.03 0.02 0.05 0.02 0.02 0.01 0.02 0.02 0.03 0.01 0.03 0.04 0.05 0.05 0.05 0.06 0.04FG TTCGGT 0.15 0.28 0.14 0.19 0.32 0.14 0.15 0.35 0.11 0.23 0.43 0.11 0.09 0.24 0.07 0.29 0.08 0.03 0.03 0.03 0.01 0.03 0.03FG TTTGGA 0.02 0.01 0.02 0.02 0.02 0.03 0.16 0.07 0.16 0.10 0.04 0.20 0.30 0.20 0.34 0.17 0.34 0.27 0.24 0.23 0.28 0.25 0.29FG TTTGGC 0.30 0.22 0.31 0.28 0.17 0.28 0.14 0.07 0.13 0.13 0.06 0.16 0.12 0.08 0.13 0.07 0.12 0.20 0.21 0.23 0.21 0.20 0.20FG TTTGGG 0.03 0.03 0.02 0.01 0.02 0.03 0.08 0.04 0.09 0.04 0.03 0.10 0.09 0.06 0.09 0.03 0.10 0.20 0.18 0.22 0.22 0.17 0.19FG TTTGGT 0.29 0.22 0.29 0.28 0.26 0.31 0.34 0.38 0.33 0.38 0.35 0.30 0.28 0.28 0.25 0.33 0.25 0.17 0.21 0.14 0.17 0.22 0.19FH TTCCAC 0.29 0.53 0.25 0.42 0.40 0.20 0.18 0.36 0.17 0.27 0.43 0.16 0.20 0.42 0.15 0.56 0.17 0.36 0.37 0.39 0.31 0.39 0.31FH TTCCAT 0.27 0.34 0.23 0.32 0.43 0.25 0.31 0.36 0.24 0.35 0.34 0.28 0.28 0.24 0.28 0.25 0.24 0.29 0.28 0.31 0.29 0.22 0.31FH TTTCAC 0.16 0.07 0.20 0.08 0.06 0.23 0.18 0.12 0.26 0.14 0.10 0.18 0.21 0.14 0.25 0.11 0.22 0.16 0.17 0.18 0.17 0.17 0.15FH TTTCAT 0.28 0.07 0.32 0.18 0.11 0.32 0.32 0.16 0.33 0.25 0.12 0.38 0.31 0.20 0.32 0.08 0.37 0.19 0.18 0.12 0.23 0.22 0.23FI TTCATA 0.01 0.00 0.00 0.01 0.00 0.01 0.10 0.07 0.12 0.08 0.05 0.10 0.11 0.06 0.13 0.03 0.14 0.09 0.06 0.08 0.06 0.06 0.09FI TTCATC 0.13 0.29 0.13 0.27 0.34 0.10 0.14 0.20 0.15 0.15 0.25 0.11 0.17 0.26 0.15 0.29 0.15 0.35 0.35 0.45 0.30 0.32 0.34FI TTCATT 0.10 0.14 0.10 0.11 0.11 0.09 0.22 0.28 0.22 0.26 0.27 0.22 0.25 0.27 0.24 0.34 0.23 0.24 0.26 0.24 0.28 0.29 0.24FI TTTATA 0.03 0.01 0.02 0.02 0.01 0.05 0.12 0.04 0.16 0.08 0.03 0.15 0.08 0.04 0.09 0.03 0.10 0.07 0.05 0.05 0.08 0.04 0.09FI TTTATC 0.34 0.29 0.36 0.31 0.28 0.35 0.14 0.17 0.14 0.17 0.16 0.13 0.16 0.17 0.15 0.15 0.15 0.11 0.11 0.10 0.11 0.13 0.10FI TTTATT 0.39 0.28 0.39 0.29 0.25 0.41 0.27 0.24 0.22 0.25 0.24 0.28 0.23 0.21 0.25 0.15 0.23 0.14 0.16 0.09 0.17 0.16 0.15FK TTCAAA 0.32 0.49 0.36 0.53 0.44 0.33 0.36 0.33 0.35 0.35 0.31 0.38 0.39 0.33 0.42 0.28 0.39 0.25 0.24 0.25 0.27 0.25 0.24FK TTCAAG 0.09 0.12 0.07 0.10 0.11 0.07 0.26 0.43 0.26 0.32 0.47 0.21 0.37 0.53 0.32 0.60 0.34 0.38 0.40 0.45 0.34 0.41 0.34FK TTTAAA 0.46 0.32 0.41 0.33 0.38 0.48 0.24 0.13 0.24 0.19 0.11 0.28 0.13 0.06 0.15 0.05 0.16 0.19 0.15 0.13 0.17 0.12 0.21FK TTTAAG 0.13 0.08 0.16 0.04 0.07 0.13 0.14 0.11 0.15 0.13 0.11 0.13 0.11 0.08 0.11 0.07 0.11 0.18 0.20 0.17 0.22 0.22 0.21FL TTCCTA 0.00 0.00 0.00 0.00 0.01 0.00 0.05 0.06 0.06 0.06 0.05 0.05 0.04 0.04 0.04 0.02 0.04 0.05 0.04 0.05 0.05 0.05 0.05FL TTCCTC 0.13 0.19 0.13 0.16 0.21 0.14 0.03 0.02 0.03 0.02 0.02 0.03 0.04 0.04 0.04 0.05 0.04 0.13 0.11 0.16 0.12 0.12 0.10FL TTCCTG 0.24 0.44 0.23 0.48 0.49 0.24 0.04 0.03 0.06 0.04 0.03 0.03 0.06 0.07 0.07 0.13 0.05 0.25 0.25 0.31 0.23 0.25 0.23FL TTCCTT 0.06 0.06 0.05 0.08 0.07 0.07 0.05 0.05 0.05 0.04 0.04 0.05 0.07 0.11 0.07 0.09 0.07 0.09 0.09 0.08 0.10 0.09 0.08FL TTCTTA 0.03 0.02 0.03 0.02 0.01 0.03 0.10 0.13 0.09 0.13 0.13 0.10 0.07 0.07 0.08 0.07 0.07 0.04 0.05 0.03 0.04 0.04 0.04FL TTCTTG 0.03 0.02 0.01 0.02 0.02 0.02 0.12 0.26 0.11 0.18 0.33 0.08 0.13 0.26 0.11 0.33 0.10 0.08 0.10 0.08 0.07 0.11 0.07FL TTTCTA 0.01 0.01 0.01 0.00 0.01 0.01 0.07 0.04 0.07 0.05 0.04 0.08 0.06 0.04 0.06 0.02 0.06 0.04 0.04 0.03 0.03 0.03 0.05FL TTTCTC 0.08 0.07 0.10 0.05 0.03 0.07 0.03 0.01 0.05 0.02 0.00 0.04 0.05 0.03 0.07 0.01 0.06 0.07 0.06 0.06 0.07 0.06 0.07FL TTTCTG 0.14 0.10 0.14 0.07 0.09 0.14 0.05 0.03 0.06 0.04 0.02 0.05 0.08 0.06 0.09 0.03 0.09 0.11 0.10 0.10 0.10 0.11 0.11FL TTTCTT 0.07 0.03 0.07 0.04 0.03 0.06 0.07 0.03 0.07 0.05 0.02 0.08 0.10 0.05 0.10 0.04 0.12 0.07 0.06 0.04 0.07 0.06 0.07FL TTTTTA 0.11 0.03 0.13 0.05 0.03 0.13 0.19 0.12 0.17 0.17 0.12 0.22 0.10 0.07 0.10 0.06 0.11 0.04 0.04 0.02 0.05 0.03 0.05FL TTTTTG 0.09 0.03 0.11 0.03 0.01 0.10 0.20 0.23 0.18 0.22 0.21 0.19 0.20 0.17 0.17 0.16 0.20 0.05 0.07 0.03 0.07 0.06 0.06FM TTCATG 0.18 0.42 0.10 0.41 0.28 0.16 0.49 0.61 0.53 0.51 0.57 0.43 0.59 0.76 0.60 0.75 0.59 0.71 0.72 0.80 0.69 0.76 0.70FM TTTATG 0.82 0.58 0.90 0.59 0.72 0.84 0.51 0.39 0.47 0.49 0.42 0.57 0.41 0.24 0.40 0.25 0.41 0.29 0.28 0.20 0.30 0.24 0.30FN TTCAAC 0.23 0.45 0.25 0.47 0.52 0.18 0.24 0.39 0.19 0.32 0.42 0.20 0.36 0.54 0.36 0.58 0.32 0.37 0.35 0.45 0.37 0.38 0.35FN TTCAAT 0.15 0.19 0.10 0.10 0.14 0.14 0.34 0.30 0.35 0.34 0.32 0.33 0.33 0.25 0.32 0.18 0.36 0.27 0.33 0.28 0.27 0.32 0.25FN TTTAAC 0.35 0.25 0.40 0.27 0.26 0.35 0.17 0.16 0.19 0.16 0.17 0.17 0.15 0.13 0.15 0.15 0.14 0.16 0.14 0.15 0.12 0.12 0.17FN TTTAAT 0.27 0.10 0.25 0.17 0.07 0.33 0.26 0.14 0.27 0.18 0.10 0.30 0.15 0.08 0.16 0.09 0.17 0.20 0.18 0.12 0.24 0.20 0.23FP TTCCCA 0.06 0.08 0.07 0.09 0.10 0.05 0.18 0.44 0.14 0.29 0.49 0.14 0.16 0.32 0.14 0.37 0.15 0.18 0.17 0.20 0.20 0.20 0.19FP TTCCCC 0.07 0.03 0.09 0.03 0.04 0.09 0.10 0.08 0.12 0.09 0.08 0.12 0.10 0.10 0.09 0.10 0.09 0.16 0.15 0.23 0.13 0.17 0.16FP TTCCCG 0.42 0.68 0.41 0.66 0.65 0.41 0.04 0.01 0.03 0.03 0.01 0.05 0.04 0.02 0.04 0.01 0.05 0.05 0.06 0.06 0.05 0.07 0.04FP TTCCCT 0.09 0.12 0.07 0.10 0.14 0.08 0.13 0.17 0.15 0.17 0.17 0.08 0.15 0.21 0.10 0.26 0.11 0.18 0.20 0.17 0.19 0.22 0.17FP TTTCCA 0.05 0.01 0.03 0.04 0.02 0.05 0.20 0.14 0.20 0.18 0.10 0.21 0.19 0.13 0.23 0.10 0.20 0.14 0.12 0.11 0.13 0.07 0.14FP TTTCCC 0.07 0.01 0.10 0.01 0.02 0.07 0.11 0.05 0.16 0.08 0.04 0.13 0.12 0.07 0.14 0.05 0.13 0.10 0.12 0.09 0.08 0.11 0.11FP TTTCCG 0.17 0.04 0.19 0.01 0.02 0.15 0.07 0.02 0.06 0.03 0.01 0.07 0.06 0.03 0.07 0.02 0.07 0.02 0.02 0.01 0.02 0.02 0.02FP TTTCCT 0.08 0.02 0.06 0.06 0.01 0.09 0.17 0.09 0.14 0.13 0.10 0.20 0.19 0.11 0.18 0.09 0.19 0.16 0.16 0.12 0.20 0.15 0.17FQ TTCCAA 0.03 0.02 0.01 0.00 0.00 0.04 0.33 0.62 0.25 0.47 0.67 0.29 0.24 0.36 0.21 0.41 0.20 0.16 0.17 0.18 0.16 0.19 0.17FQ TTCCAG 0.57 0.76 0.53 0.88 0.85 0.51 0.15 0.12 0.20 0.14 0.11 0.12 0.18 0.26 0.15 0.29 0.15 0.49 0.51 0.56 0.50 0.56 0.44FQ TTTCAA 0.09 0.03 0.07 0.03 0.01 0.09 0.37 0.21 0.37 0.29 0.19 0.43 0.37 0.26 0.43 0.21 0.40 0.12 0.10 0.09 0.11 0.06 0.13FQ TTTCAG 0.32 0.19 0.38 0.08 0.14 0.36 0.15 0.05 0.18 0.09 0.03 0.15 0.21 0.12 0.20 0.09 0.24 0.23 0.22 0.17 0.23 0.19 0.26FR TTCAGA 0.02 0.02 0.02 0.03 0.01 0.01 0.24 0.43 0.22 0.30 0.48 0.21 0.26 0.34 0.24 0.43 0.19 0.14 0.13 0.15 0.15 0.14 0.17FR TTCAGG 0.02 0.00 0.04 0.03 0.01 0.02 0.10 0.09 0.10 0.10 0.04 0.12 0.11 0.06 0.11 0.03 0.12 0.14 0.14 0.14 0.10 0.12 0.13FR TTCCGA 0.01 0.00 0.00 0.00 0.01 0.01 0.03 0.00 0.04 0.01 0.00 0.03 0.06 0.05 0.05 0.03 0.05 0.12 0.13 0.12 0.15 0.14 0.12FR TTCCGC 0.30 0.35 0.26 0.44 0.37 0.30 0.03 0.03 0.05 0.02 0.03 0.03 0.03 0.03 0.04 0.03 0.03 0.12 0.10 0.15 0.08 0.12 0.09FR TTCCGG 0.03 0.01 0.03 0.00 0.01 0.03 0.02 0.01 0.02 0.02 0.00 0.02 0.02 0.01 0.02 0.00 0.02 0.15 0.16 0.17 0.14 0.17 0.16FR TTCCGT 0.24 0.48 0.21 0.36 0.49 0.19 0.08 0.16 0.07 0.12 0.16 0.06 0.08 0.23 0.05 0.22 0.06 0.07 0.07 0.09 0.07 0.11 0.08FR TTTAGA 0.01 0.01 0.00 0.00 0.01 0.01 0.24 0.20 0.21 0.25 0.23 0.25 0.18 0.15 0.24 0.18 0.22 0.06 0.08 0.04 0.06 0.07 0.07FR TTTAGG 0.00 0.00 0.00 0.00 0.01 0.00 0.11 0.03 0.12 0.08 0.02 0.13 0.07 0.03 0.07 0.02 0.09 0.04 0.04 0.03 0.04 0.03 0.04FR TTTCGA 0.01 0.00 0.01 0.00 0.00 0.02 0.04 0.01 0.04 0.02 0.00 0.05 0.07 0.03 0.08 0.01 0.09 0.05 0.06 0.03 0.09 0.03 0.06FR TTTCGC 0.18 0.08 0.21 0.08 0.07 0.21 0.03 0.01 0.03 0.01 0.01 0.03 0.02 0.02 0.01 0.01 0.02 0.03 0.02 0.02 0.03 0.03 0.02FR TTTCGG 0.03 0.02 0.02 0.00 0.00 0.03 0.03 0.00 0.05 0.01 0.00 0.03 0.03 0.01 0.03 0.00 0.05 0.05 0.04 0.03 0.05 0.03 0.03FR TTTCGT 0.14 0.05 0.21 0.08 0.03 0.19 0.05 0.04 0.05 0.04 0.03 0.05 0.06 0.05 0.05 0.04 0.07 0.03 0.02 0.02 0.05 0.03 0.03FS TTCAGC 0.16 0.16 0.19 0.21 0.22 0.14 0.06 0.04 0.05 0.05 0.05 0.06 0.07 0.07 0.07 0.06 0.06 0.16 0.14 0.17 0.16 0.14 0.15FS TTCAGT 0.07 0.06 0.07 0.06 0.01 0.06 0.08 0.06 0.08 0.07 0.07 0.09 0.10 0.08 0.10 0.08 0.10 0.12 0.13 0.11 0.13 0.14 0.12FS TTCTCA 0.05 0.04 0.05 0.02 0.03 0.06 0.07 0.08 0.06 0.08 0.06 0.06 0.06 0.06 0.05 0.05 0.06 0.09 0.10 0.09 0.09 0.12 0.09FS TTCTCC 0.11 0.20 0.11 0.23 0.21 0.09 0.06 0.13 0.08 0.08 0.16 0.04 0.09 0.15 0.08 0.19 0.07 0.15 0.12 0.21 0.13 0.15 0.13FS TTCTCG 0.08 0.10 0.09 0.04 0.07 0.10 0.03 0.02 0.04 0.03 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.03 0.03 0.02 0.03 0.02FS TTCTCT 0.08 0.21 0.06 0.14 0.23 0.11 0.08 0.15 0.10 0.12 0.19 0.07 0.10 0.18 0.11 0.21 0.09 0.13 0.14 0.14 0.12 0.14 0.12FS TTTAGC 0.11 0.05 0.10 0.10 0.09 0.12 0.06 0.03 0.07 0.04 0.02 0.07 0.04 0.03 0.04 0.01 0.05 0.04 0.05 0.03 0.04 0.04 0.05FS TTTAGT 0.05 0.04 0.04 0.01 0.03 0.03 0.08 0.05 0.07 0.06 0.03 0.08 0.07 0.05 0.07 0.02 0.06 0.04 0.04 0.03 0.04 0.03 0.04FS TTTTCA 0.06 0.01 0.07 0.03 0.01 0.07 0.14 0.10 0.14 0.12 0.08 0.16 0.14 0.08 0.16 0.06 0.16 0.07 0.06 0.05 0.08 0.06 0.09FS TTTTCC 0.09 0.07 0.10 0.08 0.04 0.10 0.11 0.11 0.10 0.11 0.12 0.11 0.11 0.10 0.11 0.11 0.12 0.08 0.08 0.07 0.08 0.05 0.07FS TTTTCG 0.06 0.02 0.05 0.02 0.01 0.04 0.06 0.05 0.05 0.06 0.04 0.07 0.05 0.04 0.06 0.04 0.06 0.01 0.01 0.01 0.01 0.01 0.01FS TTTTCT 0.08 0.04 0.07 0.06 0.06 0.08 0.18 0.18 0.17 0.19 0.16 0.16 0.15 0.14 0.13 0.16 0.16 0.10 0.11 0.07 0.11 0.09 0.11FT TTCACA 0.03 0.04 0.04 0.02 0.05 0.05 0.12 0.11 0.14 0.10 0.08 0.13 0.14 0.11 0.14 0.06 0.16 0.20 0.20 0.20 0.21 0.19 0.20FT TTCACC 0.22 0.32 0.24 0.33 0.40 0.20 0.12 0.18 0.14 0.15 0.18 0.10 0.15 0.24 0.14 0.30 0.10 0.24 0.26 0.32 0.19 0.27 0.24FT TTCACG 0.06 0.05 0.06 0.02 0.04 0.07 0.06 0.04 0.06 0.05 0.04 0.06 0.06 0.03 0.07 0.01 0.05 0.05 0.06 0.06 0.07 0.05 0.05FT TTCACT 0.09 0.16 0.07 0.18 0.17 0.06 0.17 0.25 0.14 0.22 0.33 0.16 0.20 0.29 0.20 0.37 0.18 0.18 0.19 0.19 0.20 0.21 0.18FT TTTACA 0.04 0.03 0.04 0.03 0.02 0.04 0.14 0.10 0.14 0.12 0.07 0.15 0.12 0.09 0.12 0.06 0.16 0.10 0.09 0.07 0.11 0.08 0.12FT TTTACC 0.34 0.23 0.33 0.19 0.17 0.35 0.13 0.12 0.14 0.12 0.14 0.12 0.12 0.11 0.14 0.09 0.12 0.10 0.08 0.09 0.09 0.08 0.09FT TTTACG 0.10 0.07 0.12 0.09 0.06 0.11 0.08 0.04 0.07 0.05 0.03 0.10 0.05 0.02 0.04 0.01 0.05 0.01 0.01 0.01 0.02 0.01 0.02FT TTTACT 0.12 0.09 0.10 0.15 0.10 0.14 0.18 0.15 0.18 0.18 0.14 0.18 0.16 0.11 0.14 0.10 0.17 0.10 0.10 0.06 0.12 0.10 0.11FV TTCGTA 0.03 0.10 0.02 0.09 0.10 0.02 0.05 0.03 0.05 0.04 0.02 0.04 0.04 0.06 0.05 0.04 0.03 0.02 0.01 0.02 0.02 0.02 0.02FV TTCGTC 0.09 0.09 0.11 0.05 0.08 0.10 0.07 0.11 0.07 0.08 0.14 0.05 0.07 0.15 0.05 0.17 0.06 0.05 0.03 0.06 0.05 0.04 0.03FV TTCGTG 0.08 0.09 0.09 0.07 0.07 0.06 0.04 0.04 0.05 0.04 0.06 0.05 0.04 0.03 0.04 0.03 0.04 0.10 0.10 0.13 0.08 0.11 0.09FV TTCGTT 0.10 0.20 0.09 0.17 0.24 0.06 0.12 0.17 0.11 0.13 0.19 0.08 0.10 0.15 0.10 0.17 0.10 0.02 0.02 0.02 0.02 0.03 0.02FV TTTGTA 0.06 0.07 0.06 0.09 0.07 0.08 0.14 0.05 0.15 0.09 0.06 0.15 0.12 0.07 0.15 0.06 0.13 0.11 0.10 0.08 0.11 0.10 0.13FV TTTGTC 0.24 0.14 0.25 0.16 0.11 0.30 0.15 0.20 0.15 0.17 0.17 0.14 0.17 0.16 0.17 0.17 0.17 0.18 0.17 0.20 0.16 0.16 0.17FV TTTGTG 0.19 0.12 0.19 0.10 0.10 0.18 0.12 0.07 0.15 0.09 0.05 0.15 0.17 0.11 0.17 0.07 0.16 0.35 0.36 0.36 0.37 0.38 0.34FV TTTGTT 0.21 0.20 0.18 0.28 0.22 0.20 0.32 0.32 0.26 0.35 0.33 0.33 0.29 0.27 0.28 0.29 0.32 0.17 0.20 0.12 0.20 0.16 0.20FW TTCTGG 0.88 0.94 0.91 0.96 0.95 0.89 0.37 0.51 0.43 0.45 0.66 0.30 0.40 0.62 0.41 0.63 0.30 0.72 0.72 0.78 0.76 0.72 0.73FW TTTTGG 0.12 0.06 0.09 0.04 0.05 0.11 0.63 0.49 0.57 0.55 0.34 0.70 0.60 0.38 0.58 0.37 0.70 0.28 0.28 0.22 0.24 0.28 0.27FY TTCTAC 0.21 0.49 0.21 0.47 0.46 0.17 0.17 0.33 0.18 0.23 0.35 0.15 0.27 0.47 0.27 0.53 0.23 0.37 0.38 0.42 0.34 0.40 0.32FY TTCTAT 0.21 0.19 0.18 0.19 0.28 0.21 0.18 0.20 0.15 0.19 0.21 0.15 0.20 0.18 0.18 0.14 0.20 0.26 0.31 0.29 0.25 0.29 0.24FY TTTTAC 0.22 0.11 0.22 0.12 0.07 0.26 0.30 0.24 0.31 0.30 0.25 0.29 0.26 0.24 0.28 0.24 0.29 0.15 0.14 0.13 0.13 0.10 0.17FY TTTTAT 0.35 0.20 0.39 0.22 0.19 0.35 0.35 0.22 0.36 0.28 0.19 0.41 0.27 0.11 0.27 0.09 0.28 0.21 0.17 0.15 0.29 0.20 0.26G* GGATAA 0.13 0.04 0.18 0.00 0.00 0.15 0.10 0.00 0.18 0.00 0.00 0.40 0.12 0.00 0.13 0.00 0.08 0.08 0.08 0.05 0.00 0.12 0.12G* GGATAG 0.03 0.00 0.07 0.00 0.00 0.00 0.04 0.00 0.09 0.00 0.00 0.10 0.07 0.00 0.09 0.00 0.00 0.05 0.03 0.06 0.00 0.00 0.00G* GGATGA 0.05 0.00 0.07 0.00 0.00 0.15 0.10 0.00 0.18 0.11 0.14 0.00 0.05 0.00 0.09 0.00 0.08 0.08 0.09 0.11 0.12 0.00 0.08G* GGCTAA 0.13 0.24 0.26 0.29 0.31 0.15 0.09 0.00 0.00 0.22 0.00 0.00 0.10 0.00 0.04 0.00 0.15 0.10 0.11 0.12 0.50 0.06 0.12G* GGCTAG 0.00 0.00 0.04 0.00 0.00 0.00 0.04 0.00 0.09 0.00 0.00 0.00 0.05 0.00 0.09 0.00 0.08 0.08 0.06 0.08 0.00 0.18 0.12G* GGCTGA 0.10 0.12 0.00 0.00 0.06 0.00 0.10 0.00 0.09 0.11 0.14 0.00 0.10 0.00 0.09 0.00 0.00 0.24 0.21 0.27 0.12 0.18 0.31

Continued on next page

Page 155: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 142

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

G* GGGTAA 0.18 0.24 0.04 0.14 0.25 0.15 0.03 0.00 0.00 0.00 0.00 0.00 0.03 0.17 0.00 0.00 0.00 0.05 0.08 0.06 0.00 0.06 0.08G* GGGTAG 0.02 0.00 0.04 0.00 0.00 0.00 0.02 0.00 0.09 0.00 0.00 0.00 0.05 0.00 0.00 0.00 0.08 0.06 0.11 0.05 0.00 0.06 0.00G* GGGTGA 0.06 0.04 0.04 0.07 0.00 0.10 0.02 0.00 0.00 0.00 0.00 0.00 0.05 0.00 0.09 0.00 0.00 0.11 0.11 0.08 0.12 0.06 0.04G* GGTTAA 0.25 0.24 0.22 0.43 0.31 0.15 0.24 0.40 0.09 0.33 0.57 0.40 0.15 0.33 0.13 0.33 0.23 0.05 0.09 0.06 0.00 0.18 0.08G* GGTTAG 0.01 0.00 0.00 0.00 0.00 0.05 0.07 0.20 0.00 0.00 0.00 0.00 0.16 0.50 0.17 0.67 0.23 0.05 0.01 0.02 0.00 0.00 0.04G* GGTTGA 0.06 0.08 0.04 0.07 0.06 0.10 0.15 0.40 0.18 0.22 0.14 0.10 0.07 0.00 0.09 0.00 0.08 0.05 0.03 0.05 0.12 0.12 0.04GA GGAGCA 0.02 0.01 0.01 0.02 0.01 0.03 0.06 0.02 0.08 0.03 0.01 0.09 0.10 0.05 0.14 0.02 0.11 0.10 0.08 0.08 0.11 0.08 0.11GA GGAGCC 0.02 0.01 0.02 0.00 0.01 0.02 0.03 0.01 0.03 0.02 0.01 0.04 0.08 0.07 0.07 0.06 0.09 0.13 0.12 0.13 0.11 0.12 0.14GA GGAGCG 0.03 0.01 0.03 0.01 0.01 0.04 0.02 0.00 0.02 0.01 0.00 0.03 0.02 0.01 0.03 0.00 0.02 0.02 0.02 0.02 0.01 0.01 0.02GA GGAGCT 0.01 0.01 0.01 0.00 0.01 0.01 0.06 0.03 0.08 0.04 0.01 0.06 0.15 0.13 0.14 0.13 0.14 0.11 0.11 0.09 0.12 0.11 0.11GA GGCGCA 0.16 0.17 0.19 0.20 0.16 0.15 0.05 0.03 0.05 0.04 0.03 0.05 0.03 0.02 0.03 0.01 0.04 0.02 0.02 0.01 0.02 0.02 0.02GA GGCGCC 0.00 0.01 0.01 0.01 0.01 0.01 0.04 0.03 0.06 0.04 0.03 0.06 0.02 0.02 0.01 0.02 0.02 0.04 0.05 0.04 0.04 0.06 0.03GA GGCGCG 0.20 0.19 0.21 0.21 0.18 0.18 0.01 0.00 0.03 0.01 0.00 0.01 0.00 0.00 0.00 0.00 0.01 0.01 0.01 0.01 0.02 0.02 0.01GA GGCGCT 0.07 0.11 0.07 0.10 0.12 0.07 0.08 0.06 0.09 0.06 0.06 0.06 0.04 0.03 0.04 0.02 0.03 0.03 0.03 0.02 0.02 0.04 0.02GA GGGGCA 0.04 0.02 0.03 0.03 0.02 0.04 0.03 0.01 0.03 0.02 0.01 0.05 0.03 0.01 0.03 0.01 0.03 0.07 0.04 0.06 0.06 0.05 0.06GA GGGGCC 0.02 0.01 0.03 0.02 0.01 0.03 0.02 0.01 0.02 0.01 0.01 0.02 0.03 0.01 0.03 0.01 0.02 0.11 0.10 0.13 0.09 0.10 0.08GA GGGGCG 0.07 0.03 0.08 0.03 0.03 0.08 0.01 0.00 0.02 0.01 0.00 0.02 0.01 0.00 0.01 0.00 0.01 0.02 0.02 0.02 0.03 0.02 0.02GA GGGGCT 0.02 0.02 0.01 0.02 0.02 0.02 0.03 0.01 0.03 0.02 0.01 0.04 0.04 0.03 0.05 0.01 0.06 0.09 0.09 0.11 0.10 0.08 0.09GA GGTGCA 0.07 0.09 0.05 0.07 0.10 0.05 0.13 0.10 0.13 0.12 0.09 0.14 0.10 0.07 0.11 0.06 0.14 0.07 0.07 0.06 0.07 0.07 0.07GA GGTGCC 0.09 0.08 0.09 0.07 0.06 0.08 0.14 0.23 0.10 0.19 0.23 0.09 0.13 0.20 0.11 0.25 0.12 0.11 0.12 0.12 0.11 0.11 0.11GA GGTGCG 0.12 0.13 0.13 0.11 0.14 0.15 0.05 0.03 0.04 0.03 0.03 0.04 0.03 0.02 0.03 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01GA GGTGCT 0.05 0.10 0.03 0.10 0.11 0.04 0.23 0.43 0.20 0.35 0.47 0.21 0.21 0.33 0.18 0.38 0.15 0.10 0.10 0.08 0.11 0.10 0.11GC GGATGC 0.06 0.02 0.07 0.03 0.05 0.03 0.09 0.04 0.11 0.04 0.01 0.11 0.13 0.18 0.14 0.04 0.16 0.08 0.07 0.08 0.06 0.07 0.07GC GGATGT 0.05 0.04 0.06 0.00 0.03 0.08 0.14 0.07 0.16 0.10 0.10 0.14 0.24 0.25 0.22 0.28 0.20 0.09 0.05 0.07 0.10 0.07 0.11GC GGCTGC 0.28 0.30 0.38 0.29 0.32 0.24 0.08 0.05 0.13 0.05 0.02 0.09 0.07 0.07 0.05 0.06 0.09 0.30 0.32 0.33 0.34 0.31 0.27GC GGCTGT 0.24 0.24 0.18 0.27 0.26 0.23 0.17 0.13 0.15 0.16 0.16 0.18 0.12 0.06 0.14 0.07 0.15 0.27 0.26 0.27 0.22 0.26 0.27GC GGGTGC 0.01 0.00 0.02 0.00 0.00 0.02 0.04 0.02 0.03 0.03 0.03 0.06 0.05 0.02 0.08 0.02 0.07 0.06 0.04 0.06 0.06 0.06 0.05GC GGGTGT 0.04 0.01 0.03 0.02 0.00 0.06 0.06 0.04 0.05 0.05 0.03 0.03 0.07 0.08 0.06 0.03 0.08 0.06 0.08 0.07 0.06 0.08 0.06GC GGTTGC 0.16 0.20 0.17 0.25 0.21 0.20 0.16 0.19 0.17 0.17 0.08 0.15 0.12 0.09 0.14 0.11 0.12 0.06 0.08 0.07 0.07 0.08 0.06GC GGTTGT 0.15 0.19 0.10 0.14 0.13 0.14 0.27 0.48 0.20 0.40 0.58 0.24 0.19 0.26 0.18 0.39 0.13 0.07 0.10 0.05 0.08 0.07 0.10GD GGAGAC 0.02 0.01 0.02 0.00 0.01 0.03 0.07 0.04 0.12 0.04 0.02 0.07 0.14 0.14 0.15 0.13 0.14 0.20 0.19 0.19 0.19 0.19 0.20GD GGAGAT 0.04 0.01 0.03 0.02 0.01 0.02 0.13 0.06 0.14 0.10 0.06 0.16 0.21 0.16 0.23 0.14 0.23 0.18 0.17 0.14 0.19 0.17 0.19GD GGCGAC 0.19 0.27 0.21 0.25 0.29 0.15 0.07 0.03 0.08 0.04 0.04 0.08 0.04 0.04 0.03 0.04 0.05 0.04 0.04 0.05 0.04 0.05 0.03GD GGCGAT 0.39 0.32 0.40 0.36 0.29 0.44 0.12 0.07 0.12 0.11 0.06 0.14 0.07 0.05 0.08 0.04 0.08 0.03 0.04 0.04 0.03 0.04 0.03GD GGGGAC 0.01 0.01 0.03 0.01 0.01 0.03 0.03 0.02 0.05 0.02 0.01 0.03 0.04 0.04 0.05 0.01 0.04 0.17 0.15 0.20 0.17 0.15 0.15GD GGGGAT 0.05 0.04 0.04 0.03 0.03 0.05 0.05 0.03 0.04 0.04 0.02 0.07 0.07 0.03 0.08 0.01 0.10 0.12 0.11 0.13 0.10 0.10 0.11GD GGTGAC 0.11 0.17 0.14 0.17 0.17 0.10 0.20 0.34 0.18 0.27 0.41 0.15 0.17 0.30 0.13 0.34 0.13 0.15 0.16 0.15 0.14 0.15 0.15GD GGTGAT 0.19 0.16 0.14 0.17 0.19 0.16 0.33 0.41 0.27 0.38 0.39 0.30 0.25 0.24 0.24 0.27 0.24 0.12 0.15 0.10 0.13 0.15 0.12GE GGAGAA 0.06 0.03 0.06 0.02 0.02 0.07 0.15 0.07 0.16 0.11 0.06 0.18 0.22 0.16 0.24 0.14 0.26 0.19 0.19 0.17 0.20 0.17 0.22GE GGAGAG 0.03 0.01 0.03 0.01 0.00 0.04 0.07 0.02 0.10 0.04 0.03 0.07 0.15 0.15 0.15 0.13 0.17 0.22 0.21 0.21 0.20 0.21 0.21GE GGCGAA 0.30 0.39 0.30 0.45 0.39 0.31 0.13 0.09 0.14 0.11 0.10 0.14 0.07 0.05 0.08 0.04 0.07 0.02 0.03 0.03 0.02 0.03 0.02GE GGCGAG 0.14 0.10 0.15 0.12 0.13 0.14 0.05 0.03 0.06 0.04 0.02 0.05 0.05 0.02 0.05 0.03 0.06 0.07 0.08 0.08 0.08 0.10 0.05GE GGGGAA 0.07 0.04 0.06 0.04 0.03 0.07 0.07 0.03 0.06 0.05 0.03 0.09 0.07 0.04 0.10 0.02 0.08 0.11 0.10 0.11 0.11 0.09 0.11GE GGGGAG 0.03 0.02 0.05 0.01 0.01 0.04 0.04 0.01 0.04 0.02 0.01 0.04 0.04 0.02 0.04 0.01 0.05 0.17 0.16 0.20 0.18 0.15 0.16GE GGTGAA 0.27 0.31 0.26 0.29 0.34 0.25 0.36 0.62 0.29 0.49 0.65 0.29 0.24 0.26 0.21 0.30 0.21 0.11 0.13 0.10 0.11 0.13 0.12GE GGTGAG 0.10 0.10 0.08 0.06 0.07 0.07 0.13 0.13 0.13 0.14 0.11 0.14 0.14 0.30 0.12 0.34 0.11 0.11 0.11 0.11 0.09 0.12 0.11GF GGATTC 0.05 0.04 0.06 0.04 0.04 0.04 0.09 0.07 0.07 0.09 0.05 0.09 0.17 0.19 0.14 0.19 0.16 0.09 0.09 0.09 0.09 0.09 0.09GF GGATTT 0.10 0.04 0.10 0.03 0.04 0.09 0.20 0.08 0.27 0.15 0.09 0.21 0.24 0.16 0.23 0.16 0.24 0.13 0.14 0.10 0.14 0.14 0.15GF GGCTTC 0.16 0.27 0.15 0.25 0.26 0.18 0.06 0.05 0.04 0.07 0.06 0.06 0.06 0.06 0.07 0.05 0.05 0.28 0.24 0.34 0.27 0.23 0.23GF GGCTTT 0.23 0.18 0.23 0.17 0.18 0.21 0.10 0.07 0.13 0.08 0.05 0.13 0.08 0.06 0.08 0.04 0.08 0.20 0.21 0.20 0.19 0.22 0.20GF GGGTTC 0.03 0.02 0.03 0.02 0.01 0.03 0.09 0.12 0.10 0.10 0.11 0.09 0.08 0.06 0.10 0.04 0.07 0.06 0.05 0.08 0.08 0.06 0.07GF GGGTTT 0.06 0.05 0.04 0.02 0.03 0.07 0.15 0.11 0.16 0.12 0.09 0.15 0.12 0.07 0.13 0.04 0.14 0.08 0.08 0.06 0.07 0.07 0.08GF GGTTTC 0.13 0.18 0.12 0.22 0.23 0.10 0.16 0.33 0.10 0.23 0.39 0.13 0.13 0.28 0.12 0.36 0.12 0.09 0.08 0.09 0.07 0.07 0.09GF GGTTTT 0.25 0.22 0.27 0.25 0.21 0.28 0.15 0.17 0.13 0.18 0.17 0.14 0.13 0.12 0.11 0.12 0.13 0.08 0.11 0.06 0.11 0.12 0.10GG GGAGGA 0.01 0.00 0.01 0.01 0.00 0.01 0.06 0.01 0.07 0.04 0.01 0.06 0.15 0.10 0.15 0.09 0.15 0.11 0.11 0.09 0.11 0.10 0.12GG GGAGGC 0.02 0.01 0.01 0.02 0.01 0.03 0.04 0.01 0.04 0.03 0.01 0.04 0.06 0.03 0.06 0.04 0.06 0.11 0.10 0.11 0.10 0.10 0.10GG GGAGGG 0.01 0.00 0.01 0.00 0.00 0.00 0.03 0.01 0.03 0.01 0.00 0.03 0.04 0.02 0.07 0.01 0.06 0.07 0.05 0.07 0.07 0.05 0.07GG GGAGGT 0.01 0.00 0.01 0.01 0.01 0.01 0.07 0.04 0.06 0.06 0.04 0.07 0.13 0.11 0.12 0.11 0.11 0.07 0.07 0.07 0.07 0.09 0.07GG GGCGGA 0.06 0.04 0.06 0.04 0.02 0.05 0.04 0.01 0.05 0.02 0.01 0.06 0.04 0.03 0.04 0.03 0.05 0.02 0.02 0.02 0.01 0.01 0.01GG GGCGGC 0.27 0.27 0.29 0.27 0.26 0.29 0.04 0.02 0.06 0.04 0.02 0.05 0.02 0.01 0.01 0.01 0.02 0.04 0.05 0.05 0.04 0.05 0.04GG GGCGGG 0.07 0.03 0.09 0.04 0.02 0.10 0.02 0.00 0.02 0.01 0.00 0.03 0.01 0.01 0.01 0.01 0.01 0.03 0.02 0.02 0.02 0.02 0.02GG GGCGGT 0.22 0.26 0.21 0.21 0.27 0.18 0.08 0.07 0.07 0.07 0.06 0.08 0.03 0.04 0.03 0.03 0.03 0.02 0.02 0.02 0.02 0.02 0.02GG GGGGGA 0.01 0.00 0.01 0.01 0.00 0.01 0.02 0.01 0.03 0.01 0.00 0.02 0.03 0.03 0.04 0.01 0.03 0.04 0.03 0.04 0.04 0.03 0.04GG GGGGGC 0.02 0.01 0.02 0.01 0.01 0.02 0.02 0.01 0.03 0.01 0.01 0.01 0.01 0.00 0.01 0.00 0.01 0.09 0.06 0.09 0.07 0.06 0.07GG GGGGGG 0.01 0.00 0.00 0.01 0.00 0.00 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.00 0.01 0.00 0.01 0.02 0.02 0.03 0.03 0.01 0.02GG GGGGGT 0.01 0.01 0.00 0.02 0.01 0.01 0.02 0.02 0.01 0.02 0.01 0.03 0.03 0.01 0.03 0.01 0.03 0.04 0.04 0.04 0.04 0.04 0.04GG GGTGGA 0.03 0.01 0.03 0.01 0.01 0.02 0.09 0.05 0.12 0.07 0.03 0.13 0.14 0.17 0.14 0.16 0.15 0.08 0.10 0.08 0.10 0.11 0.09GG GGTGGC 0.11 0.13 0.12 0.12 0.14 0.10 0.09 0.08 0.10 0.09 0.09 0.08 0.05 0.04 0.05 0.04 0.05 0.11 0.11 0.13 0.12 0.11 0.12GG GGTGGG 0.04 0.02 0.03 0.02 0.01 0.04 0.06 0.04 0.05 0.05 0.04 0.07 0.04 0.03 0.06 0.02 0.04 0.07 0.07 0.07 0.06 0.07 0.08GG GGTGGT 0.12 0.20 0.10 0.20 0.23 0.12 0.33 0.61 0.25 0.46 0.66 0.22 0.19 0.37 0.16 0.43 0.17 0.08 0.11 0.07 0.11 0.13 0.08GH GGACAC 0.05 0.03 0.06 0.03 0.02 0.06 0.10 0.04 0.09 0.06 0.03 0.07 0.10 0.16 0.07 0.15 0.10 0.14 0.16 0.14 0.10 0.17 0.14GH GGACAT 0.08 0.04 0.11 0.02 0.04 0.07 0.12 0.06 0.18 0.07 0.08 0.13 0.17 0.14 0.16 0.07 0.18 0.12 0.10 0.09 0.12 0.10 0.10GH GGCCAC 0.08 0.14 0.06 0.12 0.16 0.10 0.10 0.11 0.07 0.10 0.10 0.12 0.10 0.11 0.12 0.09 0.08 0.23 0.21 0.25 0.23 0.21 0.20GH GGCCAT 0.11 0.10 0.13 0.08 0.12 0.10 0.17 0.13 0.17 0.19 0.11 0.20 0.17 0.10 0.18 0.09 0.19 0.16 0.16 0.17 0.20 0.16 0.16GH GGGCAC 0.06 0.09 0.04 0.07 0.07 0.05 0.05 0.01 0.08 0.02 0.01 0.05 0.04 0.04 0.05 0.04 0.04 0.10 0.07 0.10 0.12 0.10 0.09GH GGGCAT 0.17 0.09 0.14 0.12 0.05 0.18 0.08 0.04 0.11 0.06 0.02 0.11 0.08 0.03 0.07 0.02 0.09 0.08 0.09 0.08 0.06 0.07 0.12GH GGTCAC 0.21 0.36 0.26 0.28 0.34 0.20 0.14 0.30 0.12 0.23 0.35 0.14 0.14 0.27 0.14 0.38 0.10 0.09 0.11 0.10 0.08 0.10 0.10GH GGTCAT 0.24 0.15 0.21 0.27 0.21 0.26 0.23 0.31 0.18 0.28 0.29 0.18 0.20 0.15 0.21 0.16 0.22 0.09 0.10 0.07 0.09 0.09 0.09GI GGAATA 0.02 0.01 0.01 0.00 0.00 0.01 0.07 0.01 0.11 0.04 0.01 0.10 0.10 0.06 0.11 0.03 0.13 0.06 0.05 0.04 0.07 0.04 0.06GI GGAATC 0.02 0.01 0.01 0.01 0.01 0.02 0.04 0.01 0.05 0.03 0.01 0.07 0.11 0.09 0.12 0.07 0.10 0.09 0.08 0.09 0.10 0.07 0.10GI GGAATT 0.06 0.03 0.04 0.03 0.02 0.05 0.09 0.04 0.10 0.07 0.03 0.11 0.17 0.13 0.16 0.12 0.17 0.10 0.11 0.08 0.12 0.10 0.11GI GGCATA 0.02 0.01 0.02 0.00 0.01 0.03 0.06 0.02 0.07 0.03 0.01 0.07 0.04 0.01 0.04 0.00 0.04 0.04 0.05 0.04 0.03 0.04 0.05GI GGCATC 0.12 0.15 0.16 0.16 0.16 0.12 0.04 0.04 0.05 0.03 0.03 0.04 0.04 0.01 0.03 0.01 0.03 0.23 0.25 0.29 0.21 0.28 0.20GI GGCATT 0.21 0.18 0.20 0.19 0.17 0.21 0.08 0.04 0.09 0.06 0.03 0.08 0.06 0.04 0.07 0.03 0.06 0.14 0.15 0.15 0.17 0.17 0.15GI GGGATA 0.02 0.01 0.02 0.00 0.01 0.02 0.03 0.01 0.03 0.02 0.00 0.04 0.04 0.01 0.05 0.00 0.04 0.04 0.03 0.03 0.04 0.02 0.04GI GGGATC 0.09 0.05 0.12 0.08 0.05 0.11 0.02 0.01 0.03 0.02 0.01 0.03 0.03 0.03 0.04 0.01 0.03 0.09 0.07 0.11 0.09 0.07 0.08GI GGGATT 0.11 0.05 0.13 0.06 0.04 0.14 0.04 0.02 0.04 0.03 0.01 0.04 0.04 0.01 0.03 0.01 0.05 0.07 0.06 0.06 0.07 0.06 0.08GI GGTATA 0.01 0.01 0.01 0.00 0.01 0.02 0.12 0.06 0.12 0.09 0.04 0.14 0.07 0.04 0.09 0.03 0.07 0.02 0.02 0.02 0.02 0.03 0.02GI GGTATC 0.14 0.30 0.12 0.26 0.34 0.13 0.14 0.30 0.10 0.23 0.35 0.10 0.13 0.31 0.10 0.34 0.11 0.05 0.07 0.06 0.04 0.07 0.04GI GGTATT 0.19 0.19 0.16 0.21 0.19 0.14 0.26 0.43 0.21 0.36 0.46 0.19 0.18 0.26 0.17 0.34 0.17 0.05 0.07 0.04 0.04 0.06 0.05GK GGAAAA 0.10 0.04 0.09 0.05 0.04 0.10 0.15 0.05 0.17 0.11 0.04 0.19 0.19 0.12 0.24 0.09 0.22 0.13 0.12 0.11 0.12 0.11 0.16GK GGAAAG 0.02 0.01 0.03 0.02 0.01 0.02 0.10 0.05 0.12 0.07 0.04 0.10 0.19 0.21 0.17 0.22 0.21 0.13 0.13 0.12 0.14 0.14 0.14GK GGCAAA 0.28 0.25 0.31 0.29 0.23 0.30 0.10 0.06 0.12 0.09 0.05 0.11 0.10 0.07 0.10 0.04 0.10 0.13 0.15 0.14 0.13 0.15 0.13GK GGCAAG 0.09 0.09 0.12 0.06 0.09 0.12 0.08 0.05 0.10 0.07 0.05 0.05 0.08 0.07 0.07 0.05 0.08 0.19 0.23 0.22 0.19 0.26 0.16GK GGGAAA 0.09 0.05 0.08 0.06 0.05 0.10 0.09 0.03 0.09 0.05 0.03 0.10 0.07 0.03 0.08 0.01 0.10 0.15 0.12 0.13 0.15 0.10 0.15GK GGGAAG 0.02 0.01 0.03 0.02 0.01 0.03 0.06 0.02 0.08 0.03 0.02 0.08 0.06 0.02 0.06 0.01 0.06 0.19 0.17 0.22 0.20 0.17 0.19GK GGTAAA 0.31 0.46 0.26 0.41 0.49 0.24 0.24 0.29 0.18 0.29 0.28 0.22 0.16 0.14 0.16 0.17 0.15 0.05 0.05 0.04 0.06 0.05 0.05GK GGTAAG 0.09 0.09 0.08 0.11 0.09 0.08 0.18 0.45 0.15 0.28 0.48 0.14 0.15 0.34 0.12 0.41 0.09 0.02 0.03 0.02 0.01 0.02 0.02GL GGACTA 0.01 0.00 0.01 0.00 0.00 0.01 0.03 0.01 0.04 0.02 0.01 0.04 0.04 0.03 0.04 0.02 0.05 0.02 0.02 0.02 0.02 0.01 0.02GL GGACTC 0.01 0.01 0.01 0.00 0.00 0.01 0.01 0.00 0.02 0.01 0.00 0.02 0.03 0.02 0.03 0.02 0.03 0.04 0.04 0.04 0.04 0.04 0.04GL GGACTG 0.05 0.05 0.05 0.04 0.03 0.06 0.03 0.01 0.04 0.02 0.01 0.04 0.05 0.04 0.05 0.04 0.05 0.07 0.05 0.06 0.06 0.06 0.06GL GGACTT 0.01 0.01 0.01 0.01 0.00 0.01 0.03 0.01 0.04 0.01 0.00 0.03 0.05 0.04 0.07 0.03 0.06 0.04 0.04 0.03 0.03 0.03 0.04GL GGATTA 0.04 0.02 0.05 0.01 0.02 0.03 0.07 0.03 0.05 0.05 0.03 0.08 0.07 0.05 0.06 0.03 0.07 0.02 0.02 0.01 0.03 0.02 0.02GL GGATTG 0.02 0.01 0.03 0.01 0.01 0.03 0.06 0.03 0.05 0.04 0.03 0.07 0.09 0.08 0.07 0.09 0.09 0.03 0.03 0.02 0.03 0.03 0.03GL GGCCTA 0.00 0.00 0.00 0.00 0.00 0.01 0.03 0.01 0.02 0.02 0.02 0.02 0.02 0.01 0.02 0.00 0.02 0.03 0.02 0.03 0.02 0.04 0.03GL GGCCTC 0.02 0.02 0.03 0.01 0.03 0.02 0.01 0.01 0.02 0.01 0.01 0.01 0.02 0.01 0.02 0.01 0.02 0.08 0.07 0.09 0.08 0.07 0.08GL GGCCTG 0.15 0.25 0.14 0.23 0.25 0.13 0.02 0.01 0.02 0.02 0.01 0.02 0.02 0.02 0.03 0.02 0.03 0.14 0.15 0.16 0.12 0.16 0.11GL GGCCTT 0.02 0.02 0.02 0.03 0.02 0.03 0.03 0.01 0.03 0.02 0.01 0.02 0.03 0.03 0.04 0.03 0.03 0.06 0.06 0.05 0.06 0.05 0.06GL GGCTTA 0.04 0.02 0.04 0.02 0.01 0.04 0.05 0.03 0.04 0.04 0.03 0.06 0.03 0.02 0.03 0.02 0.03 0.03 0.02 0.02 0.02 0.03 0.03GL GGCTTG 0.03 0.03 0.02 0.00 0.01 0.02 0.04 0.04 0.04 0.04 0.03 0.05 0.04 0.04 0.04 0.03 0.04 0.06 0.07 0.06 0.06 0.07 0.05GL GGGCTA 0.02 0.00 0.01 0.00 0.00 0.02 0.03 0.02 0.04 0.03 0.01 0.03 0.02 0.01 0.02 0.00 0.03 0.02 0.02 0.02 0.02 0.02 0.02GL GGGCTC 0.00 0.00 0.01 0.00 0.00 0.00 0.01 0.01 0.03 0.01 0.00 0.01 0.01 0.01 0.02 0.01 0.01 0.05 0.04 0.06 0.06 0.04 0.05GL GGGCTG 0.15 0.08 0.18 0.11 0.08 0.18 0.02 0.01 0.03 0.02 0.01 0.04 0.03 0.03 0.03 0.01 0.03 0.09 0.09 0.10 0.09 0.09 0.08GL GGGCTT 0.03 0.03 0.03 0.02 0.01 0.03 0.03 0.02 0.04 0.01 0.00 0.03 0.03 0.02 0.03 0.01 0.04 0.03 0.03 0.03 0.03 0.02 0.04GL GGGTTA 0.04 0.01 0.02 0.02 0.01 0.04 0.04 0.04 0.04 0.04 0.03 0.03 0.03 0.01 0.02 0.01 0.03 0.01 0.01 0.01 0.02 0.01 0.02GL GGGTTG 0.03 0.02 0.04 0.02 0.02 0.03 0.05 0.05 0.04 0.06 0.06 0.04 0.04 0.03 0.05 0.03 0.04 0.02 0.02 0.02 0.03 0.03 0.02GL GGTCTA 0.00 0.00 0.01 0.00 0.00 0.01 0.06 0.09 0.05 0.07 0.09 0.04 0.04 0.04 0.04 0.04 0.03 0.01 0.02 0.01 0.01 0.01 0.02GL GGTCTC 0.01 0.02 0.01 0.01 0.01 0.01 0.03 0.01 0.04 0.03 0.01 0.03 0.03 0.04 0.03 0.04 0.03 0.03 0.03 0.04 0.03 0.03 0.03GL GGTCTG 0.18 0.32 0.17 0.33 0.40 0.16 0.03 0.03 0.03 0.03 0.03 0.02 0.05 0.09 0.04 0.13 0.04 0.05 0.06 0.05 0.06 0.06 0.05GL GGTCTT 0.03 0.03 0.02 0.03 0.04 0.02 0.06 0.06 0.04 0.06 0.05 0.07 0.07 0.09 0.06 0.10 0.07 0.03 0.03 0.03 0.03 0.04 0.04GL GGTTTA 0.05 0.03 0.05 0.04 0.02 0.06 0.12 0.17 0.10 0.16 0.19 0.10 0.07 0.07 0.07 0.08 0.07 0.02 0.02 0.01 0.03 0.01 0.02GL GGTTTG 0.05 0.03 0.06 0.05 0.02 0.05 0.12 0.29 0.11 0.20 0.31 0.09 0.10 0.18 0.10 0.23 0.09 0.03 0.03 0.02 0.04 0.03 0.03GM GGAATG 0.17 0.06 0.16 0.09 0.06 0.19 0.24 0.09 0.33 0.14 0.05 0.27 0.45 0.32 0.50 0.22 0.47 0.25 0.30 0.19 0.28 0.24 0.27GM GGCATG 0.33 0.35 0.33 0.35 0.38 0.30 0.16 0.09 0.15 0.12 0.08 0.18 0.12 0.12 0.12 0.06 0.16 0.41 0.38 0.46 0.42 0.45 0.38GM GGGATG 0.26 0.17 0.30 0.18 0.15 0.28 0.11 0.05 0.10 0.08 0.05 0.13 0.11 0.04 0.13 0.03 0.14 0.24 0.22 0.27 0.23 0.22 0.26GM GGTATG 0.24 0.41 0.22 0.38 0.42 0.23 0.48 0.77 0.42 0.67 0.82 0.43 0.33 0.52 0.25 0.68 0.23 0.09 0.10 0.09 0.07 0.09 0.09GN GGAAAC 0.04 0.02 0.05 0.02 0.03 0.04 0.11 0.05 0.14 0.09 0.02 0.12 0.21 0.21 0.23 0.26 0.19 0.16 0.15 0.14 0.17 0.14 0.18GN GGAAAT 0.07 0.04 0.08 0.03 0.03 0.09 0.18 0.10 0.20 0.14 0.07 0.21 0.21 0.12 0.23 0.10 0.24 0.17 0.16 0.12 0.18 0.14 0.20GN GGCAAC 0.23 0.28 0.26 0.27 0.27 0.24 0.08 0.05 0.07 0.07 0.05 0.07 0.08 0.07 0.07 0.04 0.08 0.18 0.19 0.23 0.17 0.20 0.16GN GGCAAT 0.20 0.13 0.24 0.15 0.09 0.22 0.12 0.07 0.13 0.10 0.06 0.14 0.10 0.06 0.09 0.04 0.11 0.13 0.17 0.14 0.15 0.17 0.12GN GGGAAC 0.02 0.02 0.01 0.02 0.01 0.01 0.05 0.02 0.04 0.04 0.02 0.04 0.06 0.03 0.07 0.01 0.06 0.16 0.13 0.19 0.14 0.14 0.14GN GGGAAT 0.06 0.01 0.05 0.03 0.03 0.06 0.06 0.02 0.08 0.04 0.02 0.10 0.06 0.03 0.07 0.01 0.06 0.11 0.09 0.10 0.10 0.10 0.11GN GGTAAC 0.22 0.34 0.18 0.34 0.40 0.14 0.18 0.44 0.14 0.29 0.51 0.12 0.15 0.32 0.12 0.42 0.12 0.05 0.07 0.04 0.05 0.06 0.05GN GGTAAT 0.17 0.16 0.13 0.15 0.14 0.20 0.22 0.25 0.20 0.24 0.25 0.19 0.14 0.15 0.14 0.13 0.14 0.04 0.04 0.03 0.04 0.05 0.05GP GGACCA 0.03 0.01 0.04 0.03 0.02 0.03 0.07 0.06 0.08 0.07 0.04 0.09 0.12 0.14 0.12 0.14 0.10 0.07 0.09 0.07 0.08 0.09 0.09GP GGACCC 0.01 0.01 0.01 0.00 0.00 0.02 0.04 0.02 0.04 0.04 0.01 0.04 0.05 0.05 0.04 0.01 0.06 0.07 0.07 0.08 0.07 0.06 0.07GP GGACCG 0.07 0.03 0.07 0.07 0.05 0.04 0.02 0.00 0.04 0.01 0.00 0.01 0.03 0.01 0.03 0.01 0.04 0.01 0.01 0.01 0.02 0.01 0.01GP GGACCT 0.01 0.01 0.04 0.01 0.01 0.02 0.08 0.04 0.07 0.07 0.05 0.07 0.11 0.11 0.12 0.08 0.11 0.07 0.08 0.07 0.06 0.09 0.08GP GGCCCA 0.05 0.06 0.06 0.07 0.07 0.05 0.09 0.12 0.06 0.11 0.12 0.09 0.07 0.06 0.05 0.07 0.06 0.08 0.08 0.09 0.08 0.09 0.09GP GGCCCC 0.04 0.01 0.02 0.01 0.03 0.05 0.04 0.04 0.04 0.04 0.03 0.06 0.04 0.03 0.04 0.03 0.03 0.10 0.10 0.11 0.08 0.10 0.09GP GGCCCG 0.21 0.29 0.22 0.29 0.26 0.16 0.01 0.01 0.02 0.01 0.00 0.02 0.02 0.01 0.03 0.00 0.03 0.02 0.02 0.02 0.03 0.03 0.02GP GGCCCT 0.04 0.05 0.03 0.03 0.02 0.05 0.07 0.06 0.08 0.08 0.04 0.07 0.07 0.09 0.06 0.08 0.07 0.10 0.10 0.10 0.11 0.10 0.10

Continued on next page

Page 156: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 143

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

GP GGGCCA 0.09 0.07 0.11 0.03 0.04 0.11 0.07 0.03 0.08 0.04 0.04 0.07 0.05 0.03 0.07 0.01 0.06 0.07 0.06 0.07 0.07 0.05 0.08GP GGGCCC 0.01 0.00 0.00 0.00 0.01 0.00 0.04 0.01 0.04 0.02 0.01 0.04 0.03 0.02 0.03 0.02 0.03 0.08 0.07 0.10 0.09 0.08 0.07GP GGGCCG 0.17 0.08 0.17 0.10 0.08 0.21 0.03 0.00 0.04 0.01 0.01 0.03 0.01 0.01 0.01 0.00 0.01 0.02 0.03 0.02 0.03 0.02 0.02GP GGGCCT 0.02 0.01 0.03 0.01 0.02 0.01 0.06 0.02 0.07 0.04 0.02 0.06 0.05 0.04 0.04 0.03 0.05 0.09 0.08 0.09 0.09 0.08 0.09GP GGTCCA 0.04 0.03 0.03 0.03 0.03 0.05 0.16 0.38 0.14 0.26 0.45 0.13 0.13 0.18 0.13 0.22 0.12 0.05 0.05 0.04 0.06 0.04 0.06GP GGTCCC 0.01 0.01 0.02 0.00 0.01 0.01 0.06 0.04 0.05 0.04 0.04 0.06 0.06 0.03 0.08 0.04 0.04 0.06 0.05 0.07 0.05 0.05 0.06GP GGTCCG 0.16 0.28 0.13 0.27 0.31 0.13 0.03 0.02 0.03 0.02 0.02 0.04 0.03 0.02 0.03 0.02 0.03 0.01 0.01 0.01 0.01 0.01 0.01GP GGTCCT 0.04 0.05 0.03 0.05 0.07 0.06 0.12 0.16 0.13 0.15 0.13 0.12 0.14 0.19 0.14 0.23 0.15 0.07 0.08 0.06 0.07 0.09 0.08GQ GGACAA 0.06 0.03 0.06 0.03 0.03 0.07 0.16 0.10 0.12 0.12 0.08 0.20 0.17 0.16 0.14 0.12 0.17 0.09 0.10 0.08 0.09 0.07 0.10GQ GGACAG 0.06 0.04 0.06 0.04 0.03 0.07 0.08 0.02 0.09 0.04 0.01 0.09 0.12 0.11 0.12 0.07 0.13 0.17 0.17 0.17 0.18 0.16 0.20GQ GGCCAA 0.03 0.03 0.02 0.03 0.03 0.03 0.18 0.19 0.22 0.20 0.20 0.16 0.15 0.15 0.19 0.16 0.16 0.08 0.10 0.09 0.09 0.09 0.09GQ GGCCAG 0.13 0.17 0.11 0.16 0.18 0.08 0.09 0.04 0.12 0.07 0.03 0.09 0.10 0.08 0.10 0.06 0.10 0.26 0.24 0.29 0.24 0.28 0.23GQ GGGCAA 0.19 0.09 0.21 0.12 0.09 0.20 0.09 0.05 0.10 0.07 0.03 0.11 0.07 0.05 0.10 0.05 0.10 0.06 0.05 0.05 0.07 0.05 0.05GQ GGGCAG 0.18 0.11 0.22 0.15 0.09 0.18 0.04 0.01 0.06 0.02 0.02 0.04 0.05 0.03 0.06 0.02 0.05 0.18 0.18 0.19 0.19 0.19 0.18GQ GGTCAA 0.07 0.05 0.07 0.09 0.06 0.07 0.28 0.53 0.19 0.41 0.57 0.25 0.22 0.29 0.18 0.37 0.17 0.05 0.06 0.03 0.05 0.05 0.05GQ GGTCAG 0.29 0.49 0.25 0.38 0.49 0.29 0.07 0.06 0.09 0.07 0.04 0.07 0.13 0.13 0.11 0.15 0.12 0.10 0.11 0.10 0.09 0.10 0.11GR GGAAGA 0.01 0.01 0.01 0.00 0.00 0.02 0.14 0.06 0.15 0.10 0.06 0.18 0.22 0.21 0.25 0.21 0.22 0.09 0.09 0.07 0.10 0.08 0.09GR GGAAGG 0.00 0.00 0.00 0.00 0.00 0.00 0.06 0.01 0.06 0.04 0.00 0.08 0.09 0.04 0.11 0.02 0.10 0.06 0.05 0.05 0.06 0.05 0.07GR GGACGA 0.02 0.01 0.01 0.01 0.01 0.03 0.01 0.00 0.03 0.00 0.00 0.02 0.04 0.03 0.04 0.01 0.05 0.03 0.03 0.03 0.03 0.04 0.03GR GGACGC 0.07 0.04 0.08 0.03 0.04 0.07 0.01 0.00 0.02 0.02 0.00 0.02 0.02 0.01 0.01 0.01 0.03 0.03 0.04 0.04 0.03 0.03 0.03GR GGACGG 0.02 0.01 0.03 0.02 0.01 0.03 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.03 0.03 0.04 0.04 0.02 0.04GR GGACGT 0.06 0.05 0.06 0.03 0.05 0.05 0.03 0.02 0.02 0.03 0.02 0.04 0.04 0.06 0.04 0.09 0.03 0.02 0.03 0.01 0.02 0.04 0.02GR GGCAGA 0.02 0.01 0.02 0.01 0.00 0.03 0.09 0.07 0.10 0.09 0.07 0.08 0.06 0.03 0.07 0.04 0.07 0.07 0.08 0.07 0.06 0.09 0.07GR GGCAGG 0.02 0.01 0.01 0.01 0.00 0.02 0.04 0.02 0.07 0.04 0.02 0.05 0.03 0.01 0.03 0.00 0.04 0.08 0.07 0.08 0.07 0.05 0.07GR GGCCGA 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.01 0.00 0.00 0.01 0.02 0.01 0.02 0.01 0.03 0.05 0.05 0.04 0.07 0.05 0.05GR GGCCGC 0.07 0.13 0.08 0.11 0.11 0.06 0.02 0.01 0.02 0.01 0.01 0.01 0.02 0.02 0.01 0.01 0.02 0.08 0.08 0.10 0.07 0.10 0.07GR GGCCGG 0.01 0.01 0.01 0.00 0.01 0.02 0.01 0.00 0.02 0.00 0.00 0.01 0.01 0.01 0.00 0.01 0.00 0.07 0.06 0.08 0.07 0.08 0.07GR GGCCGT 0.07 0.17 0.04 0.22 0.17 0.04 0.05 0.07 0.04 0.06 0.07 0.03 0.05 0.06 0.02 0.09 0.03 0.04 0.05 0.04 0.04 0.06 0.04GR GGGAGA 0.00 0.00 0.00 0.00 0.01 0.00 0.05 0.02 0.07 0.03 0.01 0.08 0.04 0.02 0.04 0.01 0.06 0.06 0.04 0.06 0.05 0.03 0.07GR GGGAGG 0.00 0.00 0.00 0.00 0.00 0.00 0.03 0.01 0.04 0.01 0.00 0.05 0.01 0.00 0.02 0.00 0.01 0.05 0.04 0.06 0.04 0.02 0.05GR GGGCGA 0.03 0.01 0.04 0.01 0.01 0.03 0.01 0.00 0.02 0.00 0.00 0.01 0.01 0.01 0.01 0.00 0.02 0.02 0.02 0.03 0.02 0.02 0.02GR GGGCGC 0.10 0.05 0.14 0.06 0.04 0.11 0.01 0.00 0.00 0.00 0.00 0.01 0.01 0.00 0.00 0.00 0.00 0.04 0.03 0.03 0.03 0.04 0.03GR GGGCGG 0.03 0.01 0.04 0.01 0.01 0.04 0.01 0.00 0.00 0.00 0.00 0.01 0.01 0.00 0.01 0.00 0.01 0.04 0.03 0.04 0.04 0.03 0.03GR GGGCGT 0.11 0.07 0.11 0.04 0.06 0.15 0.02 0.01 0.02 0.01 0.01 0.02 0.02 0.02 0.02 0.01 0.01 0.02 0.02 0.02 0.02 0.03 0.02GR GGTAGA 0.01 0.00 0.00 0.00 0.00 0.00 0.22 0.47 0.17 0.34 0.52 0.13 0.15 0.27 0.13 0.31 0.11 0.02 0.02 0.02 0.02 0.03 0.03GR GGTAGG 0.00 0.00 0.00 0.00 0.00 0.00 0.06 0.04 0.05 0.05 0.04 0.06 0.04 0.02 0.04 0.01 0.04 0.01 0.01 0.01 0.01 0.00 0.01GR GGTCGA 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.03 0.03 0.02 0.03 0.01 0.04 0.02 0.03 0.02 0.02 0.03 0.03GR GGTCGC 0.14 0.14 0.14 0.21 0.12 0.15 0.02 0.01 0.01 0.02 0.01 0.03 0.02 0.02 0.02 0.00 0.02 0.02 0.03 0.03 0.03 0.03 0.02GR GGTCGG 0.03 0.01 0.03 0.00 0.01 0.02 0.01 0.00 0.00 0.01 0.00 0.00 0.01 0.00 0.01 0.00 0.01 0.02 0.02 0.02 0.04 0.03 0.03GR GGTCGT 0.15 0.29 0.13 0.25 0.35 0.12 0.07 0.16 0.05 0.11 0.15 0.04 0.06 0.12 0.04 0.16 0.03 0.02 0.04 0.02 0.02 0.04 0.02GS GGAAGC 0.03 0.02 0.02 0.01 0.01 0.03 0.03 0.01 0.03 0.02 0.00 0.04 0.04 0.02 0.04 0.01 0.04 0.06 0.05 0.06 0.06 0.05 0.06GS GGAAGT 0.03 0.01 0.01 0.04 0.01 0.02 0.05 0.01 0.07 0.03 0.00 0.07 0.06 0.03 0.07 0.03 0.06 0.05 0.05 0.04 0.05 0.05 0.06GS GGATCA 0.01 0.01 0.01 0.01 0.01 0.01 0.04 0.03 0.04 0.03 0.02 0.06 0.07 0.04 0.09 0.05 0.08 0.03 0.03 0.02 0.03 0.04 0.03GS GGATCC 0.01 0.00 0.00 0.00 0.00 0.01 0.03 0.02 0.03 0.02 0.02 0.03 0.06 0.09 0.07 0.09 0.07 0.04 0.03 0.04 0.03 0.03 0.04GS GGATCG 0.03 0.01 0.05 0.01 0.01 0.04 0.02 0.01 0.02 0.02 0.00 0.02 0.03 0.02 0.03 0.01 0.03 0.01 0.01 0.00 0.01 0.01 0.01GS GGATCT 0.01 0.01 0.00 0.01 0.01 0.01 0.06 0.06 0.06 0.06 0.05 0.07 0.10 0.10 0.11 0.14 0.09 0.04 0.03 0.03 0.04 0.04 0.04GS GGCAGC 0.16 0.15 0.18 0.14 0.13 0.16 0.03 0.01 0.04 0.02 0.01 0.02 0.02 0.01 0.02 0.01 0.02 0.12 0.11 0.13 0.10 0.10 0.11GS GGCAGT 0.09 0.05 0.12 0.04 0.03 0.10 0.04 0.02 0.06 0.03 0.01 0.04 0.03 0.02 0.03 0.01 0.03 0.08 0.08 0.07 0.11 0.07 0.09GS GGCTCA 0.03 0.01 0.03 0.03 0.02 0.04 0.05 0.03 0.06 0.05 0.03 0.06 0.04 0.03 0.03 0.02 0.05 0.06 0.04 0.05 0.06 0.06 0.05GS GGCTCC 0.04 0.07 0.05 0.05 0.06 0.03 0.04 0.05 0.04 0.04 0.04 0.03 0.04 0.04 0.04 0.04 0.04 0.10 0.10 0.12 0.08 0.11 0.09GS GGCTCG 0.04 0.04 0.05 0.02 0.03 0.07 0.02 0.01 0.02 0.01 0.01 0.02 0.02 0.01 0.02 0.01 0.01 0.01 0.02 0.02 0.01 0.02 0.01GS GGCTCT 0.03 0.07 0.02 0.04 0.04 0.03 0.06 0.07 0.06 0.07 0.08 0.05 0.06 0.05 0.04 0.06 0.05 0.08 0.09 0.09 0.09 0.09 0.08GS GGGAGC 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.00 0.02 0.01 0.00 0.02 0.01 0.01 0.01 0.00 0.01 0.05 0.04 0.06 0.05 0.04 0.05GS GGGAGT 0.02 0.00 0.01 0.01 0.01 0.01 0.02 0.01 0.01 0.01 0.00 0.02 0.01 0.00 0.02 0.00 0.02 0.03 0.03 0.03 0.03 0.02 0.03GS GGGTCA 0.01 0.01 0.01 0.00 0.00 0.01 0.02 0.01 0.03 0.01 0.01 0.02 0.03 0.02 0.03 0.01 0.03 0.03 0.03 0.02 0.02 0.02 0.03GS GGGTCC 0.00 0.00 0.01 0.00 0.00 0.00 0.02 0.02 0.03 0.02 0.02 0.02 0.02 0.02 0.02 0.01 0.02 0.04 0.04 0.04 0.03 0.03 0.03GS GGGTCG 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.02 0.01 0.00 0.01 0.01 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.00 0.01 0.01GS GGGTCT 0.01 0.01 0.00 0.01 0.01 0.01 0.03 0.03 0.03 0.03 0.02 0.04 0.04 0.03 0.05 0.02 0.04 0.04 0.04 0.03 0.04 0.04 0.04GS GGTAGC 0.09 0.10 0.07 0.10 0.09 0.07 0.04 0.03 0.06 0.03 0.03 0.04 0.02 0.02 0.02 0.01 0.02 0.02 0.03 0.02 0.02 0.02 0.02GS GGTAGT 0.03 0.01 0.03 0.02 0.02 0.04 0.05 0.04 0.06 0.04 0.05 0.06 0.04 0.03 0.03 0.03 0.03 0.02 0.02 0.01 0.01 0.02 0.02GS GGTTCA 0.06 0.04 0.05 0.05 0.06 0.07 0.09 0.08 0.08 0.10 0.08 0.09 0.07 0.08 0.08 0.05 0.07 0.03 0.03 0.02 0.02 0.03 0.03GS GGTTCC 0.07 0.14 0.07 0.14 0.15 0.07 0.07 0.16 0.04 0.12 0.19 0.06 0.07 0.14 0.04 0.16 0.06 0.04 0.05 0.04 0.04 0.06 0.03GS GGTTCG 0.08 0.05 0.10 0.06 0.07 0.10 0.03 0.02 0.03 0.03 0.02 0.03 0.03 0.03 0.03 0.02 0.03 0.01 0.00 0.01 0.00 0.01 0.01GS GGTTCT 0.09 0.18 0.08 0.21 0.24 0.07 0.12 0.25 0.09 0.18 0.28 0.10 0.10 0.16 0.09 0.23 0.09 0.04 0.05 0.04 0.05 0.05 0.04GT GGAACA 0.04 0.01 0.03 0.02 0.01 0.03 0.08 0.03 0.08 0.05 0.01 0.13 0.11 0.09 0.12 0.05 0.13 0.09 0.08 0.07 0.10 0.09 0.12GT GGAACC 0.04 0.03 0.04 0.03 0.03 0.04 0.04 0.03 0.02 0.03 0.01 0.03 0.10 0.12 0.09 0.13 0.09 0.07 0.07 0.08 0.05 0.06 0.08GT GGAACG 0.06 0.02 0.06 0.03 0.02 0.06 0.04 0.01 0.05 0.02 0.00 0.05 0.05 0.02 0.06 0.01 0.06 0.01 0.01 0.01 0.01 0.01 0.01GT GGAACT 0.02 0.02 0.01 0.01 0.01 0.01 0.08 0.04 0.07 0.06 0.05 0.09 0.16 0.18 0.15 0.18 0.15 0.07 0.06 0.06 0.08 0.06 0.07GT GGCACA 0.05 0.03 0.04 0.04 0.02 0.05 0.06 0.02 0.08 0.04 0.02 0.06 0.05 0.04 0.06 0.02 0.06 0.10 0.12 0.10 0.11 0.11 0.11GT GGCACC 0.19 0.20 0.23 0.21 0.20 0.20 0.04 0.03 0.04 0.03 0.03 0.05 0.04 0.02 0.03 0.03 0.03 0.14 0.16 0.16 0.15 0.17 0.13GT GGCACG 0.11 0.07 0.13 0.05 0.06 0.10 0.02 0.01 0.04 0.02 0.00 0.01 0.02 0.01 0.01 0.01 0.01 0.03 0.02 0.03 0.03 0.03 0.02GT GGCACT 0.07 0.09 0.07 0.11 0.08 0.07 0.07 0.06 0.08 0.07 0.05 0.06 0.06 0.06 0.08 0.03 0.07 0.09 0.11 0.09 0.11 0.11 0.10GT GGGACA 0.02 0.01 0.03 0.02 0.01 0.03 0.04 0.01 0.05 0.02 0.01 0.06 0.03 0.01 0.04 0.00 0.03 0.09 0.07 0.09 0.08 0.06 0.09GT GGGACC 0.02 0.01 0.02 0.02 0.01 0.03 0.02 0.01 0.03 0.01 0.01 0.02 0.02 0.01 0.03 0.00 0.03 0.09 0.08 0.10 0.09 0.08 0.07GT GGGACG 0.04 0.02 0.04 0.02 0.03 0.04 0.02 0.01 0.03 0.01 0.01 0.03 0.01 0.01 0.01 0.00 0.02 0.02 0.02 0.03 0.01 0.01 0.02GT GGGACT 0.02 0.02 0.02 0.03 0.02 0.03 0.03 0.02 0.03 0.02 0.02 0.03 0.04 0.01 0.04 0.00 0.04 0.07 0.07 0.06 0.06 0.05 0.07GT GGTACA 0.06 0.05 0.05 0.04 0.04 0.07 0.12 0.11 0.12 0.14 0.10 0.13 0.07 0.04 0.05 0.05 0.07 0.04 0.03 0.03 0.03 0.04 0.04GT GGTACC 0.06 0.11 0.08 0.10 0.12 0.07 0.11 0.22 0.07 0.17 0.27 0.08 0.09 0.17 0.07 0.22 0.06 0.05 0.05 0.05 0.04 0.06 0.04GT GGTACG 0.12 0.12 0.11 0.10 0.10 0.12 0.05 0.04 0.07 0.05 0.04 0.06 0.03 0.02 0.05 0.03 0.04 0.01 0.00 0.00 0.00 0.01 0.01GT GGTACT 0.07 0.19 0.05 0.16 0.23 0.06 0.17 0.35 0.13 0.26 0.39 0.12 0.12 0.20 0.12 0.22 0.10 0.04 0.04 0.03 0.04 0.06 0.03GV GGAGTA 0.01 0.01 0.01 0.00 0.00 0.01 0.04 0.01 0.04 0.01 0.00 0.04 0.07 0.04 0.09 0.02 0.08 0.05 0.03 0.04 0.06 0.03 0.06GV GGAGTC 0.01 0.01 0.01 0.00 0.00 0.01 0.03 0.01 0.04 0.01 0.01 0.04 0.07 0.07 0.08 0.04 0.06 0.08 0.07 0.08 0.07 0.06 0.08GV GGAGTG 0.02 0.01 0.01 0.01 0.00 0.02 0.03 0.01 0.05 0.01 0.00 0.04 0.07 0.04 0.08 0.02 0.07 0.11 0.10 0.10 0.10 0.09 0.10GV GGAGTT 0.01 0.01 0.01 0.01 0.00 0.01 0.06 0.02 0.10 0.03 0.01 0.07 0.13 0.09 0.12 0.09 0.14 0.07 0.06 0.06 0.08 0.06 0.08GV GGCGTA 0.11 0.15 0.10 0.15 0.12 0.09 0.04 0.01 0.04 0.02 0.01 0.04 0.02 0.01 0.02 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.01GV GGCGTC 0.10 0.07 0.13 0.07 0.08 0.12 0.03 0.03 0.03 0.03 0.02 0.05 0.02 0.01 0.03 0.01 0.03 0.03 0.03 0.04 0.03 0.04 0.03GV GGCGTG 0.22 0.20 0.25 0.23 0.22 0.27 0.03 0.01 0.03 0.01 0.01 0.03 0.02 0.01 0.02 0.01 0.03 0.06 0.06 0.06 0.06 0.07 0.05GV GGCGTT 0.14 0.18 0.15 0.16 0.21 0.14 0.07 0.03 0.09 0.05 0.04 0.07 0.04 0.03 0.04 0.02 0.04 0.02 0.02 0.01 0.03 0.01 0.01GV GGGGTA 0.02 0.01 0.02 0.01 0.02 0.03 0.02 0.00 0.03 0.01 0.00 0.04 0.02 0.01 0.03 0.01 0.03 0.03 0.02 0.03 0.03 0.02 0.03GV GGGGTC 0.01 0.01 0.01 0.00 0.00 0.01 0.01 0.00 0.01 0.01 0.00 0.03 0.02 0.01 0.03 0.01 0.03 0.07 0.05 0.09 0.06 0.07 0.06GV GGGGTG 0.04 0.02 0.04 0.03 0.01 0.05 0.02 0.01 0.01 0.01 0.00 0.02 0.03 0.01 0.03 0.00 0.03 0.08 0.10 0.10 0.08 0.08 0.07GV GGGGTT 0.03 0.02 0.02 0.01 0.02 0.03 0.03 0.01 0.06 0.02 0.01 0.03 0.04 0.01 0.05 0.01 0.06 0.04 0.03 0.05 0.04 0.03 0.05GV GGTGTA 0.04 0.05 0.03 0.04 0.06 0.04 0.10 0.07 0.10 0.09 0.06 0.10 0.06 0.06 0.06 0.05 0.06 0.04 0.04 0.04 0.04 0.04 0.05GV GGTGTC 0.06 0.04 0.05 0.03 0.03 0.06 0.15 0.27 0.14 0.22 0.27 0.09 0.12 0.21 0.09 0.27 0.08 0.09 0.11 0.10 0.07 0.11 0.09GV GGTGTG 0.10 0.10 0.09 0.12 0.10 0.08 0.10 0.08 0.10 0.09 0.08 0.11 0.08 0.07 0.09 0.06 0.09 0.15 0.16 0.15 0.16 0.18 0.14GV GGTGTT 0.07 0.11 0.05 0.11 0.12 0.07 0.26 0.44 0.16 0.38 0.47 0.20 0.20 0.30 0.15 0.38 0.17 0.07 0.10 0.05 0.09 0.11 0.09GW GGATGG 0.08 0.09 0.09 0.02 0.01 0.08 0.24 0.15 0.27 0.14 0.10 0.24 0.36 0.44 0.35 0.41 0.43 0.17 0.18 0.15 0.16 0.21 0.20GW GGCTGG 0.72 0.72 0.77 0.72 0.76 0.69 0.24 0.22 0.28 0.26 0.24 0.30 0.24 0.17 0.25 0.16 0.23 0.58 0.52 0.63 0.64 0.54 0.55GW GGGTGG 0.03 0.01 0.02 0.00 0.01 0.02 0.10 0.04 0.07 0.07 0.08 0.11 0.09 0.04 0.16 0.04 0.12 0.12 0.15 0.11 0.11 0.11 0.14GW GGTTGG 0.16 0.17 0.13 0.26 0.21 0.21 0.42 0.59 0.38 0.54 0.58 0.35 0.30 0.35 0.24 0.39 0.22 0.12 0.14 0.11 0.09 0.14 0.11GY GGATAC 0.03 0.02 0.04 0.04 0.03 0.03 0.09 0.05 0.11 0.06 0.04 0.10 0.16 0.17 0.16 0.14 0.15 0.08 0.06 0.09 0.04 0.04 0.10GY GGATAT 0.07 0.04 0.06 0.03 0.04 0.07 0.15 0.06 0.18 0.09 0.03 0.16 0.17 0.10 0.18 0.08 0.18 0.10 0.13 0.07 0.13 0.15 0.12GY GGCTAC 0.17 0.25 0.21 0.23 0.25 0.14 0.10 0.08 0.15 0.11 0.10 0.09 0.10 0.12 0.12 0.10 0.09 0.29 0.25 0.34 0.27 0.26 0.26GY GGCTAT 0.22 0.15 0.23 0.18 0.19 0.21 0.13 0.08 0.09 0.10 0.10 0.14 0.11 0.09 0.10 0.06 0.13 0.21 0.21 0.21 0.23 0.25 0.19GY GGGTAC 0.02 0.01 0.01 0.01 0.01 0.02 0.05 0.03 0.07 0.04 0.03 0.06 0.06 0.04 0.08 0.04 0.07 0.08 0.08 0.09 0.07 0.06 0.09GY GGGTAT 0.06 0.02 0.06 0.04 0.02 0.07 0.06 0.03 0.05 0.04 0.03 0.10 0.08 0.06 0.08 0.03 0.08 0.06 0.05 0.05 0.07 0.05 0.06GY GGTTAC 0.17 0.28 0.17 0.22 0.24 0.13 0.19 0.41 0.16 0.29 0.42 0.13 0.17 0.31 0.12 0.41 0.16 0.09 0.10 0.09 0.09 0.09 0.08GY GGTTAT 0.26 0.22 0.23 0.26 0.22 0.33 0.23 0.26 0.19 0.26 0.27 0.22 0.15 0.11 0.16 0.15 0.14 0.09 0.11 0.06 0.09 0.11 0.10H* CACTAA 0.33 0.58 0.42 0.50 0.43 0.15 0.11 0.23 0.06 0.11 0.14 0.12 0.16 0.17 0.36 0.11 0.00 0.14 0.17 0.18 0.20 0.13 0.27H* CACTAG 0.01 0.00 0.08 0.00 0.00 0.08 0.07 0.00 0.19 0.06 0.00 0.00 0.10 0.28 0.07 0.00 0.33 0.12 0.05 0.11 0.27 0.20 0.27H* CACTGA 0.09 0.00 0.17 0.00 0.00 0.23 0.10 0.15 0.19 0.17 0.14 0.25 0.09 0.11 0.14 0.00 0.17 0.45 0.36 0.29 0.27 0.27 0.27H* CATTAA 0.44 0.42 0.29 0.50 0.57 0.46 0.18 0.08 0.12 0.22 0.29 0.12 0.24 0.33 0.14 0.33 0.00 0.12 0.19 0.18 0.20 0.13 0.09H* CATTAG 0.01 0.00 0.00 0.00 0.00 0.00 0.31 0.31 0.25 0.11 0.43 0.12 0.21 0.06 0.21 0.44 0.33 0.09 0.10 0.16 0.00 0.07 0.00H* CATTGA 0.12 0.00 0.04 0.00 0.00 0.08 0.23 0.23 0.19 0.33 0.00 0.38 0.20 0.06 0.07 0.11 0.17 0.08 0.14 0.07 0.07 0.20 0.09HA CACGCA 0.07 0.08 0.04 0.07 0.10 0.06 0.08 0.05 0.09 0.06 0.08 0.09 0.07 0.09 0.07 0.05 0.04 0.05 0.04 0.05 0.06 0.05 0.04HA CACGCC 0.18 0.12 0.21 0.13 0.09 0.20 0.07 0.08 0.03 0.09 0.13 0.07 0.06 0.10 0.06 0.12 0.05 0.09 0.11 0.12 0.07 0.12 0.08HA CACGCG 0.13 0.22 0.14 0.19 0.24 0.09 0.03 0.02 0.02 0.02 0.02 0.03 0.02 0.02 0.01 0.02 0.02 0.03 0.01 0.03 0.02 0.02 0.02HA CACGCT 0.09 0.16 0.09 0.12 0.18 0.09 0.10 0.20 0.09 0.14 0.19 0.09 0.10 0.18 0.07 0.21 0.11 0.05 0.06 0.06 0.04 0.07 0.04HA CATGCA 0.08 0.08 0.05 0.15 0.07 0.10 0.20 0.13 0.24 0.16 0.11 0.25 0.18 0.10 0.21 0.08 0.22 0.21 0.19 0.17 0.20 0.17 0.26HA CATGCC 0.17 0.14 0.17 0.08 0.12 0.18 0.18 0.19 0.18 0.21 0.20 0.16 0.19 0.18 0.18 0.21 0.18 0.28 0.31 0.31 0.28 0.28 0.28HA CATGCG 0.18 0.09 0.21 0.17 0.11 0.20 0.09 0.04 0.11 0.07 0.05 0.07 0.07 0.05 0.07 0.03 0.05 0.04 0.05 0.04 0.05 0.04 0.03HA CATGCT 0.09 0.12 0.09 0.09 0.08 0.08 0.26 0.28 0.24 0.23 0.22 0.23 0.30 0.28 0.32 0.27 0.33 0.24 0.22 0.21 0.28 0.24 0.25HC CACTGC 0.38 0.44 0.40 0.77 0.45 0.34 0.14 0.08 0.18 0.11 0.12 0.18 0.12 0.16 0.13 0.14 0.10 0.39 0.38 0.46 0.38 0.41 0.38HC CACTGT 0.21 0.39 0.17 0.12 0.25 0.24 0.20 0.28 0.08 0.27 0.21 0.23 0.23 0.44 0.26 0.46 0.26 0.34 0.37 0.34 0.31 0.30 0.30HC CATTGC 0.25 0.06 0.30 0.12 0.25 0.21 0.21 0.12 0.32 0.18 0.12 0.17 0.27 0.18 0.25 0.14 0.29 0.12 0.13 0.12 0.12 0.13 0.13HC CATTGT 0.16 0.11 0.13 0.00 0.05 0.21 0.44 0.53 0.42 0.43 0.55 0.43 0.38 0.22 0.35 0.25 0.35 0.15 0.13 0.08 0.19 0.15 0.18HD CACGAC 0.23 0.30 0.23 0.29 0.36 0.18 0.13 0.16 0.11 0.14 0.16 0.11 0.12 0.24 0.10 0.25 0.10 0.12 0.12 0.14 0.10 0.11 0.11HD CACGAT 0.33 0.31 0.29 0.28 0.30 0.31 0.23 0.28 0.27 0.25 0.29 0.24 0.22 0.25 0.19 0.29 0.19 0.10 0.10 0.13 0.11 0.12 0.10HD CATGAC 0.23 0.23 0.23 0.23 0.20 0.24 0.22 0.23 0.21 0.23 0.24 0.20 0.25 0.24 0.28 0.26 0.26 0.41 0.39 0.41 0.44 0.34 0.37HD CATGAT 0.22 0.16 0.24 0.20 0.13 0.26 0.42 0.32 0.41 0.38 0.31 0.46 0.41 0.27 0.42 0.20 0.46 0.36 0.39 0.32 0.35 0.43 0.42HE CACGAA 0.26 0.30 0.26 0.32 0.39 0.30 0.24 0.30 0.20 0.26 0.35 0.26 0.18 0.20 0.18 0.22 0.18 0.08 0.08 0.06 0.06 0.08 0.07HE CACGAG 0.11 0.15 0.14 0.17 0.14 0.14 0.10 0.09 0.10 0.10 0.07 0.09 0.15 0.25 0.15 0.30 0.15 0.15 0.13 0.20 0.17 0.14 0.13HE CATGAA 0.45 0.41 0.40 0.40 0.38 0.42 0.47 0.47 0.49 0.47 0.43 0.51 0.42 0.31 0.38 0.29 0.42 0.39 0.37 0.33 0.38 0.31 0.40HE CATGAG 0.18 0.14 0.19 0.12 0.08 0.14 0.19 0.14 0.20 0.17 0.15 0.15 0.25 0.24 0.30 0.19 0.24 0.39 0.41 0.41 0.38 0.47 0.40HF CACTTC 0.22 0.49 0.23 0.28 0.44 0.19 0.15 0.22 0.17 0.18 0.25 0.10 0.13 0.28 0.11 0.36 0.12 0.34 0.32 0.42 0.33 0.34 0.30HF CACTTT 0.23 0.18 0.24 0.26 0.23 0.29 0.16 0.14 0.16 0.15 0.14 0.14 0.17 0.21 0.18 0.20 0.18 0.25 0.29 0.24 0.29 0.33 0.29HF CATTTC 0.24 0.17 0.20 0.21 0.16 0.20 0.29 0.37 0.29 0.34 0.41 0.27 0.31 0.29 0.29 0.28 0.31 0.20 0.18 0.20 0.18 0.10 0.20HF CATTTT 0.32 0.16 0.32 0.25 0.16 0.32 0.39 0.27 0.37 0.33 0.20 0.49 0.38 0.22 0.42 0.17 0.39 0.21 0.20 0.13 0.21 0.24 0.21HG CACGGA 0.04 0.01 0.05 0.01 0.01 0.04 0.06 0.02 0.09 0.06 0.02 0.07 0.10 0.12 0.09 0.11 0.07 0.05 0.06 0.05 0.05 0.04 0.04HG CACGGC 0.27 0.27 0.32 0.29 0.29 0.30 0.06 0.03 0.08 0.05 0.04 0.07 0.04 0.07 0.04 0.06 0.04 0.07 0.09 0.07 0.08 0.11 0.05HG CACGGG 0.06 0.05 0.05 0.05 0.02 0.06 0.04 0.03 0.05 0.04 0.02 0.05 0.04 0.02 0.05 0.02 0.03 0.07 0.04 0.09 0.07 0.07 0.05HG CACGGT 0.25 0.38 0.22 0.35 0.37 0.24 0.15 0.40 0.07 0.26 0.46 0.12 0.11 0.25 0.07 0.38 0.03 0.04 0.04 0.04 0.02 0.06 0.04

Continued on next page

Page 157: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 144

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

HG CATGGA 0.04 0.01 0.04 0.03 0.01 0.04 0.16 0.06 0.21 0.09 0.03 0.18 0.28 0.18 0.30 0.07 0.37 0.22 0.24 0.18 0.28 0.21 0.24HG CATGGC 0.17 0.13 0.17 0.14 0.17 0.12 0.12 0.08 0.15 0.11 0.07 0.12 0.12 0.06 0.14 0.04 0.12 0.23 0.24 0.25 0.20 0.24 0.26HG CATGGG 0.04 0.03 0.05 0.01 0.01 0.07 0.10 0.04 0.07 0.06 0.03 0.10 0.09 0.08 0.10 0.03 0.13 0.18 0.15 0.19 0.16 0.14 0.18HG CATGGT 0.14 0.12 0.10 0.13 0.11 0.13 0.30 0.34 0.27 0.33 0.32 0.28 0.22 0.21 0.23 0.28 0.21 0.15 0.15 0.14 0.15 0.14 0.14HH CACCAC 0.18 0.36 0.14 0.19 0.30 0.13 0.14 0.24 0.16 0.20 0.23 0.18 0.17 0.27 0.13 0.43 0.14 0.32 0.34 0.39 0.31 0.40 0.34HH CACCAT 0.23 0.18 0.21 0.26 0.25 0.25 0.21 0.23 0.23 0.24 0.25 0.19 0.24 0.19 0.23 0.16 0.22 0.26 0.23 0.23 0.25 0.29 0.26HH CATCAC 0.26 0.22 0.25 0.34 0.25 0.33 0.23 0.23 0.28 0.21 0.17 0.23 0.22 0.26 0.20 0.21 0.15 0.23 0.24 0.21 0.23 0.17 0.21HH CATCAT 0.34 0.24 0.39 0.21 0.19 0.29 0.41 0.29 0.33 0.36 0.35 0.40 0.36 0.28 0.44 0.20 0.48 0.19 0.18 0.16 0.21 0.15 0.20HI CACATA 0.01 0.01 0.00 0.00 0.00 0.01 0.10 0.04 0.13 0.07 0.03 0.14 0.10 0.02 0.10 0.03 0.09 0.11 0.12 0.10 0.10 0.06 0.13HI CACATC 0.15 0.33 0.19 0.37 0.34 0.11 0.10 0.17 0.10 0.11 0.21 0.08 0.13 0.20 0.11 0.24 0.10 0.35 0.35 0.41 0.33 0.40 0.33HI CACATT 0.19 0.25 0.18 0.17 0.26 0.25 0.17 0.26 0.18 0.23 0.27 0.17 0.22 0.34 0.18 0.38 0.21 0.23 0.25 0.23 0.25 0.27 0.24HI CATATA 0.03 0.00 0.00 0.00 0.01 0.01 0.17 0.09 0.15 0.11 0.06 0.16 0.12 0.06 0.17 0.02 0.16 0.06 0.04 0.04 0.05 0.04 0.07HI CATATC 0.27 0.21 0.31 0.27 0.22 0.23 0.18 0.18 0.18 0.20 0.16 0.17 0.17 0.16 0.15 0.15 0.16 0.12 0.13 0.13 0.14 0.13 0.11HI CATATT 0.35 0.20 0.32 0.19 0.18 0.40 0.29 0.26 0.27 0.29 0.27 0.29 0.27 0.21 0.29 0.19 0.28 0.13 0.12 0.08 0.14 0.12 0.13HK CACAAA 0.27 0.36 0.27 0.32 0.42 0.25 0.25 0.20 0.28 0.24 0.19 0.25 0.27 0.26 0.30 0.25 0.31 0.27 0.36 0.25 0.28 0.25 0.28HK CACAAG 0.09 0.16 0.09 0.10 0.11 0.07 0.21 0.40 0.20 0.25 0.38 0.18 0.28 0.48 0.23 0.55 0.22 0.40 0.38 0.47 0.38 0.48 0.38HK CATAAA 0.50 0.36 0.49 0.40 0.35 0.62 0.34 0.21 0.33 0.28 0.24 0.37 0.25 0.15 0.25 0.09 0.28 0.18 0.13 0.12 0.19 0.12 0.20HK CATAAG 0.14 0.12 0.15 0.17 0.12 0.07 0.20 0.18 0.20 0.23 0.18 0.20 0.20 0.11 0.22 0.12 0.18 0.14 0.13 0.16 0.16 0.16 0.14HL CACCTA 0.00 0.00 0.00 0.00 0.01 0.01 0.03 0.03 0.04 0.03 0.03 0.03 0.03 0.01 0.04 0.02 0.03 0.04 0.04 0.04 0.04 0.03 0.04HL CACCTC 0.03 0.06 0.03 0.04 0.07 0.01 0.02 0.01 0.03 0.02 0.01 0.01 0.03 0.02 0.02 0.02 0.03 0.12 0.09 0.16 0.11 0.11 0.11HL CACCTG 0.17 0.33 0.16 0.29 0.30 0.19 0.03 0.02 0.06 0.02 0.02 0.03 0.04 0.06 0.05 0.06 0.04 0.23 0.23 0.29 0.22 0.27 0.21HL CACCTT 0.04 0.05 0.04 0.07 0.06 0.02 0.04 0.02 0.07 0.03 0.01 0.05 0.05 0.04 0.04 0.07 0.06 0.07 0.06 0.08 0.07 0.06 0.08HL CACTTA 0.02 0.01 0.04 0.03 0.03 0.03 0.07 0.08 0.06 0.06 0.07 0.08 0.06 0.06 0.06 0.08 0.06 0.04 0.06 0.03 0.05 0.04 0.04HL CACTTG 0.02 0.02 0.01 0.01 0.02 0.01 0.10 0.17 0.11 0.14 0.19 0.08 0.10 0.24 0.10 0.29 0.08 0.09 0.10 0.08 0.09 0.09 0.09HL CATCTA 0.02 0.00 0.01 0.00 0.01 0.02 0.08 0.09 0.09 0.09 0.06 0.07 0.07 0.04 0.07 0.03 0.07 0.03 0.03 0.03 0.03 0.04 0.04HL CATCTC 0.08 0.04 0.11 0.05 0.06 0.11 0.04 0.03 0.04 0.02 0.03 0.04 0.06 0.05 0.07 0.02 0.06 0.07 0.07 0.07 0.07 0.05 0.07HL CATCTG 0.32 0.32 0.36 0.32 0.27 0.37 0.06 0.03 0.06 0.06 0.03 0.07 0.09 0.08 0.10 0.07 0.08 0.11 0.13 0.10 0.12 0.14 0.11HL CATCTT 0.10 0.06 0.10 0.06 0.07 0.06 0.08 0.04 0.08 0.06 0.04 0.07 0.12 0.09 0.12 0.07 0.12 0.07 0.07 0.05 0.08 0.09 0.08HL CATTTA 0.10 0.07 0.07 0.09 0.06 0.10 0.22 0.19 0.20 0.20 0.20 0.24 0.13 0.06 0.13 0.05 0.16 0.04 0.05 0.02 0.06 0.03 0.05HL CATTTG 0.10 0.04 0.08 0.05 0.05 0.06 0.21 0.30 0.18 0.28 0.31 0.23 0.22 0.24 0.19 0.23 0.22 0.07 0.06 0.04 0.07 0.06 0.08HM CACATG 0.25 0.51 0.20 0.45 0.48 0.26 0.38 0.53 0.42 0.47 0.65 0.30 0.46 0.50 0.49 0.53 0.39 0.75 0.71 0.81 0.69 0.70 0.71HM CATATG 0.75 0.49 0.80 0.55 0.52 0.74 0.62 0.47 0.57 0.53 0.35 0.70 0.54 0.50 0.51 0.47 0.61 0.25 0.29 0.19 0.31 0.30 0.29HN CACAAC 0.27 0.46 0.31 0.43 0.48 0.20 0.19 0.29 0.20 0.21 0.41 0.15 0.26 0.42 0.27 0.49 0.21 0.39 0.39 0.47 0.34 0.38 0.38HN CACAAT 0.17 0.11 0.14 0.07 0.12 0.18 0.25 0.20 0.34 0.21 0.16 0.19 0.29 0.26 0.25 0.30 0.30 0.31 0.31 0.30 0.29 0.35 0.30HN CATAAC 0.37 0.33 0.34 0.43 0.22 0.41 0.21 0.25 0.19 0.24 0.24 0.25 0.18 0.16 0.20 0.13 0.17 0.15 0.15 0.11 0.18 0.14 0.15HN CATAAT 0.20 0.10 0.21 0.07 0.18 0.21 0.35 0.26 0.27 0.35 0.19 0.41 0.26 0.16 0.28 0.07 0.32 0.15 0.15 0.12 0.18 0.13 0.17HP CACCCA 0.05 0.10 0.02 0.07 0.08 0.05 0.13 0.19 0.09 0.15 0.26 0.10 0.13 0.18 0.13 0.24 0.12 0.18 0.16 0.20 0.20 0.18 0.18HP CACCCC 0.03 0.03 0.04 0.00 0.00 0.02 0.04 0.03 0.07 0.03 0.01 0.05 0.06 0.03 0.04 0.06 0.07 0.16 0.18 0.20 0.19 0.16 0.15HP CACCCG 0.18 0.31 0.16 0.31 0.35 0.21 0.03 0.01 0.03 0.02 0.01 0.04 0.03 0.01 0.02 0.02 0.02 0.06 0.05 0.06 0.03 0.08 0.05HP CACCCT 0.05 0.06 0.04 0.02 0.05 0.05 0.08 0.10 0.04 0.09 0.06 0.09 0.12 0.20 0.10 0.18 0.10 0.18 0.16 0.19 0.17 0.23 0.17HP CATCCA 0.12 0.10 0.10 0.12 0.08 0.10 0.28 0.34 0.29 0.33 0.35 0.25 0.23 0.28 0.23 0.20 0.21 0.14 0.19 0.11 0.13 0.13 0.16HP CATCCC 0.09 0.03 0.14 0.03 0.04 0.11 0.08 0.04 0.06 0.08 0.04 0.11 0.12 0.11 0.14 0.11 0.14 0.12 0.11 0.11 0.11 0.09 0.10HP CATCCG 0.36 0.30 0.40 0.38 0.30 0.33 0.11 0.04 0.15 0.09 0.01 0.13 0.07 0.04 0.09 0.01 0.07 0.03 0.03 0.02 0.02 0.02 0.03HP CATCCT 0.13 0.09 0.10 0.07 0.10 0.13 0.24 0.26 0.27 0.22 0.26 0.23 0.24 0.16 0.26 0.18 0.26 0.15 0.13 0.11 0.13 0.11 0.15HQ CACCAA 0.05 0.06 0.05 0.09 0.06 0.06 0.26 0.36 0.20 0.27 0.38 0.23 0.23 0.30 0.27 0.44 0.20 0.14 0.16 0.17 0.14 0.13 0.12HQ CACCAG 0.25 0.35 0.28 0.35 0.42 0.24 0.13 0.11 0.10 0.12 0.13 0.12 0.18 0.21 0.22 0.24 0.15 0.42 0.49 0.49 0.44 0.56 0.44HQ CATCAA 0.20 0.14 0.18 0.04 0.06 0.29 0.43 0.38 0.39 0.45 0.35 0.45 0.38 0.31 0.35 0.17 0.45 0.13 0.11 0.10 0.10 0.09 0.14HQ CATCAG 0.50 0.45 0.50 0.52 0.46 0.41 0.18 0.14 0.31 0.16 0.13 0.20 0.21 0.18 0.17 0.15 0.20 0.31 0.24 0.24 0.32 0.22 0.29HR CACAGA 0.01 0.01 0.02 0.00 0.00 0.02 0.19 0.39 0.17 0.27 0.46 0.14 0.20 0.40 0.15 0.45 0.17 0.17 0.21 0.16 0.17 0.16 0.19HR CACAGG 0.01 0.00 0.00 0.00 0.00 0.00 0.06 0.04 0.09 0.04 0.04 0.06 0.09 0.04 0.09 0.05 0.11 0.17 0.15 0.18 0.15 0.13 0.17HR CACCGA 0.03 0.03 0.03 0.02 0.00 0.01 0.02 0.00 0.02 0.02 0.00 0.03 0.04 0.03 0.04 0.00 0.04 0.08 0.08 0.07 0.10 0.11 0.07HR CACCGC 0.18 0.19 0.20 0.36 0.24 0.14 0.03 0.03 0.02 0.02 0.01 0.03 0.03 0.02 0.03 0.02 0.02 0.10 0.10 0.12 0.08 0.13 0.10HR CACCGG 0.04 0.02 0.03 0.00 0.01 0.06 0.02 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.02 0.00 0.02 0.12 0.10 0.14 0.12 0.10 0.10HR CACCGT 0.17 0.42 0.13 0.25 0.38 0.20 0.07 0.12 0.10 0.09 0.15 0.07 0.06 0.15 0.04 0.27 0.03 0.06 0.07 0.07 0.06 0.08 0.06HR CATAGA 0.02 0.01 0.01 0.00 0.00 0.02 0.23 0.17 0.25 0.21 0.14 0.26 0.23 0.16 0.26 0.07 0.24 0.05 0.04 0.04 0.05 0.05 0.05HR CATAGG 0.00 0.00 0.00 0.00 0.00 0.01 0.10 0.05 0.06 0.11 0.01 0.11 0.08 0.03 0.11 0.03 0.06 0.04 0.03 0.03 0.05 0.02 0.04HR CATCGA 0.03 0.00 0.01 0.00 0.00 0.04 0.09 0.01 0.10 0.02 0.00 0.09 0.07 0.02 0.09 0.01 0.11 0.06 0.06 0.05 0.06 0.06 0.06HR CATCGC 0.27 0.19 0.34 0.21 0.25 0.29 0.05 0.04 0.05 0.04 0.03 0.07 0.04 0.03 0.04 0.00 0.05 0.05 0.04 0.06 0.06 0.04 0.04HR CATCGG 0.07 0.00 0.06 0.02 0.02 0.08 0.03 0.01 0.06 0.02 0.00 0.02 0.03 0.01 0.02 0.00 0.04 0.06 0.06 0.05 0.07 0.08 0.06HR CATCGT 0.19 0.14 0.16 0.14 0.11 0.14 0.11 0.15 0.08 0.16 0.17 0.11 0.11 0.10 0.09 0.09 0.12 0.04 0.06 0.03 0.05 0.05 0.04HS CACAGC 0.19 0.26 0.19 0.29 0.28 0.17 0.04 0.03 0.06 0.03 0.00 0.04 0.05 0.06 0.06 0.03 0.06 0.19 0.18 0.22 0.17 0.20 0.17HS CACAGT 0.11 0.10 0.08 0.10 0.08 0.11 0.05 0.05 0.04 0.06 0.05 0.06 0.08 0.07 0.07 0.07 0.08 0.14 0.11 0.14 0.15 0.12 0.14HS CACTCA 0.05 0.03 0.06 0.03 0.04 0.06 0.08 0.06 0.08 0.07 0.03 0.09 0.07 0.09 0.05 0.09 0.06 0.09 0.09 0.09 0.09 0.09 0.08HS CACTCC 0.09 0.17 0.10 0.12 0.08 0.05 0.06 0.13 0.09 0.09 0.14 0.05 0.06 0.16 0.06 0.21 0.05 0.10 0.10 0.14 0.12 0.13 0.09HS CACTCG 0.06 0.08 0.09 0.07 0.11 0.02 0.03 0.02 0.04 0.02 0.02 0.03 0.03 0.01 0.03 0.02 0.03 0.03 0.03 0.03 0.04 0.03 0.03HS CACTCT 0.08 0.20 0.07 0.15 0.23 0.10 0.09 0.18 0.07 0.12 0.22 0.10 0.11 0.17 0.10 0.26 0.10 0.09 0.10 0.09 0.08 0.10 0.08HS CATAGC 0.12 0.05 0.12 0.08 0.06 0.15 0.05 0.04 0.05 0.06 0.02 0.05 0.05 0.03 0.05 0.01 0.04 0.05 0.06 0.05 0.05 0.05 0.05HS CATAGT 0.05 0.04 0.04 0.03 0.00 0.04 0.07 0.03 0.09 0.04 0.03 0.08 0.08 0.03 0.09 0.02 0.08 0.05 0.06 0.03 0.06 0.04 0.05HS CATTCA 0.07 0.01 0.05 0.00 0.01 0.09 0.15 0.10 0.14 0.12 0.12 0.16 0.15 0.11 0.18 0.05 0.16 0.08 0.07 0.05 0.07 0.06 0.09HS CATTCC 0.07 0.01 0.06 0.07 0.05 0.06 0.11 0.10 0.12 0.10 0.12 0.08 0.11 0.10 0.10 0.07 0.12 0.07 0.07 0.07 0.07 0.06 0.08HS CATTCG 0.07 0.02 0.07 0.01 0.04 0.06 0.07 0.05 0.10 0.07 0.05 0.07 0.07 0.03 0.07 0.02 0.07 0.02 0.02 0.01 0.01 0.02 0.04HS CATTCT 0.07 0.04 0.07 0.06 0.02 0.09 0.19 0.22 0.13 0.22 0.21 0.18 0.16 0.13 0.15 0.16 0.15 0.10 0.11 0.07 0.10 0.10 0.10HT CACACA 0.04 0.04 0.03 0.04 0.02 0.04 0.14 0.11 0.16 0.14 0.12 0.08 0.16 0.15 0.15 0.14 0.17 0.23 0.21 0.26 0.23 0.23 0.25HT CACACC 0.24 0.32 0.30 0.34 0.29 0.27 0.08 0.17 0.07 0.11 0.16 0.04 0.13 0.26 0.13 0.25 0.12 0.19 0.23 0.26 0.19 0.24 0.18HT CACACG 0.07 0.08 0.04 0.06 0.06 0.07 0.06 0.04 0.07 0.06 0.03 0.07 0.05 0.04 0.05 0.04 0.07 0.08 0.09 0.08 0.09 0.05 0.07HT CACACT 0.07 0.13 0.08 0.14 0.12 0.06 0.15 0.20 0.14 0.14 0.22 0.13 0.18 0.23 0.19 0.33 0.13 0.20 0.19 0.17 0.18 0.19 0.16HT CATACA 0.06 0.03 0.06 0.02 0.00 0.03 0.19 0.10 0.19 0.15 0.12 0.24 0.14 0.10 0.15 0.05 0.14 0.09 0.10 0.07 0.10 0.08 0.11HT CATACC 0.29 0.27 0.30 0.26 0.35 0.21 0.11 0.16 0.11 0.14 0.14 0.14 0.11 0.06 0.09 0.06 0.13 0.07 0.09 0.08 0.11 0.12 0.09HT CATACG 0.14 0.04 0.13 0.04 0.02 0.21 0.07 0.05 0.08 0.05 0.04 0.09 0.07 0.03 0.09 0.02 0.06 0.02 0.02 0.01 0.03 0.01 0.01HT CATACT 0.10 0.09 0.06 0.10 0.14 0.10 0.20 0.18 0.17 0.21 0.17 0.21 0.17 0.14 0.17 0.12 0.18 0.12 0.08 0.07 0.07 0.07 0.12HV CACGTA 0.09 0.12 0.03 0.12 0.18 0.08 0.07 0.04 0.07 0.04 0.02 0.10 0.05 0.02 0.04 0.02 0.05 0.02 0.03 0.02 0.02 0.03 0.02HV CACGTC 0.14 0.11 0.21 0.15 0.11 0.13 0.08 0.10 0.10 0.07 0.14 0.05 0.07 0.12 0.04 0.16 0.05 0.06 0.05 0.06 0.07 0.06 0.06HV CACGTG 0.02 0.03 0.01 0.01 0.05 0.01 0.06 0.04 0.07 0.05 0.03 0.06 0.02 0.01 0.02 0.02 0.02 0.15 0.12 0.17 0.13 0.13 0.13HV CACGTT 0.18 0.32 0.17 0.41 0.29 0.13 0.15 0.23 0.14 0.17 0.27 0.15 0.14 0.23 0.15 0.36 0.17 0.04 0.04 0.04 0.03 0.04 0.04HV CATGTA 0.07 0.07 0.02 0.02 0.04 0.05 0.13 0.08 0.11 0.10 0.04 0.16 0.12 0.07 0.16 0.04 0.12 0.10 0.11 0.08 0.11 0.10 0.11HV CATGTC 0.14 0.10 0.17 0.12 0.11 0.18 0.13 0.14 0.12 0.17 0.17 0.10 0.17 0.13 0.13 0.11 0.18 0.18 0.15 0.20 0.17 0.14 0.18HV CATGTG 0.20 0.14 0.26 0.11 0.10 0.20 0.12 0.06 0.18 0.09 0.04 0.16 0.16 0.13 0.18 0.07 0.15 0.30 0.35 0.30 0.26 0.38 0.29HV CATGTT 0.16 0.12 0.12 0.07 0.11 0.21 0.26 0.31 0.21 0.30 0.30 0.23 0.28 0.28 0.28 0.21 0.28 0.15 0.15 0.12 0.22 0.13 0.17HW CACTGG 0.88 0.85 0.96 0.92 0.94 0.89 0.36 0.53 0.29 0.41 0.59 0.32 0.37 0.66 0.29 0.62 0.35 0.77 0.76 0.84 0.76 0.81 0.71HW CATTGG 0.12 0.15 0.04 0.08 0.06 0.11 0.64 0.47 0.71 0.59 0.41 0.68 0.63 0.34 0.71 0.38 0.65 0.23 0.24 0.16 0.24 0.19 0.29HY CACTAC 0.21 0.42 0.20 0.42 0.44 0.20 0.16 0.27 0.23 0.18 0.31 0.16 0.19 0.32 0.18 0.42 0.17 0.35 0.32 0.41 0.33 0.37 0.35HY CACTAT 0.26 0.23 0.27 0.21 0.28 0.27 0.22 0.16 0.17 0.17 0.15 0.25 0.20 0.17 0.18 0.10 0.22 0.27 0.30 0.28 0.28 0.28 0.26HY CATTAC 0.27 0.19 0.31 0.18 0.09 0.22 0.23 0.28 0.27 0.26 0.29 0.21 0.27 0.28 0.27 0.35 0.21 0.19 0.22 0.17 0.19 0.18 0.17HY CATTAT 0.26 0.17 0.22 0.18 0.18 0.31 0.40 0.29 0.32 0.38 0.24 0.38 0.35 0.23 0.37 0.14 0.40 0.19 0.16 0.13 0.19 0.17 0.21I* ATATAA 0.10 0.00 0.10 0.00 0.00 0.12 0.22 0.03 0.24 0.12 0.00 0.17 0.14 0.06 0.05 0.09 0.20 0.08 0.05 0.06 0.12 0.07 0.05I* ATATAG 0.06 0.00 0.00 0.00 0.00 0.00 0.09 0.03 0.08 0.03 0.00 0.17 0.15 0.08 0.24 0.13 0.17 0.04 0.07 0.04 0.00 0.00 0.00I* ATATGA 0.01 0.00 0.00 0.00 0.00 0.00 0.11 0.03 0.10 0.12 0.10 0.17 0.11 0.08 0.18 0.00 0.13 0.08 0.05 0.11 0.06 0.00 0.05I* ATCTAA 0.18 0.40 0.20 0.29 0.29 0.25 0.11 0.15 0.10 0.15 0.21 0.09 0.11 0.22 0.13 0.30 0.03 0.12 0.23 0.09 0.19 0.31 0.10I* ATCTAG 0.02 0.10 0.00 0.14 0.14 0.00 0.04 0.03 0.00 0.00 0.00 0.00 0.06 0.08 0.05 0.09 0.03 0.14 0.09 0.22 0.06 0.14 0.16I* ATCTGA 0.17 0.20 0.20 0.29 0.43 0.12 0.03 0.06 0.03 0.06 0.05 0.04 0.04 0.06 0.05 0.00 0.03 0.26 0.23 0.20 0.31 0.21 0.47I* ATTTAA 0.32 0.30 0.40 0.29 0.14 0.38 0.20 0.48 0.29 0.29 0.58 0.17 0.15 0.17 0.13 0.22 0.27 0.12 0.14 0.10 0.12 0.21 0.10I* ATTTAG 0.04 0.00 0.00 0.00 0.00 0.00 0.10 0.03 0.10 0.09 0.00 0.13 0.14 0.17 0.05 0.13 0.10 0.07 0.09 0.12 0.06 0.03 0.05I* ATTTGA 0.09 0.00 0.10 0.00 0.00 0.12 0.12 0.15 0.05 0.15 0.05 0.04 0.10 0.08 0.10 0.04 0.03 0.09 0.04 0.07 0.06 0.03 0.00IA ATAGCA 0.01 0.00 0.01 0.00 0.00 0.01 0.07 0.03 0.07 0.05 0.02 0.11 0.07 0.02 0.10 0.02 0.10 0.08 0.05 0.05 0.07 0.04 0.10IA ATAGCC 0.02 0.01 0.03 0.01 0.01 0.02 0.04 0.01 0.06 0.02 0.01 0.06 0.06 0.03 0.07 0.02 0.07 0.07 0.05 0.08 0.06 0.04 0.06IA ATAGCG 0.01 0.01 0.01 0.01 0.00 0.02 0.04 0.01 0.05 0.01 0.00 0.04 0.03 0.01 0.03 0.00 0.03 0.01 0.01 0.01 0.01 0.01 0.01IA ATAGCT 0.01 0.00 0.01 0.00 0.00 0.01 0.07 0.03 0.07 0.04 0.02 0.08 0.07 0.04 0.09 0.02 0.07 0.08 0.05 0.07 0.09 0.05 0.09IA ATCGCA 0.05 0.10 0.05 0.06 0.07 0.04 0.05 0.04 0.05 0.05 0.04 0.06 0.04 0.04 0.04 0.02 0.04 0.04 0.03 0.04 0.04 0.04 0.04IA ATCGCC 0.20 0.18 0.23 0.17 0.19 0.21 0.04 0.06 0.04 0.05 0.06 0.03 0.05 0.07 0.05 0.07 0.04 0.08 0.09 0.11 0.07 0.10 0.07IA ATCGCG 0.08 0.11 0.10 0.12 0.12 0.07 0.02 0.01 0.03 0.02 0.01 0.03 0.00 0.00 0.00 0.00 0.00 0.01 0.01 0.02 0.01 0.02 0.01IA ATCGCT 0.08 0.17 0.07 0.18 0.17 0.09 0.07 0.09 0.05 0.10 0.10 0.05 0.06 0.10 0.06 0.12 0.05 0.05 0.05 0.06 0.05 0.05 0.04IA ATTGCA 0.06 0.07 0.06 0.03 0.04 0.07 0.17 0.12 0.18 0.14 0.10 0.17 0.17 0.11 0.19 0.08 0.20 0.16 0.17 0.13 0.17 0.16 0.18IA ATTGCC 0.24 0.16 0.25 0.18 0.17 0.22 0.15 0.19 0.15 0.18 0.21 0.13 0.17 0.23 0.13 0.25 0.13 0.19 0.20 0.21 0.19 0.22 0.17IA ATTGCG 0.13 0.08 0.12 0.11 0.09 0.14 0.07 0.04 0.07 0.06 0.04 0.07 0.04 0.02 0.05 0.01 0.05 0.02 0.03 0.03 0.03 0.03 0.02IA ATTGCT 0.11 0.12 0.07 0.12 0.13 0.11 0.22 0.36 0.19 0.28 0.39 0.17 0.23 0.33 0.20 0.38 0.21 0.20 0.26 0.20 0.23 0.26 0.21IC ATATGC 0.03 0.04 0.00 0.00 0.00 0.00 0.12 0.03 0.10 0.07 0.01 0.13 0.11 0.03 0.12 0.00 0.12 0.06 0.05 0.06 0.03 0.06 0.06IC ATATGT 0.04 0.03 0.04 0.00 0.00 0.05 0.19 0.05 0.22 0.12 0.06 0.23 0.14 0.06 0.14 0.07 0.16 0.09 0.06 0.05 0.09 0.05 0.10IC ATCTGC 0.24 0.30 0.29 0.33 0.42 0.30 0.09 0.10 0.11 0.10 0.08 0.11 0.12 0.13 0.11 0.16 0.09 0.33 0.30 0.41 0.33 0.35 0.29IC ATCTGT 0.16 0.14 0.20 0.23 0.21 0.16 0.14 0.33 0.14 0.21 0.39 0.10 0.19 0.31 0.16 0.33 0.17 0.28 0.30 0.31 0.27 0.28 0.27IC ATTTGC 0.30 0.35 0.26 0.30 0.25 0.30 0.18 0.17 0.21 0.19 0.14 0.17 0.19 0.15 0.21 0.23 0.22 0.11 0.13 0.10 0.13 0.08 0.13IC ATTTGT 0.23 0.14 0.20 0.13 0.12 0.18 0.27 0.32 0.22 0.30 0.33 0.26 0.26 0.33 0.26 0.21 0.24 0.13 0.16 0.07 0.15 0.18 0.15ID ATAGAC 0.01 0.00 0.01 0.00 0.01 0.02 0.09 0.04 0.10 0.06 0.03 0.09 0.10 0.07 0.12 0.03 0.11 0.12 0.07 0.11 0.10 0.07 0.12ID ATAGAT 0.03 0.01 0.02 0.00 0.01 0.05 0.16 0.07 0.17 0.11 0.05 0.17 0.13 0.06 0.16 0.03 0.15 0.13 0.10 0.09 0.11 0.07 0.14ID ATCGAC 0.28 0.37 0.32 0.37 0.43 0.24 0.09 0.11 0.11 0.09 0.12 0.06 0.09 0.16 0.09 0.18 0.06 0.11 0.11 0.13 0.12 0.15 0.09ID ATCGAT 0.23 0.20 0.23 0.24 0.21 0.23 0.15 0.18 0.14 0.18 0.19 0.14 0.12 0.12 0.11 0.14 0.12 0.08 0.08 0.10 0.06 0.08 0.08ID ATTGAC 0.14 0.15 0.12 0.16 0.11 0.16 0.18 0.26 0.18 0.20 0.27 0.16 0.23 0.30 0.22 0.33 0.22 0.27 0.31 0.30 0.27 0.29 0.27ID ATTGAT 0.32 0.26 0.30 0.23 0.23 0.31 0.33 0.34 0.30 0.37 0.34 0.37 0.33 0.30 0.31 0.29 0.34 0.29 0.33 0.27 0.35 0.33 0.30IE ATAGAA 0.05 0.03 0.04 0.03 0.01 0.06 0.17 0.06 0.16 0.10 0.04 0.21 0.14 0.05 0.16 0.04 0.16 0.15 0.13 0.14 0.15 0.11 0.16IE ATAGAG 0.02 0.01 0.02 0.00 0.01 0.01 0.08 0.03 0.10 0.05 0.03 0.10 0.10 0.06 0.11 0.04 0.10 0.12 0.10 0.13 0.11 0.07 0.12IE ATCGAA 0.27 0.45 0.23 0.37 0.43 0.22 0.15 0.23 0.17 0.19 0.23 0.13 0.13 0.14 0.12 0.12 0.14 0.05 0.06 0.06 0.06 0.04 0.06IE ATCGAG 0.09 0.13 0.10 0.12 0.11 0.07 0.08 0.07 0.09 0.06 0.06 0.06 0.07 0.14 0.06 0.16 0.05 0.12 0.13 0.15 0.10 0.16 0.10IE ATTGAA 0.40 0.29 0.38 0.35 0.34 0.43 0.38 0.48 0.36 0.45 0.52 0.36 0.35 0.30 0.36 0.31 0.36 0.28 0.31 0.23 0.31 0.34 0.31IE ATTGAG 0.17 0.10 0.23 0.13 0.10 0.20 0.14 0.13 0.12 0.15 0.12 0.14 0.21 0.31 0.18 0.35 0.19 0.27 0.27 0.30 0.27 0.28 0.25IF ATATTC 0.04 0.01 0.04 0.01 0.02 0.05 0.12 0.07 0.14 0.09 0.05 0.14 0.13 0.09 0.13 0.04 0.12 0.07 0.06 0.06 0.07 0.05 0.06IF ATATTT 0.08 0.03 0.05 0.03 0.01 0.08 0.20 0.08 0.23 0.15 0.06 0.24 0.19 0.10 0.20 0.07 0.22 0.13 0.12 0.08 0.15 0.10 0.17IF ATCTTC 0.21 0.37 0.24 0.26 0.40 0.20 0.10 0.16 0.10 0.12 0.18 0.07 0.10 0.19 0.11 0.18 0.10 0.32 0.32 0.40 0.31 0.31 0.27IF ATCTTT 0.15 0.15 0.16 0.14 0.15 0.13 0.12 0.17 0.10 0.12 0.19 0.09 0.14 0.18 0.13 0.19 0.13 0.20 0.24 0.22 0.20 0.28 0.20IF ATTTTC 0.26 0.29 0.24 0.28 0.29 0.25 0.22 0.32 0.20 0.27 0.34 0.18 0.22 0.25 0.19 0.34 0.21 0.14 0.11 0.13 0.12 0.12 0.14IF ATTTTT 0.26 0.15 0.26 0.28 0.13 0.29 0.25 0.21 0.22 0.25 0.17 0.29 0.23 0.18 0.23 0.17 0.22 0.14 0.14 0.10 0.15 0.15 0.15IG ATAGGA 0.01 0.00 0.00 0.00 0.00 0.01 0.05 0.02 0.05 0.03 0.01 0.07 0.07 0.02 0.09 0.02 0.09 0.07 0.04 0.06 0.08 0.03 0.08IG ATAGGC 0.02 0.01 0.01 0.01 0.00 0.01 0.04 0.01 0.06 0.02 0.02 0.06 0.04 0.02 0.04 0.01 0.04 0.05 0.03 0.05 0.04 0.02 0.05IG ATAGGG 0.01 0.00 0.01 0.00 0.00 0.01 0.03 0.01 0.03 0.02 0.01 0.04 0.03 0.02 0.04 0.01 0.04 0.04 0.04 0.03 0.03 0.02 0.03

Continued on next page

Page 158: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 145

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

IG ATAGGT 0.02 0.01 0.01 0.01 0.00 0.02 0.08 0.04 0.07 0.06 0.04 0.09 0.06 0.04 0.05 0.02 0.05 0.04 0.03 0.04 0.03 0.03 0.04IG ATCGGA 0.01 0.01 0.01 0.01 0.01 0.01 0.05 0.02 0.07 0.04 0.02 0.05 0.07 0.08 0.07 0.08 0.06 0.04 0.03 0.04 0.03 0.03 0.03IG ATCGGC 0.20 0.23 0.23 0.24 0.24 0.21 0.05 0.04 0.06 0.04 0.04 0.04 0.03 0.02 0.03 0.02 0.03 0.06 0.06 0.07 0.05 0.08 0.04IG ATCGGG 0.04 0.02 0.03 0.02 0.02 0.03 0.03 0.02 0.05 0.02 0.01 0.04 0.02 0.01 0.02 0.01 0.02 0.05 0.06 0.07 0.05 0.05 0.05IG ATCGGT 0.17 0.29 0.14 0.24 0.33 0.16 0.11 0.23 0.10 0.18 0.29 0.08 0.07 0.13 0.06 0.17 0.07 0.03 0.03 0.03 0.02 0.03 0.03IG ATTGGA 0.02 0.00 0.01 0.01 0.00 0.02 0.12 0.05 0.11 0.09 0.04 0.14 0.23 0.20 0.23 0.18 0.23 0.18 0.20 0.17 0.20 0.19 0.21IG ATTGGC 0.26 0.17 0.30 0.22 0.16 0.26 0.10 0.08 0.09 0.09 0.07 0.10 0.10 0.06 0.10 0.06 0.11 0.18 0.18 0.18 0.19 0.19 0.18IG ATTGGG 0.03 0.01 0.04 0.01 0.01 0.03 0.07 0.04 0.07 0.06 0.03 0.09 0.07 0.05 0.08 0.02 0.08 0.13 0.14 0.13 0.14 0.15 0.11IG ATTGGT 0.23 0.23 0.21 0.23 0.22 0.22 0.27 0.44 0.24 0.35 0.43 0.21 0.21 0.35 0.17 0.40 0.18 0.13 0.17 0.13 0.14 0.18 0.15IH ATACAC 0.02 0.02 0.03 0.00 0.01 0.03 0.10 0.03 0.15 0.06 0.03 0.12 0.08 0.02 0.07 0.05 0.09 0.07 0.06 0.07 0.06 0.04 0.07IH ATACAT 0.03 0.00 0.02 0.00 0.00 0.02 0.16 0.09 0.18 0.10 0.06 0.19 0.12 0.05 0.12 0.02 0.14 0.08 0.06 0.04 0.07 0.04 0.08IH ATCCAC 0.20 0.30 0.23 0.36 0.38 0.15 0.08 0.15 0.08 0.12 0.14 0.08 0.11 0.22 0.11 0.25 0.10 0.29 0.28 0.38 0.27 0.35 0.25IH ATCCAT 0.18 0.21 0.20 0.22 0.17 0.20 0.16 0.18 0.17 0.19 0.17 0.13 0.16 0.18 0.12 0.14 0.12 0.21 0.28 0.24 0.25 0.26 0.23IH ATTCAC 0.24 0.25 0.23 0.28 0.24 0.30 0.18 0.28 0.14 0.22 0.30 0.17 0.21 0.26 0.23 0.25 0.22 0.17 0.13 0.14 0.17 0.14 0.17IH ATTCAT 0.33 0.23 0.30 0.14 0.19 0.29 0.32 0.28 0.28 0.31 0.29 0.31 0.33 0.27 0.35 0.28 0.32 0.20 0.18 0.12 0.18 0.17 0.21II ATAATA 0.01 0.00 0.00 0.01 0.00 0.01 0.10 0.02 0.11 0.06 0.02 0.14 0.08 0.02 0.09 0.01 0.09 0.04 0.03 0.02 0.04 0.01 0.04II ATAATC 0.02 0.01 0.01 0.01 0.01 0.02 0.06 0.04 0.07 0.05 0.03 0.06 0.07 0.04 0.07 0.03 0.07 0.04 0.04 0.03 0.04 0.04 0.04II ATAATT 0.03 0.01 0.01 0.01 0.01 0.01 0.11 0.06 0.09 0.09 0.05 0.12 0.09 0.07 0.11 0.04 0.10 0.06 0.06 0.04 0.07 0.04 0.07II ATCATA 0.01 0.00 0.00 0.00 0.00 0.00 0.08 0.05 0.08 0.07 0.03 0.08 0.08 0.04 0.09 0.04 0.09 0.07 0.05 0.07 0.07 0.05 0.09II ATCATC 0.22 0.38 0.21 0.30 0.42 0.20 0.10 0.18 0.10 0.11 0.20 0.07 0.12 0.22 0.12 0.24 0.10 0.33 0.35 0.44 0.31 0.36 0.28II ATCATT 0.17 0.17 0.17 0.25 0.19 0.18 0.14 0.20 0.10 0.20 0.21 0.11 0.18 0.24 0.16 0.27 0.17 0.21 0.23 0.22 0.21 0.27 0.21II ATTATA 0.02 0.00 0.01 0.01 0.00 0.02 0.11 0.04 0.14 0.07 0.03 0.13 0.08 0.04 0.10 0.02 0.08 0.05 0.03 0.03 0.05 0.02 0.06II ATTATC 0.25 0.24 0.30 0.19 0.20 0.29 0.12 0.14 0.12 0.13 0.17 0.10 0.11 0.14 0.09 0.16 0.12 0.09 0.08 0.08 0.08 0.07 0.08II ATTATT 0.27 0.18 0.28 0.23 0.16 0.25 0.20 0.27 0.18 0.23 0.27 0.18 0.18 0.20 0.18 0.19 0.18 0.11 0.13 0.07 0.15 0.13 0.12IK ATAAAA 0.09 0.01 0.07 0.04 0.00 0.09 0.17 0.07 0.18 0.12 0.04 0.22 0.12 0.05 0.15 0.02 0.14 0.11 0.07 0.08 0.09 0.06 0.11IK ATAAAG 0.03 0.01 0.01 0.01 0.00 0.02 0.11 0.05 0.12 0.09 0.04 0.13 0.10 0.07 0.11 0.05 0.12 0.11 0.08 0.10 0.10 0.06 0.12IK ATCAAA 0.33 0.52 0.34 0.50 0.50 0.29 0.23 0.22 0.22 0.23 0.21 0.20 0.27 0.23 0.26 0.20 0.28 0.21 0.23 0.22 0.20 0.21 0.18IK ATCAAG 0.11 0.17 0.08 0.11 0.16 0.09 0.17 0.33 0.17 0.23 0.38 0.13 0.27 0.43 0.24 0.52 0.22 0.31 0.36 0.39 0.32 0.38 0.29IK ATTAAA 0.32 0.23 0.36 0.25 0.26 0.37 0.19 0.16 0.19 0.19 0.15 0.20 0.13 0.08 0.13 0.08 0.14 0.15 0.14 0.11 0.15 0.15 0.18IK ATTAAG 0.12 0.06 0.15 0.08 0.09 0.14 0.13 0.17 0.12 0.14 0.18 0.12 0.11 0.14 0.11 0.14 0.10 0.12 0.13 0.10 0.15 0.14 0.12IL ATACTA 0.00 0.00 0.00 0.00 0.00 0.00 0.04 0.02 0.05 0.03 0.01 0.05 0.04 0.01 0.05 0.00 0.04 0.01 0.01 0.01 0.02 0.01 0.02IL ATACTC 0.01 0.00 0.02 0.00 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.02 0.02 0.01 0.02 0.00 0.02 0.02 0.01 0.01 0.01 0.01 0.01IL ATACTG 0.02 0.01 0.03 0.00 0.01 0.03 0.04 0.01 0.04 0.03 0.01 0.04 0.04 0.02 0.05 0.01 0.05 0.04 0.03 0.03 0.04 0.03 0.04IL ATACTT 0.01 0.00 0.01 0.01 0.00 0.01 0.04 0.01 0.04 0.02 0.01 0.04 0.04 0.02 0.05 0.01 0.04 0.02 0.02 0.01 0.02 0.01 0.03IL ATATTA 0.02 0.00 0.01 0.01 0.01 0.02 0.08 0.04 0.08 0.06 0.03 0.09 0.04 0.01 0.04 0.02 0.04 0.02 0.02 0.01 0.01 0.01 0.02IL ATATTG 0.02 0.01 0.02 0.01 0.01 0.01 0.07 0.04 0.08 0.06 0.06 0.06 0.07 0.04 0.07 0.02 0.07 0.02 0.02 0.01 0.02 0.02 0.02IL ATCCTA 0.00 0.00 0.00 0.00 0.01 0.01 0.03 0.04 0.03 0.03 0.04 0.04 0.03 0.03 0.03 0.01 0.03 0.04 0.03 0.05 0.03 0.04 0.04IL ATCCTC 0.11 0.10 0.11 0.14 0.12 0.09 0.02 0.01 0.02 0.01 0.00 0.01 0.02 0.03 0.02 0.04 0.02 0.11 0.10 0.14 0.10 0.10 0.09IL ATCCTG 0.14 0.27 0.15 0.24 0.28 0.14 0.03 0.02 0.03 0.02 0.02 0.03 0.04 0.06 0.04 0.05 0.03 0.20 0.20 0.24 0.19 0.23 0.18IL ATCCTT 0.04 0.04 0.04 0.04 0.04 0.04 0.03 0.03 0.04 0.03 0.03 0.03 0.04 0.04 0.04 0.04 0.04 0.07 0.07 0.08 0.07 0.08 0.07IL ATCTTA 0.02 0.01 0.02 0.00 0.00 0.02 0.06 0.08 0.04 0.07 0.10 0.05 0.04 0.04 0.04 0.06 0.05 0.03 0.04 0.03 0.03 0.03 0.04IL ATCTTG 0.02 0.01 0.02 0.00 0.00 0.01 0.06 0.13 0.05 0.09 0.16 0.04 0.07 0.12 0.06 0.14 0.06 0.07 0.08 0.07 0.08 0.08 0.07IL ATTCTA 0.01 0.00 0.01 0.01 0.01 0.01 0.06 0.07 0.04 0.06 0.07 0.07 0.06 0.06 0.07 0.05 0.06 0.03 0.04 0.03 0.03 0.04 0.03IL ATTCTC 0.09 0.07 0.10 0.06 0.06 0.12 0.03 0.02 0.03 0.03 0.02 0.03 0.05 0.06 0.04 0.04 0.04 0.06 0.06 0.06 0.05 0.05 0.06IL ATTCTG 0.24 0.30 0.23 0.30 0.31 0.22 0.04 0.03 0.05 0.04 0.04 0.04 0.07 0.09 0.06 0.10 0.06 0.09 0.10 0.10 0.11 0.11 0.09IL ATTCTT 0.07 0.08 0.06 0.09 0.08 0.08 0.07 0.08 0.07 0.08 0.06 0.07 0.10 0.10 0.10 0.09 0.10 0.07 0.07 0.05 0.08 0.07 0.08IL ATTTTA 0.07 0.05 0.08 0.03 0.02 0.05 0.15 0.15 0.15 0.17 0.14 0.15 0.09 0.07 0.08 0.07 0.09 0.04 0.03 0.03 0.06 0.03 0.06IL ATTTTG 0.10 0.05 0.10 0.05 0.06 0.12 0.13 0.19 0.13 0.16 0.21 0.12 0.15 0.20 0.15 0.26 0.14 0.06 0.07 0.04 0.06 0.06 0.07IM ATAATG 0.08 0.03 0.07 0.04 0.01 0.08 0.30 0.16 0.38 0.21 0.10 0.32 0.27 0.16 0.28 0.07 0.33 0.17 0.15 0.12 0.17 0.15 0.19IM ATCATG 0.44 0.56 0.41 0.55 0.54 0.46 0.33 0.45 0.31 0.37 0.53 0.32 0.40 0.51 0.39 0.56 0.36 0.63 0.61 0.73 0.60 0.65 0.60IM ATTATG 0.49 0.42 0.52 0.41 0.46 0.46 0.37 0.39 0.32 0.42 0.37 0.36 0.33 0.33 0.34 0.37 0.31 0.20 0.24 0.15 0.23 0.19 0.21IN ATAAAC 0.03 0.02 0.04 0.01 0.01 0.03 0.12 0.06 0.14 0.10 0.07 0.14 0.10 0.05 0.12 0.04 0.11 0.09 0.07 0.08 0.08 0.06 0.10IN ATAAAT 0.05 0.02 0.03 0.01 0.02 0.05 0.19 0.10 0.21 0.14 0.07 0.22 0.12 0.07 0.13 0.03 0.15 0.12 0.09 0.07 0.10 0.08 0.12IN ATCAAC 0.31 0.47 0.35 0.49 0.49 0.26 0.16 0.28 0.18 0.20 0.32 0.13 0.26 0.42 0.24 0.46 0.21 0.32 0.29 0.39 0.28 0.34 0.31IN ATCAAT 0.18 0.15 0.17 0.12 0.13 0.20 0.20 0.20 0.16 0.23 0.19 0.21 0.25 0.21 0.23 0.20 0.25 0.24 0.30 0.27 0.26 0.27 0.24IN ATTAAC 0.24 0.21 0.30 0.24 0.21 0.28 0.13 0.18 0.10 0.16 0.20 0.10 0.12 0.15 0.12 0.16 0.11 0.10 0.13 0.10 0.12 0.12 0.11IN ATTAAT 0.19 0.12 0.11 0.14 0.14 0.18 0.20 0.18 0.20 0.18 0.15 0.20 0.15 0.10 0.16 0.11 0.17 0.13 0.12 0.09 0.16 0.12 0.12IP ATACCA 0.01 0.01 0.00 0.00 0.00 0.01 0.11 0.05 0.13 0.08 0.04 0.13 0.07 0.03 0.08 0.03 0.10 0.05 0.04 0.04 0.04 0.03 0.06IP ATACCC 0.01 0.01 0.02 0.00 0.01 0.02 0.04 0.01 0.05 0.02 0.01 0.05 0.05 0.02 0.05 0.01 0.07 0.04 0.02 0.04 0.03 0.02 0.03IP ATACCG 0.03 0.01 0.02 0.00 0.01 0.03 0.06 0.01 0.07 0.03 0.01 0.09 0.03 0.01 0.04 0.00 0.04 0.01 0.00 0.01 0.01 0.01 0.01IP ATACCT 0.01 0.00 0.02 0.00 0.00 0.02 0.08 0.02 0.11 0.06 0.02 0.09 0.07 0.04 0.07 0.01 0.08 0.05 0.05 0.04 0.04 0.04 0.06IP ATCCCA 0.06 0.08 0.07 0.06 0.05 0.07 0.10 0.19 0.09 0.13 0.20 0.08 0.09 0.15 0.09 0.16 0.08 0.15 0.14 0.15 0.14 0.15 0.15IP ATCCCC 0.07 0.02 0.08 0.06 0.06 0.07 0.03 0.02 0.03 0.03 0.03 0.03 0.05 0.06 0.04 0.04 0.04 0.14 0.16 0.21 0.13 0.18 0.12IP ATCCCG 0.22 0.32 0.22 0.34 0.34 0.17 0.02 0.01 0.01 0.02 0.01 0.03 0.02 0.01 0.03 0.00 0.02 0.04 0.04 0.04 0.04 0.03 0.02IP ATCCCT 0.07 0.08 0.07 0.09 0.07 0.09 0.06 0.06 0.08 0.06 0.08 0.04 0.08 0.09 0.08 0.11 0.08 0.15 0.15 0.16 0.14 0.15 0.17IP ATTCCA 0.09 0.04 0.07 0.10 0.06 0.10 0.20 0.37 0.16 0.29 0.39 0.17 0.20 0.29 0.21 0.33 0.19 0.12 0.14 0.10 0.13 0.12 0.12IP ATTCCC 0.09 0.03 0.10 0.01 0.04 0.09 0.07 0.04 0.11 0.06 0.04 0.08 0.10 0.05 0.09 0.07 0.10 0.09 0.09 0.10 0.10 0.09 0.08IP ATTCCG 0.24 0.31 0.26 0.28 0.29 0.19 0.07 0.05 0.06 0.06 0.03 0.07 0.05 0.05 0.05 0.02 0.04 0.02 0.02 0.01 0.02 0.01 0.02IP ATTCCT 0.11 0.08 0.08 0.05 0.08 0.15 0.16 0.16 0.12 0.16 0.15 0.15 0.18 0.21 0.17 0.21 0.17 0.14 0.14 0.11 0.18 0.17 0.16IQ ATACAA 0.03 0.00 0.01 0.01 0.00 0.03 0.15 0.09 0.19 0.10 0.06 0.17 0.11 0.05 0.12 0.02 0.11 0.05 0.04 0.05 0.06 0.03 0.06IQ ATACAG 0.04 0.02 0.04 0.00 0.01 0.03 0.09 0.02 0.09 0.05 0.03 0.10 0.08 0.03 0.09 0.03 0.11 0.10 0.07 0.08 0.13 0.04 0.10IQ ATCCAA 0.05 0.07 0.07 0.06 0.04 0.05 0.17 0.29 0.15 0.21 0.34 0.12 0.16 0.20 0.15 0.23 0.14 0.12 0.09 0.15 0.10 0.10 0.11IQ ATCCAG 0.25 0.36 0.24 0.24 0.32 0.23 0.08 0.04 0.09 0.07 0.05 0.09 0.12 0.17 0.13 0.21 0.13 0.40 0.45 0.46 0.37 0.49 0.36IQ ATTCAA 0.12 0.04 0.11 0.08 0.09 0.18 0.37 0.48 0.31 0.44 0.44 0.35 0.35 0.36 0.36 0.34 0.35 0.11 0.11 0.08 0.10 0.11 0.14IQ ATTCAG 0.52 0.50 0.53 0.60 0.55 0.47 0.15 0.08 0.17 0.12 0.09 0.16 0.18 0.18 0.17 0.18 0.17 0.22 0.25 0.18 0.25 0.23 0.23IR ATAAGA 0.01 0.00 0.00 0.01 0.00 0.01 0.15 0.06 0.14 0.10 0.04 0.18 0.09 0.05 0.11 0.02 0.11 0.05 0.05 0.04 0.04 0.03 0.06IR ATAAGG 0.00 0.00 0.00 0.00 0.00 0.01 0.07 0.02 0.11 0.04 0.01 0.07 0.05 0.03 0.05 0.01 0.07 0.04 0.04 0.03 0.02 0.03 0.04IR ATACGA 0.01 0.00 0.00 0.01 0.00 0.00 0.04 0.00 0.04 0.01 0.00 0.06 0.04 0.01 0.05 0.00 0.04 0.02 0.02 0.01 0.03 0.01 0.02IR ATACGC 0.02 0.01 0.03 0.00 0.01 0.02 0.02 0.00 0.02 0.01 0.00 0.02 0.01 0.00 0.01 0.00 0.02 0.01 0.01 0.01 0.01 0.01 0.01IR ATACGG 0.01 0.00 0.01 0.00 0.00 0.01 0.02 0.00 0.03 0.01 0.00 0.04 0.03 0.01 0.04 0.00 0.04 0.02 0.02 0.01 0.02 0.01 0.01IR ATACGT 0.02 0.01 0.01 0.00 0.00 0.02 0.03 0.02 0.05 0.02 0.00 0.04 0.02 0.01 0.03 0.01 0.02 0.01 0.00 0.01 0.02 0.00 0.01IR ATCAGA 0.01 0.01 0.01 0.01 0.01 0.02 0.16 0.33 0.13 0.23 0.37 0.12 0.17 0.29 0.16 0.38 0.14 0.11 0.12 0.10 0.11 0.09 0.12IR ATCAGG 0.01 0.01 0.01 0.01 0.00 0.02 0.06 0.04 0.05 0.06 0.04 0.06 0.07 0.07 0.08 0.04 0.07 0.10 0.09 0.11 0.09 0.08 0.10IR ATCCGA 0.01 0.01 0.00 0.00 0.00 0.01 0.01 0.00 0.02 0.01 0.00 0.01 0.03 0.03 0.04 0.01 0.04 0.10 0.12 0.11 0.10 0.12 0.09IR ATCCGC 0.22 0.18 0.25 0.23 0.21 0.22 0.02 0.01 0.02 0.02 0.01 0.01 0.02 0.02 0.01 0.03 0.01 0.10 0.11 0.14 0.10 0.15 0.10IR ATCCGG 0.02 0.01 0.03 0.00 0.00 0.02 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.02 0.01 0.00 0.01 0.11 0.11 0.12 0.12 0.13 0.10IR ATCCGT 0.15 0.29 0.15 0.30 0.26 0.13 0.03 0.07 0.03 0.05 0.07 0.03 0.05 0.10 0.03 0.14 0.03 0.06 0.07 0.07 0.06 0.09 0.06IR ATTAGA 0.01 0.00 0.00 0.00 0.00 0.02 0.16 0.25 0.12 0.24 0.28 0.15 0.15 0.17 0.14 0.20 0.13 0.05 0.04 0.04 0.05 0.03 0.05IR ATTAGG 0.00 0.00 0.00 0.00 0.00 0.00 0.07 0.05 0.08 0.06 0.04 0.07 0.05 0.03 0.06 0.01 0.05 0.03 0.03 0.03 0.03 0.02 0.03IR ATTCGA 0.02 0.00 0.02 0.00 0.00 0.02 0.03 0.01 0.03 0.02 0.00 0.03 0.07 0.03 0.07 0.02 0.09 0.07 0.07 0.06 0.07 0.07 0.08IR ATTCGC 0.25 0.21 0.27 0.19 0.22 0.24 0.03 0.01 0.03 0.02 0.01 0.02 0.03 0.03 0.03 0.02 0.03 0.04 0.04 0.03 0.05 0.03 0.04IR ATTCGG 0.02 0.01 0.03 0.00 0.01 0.03 0.02 0.00 0.02 0.01 0.00 0.02 0.03 0.01 0.03 0.00 0.03 0.05 0.05 0.05 0.05 0.05 0.05IR ATTCGT 0.21 0.25 0.17 0.25 0.26 0.21 0.07 0.11 0.07 0.10 0.09 0.06 0.08 0.10 0.07 0.10 0.07 0.04 0.04 0.03 0.03 0.04 0.04IS ATAAGC 0.02 0.01 0.02 0.01 0.01 0.03 0.03 0.01 0.04 0.03 0.01 0.04 0.03 0.01 0.03 0.01 0.03 0.03 0.02 0.02 0.03 0.02 0.03IS ATAAGT 0.01 0.01 0.01 0.00 0.00 0.01 0.04 0.02 0.05 0.03 0.02 0.04 0.03 0.02 0.03 0.01 0.04 0.03 0.03 0.02 0.02 0.01 0.03IS ATATCA 0.01 0.00 0.01 0.00 0.00 0.01 0.08 0.04 0.07 0.06 0.03 0.09 0.06 0.03 0.06 0.02 0.07 0.03 0.02 0.02 0.02 0.01 0.04IS ATATCC 0.01 0.00 0.01 0.01 0.00 0.00 0.05 0.03 0.06 0.04 0.02 0.06 0.05 0.03 0.06 0.01 0.05 0.03 0.03 0.03 0.04 0.03 0.03IS ATATCG 0.01 0.00 0.01 0.00 0.00 0.01 0.04 0.01 0.04 0.02 0.01 0.05 0.03 0.01 0.03 0.01 0.02 0.01 0.00 0.01 0.01 0.01 0.01IS ATATCT 0.01 0.01 0.01 0.01 0.00 0.01 0.09 0.05 0.11 0.07 0.05 0.10 0.06 0.03 0.07 0.02 0.07 0.04 0.03 0.03 0.05 0.04 0.05IS ATCAGC 0.18 0.17 0.22 0.16 0.17 0.17 0.03 0.02 0.03 0.02 0.02 0.03 0.05 0.05 0.05 0.04 0.04 0.13 0.16 0.15 0.15 0.16 0.12IS ATCAGT 0.10 0.06 0.11 0.09 0.05 0.10 0.05 0.04 0.07 0.05 0.03 0.04 0.07 0.05 0.07 0.06 0.06 0.09 0.09 0.10 0.09 0.09 0.10IS ATCTCA 0.03 0.02 0.02 0.02 0.01 0.02 0.04 0.04 0.04 0.04 0.03 0.04 0.05 0.04 0.06 0.05 0.05 0.08 0.07 0.08 0.08 0.08 0.07IS ATCTCC 0.10 0.21 0.12 0.16 0.22 0.08 0.04 0.07 0.04 0.05 0.08 0.03 0.06 0.11 0.06 0.16 0.05 0.13 0.13 0.16 0.11 0.13 0.10IS ATCTCG 0.04 0.03 0.05 0.07 0.04 0.05 0.02 0.02 0.03 0.02 0.02 0.01 0.02 0.03 0.02 0.01 0.01 0.02 0.02 0.02 0.01 0.01 0.02IS ATCTCT 0.07 0.13 0.06 0.14 0.16 0.06 0.05 0.13 0.04 0.07 0.13 0.05 0.07 0.14 0.07 0.16 0.06 0.10 0.10 0.12 0.11 0.12 0.10IS ATTAGC 0.08 0.06 0.09 0.07 0.04 0.11 0.03 0.02 0.04 0.02 0.02 0.03 0.03 0.02 0.03 0.02 0.04 0.03 0.03 0.03 0.03 0.03 0.03IS ATTAGT 0.03 0.01 0.02 0.02 0.01 0.03 0.05 0.03 0.07 0.05 0.04 0.05 0.05 0.03 0.04 0.03 0.06 0.03 0.04 0.02 0.02 0.04 0.03IS ATTTCA 0.05 0.04 0.04 0.02 0.03 0.07 0.10 0.08 0.08 0.10 0.08 0.10 0.10 0.08 0.11 0.07 0.12 0.07 0.06 0.04 0.06 0.04 0.07IS ATTTCC 0.09 0.08 0.11 0.09 0.08 0.10 0.08 0.14 0.06 0.12 0.15 0.08 0.09 0.14 0.09 0.14 0.07 0.07 0.07 0.07 0.06 0.07 0.06IS ATTTCG 0.06 0.04 0.04 0.04 0.04 0.07 0.04 0.03 0.05 0.03 0.03 0.04 0.04 0.02 0.04 0.02 0.05 0.01 0.01 0.01 0.00 0.00 0.01IS ATTTCT 0.08 0.12 0.06 0.11 0.12 0.08 0.13 0.22 0.09 0.18 0.24 0.12 0.11 0.14 0.10 0.18 0.11 0.09 0.10 0.07 0.10 0.09 0.10IT ATAACA 0.01 0.00 0.00 0.01 0.00 0.02 0.10 0.03 0.12 0.07 0.02 0.12 0.07 0.03 0.06 0.01 0.07 0.06 0.04 0.04 0.06 0.02 0.07IT ATAACC 0.04 0.01 0.05 0.01 0.00 0.04 0.05 0.02 0.04 0.03 0.03 0.07 0.05 0.03 0.05 0.01 0.07 0.04 0.03 0.04 0.03 0.02 0.05IT ATAACG 0.02 0.01 0.01 0.00 0.01 0.03 0.05 0.01 0.06 0.03 0.01 0.05 0.04 0.01 0.03 0.00 0.04 0.01 0.01 0.01 0.01 0.01 0.01IT ATAACT 0.01 0.01 0.01 0.00 0.01 0.01 0.09 0.05 0.07 0.07 0.04 0.09 0.08 0.03 0.09 0.05 0.10 0.05 0.04 0.04 0.05 0.04 0.07IT ATCACA 0.03 0.01 0.03 0.01 0.01 0.03 0.09 0.09 0.09 0.10 0.09 0.09 0.11 0.08 0.11 0.05 0.11 0.19 0.17 0.18 0.20 0.15 0.17IT ATCACC 0.28 0.36 0.37 0.38 0.37 0.24 0.08 0.12 0.08 0.10 0.15 0.07 0.11 0.19 0.09 0.21 0.10 0.24 0.25 0.31 0.23 0.30 0.20IT ATCACG 0.06 0.03 0.08 0.04 0.02 0.07 0.04 0.03 0.05 0.03 0.02 0.04 0.04 0.04 0.04 0.02 0.04 0.04 0.05 0.05 0.06 0.06 0.04IT ATCACT 0.10 0.20 0.09 0.19 0.23 0.10 0.12 0.22 0.09 0.17 0.22 0.11 0.14 0.22 0.14 0.27 0.11 0.16 0.19 0.17 0.16 0.19 0.17IT ATTACA 0.03 0.02 0.03 0.02 0.02 0.01 0.11 0.09 0.10 0.10 0.08 0.12 0.10 0.07 0.10 0.06 0.10 0.07 0.08 0.05 0.08 0.08 0.08IT ATTACC 0.23 0.20 0.21 0.20 0.16 0.25 0.09 0.12 0.10 0.10 0.12 0.07 0.10 0.14 0.10 0.16 0.08 0.06 0.07 0.05 0.05 0.06 0.06IT ATTACG 0.09 0.04 0.08 0.05 0.06 0.10 0.05 0.03 0.04 0.04 0.03 0.06 0.04 0.03 0.05 0.01 0.05 0.01 0.01 0.01 0.01 0.01 0.01IT ATTACT 0.09 0.10 0.04 0.10 0.09 0.10 0.15 0.18 0.15 0.16 0.19 0.11 0.13 0.13 0.13 0.14 0.14 0.07 0.06 0.05 0.06 0.06 0.08IV ATAGTA 0.01 0.00 0.00 0.00 0.00 0.00 0.06 0.02 0.06 0.04 0.02 0.07 0.05 0.02 0.05 0.02 0.05 0.03 0.04 0.02 0.03 0.01 0.04IV ATAGTC 0.01 0.01 0.01 0.01 0.01 0.01 0.04 0.02 0.06 0.03 0.02 0.04 0.04 0.02 0.06 0.02 0.05 0.04 0.03 0.04 0.03 0.03 0.04IV ATAGTG 0.01 0.01 0.01 0.01 0.00 0.02 0.05 0.02 0.08 0.03 0.01 0.07 0.06 0.03 0.06 0.02 0.06 0.07 0.06 0.06 0.07 0.04 0.06IV ATAGTT 0.01 0.01 0.01 0.01 0.00 0.02 0.07 0.04 0.07 0.06 0.04 0.08 0.08 0.04 0.09 0.03 0.10 0.05 0.03 0.03 0.05 0.04 0.06IV ATCGTA 0.03 0.06 0.04 0.03 0.06 0.04 0.04 0.02 0.05 0.03 0.03 0.04 0.03 0.02 0.03 0.02 0.03 0.02 0.02 0.02 0.02 0.02 0.02IV ATCGTC 0.14 0.17 0.15 0.19 0.14 0.13 0.05 0.07 0.05 0.06 0.08 0.04 0.04 0.09 0.04 0.08 0.03 0.07 0.06 0.07 0.07 0.07 0.04IV ATCGTG 0.10 0.12 0.12 0.12 0.12 0.10 0.04 0.03 0.02 0.04 0.03 0.04 0.04 0.04 0.03 0.03 0.03 0.11 0.10 0.12 0.08 0.11 0.09IV ATCGTT 0.13 0.28 0.08 0.29 0.26 0.11 0.08 0.12 0.07 0.10 0.11 0.09 0.08 0.10 0.08 0.12 0.07 0.03 0.04 0.03 0.03 0.02 0.03IV ATTGTA 0.03 0.01 0.04 0.01 0.00 0.03 0.11 0.07 0.12 0.09 0.07 0.10 0.09 0.08 0.09 0.07 0.11 0.09 0.09 0.06 0.10 0.09 0.11IV ATTGTC 0.18 0.10 0.23 0.12 0.14 0.17 0.13 0.21 0.09 0.16 0.21 0.10 0.14 0.18 0.14 0.22 0.11 0.14 0.15 0.16 0.14 0.15 0.15IV ATTGTG 0.16 0.10 0.17 0.09 0.12 0.16 0.11 0.07 0.12 0.09 0.05 0.11 0.13 0.12 0.13 0.09 0.13 0.24 0.25 0.25 0.24 0.27 0.22IV ATTGTT 0.17 0.14 0.14 0.13 0.15 0.20 0.23 0.31 0.19 0.29 0.33 0.22 0.21 0.27 0.21 0.29 0.21 0.13 0.14 0.12 0.15 0.15 0.14IW ATATGG 0.06 0.06 0.05 0.00 0.08 0.04 0.34 0.15 0.40 0.26 0.13 0.36 0.29 0.16 0.28 0.08 0.31 0.17 0.21 0.13 0.25 0.18 0.23IW ATCTGG 0.76 0.69 0.84 0.75 0.76 0.81 0.21 0.37 0.16 0.24 0.45 0.19 0.28 0.46 0.26 0.66 0.25 0.57 0.51 0.64 0.48 0.59 0.50IW ATTTGG 0.18 0.24 0.11 0.25 0.16 0.15 0.44 0.48 0.44 0.49 0.42 0.45 0.43 0.38 0.46 0.26 0.43 0.26 0.28 0.23 0.27 0.23 0.27IY ATATAC 0.02 0.00 0.01 0.02 0.01 0.02 0.15 0.07 0.16 0.10 0.07 0.18 0.11 0.07 0.14 0.05 0.12 0.06 0.05 0.06 0.04 0.04 0.06IY ATATAT 0.04 0.01 0.01 0.00 0.00 0.06 0.20 0.08 0.21 0.11 0.05 0.24 0.13 0.09 0.12 0.05 0.16 0.08 0.06 0.04 0.07 0.05 0.09IY ATCTAC 0.22 0.29 0.22 0.38 0.36 0.21 0.10 0.20 0.12 0.14 0.29 0.08 0.18 0.25 0.17 0.39 0.16 0.33 0.36 0.40 0.30 0.36 0.28IY ATCTAT 0.19 0.24 0.19 0.17 0.20 0.15 0.11 0.12 0.09 0.13 0.13 0.07 0.14 0.14 0.15 0.15 0.13 0.23 0.23 0.25 0.26 0.29 0.22

Continued on next page

Page 159: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 146

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

IY ATTTAC 0.20 0.17 0.24 0.19 0.18 0.19 0.18 0.28 0.17 0.25 0.25 0.14 0.22 0.28 0.20 0.25 0.20 0.14 0.10 0.13 0.16 0.09 0.15IY ATTTAT 0.33 0.28 0.33 0.24 0.25 0.38 0.26 0.24 0.24 0.27 0.22 0.29 0.22 0.16 0.22 0.12 0.23 0.17 0.20 0.13 0.17 0.18 0.21K* AAATAA 0.50 0.47 0.50 0.52 0.49 0.68 0.40 0.54 0.41 0.43 0.55 0.43 0.25 0.38 0.26 0.41 0.32 0.18 0.17 0.13 0.36 0.20 0.12K* AAATAG 0.03 0.00 0.10 0.00 0.02 0.00 0.17 0.22 0.12 0.28 0.20 0.10 0.32 0.38 0.30 0.43 0.32 0.10 0.04 0.14 0.08 0.09 0.03K* AAATGA 0.13 0.03 0.20 0.07 0.02 0.20 0.19 0.13 0.14 0.13 0.16 0.10 0.15 0.08 0.17 0.06 0.10 0.17 0.23 0.14 0.12 0.14 0.15K* AAGTAA 0.26 0.47 0.20 0.38 0.47 0.08 0.10 0.08 0.07 0.09 0.06 0.12 0.11 0.08 0.07 0.06 0.12 0.18 0.14 0.23 0.08 0.15 0.09K* AAGTAG 0.03 0.00 0.00 0.00 0.00 0.00 0.06 0.00 0.12 0.03 0.02 0.12 0.11 0.06 0.13 0.04 0.12 0.12 0.15 0.10 0.12 0.20 0.18K* AAGTGA 0.04 0.03 0.00 0.02 0.00 0.04 0.07 0.03 0.14 0.04 0.02 0.12 0.06 0.02 0.06 0.02 0.02 0.26 0.27 0.27 0.24 0.23 0.44KA AAAGCA 0.16 0.20 0.14 0.18 0.21 0.14 0.16 0.07 0.21 0.12 0.06 0.21 0.14 0.07 0.17 0.05 0.18 0.14 0.13 0.11 0.16 0.11 0.16KA AAAGCC 0.24 0.17 0.26 0.21 0.19 0.25 0.10 0.09 0.10 0.10 0.09 0.09 0.11 0.09 0.13 0.09 0.12 0.18 0.16 0.17 0.17 0.15 0.17KA AAAGCG 0.35 0.35 0.37 0.38 0.33 0.35 0.05 0.02 0.04 0.04 0.01 0.06 0.05 0.03 0.05 0.01 0.06 0.02 0.03 0.02 0.02 0.02 0.02KA AAAGCT 0.09 0.15 0.07 0.16 0.17 0.08 0.19 0.19 0.17 0.20 0.17 0.21 0.21 0.16 0.23 0.15 0.23 0.15 0.15 0.12 0.14 0.15 0.15KA AAGGCA 0.03 0.03 0.02 0.01 0.02 0.05 0.14 0.09 0.15 0.12 0.08 0.14 0.14 0.11 0.14 0.09 0.14 0.14 0.13 0.14 0.13 0.12 0.14KA AAGGCC 0.03 0.02 0.05 0.01 0.01 0.03 0.11 0.16 0.11 0.14 0.19 0.09 0.12 0.19 0.10 0.21 0.09 0.19 0.20 0.24 0.18 0.21 0.17KA AAGGCG 0.07 0.06 0.09 0.03 0.04 0.07 0.06 0.03 0.06 0.05 0.03 0.06 0.04 0.02 0.03 0.01 0.04 0.04 0.03 0.04 0.04 0.04 0.03KA AAGGCT 0.03 0.03 0.01 0.02 0.02 0.03 0.20 0.35 0.17 0.24 0.36 0.14 0.20 0.34 0.15 0.39 0.14 0.15 0.17 0.16 0.16 0.19 0.15KC AAATGC 0.43 0.43 0.54 0.52 0.50 0.51 0.24 0.16 0.27 0.20 0.15 0.27 0.26 0.11 0.25 0.12 0.27 0.18 0.18 0.17 0.21 0.17 0.17KC AAATGT 0.32 0.30 0.19 0.35 0.27 0.22 0.42 0.38 0.44 0.41 0.41 0.43 0.40 0.40 0.44 0.34 0.43 0.27 0.20 0.18 0.24 0.21 0.26KC AAGTGC 0.13 0.14 0.19 0.09 0.12 0.16 0.14 0.11 0.10 0.18 0.13 0.11 0.11 0.15 0.11 0.14 0.10 0.26 0.33 0.31 0.26 0.27 0.26KC AAGTGT 0.12 0.14 0.08 0.04 0.12 0.11 0.20 0.35 0.19 0.21 0.31 0.18 0.23 0.34 0.20 0.41 0.20 0.29 0.30 0.33 0.29 0.35 0.31KD AAAGAC 0.33 0.43 0.32 0.42 0.41 0.32 0.18 0.14 0.19 0.16 0.12 0.18 0.21 0.20 0.24 0.18 0.22 0.22 0.23 0.21 0.20 0.19 0.24KD AAAGAT 0.56 0.50 0.52 0.53 0.49 0.55 0.37 0.27 0.40 0.32 0.27 0.40 0.36 0.25 0.38 0.22 0.39 0.25 0.24 0.22 0.28 0.24 0.28KD AAGGAC 0.04 0.02 0.06 0.01 0.03 0.03 0.17 0.25 0.15 0.21 0.30 0.15 0.16 0.29 0.13 0.32 0.14 0.29 0.26 0.34 0.27 0.26 0.25KD AAGGAT 0.08 0.05 0.10 0.05 0.07 0.10 0.28 0.33 0.26 0.31 0.32 0.27 0.26 0.26 0.25 0.28 0.24 0.24 0.27 0.23 0.24 0.30 0.23KE AAAGAA 0.45 0.52 0.43 0.57 0.55 0.49 0.38 0.31 0.39 0.37 0.29 0.38 0.32 0.19 0.34 0.16 0.35 0.26 0.22 0.21 0.25 0.20 0.28KE AAAGAG 0.44 0.42 0.46 0.38 0.40 0.39 0.17 0.11 0.21 0.14 0.08 0.19 0.24 0.18 0.26 0.17 0.26 0.20 0.17 0.19 0.21 0.18 0.20KE AAGGAA 0.06 0.04 0.05 0.04 0.03 0.08 0.31 0.47 0.27 0.36 0.52 0.29 0.25 0.33 0.24 0.34 0.23 0.24 0.26 0.24 0.23 0.26 0.24KE AAGGAG 0.04 0.02 0.05 0.00 0.02 0.04 0.13 0.12 0.13 0.14 0.11 0.13 0.19 0.30 0.16 0.33 0.16 0.30 0.35 0.37 0.30 0.37 0.28KF AAATTC 0.34 0.53 0.40 0.47 0.55 0.33 0.24 0.27 0.27 0.26 0.31 0.25 0.17 0.15 0.17 0.15 0.17 0.18 0.17 0.18 0.16 0.18 0.18KF AAATTT 0.34 0.21 0.30 0.27 0.15 0.29 0.38 0.25 0.37 0.32 0.22 0.39 0.24 0.15 0.25 0.13 0.26 0.21 0.23 0.16 0.22 0.20 0.24KF AAGTTC 0.13 0.18 0.10 0.17 0.19 0.13 0.15 0.26 0.15 0.17 0.25 0.11 0.23 0.35 0.23 0.38 0.21 0.31 0.30 0.39 0.29 0.31 0.30KF AAGTTT 0.20 0.09 0.21 0.10 0.10 0.24 0.24 0.22 0.21 0.24 0.22 0.26 0.36 0.35 0.35 0.34 0.36 0.30 0.30 0.27 0.33 0.31 0.29KG AAAGGA 0.07 0.02 0.09 0.04 0.03 0.09 0.13 0.04 0.14 0.09 0.03 0.15 0.19 0.09 0.18 0.08 0.22 0.18 0.17 0.14 0.15 0.19 0.20KG AAAGGC 0.37 0.49 0.32 0.43 0.47 0.40 0.10 0.04 0.11 0.07 0.03 0.14 0.09 0.04 0.09 0.02 0.10 0.15 0.15 0.15 0.15 0.14 0.14KG AAAGGG 0.16 0.08 0.18 0.09 0.05 0.14 0.07 0.03 0.09 0.05 0.02 0.08 0.07 0.03 0.12 0.02 0.10 0.11 0.09 0.11 0.14 0.08 0.12KG AAAGGT 0.26 0.31 0.23 0.36 0.37 0.24 0.24 0.27 0.19 0.26 0.29 0.22 0.21 0.19 0.20 0.22 0.20 0.10 0.10 0.09 0.10 0.08 0.10KG AAGGGA 0.02 0.01 0.03 0.01 0.01 0.03 0.10 0.06 0.11 0.08 0.05 0.09 0.16 0.21 0.16 0.18 0.15 0.11 0.12 0.11 0.11 0.13 0.11KG AAGGGC 0.05 0.04 0.08 0.04 0.03 0.04 0.11 0.09 0.14 0.11 0.08 0.10 0.08 0.09 0.07 0.07 0.07 0.15 0.17 0.19 0.16 0.18 0.13KG AAGGGG 0.03 0.01 0.04 0.01 0.01 0.05 0.04 0.02 0.05 0.04 0.02 0.06 0.05 0.03 0.05 0.02 0.04 0.10 0.09 0.12 0.10 0.08 0.09KG AAGGGT 0.02 0.04 0.02 0.02 0.02 0.00 0.20 0.45 0.16 0.30 0.49 0.16 0.15 0.31 0.15 0.38 0.11 0.09 0.11 0.10 0.09 0.13 0.10KH AAACAC 0.30 0.34 0.41 0.48 0.45 0.30 0.17 0.15 0.21 0.16 0.12 0.19 0.22 0.16 0.23 0.15 0.24 0.22 0.22 0.23 0.22 0.19 0.23KH AAACAT 0.38 0.34 0.26 0.22 0.28 0.33 0.33 0.22 0.30 0.35 0.19 0.31 0.31 0.19 0.30 0.15 0.30 0.20 0.15 0.18 0.19 0.17 0.20KH AAGCAC 0.14 0.24 0.17 0.17 0.19 0.13 0.18 0.32 0.19 0.19 0.35 0.12 0.18 0.37 0.16 0.47 0.16 0.31 0.34 0.33 0.33 0.31 0.31KH AAGCAT 0.18 0.07 0.16 0.12 0.09 0.24 0.31 0.31 0.30 0.30 0.35 0.38 0.29 0.27 0.31 0.24 0.31 0.27 0.29 0.26 0.27 0.33 0.26KI AAAATA 0.09 0.04 0.07 0.03 0.01 0.07 0.20 0.07 0.23 0.14 0.05 0.23 0.12 0.05 0.14 0.03 0.14 0.12 0.09 0.09 0.10 0.08 0.14KI AAAATC 0.35 0.41 0.37 0.45 0.43 0.34 0.15 0.15 0.15 0.15 0.16 0.16 0.13 0.09 0.15 0.11 0.12 0.16 0.15 0.18 0.16 0.15 0.17KI AAAATT 0.32 0.27 0.29 0.30 0.27 0.34 0.29 0.25 0.26 0.29 0.23 0.29 0.21 0.12 0.22 0.12 0.21 0.17 0.17 0.12 0.18 0.16 0.18KI AAGATA 0.02 0.00 0.02 0.01 0.00 0.03 0.10 0.05 0.12 0.07 0.04 0.10 0.12 0.08 0.11 0.05 0.14 0.10 0.09 0.11 0.10 0.06 0.10KI AAGATC 0.10 0.16 0.10 0.10 0.16 0.10 0.10 0.21 0.10 0.13 0.23 0.07 0.17 0.30 0.18 0.32 0.14 0.26 0.28 0.32 0.26 0.31 0.23KI AAGATT 0.12 0.12 0.14 0.12 0.12 0.11 0.17 0.26 0.14 0.21 0.29 0.14 0.26 0.35 0.21 0.37 0.24 0.20 0.22 0.18 0.20 0.24 0.18KK AAAAAA 0.47 0.42 0.49 0.49 0.43 0.46 0.28 0.14 0.29 0.23 0.11 0.33 0.15 0.07 0.19 0.05 0.19 0.12 0.08 0.07 0.12 0.08 0.13KK AAAAAG 0.19 0.12 0.17 0.15 0.09 0.21 0.21 0.15 0.20 0.21 0.14 0.23 0.21 0.13 0.23 0.12 0.22 0.18 0.16 0.14 0.17 0.16 0.19KK AAGAAA 0.27 0.36 0.24 0.33 0.37 0.27 0.30 0.28 0.33 0.29 0.26 0.27 0.33 0.23 0.32 0.23 0.35 0.31 0.30 0.28 0.30 0.29 0.33KK AAGAAG 0.07 0.10 0.11 0.03 0.11 0.06 0.22 0.43 0.18 0.27 0.48 0.17 0.31 0.56 0.27 0.60 0.24 0.39 0.45 0.50 0.40 0.47 0.36KL AAACTA 0.02 0.02 0.04 0.00 0.02 0.01 0.11 0.08 0.12 0.11 0.08 0.11 0.09 0.06 0.09 0.04 0.09 0.05 0.04 0.03 0.06 0.03 0.05KL AAACTC 0.09 0.07 0.08 0.07 0.07 0.09 0.03 0.01 0.04 0.02 0.01 0.04 0.05 0.04 0.05 0.03 0.06 0.07 0.06 0.09 0.07 0.06 0.08KL AAACTG 0.36 0.50 0.36 0.54 0.53 0.33 0.08 0.05 0.10 0.07 0.04 0.08 0.11 0.08 0.10 0.07 0.11 0.12 0.13 0.12 0.13 0.13 0.14KL AAACTT 0.06 0.04 0.06 0.06 0.05 0.06 0.08 0.05 0.08 0.07 0.04 0.08 0.10 0.09 0.12 0.07 0.12 0.08 0.07 0.06 0.08 0.07 0.08KL AAATTA 0.09 0.05 0.08 0.06 0.04 0.10 0.17 0.15 0.15 0.18 0.14 0.17 0.07 0.05 0.08 0.05 0.08 0.04 0.03 0.03 0.05 0.03 0.05KL AAATTG 0.06 0.04 0.05 0.03 0.05 0.07 0.15 0.20 0.12 0.17 0.22 0.14 0.12 0.11 0.11 0.12 0.12 0.05 0.04 0.04 0.06 0.04 0.06KL AAGCTA 0.02 0.00 0.01 0.01 0.00 0.01 0.07 0.06 0.06 0.06 0.07 0.07 0.07 0.06 0.06 0.04 0.07 0.06 0.06 0.06 0.05 0.05 0.06KL AAGCTC 0.03 0.02 0.04 0.01 0.01 0.06 0.02 0.01 0.03 0.02 0.01 0.02 0.04 0.05 0.04 0.04 0.04 0.10 0.10 0.13 0.09 0.11 0.10KL AAGCTG 0.18 0.20 0.17 0.18 0.19 0.16 0.05 0.04 0.06 0.04 0.03 0.05 0.08 0.12 0.08 0.14 0.07 0.24 0.26 0.28 0.23 0.29 0.20KL AAGCTT 0.03 0.02 0.03 0.01 0.01 0.03 0.05 0.04 0.06 0.05 0.04 0.05 0.09 0.09 0.08 0.09 0.08 0.08 0.09 0.08 0.07 0.08 0.07KL AAGTTA 0.03 0.02 0.02 0.02 0.01 0.04 0.09 0.09 0.09 0.09 0.10 0.10 0.07 0.06 0.07 0.06 0.08 0.04 0.05 0.04 0.04 0.04 0.05KL AAGTTG 0.03 0.01 0.05 0.02 0.02 0.03 0.10 0.19 0.10 0.11 0.22 0.08 0.12 0.21 0.10 0.23 0.09 0.07 0.07 0.06 0.07 0.07 0.07KM AAAATG 0.74 0.81 0.78 0.75 0.74 0.79 0.65 0.51 0.62 0.58 0.43 0.68 0.52 0.32 0.58 0.24 0.51 0.40 0.39 0.31 0.36 0.35 0.41KM AAGATG 0.26 0.19 0.22 0.25 0.26 0.21 0.35 0.49 0.38 0.42 0.57 0.32 0.48 0.68 0.42 0.76 0.49 0.60 0.61 0.69 0.64 0.65 0.59KN AAAAAC 0.42 0.55 0.52 0.57 0.60 0.37 0.22 0.19 0.25 0.22 0.18 0.23 0.18 0.12 0.20 0.10 0.17 0.19 0.16 0.18 0.18 0.15 0.18KN AAAAAT 0.37 0.24 0.35 0.25 0.25 0.42 0.37 0.22 0.35 0.32 0.18 0.42 0.22 0.10 0.24 0.05 0.26 0.22 0.18 0.18 0.23 0.16 0.26KN AAGAAC 0.11 0.10 0.05 0.09 0.08 0.10 0.17 0.37 0.17 0.23 0.41 0.13 0.28 0.51 0.22 0.57 0.23 0.32 0.37 0.39 0.31 0.39 0.30KN AAGAAT 0.09 0.10 0.07 0.09 0.07 0.11 0.24 0.22 0.24 0.23 0.23 0.23 0.33 0.27 0.33 0.27 0.34 0.27 0.29 0.26 0.28 0.30 0.26KP AAACCA 0.12 0.14 0.11 0.11 0.14 0.07 0.24 0.25 0.23 0.26 0.23 0.26 0.23 0.21 0.22 0.21 0.21 0.14 0.14 0.11 0.16 0.14 0.16KP AAACCC 0.09 0.04 0.11 0.06 0.03 0.12 0.08 0.05 0.10 0.06 0.03 0.08 0.09 0.06 0.10 0.05 0.10 0.12 0.11 0.12 0.10 0.09 0.11KP AAACCG 0.38 0.40 0.39 0.40 0.44 0.32 0.08 0.02 0.07 0.05 0.02 0.09 0.07 0.03 0.06 0.02 0.08 0.02 0.02 0.01 0.03 0.02 0.02KP AAACCT 0.11 0.06 0.11 0.11 0.09 0.14 0.18 0.13 0.19 0.16 0.10 0.17 0.20 0.16 0.21 0.13 0.21 0.13 0.12 0.09 0.13 0.10 0.13KP AAGCCA 0.07 0.09 0.08 0.06 0.07 0.10 0.18 0.32 0.17 0.24 0.37 0.16 0.16 0.30 0.18 0.30 0.15 0.19 0.19 0.20 0.20 0.19 0.21KP AAGCCC 0.04 0.03 0.04 0.01 0.02 0.04 0.06 0.04 0.09 0.06 0.04 0.06 0.07 0.05 0.08 0.06 0.08 0.18 0.19 0.22 0.16 0.22 0.16KP AAGCCG 0.15 0.20 0.14 0.23 0.18 0.16 0.05 0.03 0.04 0.04 0.03 0.05 0.04 0.04 0.03 0.02 0.03 0.04 0.05 0.05 0.05 0.04 0.04KP AAGCCT 0.04 0.04 0.02 0.03 0.03 0.04 0.12 0.17 0.12 0.14 0.18 0.14 0.14 0.14 0.12 0.20 0.13 0.18 0.19 0.20 0.16 0.21 0.18KQ AAACAA 0.23 0.24 0.18 0.24 0.23 0.28 0.36 0.33 0.36 0.36 0.35 0.34 0.30 0.24 0.31 0.21 0.32 0.15 0.14 0.12 0.12 0.14 0.16KQ AAACAG 0.40 0.40 0.44 0.48 0.38 0.35 0.17 0.10 0.21 0.15 0.09 0.19 0.26 0.18 0.28 0.18 0.25 0.24 0.26 0.22 0.22 0.22 0.25KQ AAGCAA 0.14 0.12 0.14 0.09 0.15 0.14 0.32 0.48 0.26 0.35 0.49 0.30 0.26 0.36 0.26 0.42 0.24 0.19 0.17 0.20 0.19 0.16 0.18KQ AAGCAG 0.23 0.24 0.24 0.19 0.24 0.24 0.14 0.09 0.17 0.13 0.08 0.17 0.17 0.22 0.15 0.20 0.18 0.42 0.42 0.47 0.47 0.48 0.41KR AAAAGA 0.03 0.01 0.03 0.01 0.00 0.04 0.30 0.19 0.29 0.27 0.19 0.31 0.21 0.13 0.26 0.10 0.24 0.13 0.11 0.09 0.11 0.09 0.13KR AAAAGG 0.01 0.01 0.03 0.00 0.00 0.02 0.15 0.07 0.15 0.12 0.04 0.18 0.10 0.04 0.11 0.03 0.13 0.10 0.08 0.09 0.10 0.07 0.10KR AAACGA 0.04 0.02 0.04 0.01 0.02 0.06 0.04 0.01 0.05 0.02 0.00 0.06 0.08 0.04 0.09 0.02 0.11 0.05 0.06 0.03 0.06 0.04 0.05KR AAACGC 0.29 0.28 0.30 0.26 0.28 0.28 0.02 0.00 0.03 0.01 0.00 0.03 0.02 0.01 0.04 0.01 0.03 0.04 0.04 0.05 0.05 0.05 0.05KR AAACGG 0.06 0.01 0.08 0.03 0.01 0.08 0.02 0.00 0.03 0.01 0.00 0.02 0.04 0.02 0.04 0.00 0.05 0.05 0.05 0.05 0.05 0.04 0.05KR AAACGT 0.24 0.32 0.21 0.38 0.36 0.15 0.06 0.07 0.07 0.08 0.06 0.05 0.07 0.06 0.06 0.07 0.05 0.03 0.03 0.03 0.03 0.04 0.03KR AAGAGA 0.01 0.01 0.00 0.00 0.00 0.02 0.20 0.45 0.20 0.28 0.53 0.18 0.23 0.43 0.22 0.51 0.17 0.16 0.17 0.15 0.16 0.15 0.17KR AAGAGG 0.01 0.00 0.01 0.00 0.00 0.00 0.09 0.07 0.09 0.09 0.05 0.07 0.09 0.06 0.09 0.04 0.11 0.17 0.20 0.22 0.18 0.18 0.16KR AAGCGA 0.03 0.01 0.03 0.01 0.00 0.04 0.02 0.01 0.03 0.01 0.00 0.03 0.04 0.04 0.04 0.02 0.04 0.06 0.06 0.06 0.06 0.06 0.06KR AAGCGC 0.12 0.13 0.13 0.14 0.15 0.12 0.02 0.01 0.02 0.02 0.01 0.02 0.02 0.01 0.01 0.02 0.01 0.08 0.09 0.10 0.07 0.12 0.07KR AAGCGG 0.04 0.02 0.03 0.03 0.01 0.07 0.02 0.00 0.01 0.00 0.00 0.01 0.02 0.01 0.01 0.01 0.02 0.09 0.09 0.09 0.10 0.11 0.08KR AAGCGT 0.12 0.18 0.11 0.15 0.17 0.11 0.05 0.10 0.03 0.08 0.11 0.03 0.05 0.15 0.04 0.18 0.03 0.04 0.04 0.05 0.04 0.05 0.04KS AAAAGC 0.20 0.15 0.25 0.17 0.15 0.20 0.09 0.04 0.08 0.07 0.03 0.09 0.05 0.02 0.07 0.01 0.06 0.08 0.07 0.08 0.07 0.04 0.09KS AAAAGT 0.11 0.07 0.10 0.04 0.03 0.15 0.12 0.06 0.14 0.09 0.05 0.14 0.09 0.04 0.11 0.03 0.10 0.08 0.08 0.06 0.08 0.05 0.09KS AAATCA 0.10 0.06 0.10 0.09 0.04 0.12 0.15 0.12 0.16 0.13 0.08 0.16 0.12 0.07 0.14 0.04 0.14 0.07 0.07 0.06 0.08 0.07 0.08KS AAATCC 0.11 0.16 0.11 0.17 0.16 0.11 0.08 0.11 0.08 0.10 0.12 0.07 0.09 0.08 0.08 0.09 0.08 0.08 0.07 0.07 0.07 0.07 0.07KS AAATCG 0.15 0.10 0.18 0.08 0.11 0.13 0.07 0.04 0.07 0.06 0.03 0.07 0.06 0.05 0.06 0.03 0.06 0.01 0.01 0.01 0.01 0.01 0.02KS AAATCT 0.09 0.16 0.05 0.20 0.20 0.09 0.15 0.20 0.13 0.18 0.21 0.15 0.15 0.14 0.15 0.17 0.15 0.09 0.09 0.07 0.09 0.09 0.10KS AAGAGC 0.06 0.10 0.04 0.10 0.08 0.06 0.05 0.04 0.06 0.04 0.05 0.05 0.06 0.06 0.06 0.05 0.06 0.13 0.13 0.16 0.13 0.16 0.12KS AAGAGT 0.04 0.03 0.03 0.01 0.03 0.04 0.07 0.06 0.09 0.07 0.06 0.08 0.08 0.07 0.08 0.06 0.06 0.10 0.11 0.10 0.10 0.11 0.10KS AAGTCA 0.03 0.02 0.02 0.01 0.02 0.02 0.07 0.07 0.08 0.07 0.06 0.06 0.09 0.10 0.08 0.09 0.09 0.11 0.09 0.10 0.10 0.09 0.11KS AAGTCC 0.02 0.03 0.03 0.03 0.03 0.02 0.05 0.11 0.03 0.06 0.12 0.04 0.07 0.13 0.06 0.15 0.06 0.11 0.12 0.14 0.12 0.13 0.10KS AAGTCG 0.05 0.03 0.06 0.03 0.05 0.03 0.03 0.02 0.04 0.03 0.02 0.03 0.04 0.05 0.03 0.03 0.04 0.02 0.03 0.03 0.02 0.03 0.02KS AAGTCT 0.03 0.10 0.01 0.07 0.10 0.02 0.08 0.15 0.07 0.11 0.17 0.06 0.11 0.20 0.09 0.25 0.10 0.11 0.13 0.11 0.11 0.14 0.12KT AAAACA 0.14 0.07 0.16 0.12 0.09 0.17 0.20 0.10 0.20 0.15 0.08 0.24 0.14 0.07 0.15 0.04 0.17 0.15 0.14 0.12 0.16 0.12 0.18KT AAAACC 0.36 0.42 0.37 0.41 0.43 0.36 0.11 0.10 0.12 0.12 0.10 0.10 0.10 0.07 0.11 0.06 0.11 0.12 0.10 0.12 0.12 0.09 0.12KT AAAACG 0.27 0.19 0.26 0.20 0.16 0.26 0.08 0.04 0.10 0.06 0.03 0.09 0.07 0.03 0.08 0.01 0.08 0.03 0.03 0.02 0.03 0.03 0.03KT AAAACT 0.11 0.18 0.09 0.19 0.18 0.07 0.19 0.14 0.18 0.19 0.15 0.18 0.20 0.13 0.22 0.13 0.22 0.12 0.12 0.09 0.11 0.11 0.14KT AAGACA 0.03 0.01 0.03 0.00 0.01 0.03 0.14 0.12 0.15 0.14 0.12 0.14 0.13 0.13 0.13 0.09 0.12 0.19 0.17 0.20 0.16 0.18 0.17KT AAGACC 0.05 0.05 0.05 0.04 0.07 0.05 0.09 0.19 0.08 0.11 0.21 0.07 0.11 0.22 0.09 0.28 0.07 0.18 0.21 0.23 0.18 0.23 0.15KT AAGACG 0.03 0.04 0.03 0.03 0.03 0.03 0.06 0.04 0.06 0.04 0.04 0.07 0.06 0.03 0.06 0.03 0.06 0.05 0.05 0.06 0.07 0.06 0.04KT AAGACT 0.02 0.04 0.02 0.01 0.03 0.02 0.13 0.28 0.09 0.20 0.28 0.11 0.18 0.33 0.17 0.36 0.16 0.14 0.17 0.15 0.17 0.18 0.15KV AAAGTA 0.09 0.10 0.08 0.13 0.12 0.06 0.13 0.06 0.13 0.11 0.04 0.14 0.10 0.07 0.11 0.04 0.12 0.09 0.08 0.07 0.07 0.08 0.09KV AAAGTC 0.18 0.15 0.17 0.15 0.15 0.17 0.12 0.11 0.10 0.12 0.11 0.10 0.12 0.08 0.12 0.11 0.12 0.12 0.11 0.12 0.11 0.09 0.12KV AAAGTG 0.36 0.35 0.36 0.36 0.33 0.37 0.13 0.07 0.15 0.10 0.05 0.15 0.13 0.08 0.15 0.06 0.15 0.18 0.20 0.18 0.21 0.17 0.19KV AAAGTT 0.16 0.27 0.13 0.24 0.29 0.16 0.25 0.22 0.20 0.26 0.22 0.25 0.24 0.14 0.25 0.16 0.25 0.11 0.12 0.09 0.14 0.13 0.12KV AAGGTA 0.04 0.03 0.03 0.02 0.02 0.05 0.08 0.04 0.11 0.06 0.03 0.09 0.07 0.07 0.05 0.04 0.07 0.06 0.06 0.05 0.06 0.05 0.07KV AAGGTC 0.04 0.03 0.05 0.03 0.02 0.05 0.08 0.18 0.12 0.11 0.21 0.06 0.09 0.17 0.08 0.20 0.07 0.12 0.12 0.16 0.10 0.12 0.11KV AAGGTG 0.08 0.04 0.12 0.06 0.05 0.09 0.06 0.05 0.07 0.05 0.04 0.06 0.09 0.09 0.09 0.08 0.07 0.23 0.22 0.25 0.21 0.25 0.20KV AAGGTT 0.05 0.03 0.05 0.03 0.02 0.06 0.15 0.29 0.13 0.18 0.30 0.15 0.16 0.29 0.16 0.31 0.15 0.10 0.10 0.08 0.10 0.11 0.09KW AAATGG 0.73 0.68 0.61 0.74 0.83 0.79 0.70 0.71 0.65 0.72 0.70 0.68 0.69 0.61 0.68 0.60 0.71 0.42 0.44 0.36 0.41 0.46 0.44KW AAGTGG 0.27 0.32 0.39 0.26 0.17 0.21 0.30 0.29 0.35 0.28 0.30 0.32 0.31 0.39 0.32 0.40 0.29 0.58 0.56 0.64 0.59 0.54 0.56KY AAATAC 0.35 0.43 0.37 0.45 0.39 0.38 0.26 0.30 0.25 0.28 0.28 0.27 0.24 0.21 0.25 0.21 0.23 0.25 0.29 0.26 0.23 0.25 0.26KY AAATAT 0.44 0.32 0.45 0.33 0.38 0.44 0.36 0.24 0.38 0.32 0.22 0.36 0.25 0.14 0.29 0.13 0.27 0.21 0.18 0.17 0.18 0.17 0.24KY AAGTAC 0.09 0.13 0.11 0.08 0.08 0.09 0.18 0.29 0.20 0.21 0.32 0.15 0.24 0.42 0.22 0.46 0.21 0.30 0.28 0.33 0.32 0.30 0.28KY AAGTAT 0.12 0.12 0.07 0.13 0.16 0.09 0.20 0.17 0.16 0.19 0.18 0.22 0.27 0.24 0.24 0.20 0.29 0.23 0.25 0.25 0.27 0.28 0.21L* CTATAA 0.03 0.05 0.00 0.00 0.06 0.00 0.06 0.06 0.07 0.04 0.06 0.04 0.07 0.01 0.10 0.02 0.03 0.03 0.02 0.01 0.03 0.05 0.04L* CTATAG 0.00 0.00 0.00 0.00 0.00 0.00 0.03 0.00 0.00 0.01 0.00 0.00 0.05 0.03 0.04 0.00 0.06 0.03 0.03 0.04 0.00 0.02 0.07L* CTATGA 0.05 0.00 0.12 0.00 0.00 0.00 0.04 0.05 0.02 0.06 0.00 0.12 0.03 0.05 0.00 0.02 0.06 0.05 0.04 0.06 0.03 0.02 0.00L* CTCTAA 0.04 0.05 0.00 0.07 0.12 0.00 0.03 0.00 0.02 0.00 0.00 0.00 0.02 0.00 0.02 0.02 0.00 0.05 0.05 0.06 0.05 0.07 0.01L* CTCTAG 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.00 0.00 0.00 0.00 0.04 0.03 0.03 0.02 0.00 0.00 0.05 0.04 0.06 0.03 0.05 0.00L* CTCTGA 0.06 0.05 0.09 0.10 0.00 0.06 0.02 0.00 0.00 0.01 0.00 0.00 0.01 0.01 0.02 0.02 0.00 0.14 0.11 0.11 0.21 0.13 0.22L* CTGTAA 0.29 0.47 0.18 0.76 0.56 0.18 0.05 0.05 0.07 0.01 0.03 0.08 0.05 0.03 0.10 0.04 0.06 0.07 0.07 0.06 0.10 0.02 0.09L* CTGTAG 0.03 0.05 0.03 0.00 0.00 0.06 0.02 0.00 0.02 0.00 0.00 0.04 0.03 0.03 0.06 0.02 0.06 0.06 0.07 0.07 0.08 0.12 0.07L* CTGTGA 0.03 0.05 0.00 0.00 0.00 0.00 0.03 0.00 0.00 0.01 0.00 0.08 0.02 0.01 0.02 0.00 0.09 0.16 0.12 0.14 0.16 0.22 0.10L* CTTTAA 0.10 0.16 0.12 0.03 0.19 0.18 0.05 0.03 0.05 0.03 0.00 0.04 0.06 0.03 0.10 0.10 0.09 0.04 0.07 0.06 0.00 0.07 0.04L* CTTTAG 0.02 0.05 0.03 0.00 0.00 0.06 0.03 0.02 0.02 0.01 0.03 0.08 0.06 0.06 0.08 0.02 0.03 0.04 0.05 0.04 0.00 0.00 0.03

Continued on next page

Page 160: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 147

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

L* CTTTGA 0.04 0.00 0.09 0.00 0.00 0.06 0.05 0.00 0.02 0.04 0.00 0.12 0.04 0.01 0.00 0.02 0.03 0.06 0.03 0.04 0.08 0.00 0.04L* TTATAA 0.05 0.00 0.09 0.03 0.06 0.00 0.17 0.28 0.17 0.23 0.38 0.04 0.08 0.08 0.08 0.06 0.09 0.03 0.05 0.05 0.13 0.05 0.03L* TTATAG 0.02 0.00 0.00 0.00 0.00 0.06 0.08 0.09 0.05 0.06 0.06 0.12 0.10 0.03 0.12 0.04 0.12 0.02 0.01 0.01 0.00 0.00 0.04L* TTATGA 0.09 0.05 0.15 0.00 0.00 0.12 0.10 0.11 0.15 0.09 0.09 0.15 0.06 0.05 0.06 0.00 0.12 0.03 0.01 0.03 0.03 0.00 0.06L* TTGTAA 0.08 0.00 0.06 0.00 0.00 0.12 0.13 0.22 0.20 0.26 0.27 0.08 0.12 0.32 0.06 0.29 0.06 0.05 0.08 0.06 0.00 0.08 0.01L* TTGTAG 0.04 0.00 0.03 0.00 0.00 0.06 0.06 0.06 0.07 0.08 0.09 0.00 0.13 0.18 0.06 0.27 0.06 0.03 0.07 0.02 0.00 0.05 0.00L* TTGTGA 0.04 0.00 0.03 0.00 0.00 0.06 0.04 0.03 0.05 0.03 0.00 0.00 0.03 0.01 0.02 0.04 0.00 0.06 0.08 0.08 0.08 0.07 0.12LA CTAGCA 0.00 0.00 0.00 0.00 0.00 0.00 0.04 0.02 0.03 0.04 0.02 0.05 0.04 0.02 0.04 0.01 0.04 0.03 0.03 0.02 0.03 0.02 0.03LA CTAGCC 0.00 0.00 0.00 0.00 0.00 0.00 0.03 0.02 0.03 0.02 0.03 0.02 0.03 0.02 0.03 0.01 0.03 0.03 0.02 0.04 0.04 0.02 0.04LA CTAGCG 0.00 0.00 0.01 0.00 0.00 0.00 0.02 0.01 0.01 0.01 0.01 0.02 0.01 0.01 0.02 0.00 0.01 0.01 0.00 0.01 0.01 0.00 0.01LA CTAGCT 0.00 0.00 0.00 0.00 0.00 0.00 0.05 0.04 0.06 0.04 0.04 0.04 0.04 0.04 0.05 0.03 0.04 0.03 0.02 0.02 0.02 0.02 0.03LA CTCGCA 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01LA CTCGCC 0.04 0.03 0.06 0.03 0.02 0.04 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.02 0.01 0.01 0.02LA CTCGCG 0.02 0.01 0.02 0.01 0.01 0.04 0.01 0.00 0.00 0.00 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00LA CTCGCT 0.01 0.02 0.02 0.02 0.01 0.01 0.02 0.01 0.03 0.01 0.01 0.02 0.01 0.02 0.02 0.01 0.01 0.01 0.02 0.01 0.01 0.01 0.01LA CTGGCA 0.18 0.22 0.17 0.24 0.22 0.17 0.04 0.01 0.05 0.03 0.02 0.04 0.04 0.02 0.05 0.02 0.05 0.11 0.10 0.12 0.11 0.10 0.10LA CTGGCC 0.07 0.07 0.08 0.07 0.06 0.07 0.03 0.02 0.04 0.02 0.02 0.03 0.04 0.06 0.04 0.05 0.03 0.18 0.17 0.23 0.16 0.18 0.16LA CTGGCG 0.33 0.29 0.34 0.27 0.33 0.34 0.02 0.01 0.03 0.01 0.00 0.02 0.01 0.01 0.02 0.00 0.02 0.03 0.03 0.04 0.03 0.04 0.03LA CTGGCT 0.09 0.17 0.08 0.18 0.18 0.08 0.03 0.02 0.02 0.03 0.03 0.03 0.06 0.06 0.05 0.05 0.06 0.14 0.14 0.16 0.13 0.17 0.13LA CTTGCA 0.01 0.02 0.01 0.01 0.01 0.01 0.04 0.02 0.04 0.03 0.01 0.04 0.06 0.04 0.06 0.02 0.07 0.04 0.04 0.03 0.06 0.04 0.05LA CTTGCC 0.04 0.02 0.06 0.03 0.02 0.04 0.03 0.02 0.05 0.03 0.02 0.04 0.05 0.06 0.05 0.07 0.05 0.05 0.05 0.05 0.04 0.06 0.05LA CTTGCG 0.02 0.02 0.03 0.01 0.02 0.02 0.02 0.01 0.02 0.01 0.00 0.02 0.02 0.01 0.02 0.00 0.02 0.01 0.01 0.00 0.01 0.01 0.01LA CTTGCT 0.02 0.03 0.02 0.02 0.02 0.02 0.05 0.04 0.05 0.05 0.05 0.05 0.07 0.09 0.06 0.08 0.06 0.06 0.06 0.04 0.05 0.06 0.06LA TTAGCA 0.01 0.01 0.01 0.01 0.01 0.01 0.08 0.06 0.06 0.07 0.05 0.10 0.06 0.04 0.06 0.02 0.07 0.03 0.03 0.01 0.03 0.02 0.03LA TTAGCC 0.02 0.02 0.01 0.02 0.01 0.02 0.05 0.06 0.06 0.06 0.06 0.05 0.04 0.04 0.04 0.04 0.04 0.02 0.02 0.02 0.02 0.02 0.02LA TTAGCG 0.03 0.02 0.02 0.01 0.02 0.02 0.03 0.02 0.03 0.03 0.02 0.05 0.01 0.01 0.01 0.00 0.02 0.00 0.00 0.00 0.00 0.00 0.00LA TTAGCT 0.01 0.01 0.01 0.01 0.01 0.01 0.08 0.11 0.05 0.10 0.12 0.08 0.06 0.05 0.07 0.06 0.06 0.02 0.02 0.02 0.03 0.02 0.03LA TTGGCA 0.01 0.01 0.01 0.00 0.01 0.02 0.09 0.08 0.10 0.09 0.07 0.10 0.09 0.07 0.09 0.06 0.10 0.05 0.05 0.04 0.07 0.06 0.06LA TTGGCC 0.01 0.01 0.01 0.00 0.01 0.01 0.07 0.13 0.05 0.10 0.14 0.04 0.08 0.13 0.07 0.15 0.07 0.06 0.06 0.06 0.06 0.06 0.05LA TTGGCG 0.02 0.01 0.02 0.02 0.01 0.03 0.04 0.02 0.04 0.02 0.02 0.04 0.03 0.01 0.03 0.01 0.03 0.01 0.01 0.01 0.01 0.01 0.01LA TTGGCT 0.01 0.01 0.01 0.01 0.01 0.01 0.12 0.24 0.10 0.17 0.26 0.09 0.12 0.18 0.11 0.24 0.09 0.06 0.07 0.05 0.07 0.08 0.07LC CTATGC 0.02 0.00 0.03 0.00 0.00 0.01 0.05 0.01 0.04 0.03 0.01 0.06 0.05 0.04 0.05 0.00 0.06 0.03 0.03 0.03 0.02 0.03 0.03LC CTATGT 0.02 0.01 0.03 0.00 0.00 0.02 0.10 0.13 0.13 0.12 0.20 0.10 0.08 0.09 0.08 0.06 0.11 0.03 0.03 0.03 0.04 0.04 0.04LC CTCTGC 0.10 0.05 0.17 0.05 0.07 0.09 0.03 0.02 0.04 0.01 0.01 0.03 0.04 0.03 0.05 0.03 0.05 0.17 0.18 0.22 0.15 0.15 0.16LC CTCTGT 0.07 0.05 0.05 0.12 0.03 0.09 0.05 0.03 0.07 0.03 0.01 0.07 0.08 0.11 0.09 0.10 0.07 0.14 0.13 0.15 0.14 0.13 0.14LC CTGTGC 0.20 0.26 0.19 0.51 0.34 0.20 0.04 0.04 0.04 0.02 0.03 0.04 0.05 0.04 0.02 0.08 0.05 0.16 0.14 0.20 0.18 0.15 0.14LC CTGTGT 0.14 0.24 0.16 0.17 0.23 0.11 0.06 0.05 0.07 0.05 0.02 0.05 0.08 0.13 0.09 0.15 0.06 0.17 0.20 0.16 0.16 0.21 0.17LC CTTTGC 0.09 0.06 0.10 0.02 0.12 0.06 0.07 0.03 0.07 0.06 0.03 0.07 0.10 0.10 0.09 0.07 0.10 0.06 0.05 0.05 0.05 0.04 0.07LC CTTTGT 0.08 0.04 0.06 0.00 0.07 0.11 0.12 0.10 0.10 0.14 0.08 0.13 0.14 0.12 0.09 0.13 0.13 0.07 0.07 0.05 0.09 0.08 0.07LC TTATGC 0.08 0.05 0.07 0.07 0.05 0.09 0.10 0.07 0.10 0.10 0.08 0.10 0.07 0.05 0.11 0.05 0.07 0.02 0.02 0.01 0.03 0.01 0.03LC TTATGT 0.06 0.06 0.04 0.00 0.00 0.12 0.18 0.24 0.16 0.22 0.22 0.18 0.12 0.09 0.10 0.05 0.14 0.03 0.03 0.02 0.05 0.04 0.04LC TTGTGC 0.07 0.11 0.07 0.05 0.03 0.04 0.08 0.06 0.07 0.06 0.06 0.07 0.07 0.04 0.08 0.09 0.07 0.04 0.04 0.04 0.05 0.05 0.04LC TTGTGT 0.07 0.07 0.05 0.00 0.07 0.06 0.11 0.21 0.10 0.16 0.24 0.09 0.12 0.14 0.14 0.20 0.08 0.06 0.07 0.05 0.06 0.07 0.06LD CTAGAC 0.00 0.00 0.00 0.00 0.00 0.00 0.04 0.05 0.03 0.05 0.06 0.04 0.05 0.04 0.06 0.04 0.05 0.05 0.04 0.05 0.05 0.04 0.05LD CTAGAT 0.00 0.00 0.01 0.00 0.00 0.01 0.09 0.07 0.07 0.07 0.06 0.11 0.08 0.06 0.08 0.03 0.09 0.05 0.05 0.05 0.05 0.05 0.06LD CTCGAC 0.12 0.12 0.17 0.12 0.11 0.11 0.02 0.01 0.03 0.02 0.01 0.02 0.01 0.02 0.01 0.02 0.01 0.02 0.01 0.03 0.02 0.02 0.02LD CTCGAT 0.13 0.08 0.14 0.08 0.08 0.12 0.04 0.02 0.04 0.03 0.02 0.04 0.03 0.02 0.03 0.02 0.03 0.02 0.02 0.02 0.02 0.01 0.02LD CTGGAC 0.14 0.21 0.14 0.23 0.19 0.13 0.05 0.03 0.07 0.03 0.02 0.04 0.06 0.08 0.06 0.09 0.06 0.24 0.24 0.30 0.20 0.26 0.21LD CTGGAT 0.35 0.37 0.34 0.39 0.42 0.36 0.08 0.05 0.08 0.07 0.04 0.08 0.10 0.09 0.10 0.05 0.10 0.21 0.19 0.22 0.21 0.20 0.20LD CTTGAC 0.04 0.06 0.05 0.04 0.06 0.03 0.04 0.04 0.07 0.04 0.04 0.05 0.06 0.07 0.06 0.08 0.05 0.06 0.07 0.06 0.06 0.06 0.07LD CTTGAT 0.13 0.08 0.10 0.08 0.07 0.15 0.09 0.06 0.08 0.07 0.05 0.09 0.10 0.06 0.09 0.05 0.12 0.07 0.08 0.06 0.10 0.07 0.07LD TTAGAC 0.01 0.01 0.00 0.01 0.01 0.01 0.09 0.09 0.10 0.09 0.09 0.07 0.08 0.07 0.08 0.08 0.07 0.03 0.03 0.03 0.03 0.02 0.04LD TTAGAT 0.04 0.04 0.03 0.03 0.02 0.04 0.17 0.15 0.20 0.17 0.16 0.18 0.11 0.09 0.13 0.07 0.12 0.05 0.04 0.03 0.06 0.05 0.07LD TTGGAC 0.01 0.01 0.00 0.01 0.00 0.00 0.10 0.18 0.10 0.13 0.20 0.09 0.13 0.22 0.11 0.27 0.12 0.09 0.10 0.09 0.09 0.10 0.08LD TTGGAT 0.02 0.02 0.02 0.02 0.02 0.03 0.18 0.24 0.13 0.23 0.25 0.18 0.19 0.20 0.20 0.21 0.18 0.11 0.12 0.08 0.11 0.12 0.12LE CTAGAA 0.01 0.00 0.01 0.00 0.00 0.00 0.10 0.10 0.12 0.10 0.10 0.11 0.07 0.05 0.09 0.03 0.07 0.06 0.06 0.06 0.07 0.05 0.07LE CTAGAG 0.00 0.00 0.00 0.00 0.00 0.00 0.04 0.03 0.04 0.04 0.03 0.05 0.05 0.04 0.05 0.03 0.06 0.06 0.06 0.07 0.06 0.06 0.06LE CTCGAA 0.07 0.08 0.07 0.08 0.09 0.06 0.03 0.01 0.04 0.01 0.01 0.03 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01LE CTCGAG 0.02 0.02 0.01 0.02 0.01 0.03 0.02 0.01 0.02 0.01 0.01 0.02 0.01 0.02 0.01 0.02 0.01 0.02 0.02 0.02 0.02 0.02 0.02LE CTGGAA 0.49 0.55 0.47 0.62 0.58 0.45 0.09 0.06 0.09 0.09 0.06 0.08 0.10 0.08 0.09 0.08 0.11 0.16 0.17 0.17 0.15 0.17 0.16LE CTGGAG 0.20 0.13 0.24 0.13 0.13 0.23 0.04 0.02 0.04 0.03 0.01 0.04 0.07 0.07 0.07 0.07 0.06 0.29 0.27 0.36 0.28 0.32 0.26LE CTTGAA 0.08 0.07 0.08 0.08 0.08 0.08 0.08 0.06 0.11 0.07 0.04 0.09 0.10 0.10 0.11 0.06 0.12 0.06 0.05 0.05 0.06 0.06 0.07LE CTTGAG 0.07 0.09 0.07 0.04 0.06 0.08 0.03 0.02 0.04 0.02 0.01 0.03 0.05 0.06 0.05 0.05 0.06 0.06 0.05 0.05 0.06 0.05 0.06LE TTAGAA 0.03 0.03 0.03 0.01 0.03 0.02 0.20 0.21 0.16 0.21 0.19 0.20 0.10 0.08 0.11 0.09 0.12 0.06 0.06 0.03 0.06 0.04 0.07LE TTAGAG 0.02 0.01 0.01 0.01 0.00 0.02 0.09 0.06 0.07 0.07 0.04 0.10 0.08 0.08 0.07 0.08 0.08 0.04 0.04 0.03 0.04 0.04 0.05LE TTGGAA 0.01 0.02 0.01 0.01 0.01 0.01 0.21 0.37 0.17 0.28 0.43 0.17 0.20 0.20 0.20 0.23 0.19 0.09 0.11 0.07 0.10 0.09 0.09LE TTGGAG 0.01 0.00 0.00 0.00 0.00 0.01 0.09 0.07 0.09 0.08 0.07 0.09 0.14 0.23 0.14 0.26 0.12 0.10 0.09 0.09 0.10 0.10 0.09LF CTATTC 0.01 0.00 0.02 0.01 0.01 0.01 0.05 0.07 0.06 0.06 0.07 0.05 0.06 0.06 0.05 0.04 0.06 0.02 0.02 0.02 0.02 0.02 0.02LF CTATTT 0.03 0.01 0.03 0.00 0.02 0.03 0.08 0.07 0.08 0.07 0.06 0.08 0.07 0.05 0.08 0.05 0.07 0.03 0.03 0.02 0.04 0.02 0.04LF CTCTTC 0.03 0.02 0.04 0.04 0.01 0.03 0.03 0.02 0.02 0.04 0.03 0.04 0.04 0.04 0.05 0.04 0.04 0.23 0.22 0.29 0.19 0.23 0.21LF CTCTTT 0.05 0.03 0.06 0.01 0.02 0.06 0.04 0.02 0.05 0.03 0.02 0.04 0.05 0.04 0.04 0.04 0.05 0.14 0.13 0.15 0.14 0.13 0.13LF CTGTTC 0.20 0.38 0.17 0.41 0.45 0.22 0.04 0.04 0.06 0.04 0.05 0.03 0.06 0.09 0.07 0.14 0.06 0.12 0.12 0.15 0.10 0.13 0.11LF CTGTTT 0.31 0.30 0.35 0.32 0.28 0.32 0.06 0.04 0.06 0.04 0.03 0.06 0.09 0.10 0.08 0.10 0.08 0.13 0.13 0.11 0.14 0.15 0.13LF CTTTTC 0.04 0.03 0.03 0.03 0.03 0.05 0.10 0.10 0.09 0.11 0.08 0.09 0.10 0.09 0.10 0.10 0.10 0.08 0.08 0.07 0.08 0.06 0.08LF CTTTTT 0.06 0.03 0.05 0.04 0.03 0.04 0.09 0.05 0.09 0.07 0.04 0.11 0.10 0.08 0.11 0.05 0.11 0.07 0.07 0.05 0.08 0.08 0.07LF TTATTC 0.04 0.03 0.03 0.01 0.02 0.03 0.11 0.15 0.10 0.14 0.17 0.11 0.08 0.08 0.08 0.07 0.08 0.03 0.02 0.02 0.02 0.02 0.03LF TTATTT 0.07 0.04 0.06 0.04 0.02 0.07 0.17 0.13 0.15 0.16 0.13 0.19 0.11 0.07 0.11 0.05 0.12 0.05 0.05 0.03 0.05 0.05 0.06LF TTGTTC 0.07 0.09 0.07 0.05 0.07 0.07 0.08 0.16 0.09 0.10 0.19 0.06 0.10 0.16 0.08 0.21 0.09 0.05 0.05 0.05 0.05 0.04 0.05LF TTGTTT 0.09 0.05 0.08 0.04 0.04 0.08 0.13 0.15 0.15 0.14 0.14 0.14 0.15 0.15 0.14 0.11 0.16 0.07 0.08 0.04 0.09 0.07 0.07LG CTAGGA 0.00 0.00 0.00 0.00 0.00 0.00 0.03 0.01 0.03 0.02 0.01 0.03 0.05 0.03 0.06 0.05 0.05 0.03 0.04 0.03 0.04 0.03 0.03LG CTAGGC 0.00 0.00 0.01 0.00 0.00 0.00 0.03 0.01 0.02 0.03 0.02 0.03 0.02 0.02 0.02 0.01 0.02 0.03 0.03 0.03 0.03 0.03 0.03LG CTAGGG 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.01 0.02 0.01 0.01 0.02 0.02 0.01 0.02 0.00 0.02 0.02 0.01 0.02 0.03 0.01 0.02LG CTAGGT 0.00 0.00 0.00 0.00 0.00 0.01 0.05 0.07 0.04 0.06 0.07 0.05 0.04 0.05 0.04 0.05 0.04 0.02 0.02 0.02 0.02 0.02 0.02LG CTCGGA 0.01 0.01 0.02 0.01 0.00 0.02 0.01 0.00 0.02 0.01 0.00 0.01 0.02 0.02 0.02 0.03 0.02 0.01 0.01 0.01 0.01 0.01 0.01LG CTCGGC 0.10 0.10 0.13 0.08 0.10 0.10 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.02 0.02 0.01 0.02 0.02LG CTCGGG 0.02 0.01 0.03 0.01 0.01 0.02 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.00 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.02 0.01LG CTCGGT 0.08 0.07 0.10 0.05 0.06 0.09 0.03 0.02 0.03 0.03 0.01 0.03 0.02 0.03 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01LG CTGGGA 0.05 0.03 0.06 0.04 0.03 0.06 0.03 0.01 0.05 0.02 0.01 0.04 0.06 0.07 0.07 0.05 0.07 0.10 0.09 0.10 0.09 0.09 0.10LG CTGGGC 0.16 0.26 0.16 0.24 0.26 0.15 0.03 0.02 0.04 0.02 0.01 0.03 0.03 0.02 0.03 0.01 0.03 0.16 0.16 0.19 0.15 0.17 0.13LG CTGGGG 0.10 0.06 0.11 0.07 0.07 0.13 0.01 0.01 0.02 0.01 0.01 0.01 0.02 0.01 0.03 0.01 0.02 0.10 0.09 0.12 0.09 0.08 0.09LG CTGGGT 0.12 0.21 0.08 0.25 0.27 0.09 0.05 0.04 0.04 0.05 0.05 0.04 0.05 0.06 0.05 0.08 0.05 0.08 0.08 0.08 0.08 0.10 0.07LG CTTGGA 0.01 0.01 0.01 0.01 0.01 0.01 0.04 0.02 0.04 0.02 0.01 0.04 0.08 0.05 0.08 0.05 0.09 0.06 0.07 0.04 0.06 0.06 0.07LG CTTGGC 0.07 0.04 0.07 0.05 0.04 0.06 0.03 0.02 0.05 0.02 0.01 0.04 0.03 0.02 0.03 0.01 0.03 0.05 0.06 0.05 0.04 0.05 0.06LG CTTGGG 0.02 0.01 0.02 0.02 0.01 0.02 0.02 0.01 0.01 0.01 0.00 0.03 0.02 0.02 0.03 0.01 0.03 0.05 0.05 0.04 0.05 0.05 0.06LG CTTGGT 0.04 0.04 0.03 0.04 0.04 0.04 0.07 0.08 0.06 0.07 0.06 0.07 0.07 0.07 0.07 0.08 0.07 0.04 0.05 0.03 0.05 0.05 0.05LG TTAGGA 0.01 0.01 0.01 0.00 0.00 0.02 0.06 0.04 0.05 0.04 0.03 0.08 0.07 0.06 0.07 0.06 0.07 0.03 0.02 0.01 0.02 0.02 0.04LG TTAGGC 0.04 0.03 0.03 0.02 0.02 0.04 0.05 0.03 0.02 0.04 0.04 0.05 0.03 0.02 0.03 0.01 0.03 0.01 0.01 0.01 0.02 0.01 0.01LG TTAGGG 0.02 0.01 0.02 0.01 0.00 0.03 0.03 0.02 0.03 0.02 0.02 0.04 0.03 0.02 0.03 0.01 0.03 0.01 0.02 0.01 0.02 0.02 0.02LG TTAGGT 0.05 0.03 0.05 0.04 0.03 0.04 0.12 0.20 0.10 0.17 0.19 0.08 0.06 0.06 0.06 0.07 0.05 0.01 0.01 0.01 0.02 0.01 0.02LG TTGGGA 0.01 0.01 0.01 0.01 0.01 0.01 0.06 0.03 0.05 0.04 0.04 0.08 0.11 0.09 0.10 0.09 0.10 0.04 0.05 0.03 0.05 0.04 0.05LG TTGGGC 0.02 0.02 0.02 0.02 0.02 0.02 0.05 0.05 0.07 0.05 0.05 0.05 0.04 0.04 0.04 0.03 0.04 0.04 0.04 0.05 0.04 0.04 0.04LG TTGGGG 0.02 0.01 0.02 0.00 0.00 0.02 0.03 0.02 0.04 0.02 0.01 0.04 0.04 0.03 0.04 0.01 0.05 0.04 0.04 0.04 0.03 0.03 0.04LG TTGGGT 0.02 0.01 0.03 0.02 0.02 0.03 0.14 0.28 0.13 0.21 0.32 0.11 0.10 0.21 0.08 0.26 0.07 0.03 0.03 0.03 0.04 0.03 0.03LH CTACAC 0.02 0.02 0.04 0.00 0.02 0.03 0.05 0.06 0.06 0.05 0.06 0.04 0.05 0.04 0.04 0.04 0.04 0.05 0.04 0.05 0.04 0.04 0.04LH CTACAT 0.04 0.02 0.04 0.02 0.01 0.02 0.09 0.07 0.08 0.08 0.09 0.08 0.07 0.07 0.07 0.03 0.09 0.04 0.05 0.04 0.05 0.03 0.04LH CTCCAC 0.03 0.03 0.03 0.03 0.01 0.03 0.02 0.00 0.02 0.01 0.01 0.02 0.04 0.04 0.04 0.04 0.03 0.10 0.11 0.11 0.08 0.08 0.09LH CTCCAT 0.04 0.03 0.04 0.02 0.02 0.04 0.03 0.01 0.04 0.03 0.00 0.04 0.05 0.03 0.08 0.02 0.04 0.09 0.07 0.09 0.10 0.09 0.09LH CTGCAC 0.20 0.37 0.21 0.40 0.46 0.18 0.04 0.04 0.05 0.04 0.03 0.04 0.04 0.07 0.04 0.10 0.03 0.20 0.23 0.26 0.18 0.26 0.17LH CTGCAT 0.32 0.31 0.29 0.32 0.26 0.29 0.08 0.04 0.08 0.05 0.05 0.09 0.08 0.06 0.08 0.07 0.08 0.13 0.11 0.14 0.15 0.15 0.13LH CTTCAC 0.03 0.03 0.03 0.01 0.03 0.06 0.05 0.02 0.03 0.05 0.02 0.06 0.08 0.08 0.10 0.09 0.07 0.08 0.09 0.08 0.08 0.09 0.09LH CTTCAT 0.06 0.02 0.05 0.01 0.03 0.05 0.09 0.05 0.14 0.07 0.06 0.11 0.13 0.11 0.14 0.06 0.14 0.10 0.09 0.07 0.10 0.08 0.11LH TTACAC 0.05 0.04 0.03 0.04 0.04 0.08 0.10 0.11 0.10 0.11 0.10 0.07 0.07 0.06 0.07 0.08 0.06 0.04 0.04 0.03 0.04 0.04 0.04LH TTACAT 0.07 0.03 0.07 0.05 0.04 0.06 0.17 0.18 0.15 0.20 0.15 0.17 0.10 0.08 0.09 0.06 0.12 0.04 0.05 0.03 0.05 0.05 0.06LH TTGCAC 0.06 0.04 0.06 0.05 0.05 0.06 0.10 0.20 0.09 0.12 0.23 0.10 0.11 0.18 0.07 0.27 0.10 0.06 0.06 0.06 0.06 0.06 0.06LH TTGCAT 0.10 0.07 0.10 0.05 0.05 0.10 0.18 0.20 0.17 0.19 0.22 0.19 0.18 0.16 0.20 0.14 0.19 0.06 0.06 0.05 0.06 0.04 0.06LI CTAATA 0.00 0.00 0.00 0.00 0.00 0.01 0.04 0.02 0.05 0.03 0.01 0.05 0.04 0.01 0.04 0.01 0.04 0.02 0.02 0.01 0.02 0.02 0.02LI CTAATC 0.01 0.01 0.02 0.00 0.01 0.01 0.03 0.03 0.03 0.03 0.02 0.04 0.03 0.02 0.04 0.01 0.03 0.02 0.02 0.02 0.02 0.01 0.02LI CTAATT 0.02 0.01 0.02 0.01 0.01 0.01 0.05 0.05 0.07 0.05 0.04 0.06 0.05 0.04 0.05 0.03 0.05 0.03 0.04 0.02 0.03 0.03 0.03LI CTCATA 0.00 0.00 0.00 0.00 0.00 0.00 0.02 0.01 0.02 0.01 0.00 0.03 0.03 0.01 0.03 0.00 0.03 0.04 0.04 0.04 0.03 0.04 0.04LI CTCATC 0.04 0.02 0.04 0.03 0.03 0.04 0.02 0.01 0.03 0.01 0.01 0.02 0.03 0.03 0.03 0.02 0.03 0.20 0.19 0.27 0.18 0.20 0.17LI CTCATT 0.04 0.02 0.04 0.03 0.04 0.02 0.03 0.01 0.06 0.02 0.01 0.03 0.04 0.03 0.05 0.04 0.04 0.12 0.11 0.12 0.12 0.13 0.11LI CTGATA 0.03 0.01 0.04 0.00 0.00 0.03 0.04 0.01 0.05 0.02 0.01 0.04 0.05 0.04 0.06 0.02 0.06 0.05 0.04 0.05 0.04 0.04 0.05LI CTGATC 0.17 0.33 0.16 0.33 0.37 0.15 0.03 0.03 0.03 0.03 0.02 0.03 0.06 0.08 0.05 0.10 0.05 0.10 0.12 0.12 0.11 0.14 0.09LI CTGATT 0.26 0.30 0.27 0.29 0.30 0.29 0.05 0.05 0.05 0.05 0.03 0.05 0.07 0.08 0.08 0.09 0.07 0.09 0.12 0.10 0.10 0.10 0.10LI CTTATA 0.01 0.00 0.00 0.00 0.00 0.01 0.03 0.01 0.03 0.01 0.00 0.03 0.03 0.01 0.03 0.00 0.03 0.02 0.02 0.02 0.02 0.01 0.02LI CTTATC 0.05 0.04 0.07 0.06 0.04 0.05 0.03 0.02 0.03 0.02 0.02 0.03 0.04 0.06 0.04 0.04 0.04 0.05 0.03 0.04 0.05 0.04 0.04LI CTTATT 0.05 0.03 0.04 0.04 0.03 0.04 0.05 0.04 0.06 0.04 0.02 0.05 0.06 0.06 0.06 0.05 0.06 0.05 0.06 0.04 0.05 0.06 0.06LI TTAATA 0.01 0.00 0.01 0.00 0.00 0.01 0.08 0.03 0.08 0.05 0.02 0.09 0.04 0.02 0.04 0.01 0.04 0.03 0.02 0.01 0.03 0.01 0.04LI TTAATC 0.06 0.05 0.06 0.06 0.03 0.06 0.07 0.09 0.05 0.09 0.10 0.06 0.04 0.05 0.04 0.06 0.04 0.02 0.02 0.01 0.02 0.02 0.02LI TTAATT 0.08 0.04 0.06 0.03 0.04 0.08 0.12 0.14 0.11 0.14 0.13 0.11 0.07 0.06 0.07 0.06 0.07 0.04 0.04 0.02 0.04 0.04 0.04LI TTGATA 0.01 0.01 0.01 0.00 0.01 0.01 0.08 0.05 0.07 0.07 0.04 0.10 0.08 0.03 0.10 0.03 0.09 0.03 0.02 0.02 0.03 0.02 0.04LI TTGATC 0.06 0.05 0.06 0.04 0.02 0.05 0.08 0.15 0.06 0.11 0.19 0.06 0.10 0.18 0.08 0.22 0.09 0.04 0.05 0.04 0.05 0.06 0.04LI TTGATT 0.11 0.06 0.10 0.08 0.07 0.13 0.15 0.28 0.14 0.20 0.31 0.12 0.14 0.19 0.12 0.20 0.14 0.05 0.06 0.04 0.06 0.06 0.06LK CTAAAA 0.04 0.02 0.05 0.01 0.02 0.04 0.07 0.05 0.07 0.06 0.03 0.08 0.05 0.04 0.06 0.03 0.06 0.04 0.04 0.03 0.04 0.03 0.04LK CTAAAG 0.01 0.00 0.01 0.00 0.00 0.02 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.04 0.04 0.05 0.06 0.05 0.05 0.06 0.05 0.06LK CTCAAA 0.07 0.03 0.06 0.04 0.03 0.07 0.04 0.01 0.05 0.03 0.01 0.04 0.08 0.05 0.07 0.04 0.07 0.07 0.06 0.08 0.07 0.05 0.06LK CTCAAG 0.03 0.04 0.04 0.03 0.04 0.02 0.02 0.01 0.04 0.01 0.01 0.02 0.07 0.10 0.07 0.09 0.06 0.14 0.13 0.18 0.12 0.15 0.12LK CTGAAA 0.42 0.60 0.39 0.63 0.61 0.37 0.07 0.03 0.07 0.05 0.03 0.08 0.11 0.07 0.12 0.07 0.11 0.12 0.12 0.13 0.12 0.11 0.14LK CTGAAG 0.11 0.12 0.12 0.10 0.11 0.11 0.05 0.03 0.05 0.04 0.02 0.05 0.07 0.11 0.07 0.12 0.06 0.24 0.28 0.28 0.27 0.31 0.23LK CTTAAA 0.05 0.05 0.06 0.05 0.03 0.06 0.04 0.01 0.05 0.02 0.01 0.04 0.05 0.03 0.05 0.03 0.06 0.04 0.04 0.03 0.05 0.03 0.04LK CTTAAG 0.03 0.01 0.04 0.02 0.01 0.03 0.02 0.02 0.01 0.01 0.01 0.02 0.03 0.05 0.03 0.06 0.03 0.04 0.04 0.04 0.04 0.04 0.04LK TTAAAA 0.11 0.04 0.11 0.05 0.05 0.11 0.14 0.09 0.12 0.13 0.10 0.15 0.06 0.04 0.07 0.02 0.07 0.05 0.04 0.03 0.05 0.03 0.06

Continued on next page

Page 161: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 148

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

LK TTAAAG 0.03 0.01 0.02 0.03 0.02 0.03 0.11 0.11 0.12 0.12 0.10 0.11 0.07 0.07 0.07 0.06 0.08 0.05 0.05 0.04 0.05 0.05 0.06LK TTGAAA 0.08 0.07 0.08 0.04 0.07 0.10 0.23 0.26 0.22 0.25 0.27 0.21 0.20 0.13 0.21 0.17 0.21 0.07 0.06 0.05 0.07 0.06 0.07LK TTGAAG 0.03 0.01 0.03 0.01 0.02 0.03 0.16 0.32 0.14 0.22 0.36 0.14 0.16 0.26 0.14 0.28 0.13 0.08 0.09 0.07 0.07 0.09 0.08LL CTACTA 0.00 0.00 0.00 0.00 0.00 0.00 0.03 0.02 0.03 0.02 0.02 0.03 0.02 0.01 0.02 0.01 0.03 0.01 0.00 0.01 0.01 0.00 0.01LL CTACTC 0.01 0.00 0.01 0.01 0.01 0.00 0.01 0.01 0.02 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01LL CTACTG 0.02 0.02 0.02 0.01 0.01 0.01 0.02 0.02 0.03 0.02 0.01 0.02 0.03 0.02 0.02 0.01 0.03 0.02 0.02 0.03 0.02 0.02 0.02LL CTACTT 0.01 0.00 0.01 0.00 0.00 0.01 0.02 0.01 0.02 0.02 0.01 0.02 0.02 0.01 0.03 0.01 0.03 0.01 0.01 0.01 0.01 0.01 0.01LL CTATTA 0.01 0.01 0.01 0.00 0.00 0.01 0.04 0.05 0.04 0.04 0.04 0.04 0.03 0.02 0.03 0.02 0.03 0.01 0.00 0.00 0.00 0.00 0.00LL CTATTG 0.01 0.01 0.01 0.01 0.01 0.01 0.04 0.05 0.04 0.05 0.06 0.04 0.04 0.03 0.04 0.03 0.03 0.01 0.01 0.01 0.01 0.01 0.01LL CTCCTA 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.02LL CTCCTC 0.00 0.01 0.00 0.01 0.01 0.00 0.00 0.00 0.01 0.00 0.00 0.00 0.01 0.01 0.00 0.00 0.01 0.04 0.04 0.05 0.04 0.03 0.03LL CTCCTG 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.08 0.07 0.10 0.08 0.07 0.07LL CTCCTT 0.00 0.00 0.00 0.00 0.01 0.00 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.03 0.02 0.03 0.02 0.02 0.03LL CTCTTA 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.02 0.02 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01LL CTCTTG 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.03 0.02 0.02 0.03 0.03 0.03 0.03 0.02 0.03LL CTGCTA 0.02 0.01 0.02 0.01 0.01 0.02 0.02 0.02 0.03 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.03 0.03 0.03 0.03 0.03 0.03LL CTGCTC 0.04 0.05 0.05 0.04 0.05 0.03 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.07 0.07 0.09 0.07 0.07 0.07LL CTGCTG 0.24 0.41 0.26 0.42 0.49 0.23 0.02 0.01 0.03 0.01 0.00 0.01 0.03 0.03 0.03 0.02 0.02 0.16 0.17 0.20 0.13 0.19 0.13LL CTGCTT 0.05 0.04 0.05 0.06 0.04 0.06 0.01 0.01 0.02 0.01 0.01 0.01 0.02 0.02 0.02 0.02 0.02 0.04 0.05 0.04 0.05 0.05 0.05LL CTGTTA 0.05 0.06 0.05 0.05 0.04 0.05 0.02 0.02 0.02 0.03 0.02 0.02 0.03 0.03 0.03 0.02 0.02 0.01 0.01 0.01 0.02 0.01 0.02LL CTGTTG 0.06 0.07 0.06 0.06 0.06 0.07 0.03 0.02 0.03 0.03 0.03 0.02 0.04 0.08 0.04 0.09 0.03 0.04 0.04 0.04 0.04 0.06 0.04LL CTTCTA 0.00 0.00 0.00 0.00 0.00 0.00 0.02 0.01 0.03 0.02 0.01 0.02 0.02 0.02 0.03 0.01 0.02 0.02 0.01 0.01 0.01 0.01 0.02LL CTTCTC 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.01 0.02 0.01 0.02 0.01 0.02 0.03 0.03 0.03 0.03 0.03 0.03LL CTTCTG 0.02 0.02 0.01 0.02 0.03 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.03 0.03 0.03 0.03 0.02 0.06 0.06 0.06 0.06 0.06 0.06LL CTTCTT 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.03 0.01 0.01 0.03 0.04 0.03 0.04 0.02 0.04 0.03 0.03 0.02 0.03 0.03 0.04LL CTTTTA 0.01 0.01 0.01 0.00 0.00 0.01 0.06 0.04 0.05 0.05 0.03 0.06 0.04 0.03 0.04 0.02 0.05 0.01 0.01 0.01 0.02 0.01 0.02LL CTTTTG 0.01 0.01 0.01 0.00 0.00 0.01 0.05 0.06 0.04 0.05 0.06 0.06 0.07 0.07 0.07 0.09 0.06 0.03 0.03 0.01 0.03 0.03 0.03LL TTACTA 0.01 0.00 0.00 0.00 0.00 0.01 0.05 0.05 0.05 0.05 0.04 0.05 0.03 0.01 0.04 0.01 0.04 0.01 0.01 0.01 0.01 0.01 0.01LL TTACTC 0.02 0.01 0.01 0.01 0.01 0.01 0.02 0.01 0.03 0.01 0.01 0.02 0.02 0.01 0.02 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01LL TTACTG 0.07 0.04 0.07 0.09 0.03 0.08 0.04 0.03 0.04 0.04 0.02 0.04 0.04 0.03 0.04 0.03 0.04 0.02 0.02 0.01 0.02 0.02 0.02LL TTACTT 0.02 0.01 0.01 0.02 0.01 0.02 0.04 0.03 0.04 0.04 0.02 0.04 0.03 0.02 0.03 0.01 0.04 0.01 0.01 0.01 0.01 0.01 0.02LL TTATTA 0.03 0.01 0.03 0.01 0.01 0.03 0.08 0.08 0.06 0.09 0.07 0.09 0.03 0.02 0.03 0.02 0.04 0.01 0.01 0.00 0.01 0.01 0.01LL TTATTG 0.03 0.01 0.02 0.01 0.00 0.03 0.07 0.10 0.07 0.08 0.11 0.07 0.05 0.06 0.05 0.08 0.05 0.01 0.01 0.01 0.01 0.01 0.01LL TTGCTA 0.01 0.01 0.01 0.00 0.00 0.01 0.03 0.04 0.03 0.03 0.05 0.04 0.03 0.03 0.03 0.03 0.03 0.01 0.01 0.01 0.02 0.01 0.01LL TTGCTC 0.02 0.01 0.02 0.01 0.00 0.03 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.02 0.01 0.02 0.02 0.02 0.02 0.02 0.02 0.02LL TTGCTG 0.12 0.10 0.13 0.10 0.11 0.12 0.03 0.02 0.03 0.02 0.03 0.03 0.04 0.06 0.04 0.07 0.04 0.05 0.05 0.05 0.06 0.06 0.05LL TTGCTT 0.02 0.02 0.02 0.01 0.01 0.02 0.03 0.02 0.04 0.02 0.01 0.03 0.03 0.04 0.03 0.04 0.03 0.02 0.03 0.01 0.03 0.02 0.03LL TTGTTA 0.02 0.01 0.02 0.01 0.01 0.03 0.05 0.07 0.05 0.06 0.07 0.05 0.04 0.03 0.03 0.04 0.04 0.01 0.01 0.00 0.01 0.01 0.01LL TTGTTG 0.04 0.01 0.04 0.02 0.02 0.03 0.06 0.14 0.04 0.09 0.17 0.04 0.06 0.11 0.06 0.14 0.06 0.02 0.02 0.01 0.03 0.02 0.02LM CTAATG 0.04 0.03 0.04 0.01 0.03 0.04 0.15 0.13 0.14 0.12 0.10 0.15 0.12 0.09 0.11 0.03 0.14 0.08 0.07 0.06 0.09 0.08 0.10LM CTCATG 0.03 0.03 0.03 0.05 0.03 0.02 0.06 0.01 0.09 0.03 0.02 0.04 0.09 0.07 0.09 0.08 0.09 0.28 0.27 0.34 0.24 0.28 0.26LM CTGATG 0.55 0.67 0.58 0.66 0.68 0.50 0.11 0.07 0.12 0.08 0.07 0.12 0.17 0.19 0.19 0.22 0.14 0.33 0.33 0.36 0.34 0.32 0.31LM CTTATG 0.02 0.00 0.01 0.01 0.01 0.02 0.07 0.04 0.09 0.05 0.05 0.08 0.09 0.10 0.10 0.10 0.09 0.09 0.09 0.08 0.12 0.10 0.08LM TTAATG 0.17 0.11 0.15 0.11 0.12 0.22 0.30 0.27 0.26 0.31 0.25 0.34 0.20 0.18 0.20 0.19 0.24 0.08 0.09 0.05 0.08 0.07 0.10LM TTGATG 0.19 0.17 0.20 0.15 0.14 0.19 0.32 0.48 0.30 0.41 0.50 0.27 0.33 0.37 0.31 0.38 0.31 0.14 0.15 0.12 0.14 0.15 0.15LN CTAAAC 0.02 0.01 0.03 0.01 0.01 0.02 0.05 0.05 0.05 0.06 0.05 0.05 0.05 0.04 0.04 0.03 0.05 0.04 0.04 0.04 0.04 0.04 0.04LN CTAAAT 0.02 0.00 0.01 0.01 0.00 0.01 0.09 0.05 0.08 0.08 0.05 0.09 0.05 0.03 0.06 0.01 0.06 0.05 0.05 0.03 0.05 0.05 0.06LN CTCAAC 0.12 0.13 0.17 0.08 0.10 0.11 0.03 0.02 0.03 0.02 0.02 0.03 0.07 0.08 0.07 0.06 0.06 0.16 0.17 0.21 0.14 0.17 0.14LN CTCAAT 0.10 0.06 0.14 0.07 0.05 0.14 0.04 0.02 0.06 0.03 0.02 0.05 0.07 0.06 0.08 0.04 0.09 0.11 0.11 0.13 0.11 0.13 0.11LN CTGAAC 0.20 0.41 0.20 0.41 0.42 0.14 0.05 0.04 0.04 0.04 0.02 0.05 0.08 0.10 0.07 0.12 0.08 0.16 0.17 0.20 0.18 0.18 0.15LN CTGAAT 0.19 0.19 0.16 0.24 0.18 0.19 0.07 0.04 0.07 0.07 0.03 0.08 0.09 0.07 0.09 0.07 0.09 0.14 0.15 0.14 0.15 0.14 0.15LN CTTAAC 0.08 0.07 0.11 0.06 0.10 0.09 0.03 0.03 0.04 0.02 0.03 0.03 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.03 0.04LN CTTAAT 0.08 0.04 0.05 0.03 0.05 0.06 0.04 0.02 0.05 0.03 0.01 0.04 0.05 0.05 0.06 0.03 0.05 0.05 0.05 0.03 0.05 0.06 0.06LN TTAAAC 0.04 0.02 0.03 0.02 0.01 0.04 0.11 0.12 0.10 0.11 0.12 0.11 0.07 0.05 0.07 0.04 0.07 0.04 0.04 0.03 0.03 0.02 0.04LN TTAAAT 0.07 0.03 0.06 0.03 0.02 0.09 0.15 0.08 0.13 0.12 0.07 0.16 0.06 0.03 0.05 0.04 0.08 0.07 0.05 0.03 0.07 0.05 0.08LN TTGAAC 0.03 0.01 0.02 0.01 0.03 0.04 0.15 0.30 0.15 0.21 0.33 0.12 0.18 0.30 0.17 0.37 0.14 0.07 0.06 0.06 0.06 0.06 0.06LN TTGAAT 0.05 0.04 0.04 0.03 0.03 0.07 0.19 0.25 0.20 0.22 0.24 0.19 0.19 0.13 0.19 0.13 0.20 0.08 0.07 0.06 0.07 0.07 0.09LP CTACCA 0.01 0.01 0.01 0.01 0.01 0.02 0.06 0.08 0.06 0.07 0.08 0.07 0.05 0.04 0.07 0.03 0.05 0.02 0.02 0.02 0.02 0.02 0.03LP CTACCC 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.01 0.02 0.01 0.03 0.02 0.02 0.03 0.02 0.02 0.02LP CTACCG 0.03 0.01 0.04 0.00 0.01 0.04 0.02 0.02 0.03 0.02 0.00 0.02 0.01 0.02 0.02 0.00 0.01 0.01 0.01 0.00 0.01 0.01 0.01LP CTACCT 0.01 0.01 0.01 0.01 0.01 0.01 0.05 0.04 0.05 0.05 0.04 0.05 0.04 0.04 0.04 0.02 0.04 0.03 0.03 0.03 0.03 0.03 0.03LP CTCCCA 0.00 0.00 0.00 0.00 0.00 0.00 0.02 0.01 0.03 0.01 0.01 0.02 0.03 0.02 0.03 0.03 0.03 0.05 0.04 0.05 0.05 0.05 0.06LP CTCCCC 0.01 0.01 0.01 0.01 0.01 0.02 0.01 0.00 0.01 0.01 0.00 0.01 0.02 0.01 0.03 0.01 0.02 0.04 0.05 0.05 0.04 0.04 0.04LP CTCCCG 0.02 0.01 0.02 0.02 0.02 0.01 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.00 0.00 0.01 0.01 0.02 0.01 0.02 0.02 0.02 0.01LP CTCCCT 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.01 0.02 0.01 0.00 0.01 0.03 0.02 0.02 0.02 0.03 0.06 0.05 0.04 0.06 0.06 0.06LP CTGCCA 0.09 0.13 0.08 0.15 0.14 0.10 0.04 0.03 0.04 0.04 0.03 0.03 0.04 0.05 0.03 0.07 0.04 0.08 0.08 0.09 0.08 0.08 0.08LP CTGCCC 0.05 0.04 0.09 0.03 0.03 0.05 0.03 0.02 0.04 0.02 0.01 0.02 0.02 0.03 0.02 0.01 0.02 0.13 0.12 0.16 0.12 0.14 0.10LP CTGCCG 0.24 0.41 0.21 0.38 0.47 0.22 0.01 0.01 0.01 0.01 0.01 0.02 0.01 0.01 0.01 0.00 0.01 0.03 0.03 0.03 0.03 0.04 0.02LP CTGCCT 0.07 0.10 0.05 0.09 0.08 0.04 0.03 0.02 0.03 0.02 0.01 0.03 0.03 0.04 0.04 0.03 0.03 0.11 0.10 0.13 0.11 0.11 0.10LP CTTCCA 0.01 0.00 0.01 0.00 0.01 0.01 0.06 0.04 0.07 0.06 0.04 0.05 0.10 0.14 0.11 0.17 0.09 0.06 0.06 0.04 0.06 0.05 0.07LP CTTCCC 0.02 0.01 0.04 0.00 0.00 0.02 0.03 0.01 0.03 0.02 0.01 0.02 0.05 0.04 0.06 0.01 0.05 0.05 0.06 0.05 0.05 0.06 0.05LP CTTCCG 0.03 0.02 0.03 0.03 0.01 0.04 0.02 0.00 0.03 0.01 0.00 0.01 0.03 0.01 0.02 0.01 0.03 0.01 0.01 0.01 0.01 0.01 0.01LP CTTCCT 0.02 0.01 0.02 0.03 0.01 0.02 0.04 0.02 0.05 0.04 0.02 0.05 0.09 0.07 0.08 0.07 0.08 0.07 0.08 0.06 0.07 0.09 0.08LP TTACCA 0.02 0.02 0.02 0.03 0.02 0.02 0.12 0.16 0.11 0.14 0.16 0.11 0.08 0.08 0.08 0.07 0.09 0.03 0.03 0.02 0.03 0.02 0.03LP TTACCC 0.04 0.01 0.04 0.01 0.01 0.04 0.04 0.03 0.05 0.04 0.02 0.05 0.04 0.02 0.04 0.01 0.04 0.02 0.01 0.01 0.02 0.01 0.02LP TTACCG 0.09 0.04 0.08 0.07 0.04 0.10 0.04 0.02 0.04 0.03 0.02 0.06 0.02 0.02 0.02 0.01 0.02 0.00 0.00 0.00 0.01 0.00 0.01LP TTACCT 0.03 0.03 0.03 0.03 0.01 0.03 0.09 0.09 0.07 0.10 0.08 0.09 0.06 0.04 0.05 0.04 0.07 0.03 0.03 0.02 0.03 0.02 0.04LP TTGCCA 0.04 0.01 0.03 0.02 0.02 0.03 0.10 0.21 0.07 0.13 0.27 0.07 0.08 0.14 0.07 0.19 0.07 0.05 0.06 0.04 0.05 0.04 0.04LP TTGCCC 0.03 0.01 0.03 0.01 0.00 0.03 0.05 0.05 0.04 0.05 0.04 0.06 0.05 0.04 0.05 0.04 0.04 0.04 0.04 0.04 0.04 0.03 0.04LP TTGCCG 0.09 0.05 0.09 0.05 0.06 0.09 0.03 0.02 0.03 0.02 0.01 0.04 0.02 0.02 0.02 0.01 0.03 0.01 0.01 0.01 0.01 0.01 0.01LP TTGCCT 0.03 0.03 0.03 0.01 0.03 0.04 0.07 0.10 0.04 0.10 0.12 0.07 0.07 0.09 0.07 0.11 0.06 0.05 0.06 0.04 0.05 0.05 0.06LQ CTACAA 0.04 0.02 0.04 0.04 0.02 0.04 0.10 0.10 0.10 0.10 0.12 0.10 0.08 0.06 0.10 0.06 0.08 0.03 0.04 0.03 0.04 0.03 0.03LQ CTACAG 0.03 0.01 0.03 0.01 0.01 0.03 0.05 0.04 0.04 0.04 0.04 0.04 0.05 0.05 0.06 0.03 0.06 0.08 0.09 0.08 0.08 0.08 0.08LQ CTCCAA 0.01 0.00 0.00 0.00 0.01 0.01 0.02 0.01 0.03 0.02 0.01 0.02 0.05 0.03 0.05 0.03 0.04 0.04 0.03 0.05 0.03 0.03 0.05LQ CTCCAG 0.04 0.03 0.03 0.04 0.02 0.03 0.01 0.00 0.02 0.01 0.00 0.02 0.03 0.02 0.03 0.01 0.03 0.12 0.11 0.13 0.12 0.11 0.11LQ CTGCAA 0.29 0.32 0.31 0.31 0.31 0.29 0.07 0.06 0.08 0.06 0.06 0.07 0.08 0.10 0.09 0.10 0.09 0.07 0.07 0.08 0.06 0.07 0.07LQ CTGCAG 0.10 0.25 0.09 0.26 0.31 0.07 0.04 0.02 0.05 0.03 0.03 0.03 0.04 0.05 0.04 0.04 0.03 0.28 0.29 0.33 0.27 0.34 0.27LQ CTTCAA 0.01 0.01 0.01 0.01 0.00 0.02 0.08 0.07 0.09 0.08 0.06 0.10 0.15 0.11 0.16 0.12 0.17 0.05 0.05 0.04 0.05 0.04 0.05LQ CTTCAG 0.05 0.04 0.05 0.03 0.01 0.03 0.03 0.01 0.04 0.02 0.00 0.04 0.07 0.06 0.08 0.04 0.08 0.12 0.14 0.11 0.13 0.13 0.13LQ TTACAA 0.07 0.05 0.07 0.05 0.03 0.09 0.23 0.27 0.19 0.26 0.27 0.24 0.11 0.10 0.11 0.08 0.12 0.03 0.02 0.02 0.03 0.02 0.04LQ TTACAG 0.11 0.06 0.10 0.07 0.09 0.14 0.10 0.08 0.11 0.09 0.06 0.11 0.08 0.05 0.08 0.05 0.09 0.05 0.05 0.03 0.06 0.04 0.06LQ TTGCAA 0.08 0.05 0.09 0.03 0.05 0.09 0.18 0.28 0.15 0.21 0.30 0.15 0.16 0.23 0.14 0.30 0.14 0.04 0.03 0.03 0.04 0.03 0.04LQ TTGCAG 0.18 0.15 0.18 0.17 0.14 0.16 0.08 0.06 0.09 0.08 0.06 0.07 0.09 0.14 0.07 0.13 0.07 0.08 0.08 0.07 0.09 0.08 0.08LR CTAAGA 0.00 0.00 0.00 0.00 0.00 0.01 0.07 0.09 0.05 0.08 0.10 0.08 0.05 0.06 0.06 0.05 0.06 0.02 0.02 0.02 0.02 0.02 0.03LR CTAAGG 0.00 0.00 0.00 0.00 0.00 0.00 0.03 0.02 0.03 0.03 0.03 0.04 0.03 0.01 0.03 0.00 0.03 0.02 0.02 0.02 0.02 0.02 0.02LR CTACGA 0.00 0.00 0.01 0.00 0.00 0.01 0.01 0.00 0.02 0.01 0.00 0.02 0.02 0.01 0.03 0.01 0.03 0.01 0.01 0.01 0.01 0.01 0.01LR CTACGC 0.03 0.01 0.03 0.01 0.02 0.03 0.01 0.01 0.00 0.01 0.00 0.01 0.01 0.00 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.01LR CTACGG 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.00 0.01 0.00 0.00 0.00 0.01 0.00 0.01 0.00 0.01 0.02 0.01 0.02 0.02 0.02 0.02LR CTACGT 0.02 0.01 0.03 0.00 0.03 0.04 0.02 0.03 0.02 0.03 0.04 0.01 0.02 0.02 0.01 0.03 0.01 0.01 0.00 0.01 0.01 0.00 0.01LR CTCAGA 0.01 0.01 0.00 0.00 0.00 0.01 0.02 0.01 0.02 0.02 0.01 0.02 0.04 0.05 0.04 0.05 0.04 0.04 0.04 0.04 0.04 0.03 0.05LR CTCAGG 0.01 0.01 0.00 0.00 0.00 0.01 0.01 0.00 0.01 0.01 0.00 0.01 0.02 0.02 0.01 0.01 0.02 0.05 0.04 0.06 0.04 0.04 0.05LR CTCCGA 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.04 0.03 0.03 0.03 0.04 0.04LR CTCCGC 0.01 0.01 0.01 0.01 0.01 0.00 0.00 0.00 0.01 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.00 0.03 0.03 0.04 0.02 0.04 0.02LR CTCCGG 0.01 0.00 0.01 0.00 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.04 0.04 0.05 0.04 0.04 0.04LR CTCCGT 0.01 0.01 0.00 0.01 0.01 0.00 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.02 0.01 0.01 0.01 0.02 0.03 0.02 0.03 0.03 0.02LR CTGAGA 0.01 0.00 0.00 0.00 0.01 0.00 0.04 0.02 0.04 0.04 0.02 0.04 0.07 0.12 0.07 0.15 0.07 0.07 0.07 0.07 0.07 0.06 0.06LR CTGAGG 0.00 0.00 0.01 0.00 0.00 0.00 0.02 0.01 0.02 0.01 0.00 0.03 0.02 0.02 0.02 0.01 0.02 0.09 0.09 0.12 0.08 0.07 0.09LR CTGCGA 0.03 0.01 0.03 0.01 0.01 0.03 0.01 0.00 0.02 0.00 0.00 0.01 0.02 0.01 0.02 0.00 0.02 0.03 0.03 0.03 0.03 0.03 0.03LR CTGCGC 0.21 0.28 0.25 0.27 0.30 0.22 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.00 0.00 0.01 0.01 0.06 0.06 0.08 0.07 0.10 0.05LR CTGCGG 0.04 0.01 0.04 0.01 0.01 0.04 0.01 0.00 0.02 0.00 0.00 0.01 0.01 0.00 0.01 0.00 0.01 0.06 0.06 0.07 0.07 0.07 0.06LR CTGCGT 0.23 0.40 0.19 0.43 0.43 0.15 0.01 0.01 0.02 0.01 0.01 0.01 0.01 0.03 0.01 0.04 0.01 0.03 0.03 0.04 0.03 0.03 0.03LR CTTAGA 0.00 0.00 0.00 0.00 0.00 0.00 0.03 0.02 0.04 0.02 0.01 0.03 0.06 0.07 0.06 0.07 0.06 0.02 0.03 0.01 0.02 0.02 0.02LR CTTAGG 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.01 0.02 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.02LR CTTCGA 0.00 0.00 0.00 0.00 0.00 0.00 0.02 0.00 0.03 0.01 0.00 0.02 0.04 0.01 0.04 0.01 0.04 0.05 0.04 0.04 0.06 0.06 0.05LR CTTCGC 0.02 0.01 0.03 0.01 0.01 0.03 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.02 0.03 0.02 0.02 0.03 0.02LR CTTCGG 0.00 0.00 0.01 0.00 0.00 0.00 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.05 0.05 0.04 0.04 0.05 0.05LR CTTCGT 0.02 0.02 0.01 0.02 0.01 0.03 0.02 0.02 0.01 0.02 0.01 0.01 0.04 0.04 0.04 0.05 0.02 0.02 0.04 0.02 0.02 0.04 0.03LR TTAAGA 0.01 0.00 0.00 0.00 0.00 0.00 0.14 0.18 0.10 0.17 0.18 0.15 0.07 0.07 0.07 0.07 0.07 0.02 0.02 0.02 0.03 0.01 0.03LR TTAAGG 0.00 0.00 0.00 0.00 0.00 0.00 0.07 0.04 0.08 0.07 0.03 0.07 0.03 0.02 0.04 0.01 0.04 0.01 0.02 0.01 0.01 0.01 0.01LR TTACGA 0.01 0.01 0.00 0.01 0.00 0.01 0.03 0.00 0.04 0.01 0.00 0.03 0.03 0.01 0.04 0.01 0.03 0.01 0.01 0.01 0.01 0.01 0.01LR TTACGC 0.07 0.03 0.08 0.06 0.02 0.10 0.02 0.01 0.02 0.02 0.01 0.02 0.01 0.01 0.00 0.00 0.01 0.01 0.00 0.00 0.01 0.00 0.01LR TTACGG 0.01 0.00 0.02 0.01 0.00 0.02 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.02 0.00 0.02 0.01 0.01 0.01 0.02 0.01 0.01LR TTACGT 0.06 0.04 0.06 0.04 0.02 0.07 0.04 0.07 0.03 0.06 0.06 0.04 0.02 0.03 0.02 0.03 0.03 0.01 0.01 0.00 0.01 0.01 0.01LR TTGAGA 0.00 0.00 0.00 0.00 0.00 0.01 0.15 0.32 0.12 0.21 0.36 0.13 0.14 0.20 0.13 0.27 0.13 0.03 0.04 0.02 0.03 0.03 0.03LR TTGAGG 0.00 0.00 0.00 0.00 0.00 0.00 0.07 0.04 0.07 0.05 0.03 0.07 0.06 0.03 0.06 0.02 0.06 0.03 0.03 0.02 0.03 0.03 0.03LR TTGCGA 0.01 0.01 0.01 0.00 0.00 0.01 0.02 0.00 0.02 0.01 0.00 0.02 0.03 0.02 0.03 0.01 0.03 0.01 0.01 0.01 0.01 0.01 0.01LR TTGCGC 0.07 0.04 0.06 0.04 0.04 0.06 0.01 0.01 0.02 0.01 0.01 0.01 0.01 0.02 0.01 0.01 0.01 0.01 0.02 0.01 0.01 0.01 0.01LR TTGCGG 0.02 0.01 0.02 0.01 0.00 0.02 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.00 0.02 0.02 0.01 0.01 0.02 0.02 0.02LR TTGCGT 0.07 0.07 0.07 0.03 0.06 0.07 0.04 0.07 0.05 0.04 0.07 0.03 0.03 0.05 0.02 0.06 0.03 0.01 0.01 0.01 0.01 0.01 0.01LS CTAAGC 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.01 0.02 0.01 0.01 0.02 0.01 0.01 0.01 0.01 0.02 0.01 0.02 0.01 0.02 0.02 0.01LS CTAAGT 0.01 0.01 0.01 0.00 0.01 0.00 0.02 0.01 0.03 0.01 0.01 0.03 0.02 0.01 0.02 0.01 0.03 0.01 0.01 0.01 0.01 0.01 0.02LS CTATCA 0.00 0.00 0.00 0.00 0.00 0.00 0.03 0.02 0.03 0.03 0.02 0.04 0.03 0.02 0.03 0.01 0.04 0.01 0.01 0.01 0.01 0.01 0.01LS CTATCC 0.00 0.00 0.00 0.00 0.01 0.01 0.03 0.03 0.02 0.03 0.04 0.03 0.02 0.02 0.02 0.02 0.02 0.01 0.01 0.01 0.00 0.01 0.01LS CTATCG 0.01 0.00 0.01 0.00 0.00 0.01 0.02 0.01 0.01 0.02 0.01 0.02 0.01 0.01 0.01 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.00LS CTATCT 0.00 0.00 0.00 0.00 0.00 0.01 0.04 0.05 0.03 0.05 0.05 0.03 0.03 0.03 0.03 0.02 0.03 0.01 0.01 0.01 0.01 0.01 0.01LS CTCAGC 0.03 0.02 0.03 0.04 0.02 0.03 0.01 0.00 0.02 0.00 0.00 0.01 0.01 0.01 0.02 0.01 0.01 0.07 0.07 0.09 0.07 0.07 0.06LS CTCAGT 0.02 0.01 0.03 0.01 0.01 0.02 0.01 0.01 0.02 0.01 0.00 0.01 0.02 0.01 0.03 0.01 0.02 0.05 0.04 0.05 0.05 0.05 0.05LS CTCTCA 0.02 0.01 0.03 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.01 0.02 0.02 0.03 0.01 0.02 0.04 0.03 0.04 0.04 0.03 0.04LS CTCTCC 0.05 0.06 0.05 0.07 0.06 0.05 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.03 0.02 0.02 0.02 0.06 0.06 0.07 0.05 0.06 0.05LS CTCTCG 0.02 0.01 0.03 0.01 0.01 0.02 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.01LS CTCTCT 0.05 0.05 0.05 0.07 0.06 0.07 0.02 0.01 0.02 0.02 0.01 0.02 0.03 0.02 0.03 0.02 0.02 0.05 0.06 0.05 0.04 0.05 0.05LS CTGAGC 0.06 0.11 0.04 0.10 0.13 0.03 0.01 0.00 0.02 0.01 0.00 0.01 0.02 0.01 0.02 0.01 0.02 0.08 0.07 0.10 0.08 0.08 0.07

Continued on next page

Page 162: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 149

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

LS CTGAGT 0.03 0.03 0.03 0.04 0.02 0.03 0.01 0.01 0.02 0.01 0.00 0.02 0.03 0.02 0.03 0.01 0.03 0.05 0.06 0.06 0.06 0.05 0.06LS CTGTCA 0.04 0.04 0.04 0.01 0.04 0.05 0.02 0.01 0.02 0.02 0.01 0.03 0.02 0.02 0.02 0.02 0.02 0.05 0.04 0.05 0.05 0.04 0.05LS CTGTCC 0.01 0.06 0.01 0.05 0.05 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.03 0.01 0.05 0.01 0.07 0.07 0.09 0.06 0.08 0.06LS CTGTCG 0.06 0.06 0.08 0.04 0.06 0.06 0.01 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.01 0.02 0.01LS CTGTCT 0.03 0.14 0.02 0.09 0.16 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.03 0.06 0.03 0.07 0.02 0.06 0.07 0.07 0.06 0.09 0.06LS CTTAGC 0.04 0.02 0.03 0.04 0.04 0.04 0.01 0.00 0.02 0.00 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.01 0.02 0.01 0.02LS CTTAGT 0.01 0.01 0.01 0.01 0.01 0.02 0.01 0.00 0.02 0.00 0.00 0.01 0.02 0.02 0.03 0.01 0.02 0.02 0.02 0.01 0.02 0.02 0.02LS CTTTCA 0.03 0.02 0.03 0.02 0.02 0.03 0.04 0.03 0.04 0.03 0.02 0.04 0.05 0.04 0.05 0.04 0.06 0.03 0.03 0.02 0.03 0.03 0.03LS CTTTCC 0.07 0.07 0.09 0.11 0.07 0.06 0.04 0.03 0.03 0.04 0.03 0.04 0.04 0.05 0.04 0.06 0.04 0.03 0.03 0.03 0.04 0.03 0.03LS CTTTCG 0.03 0.02 0.04 0.02 0.01 0.05 0.02 0.02 0.02 0.02 0.01 0.02 0.02 0.02 0.02 0.02 0.02 0.01 0.00 0.00 0.00 0.00 0.00LS CTTTCT 0.06 0.06 0.05 0.06 0.05 0.06 0.05 0.05 0.04 0.05 0.04 0.06 0.06 0.06 0.06 0.07 0.06 0.04 0.05 0.03 0.05 0.04 0.05LS TTAAGC 0.07 0.04 0.06 0.04 0.04 0.08 0.03 0.02 0.03 0.03 0.02 0.03 0.02 0.01 0.02 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01LS TTAAGT 0.05 0.01 0.04 0.03 0.02 0.06 0.05 0.04 0.06 0.05 0.04 0.06 0.03 0.02 0.02 0.02 0.03 0.01 0.01 0.01 0.01 0.02 0.02LS TTATCA 0.01 0.01 0.01 0.01 0.00 0.01 0.07 0.05 0.07 0.06 0.05 0.08 0.04 0.03 0.04 0.02 0.05 0.01 0.01 0.01 0.01 0.01 0.02LS TTATCC 0.02 0.01 0.02 0.01 0.01 0.02 0.04 0.06 0.03 0.06 0.07 0.04 0.03 0.03 0.04 0.04 0.04 0.01 0.01 0.01 0.01 0.01 0.01LS TTATCG 0.03 0.02 0.03 0.01 0.01 0.03 0.03 0.02 0.03 0.03 0.01 0.04 0.02 0.01 0.02 0.01 0.03 0.00 0.00 0.00 0.01 0.00 0.00LS TTATCT 0.02 0.01 0.01 0.01 0.01 0.02 0.07 0.09 0.06 0.09 0.10 0.07 0.05 0.05 0.04 0.05 0.05 0.02 0.02 0.01 0.02 0.01 0.02LS TTGAGC 0.03 0.02 0.03 0.03 0.02 0.03 0.03 0.03 0.03 0.03 0.03 0.04 0.04 0.03 0.04 0.02 0.03 0.02 0.02 0.02 0.03 0.02 0.02LS TTGAGT 0.02 0.02 0.02 0.02 0.01 0.03 0.05 0.05 0.06 0.05 0.05 0.04 0.06 0.05 0.05 0.05 0.05 0.02 0.02 0.01 0.03 0.03 0.02LS TTGTCA 0.02 0.01 0.01 0.01 0.01 0.01 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.03 0.04 0.03 0.04 0.03 0.02 0.02 0.02 0.02 0.03LS TTGTCC 0.01 0.01 0.01 0.01 0.01 0.01 0.03 0.09 0.02 0.05 0.11 0.02 0.03 0.06 0.03 0.09 0.03 0.03 0.03 0.03 0.03 0.03 0.03LS TTGTCG 0.03 0.02 0.03 0.01 0.02 0.03 0.02 0.01 0.01 0.01 0.01 0.02 0.02 0.01 0.01 0.02 0.02 0.01 0.00 0.00 0.01 0.00 0.00LS TTGTCT 0.01 0.01 0.01 0.00 0.02 0.01 0.05 0.13 0.04 0.08 0.15 0.04 0.05 0.10 0.05 0.12 0.05 0.03 0.04 0.02 0.03 0.03 0.04LT CTAACA 0.01 0.00 0.01 0.00 0.00 0.01 0.05 0.04 0.06 0.04 0.02 0.06 0.03 0.02 0.04 0.02 0.04 0.03 0.02 0.02 0.02 0.02 0.03LT CTAACC 0.02 0.01 0.02 0.01 0.01 0.03 0.03 0.03 0.02 0.03 0.03 0.03 0.03 0.02 0.03 0.01 0.03 0.02 0.02 0.02 0.02 0.01 0.02LT CTAACG 0.01 0.00 0.01 0.00 0.00 0.01 0.02 0.01 0.01 0.01 0.02 0.02 0.01 0.01 0.02 0.00 0.02 0.01 0.01 0.01 0.01 0.01 0.01LT CTAACT 0.01 0.01 0.01 0.00 0.00 0.00 0.04 0.05 0.03 0.05 0.04 0.04 0.04 0.03 0.04 0.03 0.04 0.02 0.03 0.02 0.02 0.02 0.03LT CTCACA 0.01 0.00 0.01 0.01 0.00 0.01 0.02 0.01 0.03 0.01 0.00 0.03 0.03 0.01 0.04 0.02 0.03 0.08 0.08 0.09 0.07 0.08 0.08LT CTCACC 0.07 0.04 0.10 0.04 0.05 0.06 0.02 0.01 0.03 0.02 0.01 0.02 0.02 0.04 0.03 0.01 0.03 0.11 0.11 0.13 0.12 0.12 0.09LT CTCACG 0.02 0.00 0.03 0.00 0.01 0.03 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.03 0.02 0.03 0.02 0.03 0.03LT CTCACT 0.03 0.02 0.03 0.01 0.01 0.03 0.03 0.01 0.03 0.02 0.01 0.02 0.03 0.04 0.04 0.03 0.04 0.08 0.07 0.08 0.07 0.08 0.07LT CTGACA 0.06 0.04 0.07 0.06 0.04 0.08 0.03 0.01 0.05 0.02 0.01 0.04 0.04 0.03 0.04 0.02 0.04 0.09 0.10 0.10 0.10 0.11 0.09LT CTGACC 0.20 0.35 0.21 0.36 0.36 0.17 0.02 0.02 0.02 0.02 0.01 0.01 0.03 0.04 0.03 0.06 0.03 0.12 0.10 0.13 0.10 0.10 0.10LT CTGACG 0.15 0.10 0.15 0.12 0.11 0.15 0.02 0.01 0.01 0.01 0.00 0.02 0.02 0.01 0.01 0.01 0.02 0.03 0.03 0.03 0.03 0.04 0.03LT CTGACT 0.07 0.15 0.07 0.15 0.19 0.05 0.03 0.03 0.05 0.02 0.02 0.04 0.05 0.06 0.04 0.06 0.05 0.09 0.09 0.10 0.09 0.10 0.08LT CTTACA 0.01 0.00 0.00 0.00 0.00 0.01 0.03 0.01 0.03 0.02 0.01 0.03 0.04 0.03 0.05 0.02 0.05 0.03 0.04 0.03 0.03 0.04 0.04LT CTTACC 0.04 0.03 0.04 0.03 0.04 0.04 0.02 0.01 0.03 0.01 0.02 0.03 0.04 0.02 0.04 0.04 0.04 0.03 0.04 0.03 0.04 0.04 0.03LT CTTACG 0.01 0.00 0.02 0.00 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.02 0.01 0.02 0.01 0.02 0.01 0.00 0.00 0.00 0.00 0.00LT CTTACT 0.01 0.02 0.01 0.00 0.02 0.01 0.04 0.01 0.04 0.03 0.01 0.04 0.05 0.05 0.04 0.05 0.05 0.03 0.04 0.03 0.03 0.03 0.03LT TTAACA 0.02 0.02 0.01 0.01 0.02 0.02 0.10 0.07 0.12 0.10 0.08 0.10 0.05 0.03 0.05 0.03 0.06 0.03 0.04 0.02 0.03 0.02 0.04LT TTAACC 0.08 0.07 0.09 0.05 0.05 0.09 0.06 0.08 0.04 0.07 0.07 0.06 0.05 0.05 0.05 0.05 0.04 0.02 0.01 0.02 0.01 0.02 0.02LT TTAACG 0.06 0.03 0.06 0.02 0.02 0.06 0.04 0.02 0.03 0.03 0.02 0.05 0.03 0.02 0.02 0.01 0.03 0.01 0.01 0.00 0.01 0.01 0.01LT TTAACT 0.02 0.01 0.01 0.03 0.02 0.03 0.10 0.11 0.10 0.12 0.11 0.10 0.07 0.06 0.06 0.06 0.07 0.03 0.03 0.01 0.02 0.01 0.04LT TTGACA 0.01 0.00 0.00 0.02 0.00 0.01 0.08 0.07 0.08 0.08 0.07 0.08 0.09 0.07 0.08 0.06 0.08 0.04 0.04 0.03 0.06 0.04 0.05LT TTGACC 0.04 0.05 0.02 0.04 0.04 0.02 0.07 0.16 0.07 0.10 0.20 0.04 0.08 0.14 0.08 0.18 0.06 0.04 0.04 0.03 0.04 0.04 0.04LT TTGACG 0.03 0.02 0.03 0.01 0.01 0.04 0.04 0.03 0.03 0.03 0.02 0.05 0.04 0.03 0.04 0.02 0.04 0.01 0.01 0.01 0.01 0.00 0.01LT TTGACT 0.01 0.01 0.01 0.01 0.02 0.02 0.10 0.20 0.06 0.16 0.22 0.09 0.10 0.18 0.09 0.20 0.09 0.04 0.05 0.03 0.04 0.04 0.04LV CTAGTA 0.00 0.00 0.00 0.00 0.00 0.00 0.03 0.01 0.05 0.03 0.01 0.04 0.03 0.01 0.03 0.02 0.02 0.01 0.01 0.01 0.01 0.01 0.02LV CTAGTC 0.00 0.00 0.00 0.00 0.00 0.00 0.03 0.02 0.02 0.03 0.03 0.03 0.03 0.02 0.03 0.02 0.03 0.02 0.02 0.02 0.01 0.02 0.02LV CTAGTG 0.00 0.00 0.00 0.00 0.00 0.00 0.03 0.02 0.04 0.02 0.01 0.04 0.03 0.02 0.03 0.01 0.03 0.04 0.04 0.04 0.04 0.04 0.04LV CTAGTT 0.00 0.00 0.00 0.00 0.00 0.00 0.04 0.03 0.03 0.04 0.03 0.03 0.04 0.03 0.04 0.01 0.04 0.02 0.02 0.01 0.02 0.01 0.02LV CTCGTA 0.00 0.01 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.01 0.00 0.01 0.01LV CTCGTC 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.01 0.02 0.01 0.01 0.01LV CTCGTG 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.03 0.03 0.03 0.02 0.03 0.02LV CTCGTT 0.01 0.02 0.01 0.01 0.01 0.01 0.02 0.02 0.03 0.02 0.01 0.02 0.02 0.02 0.02 0.02 0.02 0.01 0.01 0.01 0.01 0.01 0.01LV CTGGTA 0.11 0.14 0.10 0.17 0.14 0.10 0.03 0.02 0.04 0.03 0.01 0.04 0.04 0.04 0.04 0.02 0.05 0.05 0.04 0.05 0.05 0.05 0.06LV CTGGTC 0.12 0.11 0.15 0.07 0.12 0.16 0.03 0.02 0.03 0.02 0.02 0.02 0.04 0.04 0.04 0.04 0.04 0.10 0.09 0.12 0.07 0.09 0.08LV CTGGTG 0.36 0.32 0.39 0.28 0.28 0.34 0.03 0.02 0.04 0.02 0.02 0.02 0.04 0.05 0.05 0.02 0.05 0.22 0.20 0.27 0.21 0.24 0.19LV CTGGTT 0.15 0.25 0.14 0.27 0.29 0.12 0.04 0.03 0.06 0.03 0.02 0.04 0.06 0.08 0.05 0.09 0.05 0.07 0.08 0.07 0.06 0.08 0.07LV CTTGTA 0.01 0.00 0.00 0.01 0.00 0.01 0.03 0.01 0.03 0.02 0.01 0.03 0.03 0.02 0.03 0.02 0.04 0.03 0.03 0.02 0.03 0.03 0.03LV CTTGTC 0.02 0.01 0.01 0.00 0.01 0.01 0.03 0.03 0.02 0.03 0.03 0.02 0.03 0.03 0.03 0.04 0.03 0.04 0.04 0.04 0.04 0.04 0.05LV CTTGTG 0.01 0.01 0.01 0.02 0.00 0.02 0.03 0.01 0.04 0.02 0.01 0.03 0.03 0.02 0.03 0.02 0.04 0.07 0.07 0.07 0.09 0.07 0.08LV CTTGTT 0.02 0.01 0.01 0.01 0.01 0.01 0.05 0.04 0.05 0.05 0.03 0.06 0.05 0.06 0.04 0.06 0.05 0.04 0.05 0.04 0.05 0.04 0.05LV TTAGTA 0.01 0.01 0.00 0.01 0.01 0.00 0.06 0.04 0.04 0.05 0.03 0.07 0.04 0.03 0.04 0.01 0.03 0.01 0.02 0.01 0.02 0.01 0.02LV TTAGTC 0.02 0.02 0.02 0.01 0.01 0.02 0.05 0.06 0.05 0.06 0.07 0.05 0.04 0.03 0.04 0.04 0.04 0.01 0.01 0.01 0.01 0.01 0.01LV TTAGTG 0.03 0.01 0.02 0.01 0.01 0.05 0.06 0.05 0.05 0.06 0.04 0.07 0.04 0.02 0.05 0.02 0.05 0.03 0.02 0.02 0.02 0.01 0.03LV TTAGTT 0.02 0.02 0.02 0.02 0.02 0.01 0.09 0.12 0.09 0.11 0.10 0.08 0.06 0.06 0.06 0.07 0.07 0.02 0.02 0.01 0.02 0.01 0.02LV TTGGTA 0.01 0.01 0.01 0.01 0.01 0.02 0.06 0.04 0.07 0.04 0.04 0.06 0.07 0.06 0.07 0.05 0.08 0.03 0.03 0.02 0.03 0.02 0.03LV TTGGTC 0.01 0.01 0.01 0.00 0.00 0.01 0.06 0.13 0.05 0.10 0.15 0.05 0.07 0.13 0.06 0.15 0.05 0.03 0.03 0.03 0.03 0.04 0.03LV TTGGTG 0.03 0.01 0.03 0.02 0.01 0.04 0.06 0.05 0.06 0.06 0.05 0.06 0.08 0.08 0.08 0.07 0.08 0.08 0.09 0.07 0.08 0.08 0.07LV TTGGTT 0.02 0.02 0.02 0.03 0.02 0.03 0.12 0.21 0.09 0.18 0.25 0.10 0.11 0.14 0.10 0.17 0.10 0.04 0.04 0.03 0.04 0.04 0.04LW CTATGG 0.06 0.05 0.06 0.02 0.00 0.04 0.18 0.24 0.19 0.21 0.21 0.18 0.14 0.09 0.15 0.08 0.13 0.07 0.08 0.09 0.07 0.08 0.08LW CTCTGG 0.15 0.08 0.18 0.16 0.07 0.20 0.06 0.03 0.07 0.03 0.01 0.06 0.07 0.03 0.07 0.04 0.12 0.28 0.28 0.30 0.22 0.30 0.26LW CTGTGG 0.42 0.72 0.42 0.62 0.76 0.39 0.09 0.05 0.06 0.04 0.05 0.11 0.11 0.15 0.11 0.11 0.09 0.36 0.33 0.39 0.35 0.36 0.36LW CTTTGG 0.06 0.01 0.07 0.07 0.04 0.05 0.18 0.11 0.23 0.13 0.08 0.19 0.21 0.21 0.19 0.12 0.23 0.12 0.09 0.08 0.14 0.08 0.11LW TTATGG 0.14 0.07 0.12 0.02 0.01 0.12 0.33 0.36 0.31 0.39 0.49 0.31 0.23 0.16 0.24 0.13 0.20 0.06 0.07 0.05 0.06 0.05 0.06LW TTGTGG 0.16 0.07 0.15 0.11 0.10 0.18 0.16 0.21 0.14 0.19 0.17 0.14 0.24 0.36 0.24 0.52 0.22 0.11 0.15 0.09 0.16 0.13 0.13LY CTATAC 0.01 0.01 0.00 0.03 0.02 0.00 0.06 0.07 0.06 0.06 0.10 0.05 0.05 0.06 0.07 0.04 0.04 0.03 0.03 0.03 0.03 0.02 0.03LY CTATAT 0.02 0.02 0.00 0.01 0.02 0.00 0.09 0.08 0.08 0.07 0.07 0.09 0.06 0.02 0.07 0.02 0.06 0.03 0.04 0.02 0.02 0.02 0.03LY CTCTAC 0.10 0.10 0.13 0.11 0.09 0.12 0.03 0.02 0.04 0.02 0.01 0.02 0.06 0.07 0.06 0.06 0.06 0.19 0.17 0.24 0.16 0.15 0.15LY CTCTAT 0.13 0.09 0.14 0.09 0.06 0.16 0.04 0.01 0.05 0.02 0.01 0.04 0.06 0.05 0.07 0.01 0.05 0.13 0.14 0.13 0.14 0.14 0.13LY CTGTAC 0.14 0.28 0.13 0.29 0.35 0.10 0.05 0.04 0.06 0.04 0.05 0.04 0.07 0.10 0.07 0.13 0.06 0.16 0.18 0.19 0.14 0.18 0.16LY CTGTAT 0.21 0.24 0.23 0.23 0.26 0.20 0.06 0.04 0.07 0.05 0.03 0.06 0.07 0.07 0.07 0.06 0.07 0.13 0.13 0.12 0.14 0.14 0.14LY CTTTAC 0.08 0.05 0.09 0.06 0.04 0.09 0.08 0.08 0.08 0.08 0.07 0.09 0.11 0.10 0.12 0.13 0.12 0.06 0.06 0.06 0.06 0.06 0.06LY CTTTAT 0.13 0.07 0.14 0.09 0.06 0.13 0.12 0.08 0.10 0.12 0.08 0.13 0.11 0.10 0.10 0.07 0.12 0.08 0.08 0.06 0.09 0.08 0.09LY TTATAC 0.02 0.01 0.01 0.02 0.01 0.02 0.11 0.14 0.12 0.13 0.16 0.10 0.09 0.05 0.08 0.07 0.09 0.03 0.03 0.02 0.03 0.01 0.03LY TTATAT 0.05 0.03 0.04 0.01 0.02 0.06 0.15 0.14 0.13 0.15 0.12 0.14 0.07 0.03 0.07 0.03 0.09 0.05 0.03 0.03 0.05 0.04 0.06LY TTGTAC 0.04 0.02 0.02 0.02 0.02 0.04 0.10 0.18 0.09 0.14 0.22 0.09 0.12 0.19 0.12 0.24 0.11 0.06 0.06 0.06 0.08 0.07 0.05LY TTGTAT 0.07 0.07 0.07 0.06 0.05 0.07 0.12 0.12 0.12 0.13 0.10 0.15 0.12 0.16 0.11 0.13 0.13 0.06 0.06 0.04 0.07 0.07 0.07M* ATGTAA 0.73 1.00 0.60 0.00 0.86 0.75 0.51 0.67 0.50 0.64 0.43 0.50 0.43 0.50 0.27 0.71 0.50 0.27 0.33 0.32 0.25 0.50 0.46M* ATGTAG 0.09 0.00 0.20 0.00 0.00 0.25 0.21 0.00 0.00 0.00 0.14 0.50 0.29 0.50 0.36 0.14 0.25 0.22 0.28 0.24 0.12 0.20 0.18M* ATGTGA 0.18 0.00 0.20 1.00 0.14 0.00 0.28 0.33 0.50 0.36 0.43 0.00 0.28 0.00 0.36 0.14 0.25 0.51 0.39 0.44 0.62 0.30 0.36MA ATGGCA 0.23 0.26 0.22 0.29 0.26 0.21 0.32 0.20 0.35 0.28 0.20 0.33 0.29 0.20 0.33 0.15 0.31 0.26 0.24 0.24 0.29 0.25 0.30MA ATGGCC 0.13 0.12 0.13 0.14 0.11 0.14 0.21 0.27 0.18 0.24 0.29 0.19 0.24 0.25 0.22 0.29 0.24 0.33 0.30 0.38 0.30 0.32 0.30MA ATGGCG 0.48 0.36 0.52 0.36 0.39 0.51 0.12 0.05 0.12 0.09 0.04 0.13 0.07 0.01 0.07 0.01 0.08 0.10 0.16 0.07 0.11 0.13 0.07MA ATGGCT 0.16 0.26 0.13 0.21 0.24 0.14 0.35 0.48 0.35 0.40 0.47 0.35 0.40 0.54 0.37 0.54 0.37 0.31 0.30 0.31 0.31 0.30 0.33MC ATGTGC 0.53 0.22 0.67 0.44 0.29 0.67 0.42 0.28 0.42 0.33 0.20 0.45 0.42 0.35 0.44 0.43 0.28 0.48 0.41 0.56 0.46 0.41 0.43MC ATGTGT 0.47 0.78 0.33 0.56 0.71 0.33 0.58 0.72 0.58 0.67 0.80 0.55 0.58 0.65 0.56 0.57 0.72 0.52 0.58 0.44 0.54 0.59 0.56MD ATGGAC 0.36 0.42 0.36 0.46 0.53 0.23 0.38 0.42 0.39 0.36 0.45 0.36 0.41 0.51 0.46 0.52 0.38 0.49 0.46 0.54 0.45 0.45 0.46MD ATGGAT 0.64 0.58 0.64 0.55 0.47 0.77 0.62 0.58 0.61 0.64 0.55 0.64 0.59 0.49 0.54 0.48 0.62 0.51 0.54 0.46 0.55 0.55 0.54ME ATGGAA 0.73 0.76 0.67 0.81 0.77 0.65 0.72 0.81 0.74 0.77 0.82 0.68 0.59 0.56 0.61 0.48 0.61 0.43 0.40 0.37 0.45 0.36 0.45ME ATGGAG 0.27 0.24 0.33 0.19 0.23 0.35 0.28 0.19 0.26 0.23 0.18 0.32 0.41 0.43 0.39 0.52 0.39 0.57 0.60 0.63 0.55 0.64 0.55MF ATGTTC 0.48 0.69 0.55 0.58 0.56 0.41 0.36 0.46 0.42 0.45 0.47 0.30 0.41 0.56 0.41 0.53 0.40 0.48 0.49 0.57 0.40 0.48 0.47MF ATGTTT 0.52 0.31 0.45 0.42 0.44 0.58 0.64 0.54 0.58 0.55 0.53 0.69 0.59 0.44 0.59 0.47 0.60 0.52 0.51 0.43 0.60 0.52 0.53MG ATGGGA 0.13 0.07 0.12 0.09 0.04 0.15 0.23 0.14 0.27 0.21 0.08 0.28 0.37 0.32 0.40 0.22 0.35 0.27 0.27 0.22 0.28 0.26 0.31MG ATGGGC 0.45 0.46 0.46 0.50 0.45 0.45 0.21 0.13 0.20 0.16 0.12 0.19 0.16 0.14 0.17 0.12 0.19 0.32 0.31 0.37 0.27 0.34 0.28MG ATGGGG 0.23 0.12 0.27 0.10 0.12 0.24 0.14 0.05 0.14 0.08 0.06 0.15 0.12 0.07 0.15 0.03 0.16 0.22 0.21 0.24 0.24 0.20 0.21MG ATGGGT 0.20 0.36 0.15 0.30 0.39 0.17 0.42 0.68 0.40 0.56 0.73 0.37 0.35 0.48 0.28 0.64 0.30 0.20 0.21 0.17 0.22 0.20 0.20MH ATGCAC 0.48 0.71 0.64 0.72 0.73 0.51 0.33 0.46 0.33 0.34 0.44 0.30 0.36 0.57 0.35 0.71 0.24 0.55 0.55 0.60 0.53 0.55 0.50MH ATGCAT 0.52 0.29 0.36 0.28 0.27 0.49 0.67 0.55 0.67 0.66 0.56 0.70 0.64 0.43 0.65 0.29 0.76 0.45 0.45 0.40 0.47 0.45 0.50MI ATGATA 0.07 0.04 0.06 0.00 0.01 0.06 0.28 0.11 0.36 0.17 0.04 0.33 0.25 0.17 0.30 0.08 0.27 0.18 0.15 0.16 0.15 0.11 0.20MI ATGATC 0.45 0.58 0.43 0.57 0.55 0.38 0.24 0.30 0.24 0.30 0.36 0.23 0.29 0.33 0.28 0.40 0.34 0.43 0.45 0.50 0.42 0.49 0.38MI ATGATT 0.49 0.39 0.51 0.43 0.45 0.55 0.48 0.59 0.40 0.53 0.60 0.44 0.46 0.50 0.42 0.52 0.39 0.38 0.39 0.34 0.43 0.40 0.42MK ATGAAA 0.72 0.70 0.71 0.75 0.72 0.72 0.61 0.50 0.67 0.58 0.43 0.65 0.56 0.36 0.59 0.32 0.55 0.39 0.36 0.35 0.39 0.33 0.40MK ATGAAG 0.28 0.30 0.29 0.25 0.28 0.28 0.39 0.50 0.33 0.42 0.57 0.35 0.44 0.64 0.41 0.68 0.45 0.61 0.64 0.65 0.61 0.68 0.60ML ATGCTA 0.04 0.04 0.04 0.04 0.04 0.04 0.17 0.13 0.14 0.16 0.14 0.19 0.15 0.14 0.18 0.09 0.15 0.09 0.08 0.09 0.10 0.07 0.10ML ATGCTC 0.12 0.12 0.16 0.06 0.08 0.09 0.06 0.04 0.06 0.05 0.03 0.07 0.08 0.09 0.08 0.07 0.09 0.15 0.13 0.19 0.12 0.14 0.13ML ATGCTG 0.50 0.58 0.46 0.68 0.70 0.52 0.16 0.13 0.18 0.14 0.08 0.16 0.18 0.12 0.17 0.14 0.18 0.41 0.39 0.45 0.40 0.43 0.38ML ATGCTT 0.09 0.08 0.09 0.09 0.05 0.07 0.18 0.16 0.17 0.19 0.14 0.20 0.17 0.18 0.15 0.18 0.19 0.14 0.16 0.11 0.14 0.16 0.17ML ATGTTA 0.09 0.05 0.06 0.08 0.04 0.11 0.22 0.23 0.24 0.21 0.22 0.20 0.16 0.15 0.16 0.11 0.17 0.07 0.07 0.04 0.09 0.06 0.09ML ATGTTG 0.16 0.13 0.19 0.06 0.09 0.17 0.20 0.32 0.21 0.26 0.40 0.19 0.26 0.32 0.25 0.41 0.21 0.14 0.17 0.12 0.14 0.15 0.13MM ATGATG 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00MN ATGAAC 0.52 0.74 0.51 0.69 0.71 0.48 0.40 0.50 0.44 0.47 0.59 0.36 0.51 0.63 0.48 0.73 0.48 0.51 0.51 0.56 0.55 0.52 0.53MN ATGAAT 0.48 0.26 0.49 0.31 0.29 0.52 0.60 0.50 0.56 0.53 0.41 0.64 0.49 0.37 0.52 0.27 0.52 0.49 0.49 0.44 0.45 0.48 0.47MP ATGCCA 0.23 0.23 0.19 0.28 0.23 0.27 0.38 0.54 0.38 0.45 0.56 0.39 0.33 0.41 0.29 0.42 0.41 0.30 0.24 0.26 0.36 0.26 0.36MP ATGCCC 0.11 0.06 0.16 0.09 0.06 0.10 0.19 0.10 0.17 0.11 0.08 0.22 0.21 0.18 0.22 0.06 0.19 0.29 0.33 0.34 0.25 0.34 0.24MP ATGCCG 0.49 0.56 0.50 0.51 0.60 0.48 0.11 0.03 0.15 0.09 0.04 0.09 0.10 0.06 0.14 0.05 0.09 0.08 0.14 0.08 0.09 0.13 0.07MP ATGCCT 0.17 0.14 0.14 0.13 0.11 0.15 0.32 0.33 0.30 0.35 0.31 0.30 0.37 0.36 0.34 0.47 0.31 0.34 0.29 0.31 0.30 0.28 0.33MQ ATGCAA 0.34 0.33 0.36 0.40 0.31 0.37 0.73 0.78 0.77 0.75 0.83 0.69 0.67 0.67 0.70 0.72 0.67 0.28 0.24 0.25 0.25 0.24 0.30MQ ATGCAG 0.66 0.67 0.64 0.60 0.69 0.63 0.27 0.22 0.23 0.25 0.17 0.30 0.33 0.33 0.30 0.28 0.33 0.72 0.76 0.75 0.75 0.76 0.70MR ATGAGA 0.03 0.01 0.02 0.03 0.00 0.03 0.52 0.62 0.45 0.60 0.79 0.43 0.51 0.57 0.56 0.57 0.49 0.28 0.28 0.24 0.31 0.27 0.33MR ATGAGG 0.02 0.00 0.01 0.01 0.01 0.02 0.22 0.14 0.21 0.19 0.05 0.25 0.18 0.09 0.26 0.07 0.20 0.29 0.26 0.31 0.28 0.23 0.27MR ATGCGA 0.06 0.03 0.04 0.03 0.01 0.09 0.06 0.02 0.11 0.02 0.00 0.10 0.11 0.09 0.05 0.06 0.11 0.08 0.09 0.07 0.07 0.08 0.09MR ATGCGC 0.41 0.42 0.51 0.27 0.38 0.43 0.04 0.04 0.04 0.04 0.03 0.05 0.05 0.05 0.02 0.04 0.03 0.12 0.15 0.15 0.10 0.17 0.12MR ATGCGG 0.07 0.02 0.05 0.06 0.02 0.05 0.04 0.02 0.05 0.04 0.00 0.04 0.03 0.03 0.03 0.02 0.06 0.15 0.13 0.15 0.14 0.13 0.14MR ATGCGT 0.41 0.52 0.36 0.60 0.57 0.39 0.13 0.16 0.14 0.12 0.13 0.13 0.11 0.16 0.08 0.24 0.11 0.08 0.09 0.08 0.09 0.12 0.07MS ATGAGC 0.28 0.29 0.25 0.36 0.22 0.27 0.12 0.07 0.12 0.11 0.05 0.14 0.12 0.06 0.13 0.04 0.16 0.20 0.19 0.22 0.17 0.20 0.18MS ATGAGT 0.19 0.12 0.20 0.12 0.12 0.21 0.18 0.15 0.18 0.16 0.11 0.21 0.18 0.12 0.18 0.10 0.19 0.16 0.18 0.15 0.17 0.18 0.18MS ATGTCA 0.11 0.09 0.09 0.10 0.09 0.11 0.21 0.16 0.20 0.16 0.12 0.21 0.21 0.18 0.21 0.19 0.22 0.16 0.11 0.15 0.18 0.11 0.18MS ATGTCC 0.11 0.23 0.13 0.21 0.21 0.13 0.15 0.20 0.16 0.16 0.26 0.13 0.16 0.24 0.17 0.23 0.14 0.20 0.19 0.22 0.18 0.17 0.16MS ATGTCG 0.18 0.10 0.22 0.05 0.12 0.22 0.10 0.06 0.10 0.08 0.06 0.09 0.09 0.08 0.08 0.05 0.10 0.04 0.06 0.03 0.05 0.06 0.03MS ATGTCT 0.13 0.17 0.11 0.15 0.24 0.07 0.24 0.35 0.24 0.33 0.40 0.21 0.24 0.32 0.23 0.40 0.20 0.23 0.27 0.23 0.24 0.27 0.26

Continued on next page

Page 163: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 150

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

MT ATGACA 0.12 0.17 0.09 0.11 0.11 0.11 0.35 0.22 0.39 0.30 0.20 0.36 0.29 0.23 0.27 0.13 0.30 0.32 0.31 0.29 0.29 0.28 0.33MT ATGACC 0.44 0.40 0.49 0.49 0.47 0.43 0.21 0.26 0.19 0.22 0.28 0.17 0.26 0.32 0.24 0.40 0.24 0.32 0.34 0.37 0.30 0.31 0.29MT ATGACG 0.30 0.20 0.29 0.23 0.18 0.31 0.15 0.08 0.19 0.11 0.06 0.14 0.10 0.07 0.11 0.03 0.11 0.08 0.07 0.08 0.07 0.13 0.07MT ATGACT 0.14 0.23 0.14 0.17 0.24 0.15 0.29 0.44 0.23 0.37 0.47 0.34 0.34 0.37 0.37 0.44 0.35 0.29 0.28 0.26 0.33 0.28 0.30MV ATGGTA 0.11 0.14 0.09 0.17 0.15 0.09 0.22 0.12 0.26 0.15 0.08 0.23 0.21 0.13 0.20 0.12 0.22 0.14 0.08 0.12 0.13 0.09 0.17MV ATGGTC 0.20 0.15 0.20 0.21 0.19 0.18 0.20 0.26 0.20 0.26 0.27 0.20 0.19 0.24 0.20 0.26 0.21 0.21 0.22 0.24 0.17 0.23 0.19MV ATGGTG 0.46 0.36 0.55 0.31 0.33 0.48 0.18 0.11 0.22 0.15 0.10 0.19 0.22 0.18 0.20 0.21 0.20 0.46 0.48 0.50 0.48 0.49 0.43MV ATGGTT 0.23 0.35 0.16 0.31 0.32 0.24 0.39 0.51 0.32 0.44 0.56 0.38 0.38 0.44 0.39 0.41 0.38 0.19 0.22 0.14 0.22 0.19 0.21MW ATGTGG 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00MY ATGTAC 0.44 0.59 0.46 0.44 0.51 0.44 0.46 0.51 0.45 0.51 0.58 0.36 0.54 0.58 0.52 0.70 0.48 0.55 0.45 0.60 0.48 0.50 0.54MY ATGTAT 0.56 0.41 0.54 0.56 0.49 0.56 0.54 0.49 0.55 0.49 0.42 0.64 0.46 0.42 0.48 0.30 0.52 0.45 0.55 0.40 0.52 0.50 0.46N* AACTAA 0.29 0.44 0.29 0.67 0.40 0.38 0.21 0.43 0.14 0.25 0.49 0.04 0.23 0.33 0.29 0.42 0.16 0.18 0.27 0.23 0.18 0.25 0.15N* AACTAG 0.04 0.00 0.07 0.00 0.00 0.00 0.10 0.04 0.14 0.33 0.03 0.00 0.17 0.27 0.11 0.27 0.22 0.13 0.15 0.26 0.12 0.11 0.15N* AACTGA 0.19 0.17 0.29 0.22 0.30 0.25 0.16 0.07 0.17 0.07 0.14 0.09 0.13 0.10 0.11 0.09 0.25 0.39 0.30 0.31 0.35 0.36 0.26N* AATTAA 0.37 0.28 0.29 0.11 0.10 0.38 0.26 0.22 0.26 0.19 0.16 0.46 0.17 0.14 0.11 0.09 0.09 0.14 0.15 0.11 0.12 0.08 0.33N* AATTAG 0.04 0.00 0.00 0.00 0.00 0.00 0.12 0.13 0.17 0.10 0.08 0.09 0.17 0.12 0.23 0.11 0.03 0.08 0.07 0.08 0.23 0.06 0.07N* AATTGA 0.07 0.11 0.07 0.00 0.20 0.00 0.16 0.11 0.11 0.05 0.11 0.32 0.13 0.04 0.14 0.02 0.25 0.08 0.06 0.02 0.00 0.14 0.04NA AACGCA 0.07 0.13 0.07 0.11 0.12 0.06 0.09 0.07 0.07 0.08 0.06 0.11 0.08 0.05 0.08 0.06 0.10 0.04 0.05 0.05 0.03 0.05 0.04NA AACGCC 0.24 0.24 0.26 0.25 0.28 0.24 0.07 0.11 0.06 0.08 0.12 0.05 0.06 0.12 0.06 0.12 0.06 0.07 0.07 0.09 0.06 0.05 0.06NA AACGCG 0.14 0.17 0.14 0.17 0.16 0.14 0.03 0.02 0.02 0.03 0.02 0.03 0.02 0.01 0.01 0.01 0.02 0.02 0.03 0.01 0.01 0.03 0.01NA AACGCT 0.08 0.13 0.07 0.11 0.14 0.10 0.13 0.20 0.13 0.17 0.22 0.10 0.12 0.23 0.11 0.24 0.11 0.04 0.04 0.05 0.06 0.04 0.04NA AATGCA 0.07 0.08 0.06 0.08 0.05 0.10 0.20 0.12 0.24 0.15 0.11 0.23 0.17 0.11 0.18 0.08 0.20 0.23 0.20 0.18 0.22 0.21 0.25NA AATGCC 0.18 0.11 0.20 0.17 0.09 0.15 0.15 0.16 0.15 0.16 0.15 0.15 0.18 0.19 0.19 0.17 0.17 0.30 0.32 0.35 0.32 0.30 0.28NA AATGCG 0.14 0.06 0.15 0.06 0.09 0.12 0.09 0.04 0.07 0.06 0.04 0.08 0.07 0.04 0.07 0.02 0.08 0.03 0.04 0.04 0.03 0.04 0.03NA AATGCT 0.07 0.08 0.06 0.05 0.08 0.09 0.24 0.28 0.27 0.28 0.28 0.26 0.29 0.25 0.30 0.32 0.26 0.26 0.26 0.23 0.28 0.28 0.28NC AACTGC 0.42 0.62 0.44 0.65 0.74 0.21 0.15 0.06 0.16 0.11 0.08 0.18 0.15 0.17 0.15 0.15 0.18 0.39 0.37 0.46 0.39 0.39 0.37NC AACTGT 0.29 0.28 0.29 0.30 0.19 0.26 0.29 0.54 0.30 0.40 0.58 0.24 0.34 0.53 0.36 0.67 0.33 0.37 0.38 0.35 0.35 0.41 0.36NC AATTGC 0.17 0.08 0.15 0.05 0.07 0.32 0.21 0.09 0.25 0.14 0.08 0.20 0.19 0.11 0.20 0.07 0.17 0.11 0.12 0.10 0.09 0.13 0.10NC AATTGT 0.12 0.02 0.12 0.00 0.00 0.21 0.35 0.31 0.29 0.35 0.27 0.38 0.31 0.19 0.29 0.12 0.31 0.14 0.13 0.08 0.17 0.07 0.17ND AACGAC 0.24 0.39 0.31 0.39 0.34 0.23 0.12 0.16 0.11 0.13 0.18 0.11 0.14 0.21 0.14 0.25 0.11 0.10 0.13 0.11 0.09 0.15 0.10ND AACGAT 0.35 0.33 0.36 0.33 0.36 0.34 0.24 0.27 0.27 0.26 0.32 0.23 0.23 0.24 0.22 0.28 0.21 0.08 0.08 0.07 0.09 0.07 0.09ND AATGAC 0.19 0.15 0.21 0.15 0.17 0.14 0.23 0.22 0.24 0.21 0.22 0.23 0.26 0.26 0.26 0.20 0.26 0.45 0.44 0.51 0.41 0.42 0.40ND AATGAT 0.22 0.14 0.13 0.14 0.13 0.30 0.41 0.34 0.38 0.41 0.28 0.43 0.38 0.30 0.38 0.27 0.41 0.37 0.35 0.31 0.41 0.36 0.41NE AACGAA 0.37 0.50 0.36 0.47 0.55 0.30 0.24 0.34 0.19 0.27 0.37 0.22 0.22 0.25 0.21 0.26 0.22 0.06 0.07 0.06 0.06 0.07 0.07NE AACGAG 0.14 0.16 0.14 0.18 0.14 0.18 0.10 0.09 0.11 0.09 0.07 0.09 0.16 0.27 0.15 0.27 0.14 0.12 0.12 0.15 0.11 0.16 0.11NE AATGAA 0.35 0.25 0.36 0.26 0.23 0.39 0.46 0.43 0.47 0.47 0.44 0.47 0.38 0.27 0.41 0.22 0.38 0.43 0.41 0.36 0.44 0.40 0.45NE AATGAG 0.14 0.10 0.14 0.08 0.08 0.12 0.20 0.14 0.23 0.17 0.12 0.21 0.24 0.22 0.23 0.25 0.25 0.38 0.40 0.42 0.39 0.37 0.36NF AACTTC 0.34 0.59 0.35 0.58 0.63 0.27 0.16 0.28 0.14 0.21 0.37 0.14 0.19 0.33 0.19 0.41 0.15 0.36 0.39 0.45 0.32 0.37 0.35NF AACTTT 0.25 0.20 0.26 0.18 0.22 0.26 0.23 0.27 0.23 0.25 0.29 0.21 0.32 0.38 0.32 0.37 0.33 0.27 0.31 0.27 0.30 0.33 0.25NF AATTTC 0.20 0.13 0.25 0.15 0.10 0.22 0.25 0.23 0.25 0.25 0.19 0.26 0.20 0.15 0.22 0.09 0.20 0.17 0.14 0.15 0.14 0.10 0.18NF AATTTT 0.21 0.08 0.14 0.09 0.06 0.25 0.36 0.23 0.38 0.29 0.15 0.39 0.28 0.15 0.27 0.13 0.32 0.20 0.16 0.14 0.23 0.21 0.22NG AACGGA 0.05 0.02 0.04 0.02 0.02 0.04 0.07 0.04 0.08 0.05 0.04 0.07 0.11 0.10 0.13 0.10 0.11 0.04 0.05 0.04 0.03 0.04 0.04NG AACGGC 0.28 0.32 0.39 0.34 0.31 0.30 0.07 0.06 0.09 0.06 0.06 0.07 0.06 0.07 0.04 0.04 0.05 0.06 0.04 0.06 0.05 0.05 0.05NG AACGGG 0.05 0.04 0.04 0.04 0.05 0.05 0.04 0.03 0.04 0.03 0.02 0.04 0.04 0.04 0.06 0.02 0.05 0.05 0.06 0.07 0.07 0.06 0.04NG AACGGT 0.23 0.35 0.23 0.30 0.37 0.23 0.15 0.33 0.11 0.24 0.36 0.13 0.13 0.28 0.12 0.36 0.10 0.03 0.04 0.03 0.03 0.03 0.03NG AATGGA 0.03 0.01 0.02 0.01 0.01 0.03 0.16 0.06 0.20 0.11 0.05 0.18 0.24 0.15 0.23 0.13 0.27 0.25 0.22 0.22 0.27 0.23 0.27NG AATGGC 0.19 0.14 0.16 0.16 0.12 0.19 0.15 0.09 0.16 0.12 0.08 0.15 0.11 0.08 0.12 0.07 0.12 0.24 0.25 0.26 0.25 0.21 0.23NG AATGGG 0.03 0.02 0.02 0.02 0.01 0.04 0.10 0.06 0.09 0.07 0.05 0.10 0.10 0.05 0.10 0.04 0.10 0.19 0.17 0.20 0.18 0.17 0.17NG AATGGT 0.13 0.10 0.10 0.11 0.11 0.12 0.26 0.33 0.23 0.32 0.33 0.26 0.21 0.23 0.18 0.24 0.19 0.14 0.17 0.12 0.12 0.20 0.16NH AACCAC 0.28 0.37 0.29 0.29 0.45 0.28 0.16 0.26 0.14 0.18 0.36 0.15 0.21 0.40 0.24 0.48 0.14 0.36 0.37 0.45 0.38 0.39 0.34NH AACCAT 0.28 0.29 0.33 0.29 0.24 0.24 0.28 0.37 0.25 0.34 0.30 0.25 0.28 0.31 0.26 0.29 0.25 0.26 0.26 0.28 0.25 0.30 0.25NH AATCAC 0.20 0.19 0.18 0.20 0.17 0.15 0.19 0.15 0.21 0.17 0.16 0.21 0.18 0.14 0.17 0.11 0.21 0.19 0.20 0.16 0.18 0.15 0.20NH AATCAT 0.24 0.15 0.20 0.22 0.13 0.33 0.38 0.21 0.40 0.31 0.18 0.39 0.32 0.14 0.33 0.12 0.40 0.19 0.18 0.11 0.19 0.16 0.21NI AACATA 0.02 0.01 0.00 0.01 0.01 0.01 0.11 0.06 0.13 0.08 0.05 0.11 0.11 0.05 0.12 0.04 0.12 0.10 0.08 0.08 0.09 0.05 0.10NI AACATC 0.21 0.40 0.25 0.38 0.42 0.13 0.11 0.21 0.09 0.15 0.23 0.10 0.15 0.29 0.13 0.30 0.13 0.33 0.38 0.41 0.34 0.41 0.30NI AACATT 0.20 0.24 0.17 0.21 0.24 0.21 0.18 0.28 0.20 0.23 0.32 0.16 0.24 0.35 0.20 0.40 0.22 0.22 0.24 0.22 0.23 0.22 0.23NI AATATA 0.03 0.00 0.01 0.01 0.01 0.03 0.16 0.06 0.17 0.11 0.04 0.19 0.11 0.04 0.11 0.03 0.12 0.07 0.05 0.04 0.07 0.02 0.08NI AATATC 0.26 0.20 0.29 0.23 0.18 0.28 0.15 0.15 0.13 0.16 0.15 0.15 0.15 0.10 0.17 0.09 0.15 0.14 0.12 0.15 0.11 0.14 0.12NI AATATT 0.29 0.15 0.28 0.16 0.14 0.33 0.29 0.24 0.28 0.28 0.22 0.29 0.24 0.17 0.26 0.14 0.27 0.15 0.12 0.10 0.15 0.16 0.17NK AACAAA 0.37 0.58 0.36 0.60 0.56 0.31 0.27 0.28 0.25 0.29 0.29 0.25 0.30 0.28 0.34 0.26 0.30 0.28 0.27 0.27 0.29 0.30 0.30NK AACAAG 0.13 0.21 0.12 0.18 0.21 0.08 0.21 0.39 0.22 0.25 0.42 0.17 0.28 0.47 0.23 0.58 0.24 0.36 0.41 0.46 0.36 0.41 0.33NK AATAAA 0.39 0.19 0.37 0.22 0.20 0.42 0.33 0.18 0.35 0.28 0.14 0.38 0.23 0.12 0.25 0.08 0.26 0.20 0.16 0.15 0.18 0.14 0.20NK AATAAG 0.11 0.02 0.16 0.01 0.02 0.19 0.19 0.16 0.19 0.18 0.15 0.20 0.19 0.14 0.19 0.09 0.19 0.16 0.16 0.12 0.18 0.15 0.17NL AACCTA 0.01 0.00 0.01 0.01 0.01 0.00 0.05 0.05 0.05 0.06 0.06 0.05 0.04 0.04 0.04 0.04 0.04 0.05 0.04 0.06 0.05 0.05 0.05NL AACCTC 0.07 0.07 0.10 0.06 0.06 0.07 0.03 0.01 0.04 0.02 0.00 0.03 0.04 0.03 0.04 0.03 0.03 0.13 0.13 0.15 0.13 0.13 0.10NL AACCTG 0.30 0.48 0.28 0.46 0.53 0.26 0.04 0.04 0.05 0.03 0.04 0.04 0.07 0.09 0.07 0.12 0.05 0.22 0.21 0.28 0.23 0.24 0.21NL AACCTT 0.06 0.05 0.08 0.03 0.04 0.05 0.06 0.05 0.07 0.05 0.04 0.06 0.08 0.10 0.08 0.10 0.08 0.09 0.09 0.09 0.08 0.09 0.10NL AACTTA 0.04 0.03 0.03 0.01 0.03 0.04 0.10 0.13 0.10 0.12 0.13 0.09 0.08 0.07 0.08 0.07 0.08 0.04 0.04 0.04 0.04 0.02 0.04NL AACTTG 0.03 0.03 0.02 0.01 0.01 0.02 0.12 0.24 0.11 0.17 0.30 0.11 0.16 0.24 0.13 0.34 0.14 0.10 0.12 0.09 0.09 0.10 0.09NL AATCTA 0.02 0.00 0.02 0.01 0.00 0.02 0.08 0.06 0.07 0.07 0.07 0.08 0.06 0.03 0.06 0.02 0.07 0.04 0.04 0.03 0.04 0.03 0.04NL AATCTC 0.08 0.05 0.08 0.06 0.04 0.08 0.04 0.02 0.05 0.02 0.02 0.03 0.05 0.05 0.06 0.02 0.06 0.06 0.06 0.05 0.07 0.06 0.07NL AATCTG 0.21 0.19 0.19 0.24 0.18 0.19 0.06 0.04 0.04 0.05 0.03 0.05 0.08 0.07 0.08 0.05 0.09 0.09 0.12 0.10 0.10 0.12 0.10NL AATCTT 0.06 0.04 0.07 0.03 0.04 0.09 0.07 0.04 0.07 0.05 0.04 0.07 0.10 0.07 0.11 0.06 0.09 0.07 0.06 0.05 0.07 0.06 0.07NL AATTTA 0.07 0.01 0.04 0.04 0.03 0.08 0.18 0.13 0.18 0.17 0.12 0.21 0.09 0.06 0.10 0.04 0.10 0.05 0.04 0.02 0.04 0.04 0.07NL AATTTG 0.06 0.05 0.07 0.04 0.03 0.09 0.18 0.18 0.17 0.18 0.17 0.18 0.16 0.15 0.15 0.12 0.17 0.07 0.07 0.04 0.07 0.06 0.07NM AACATG 0.43 0.64 0.39 0.64 0.66 0.34 0.40 0.51 0.42 0.43 0.63 0.40 0.54 0.70 0.50 0.79 0.49 0.69 0.69 0.77 0.69 0.66 0.69NM AATATG 0.57 0.36 0.61 0.36 0.34 0.66 0.60 0.49 0.58 0.57 0.37 0.60 0.47 0.30 0.50 0.21 0.51 0.31 0.31 0.23 0.31 0.34 0.31NN AACAAC 0.28 0.51 0.33 0.53 0.50 0.19 0.19 0.31 0.19 0.24 0.35 0.17 0.27 0.43 0.23 0.57 0.22 0.38 0.39 0.43 0.39 0.46 0.35NN AACAAT 0.18 0.16 0.14 0.16 0.15 0.15 0.24 0.27 0.22 0.25 0.28 0.25 0.28 0.28 0.35 0.22 0.30 0.27 0.27 0.30 0.28 0.24 0.27NN AATAAC 0.28 0.23 0.36 0.22 0.28 0.28 0.22 0.17 0.24 0.21 0.19 0.21 0.20 0.17 0.19 0.14 0.21 0.17 0.18 0.15 0.16 0.17 0.18NN AATAAT 0.26 0.11 0.17 0.09 0.07 0.39 0.35 0.24 0.35 0.30 0.18 0.37 0.25 0.12 0.24 0.08 0.27 0.18 0.16 0.12 0.17 0.13 0.20NP AACCCA 0.09 0.08 0.06 0.13 0.08 0.09 0.16 0.32 0.14 0.20 0.38 0.15 0.18 0.29 0.16 0.37 0.13 0.18 0.20 0.20 0.20 0.18 0.19NP AACCCC 0.05 0.04 0.04 0.03 0.04 0.06 0.06 0.03 0.07 0.05 0.03 0.06 0.09 0.07 0.08 0.07 0.08 0.18 0.19 0.23 0.17 0.20 0.17NP AACCCG 0.36 0.52 0.42 0.46 0.52 0.23 0.04 0.02 0.08 0.04 0.02 0.04 0.04 0.04 0.04 0.03 0.04 0.05 0.04 0.05 0.04 0.04 0.04NP AACCCT 0.06 0.03 0.05 0.06 0.07 0.06 0.13 0.14 0.14 0.12 0.16 0.10 0.16 0.25 0.17 0.26 0.14 0.20 0.21 0.19 0.21 0.24 0.20NP AATCCA 0.08 0.09 0.07 0.06 0.08 0.11 0.24 0.25 0.19 0.26 0.22 0.26 0.19 0.14 0.19 0.11 0.22 0.13 0.13 0.10 0.15 0.11 0.13NP AATCCC 0.06 0.01 0.10 0.00 0.01 0.09 0.08 0.04 0.07 0.07 0.03 0.08 0.09 0.05 0.11 0.03 0.11 0.10 0.10 0.11 0.10 0.10 0.10NP AATCCG 0.22 0.18 0.17 0.22 0.16 0.23 0.09 0.05 0.12 0.07 0.04 0.08 0.06 0.03 0.06 0.01 0.07 0.02 0.01 0.03 0.01 0.01 0.02NP AATCCT 0.07 0.04 0.09 0.03 0.04 0.13 0.21 0.15 0.19 0.19 0.13 0.23 0.19 0.13 0.18 0.12 0.21 0.14 0.12 0.10 0.12 0.12 0.16NQ AACCAA 0.10 0.08 0.09 0.07 0.11 0.13 0.32 0.50 0.27 0.38 0.54 0.29 0.30 0.37 0.32 0.47 0.29 0.18 0.14 0.18 0.17 0.14 0.19NQ AACCAG 0.36 0.51 0.39 0.56 0.51 0.29 0.14 0.12 0.13 0.15 0.11 0.13 0.20 0.33 0.22 0.32 0.16 0.45 0.50 0.49 0.47 0.53 0.43NQ AATCAA 0.17 0.12 0.15 0.10 0.07 0.17 0.39 0.31 0.42 0.36 0.29 0.42 0.31 0.16 0.31 0.13 0.35 0.14 0.15 0.12 0.13 0.09 0.14NQ AATCAG 0.37 0.30 0.37 0.27 0.31 0.40 0.15 0.07 0.17 0.11 0.06 0.16 0.20 0.14 0.15 0.09 0.20 0.23 0.21 0.20 0.23 0.24 0.24NR AACAGA 0.03 0.01 0.01 0.02 0.01 0.02 0.23 0.42 0.18 0.28 0.49 0.18 0.26 0.45 0.23 0.53 0.23 0.19 0.22 0.19 0.19 0.20 0.23NR AACAGG 0.01 0.00 0.02 0.02 0.01 0.01 0.10 0.11 0.13 0.11 0.11 0.10 0.10 0.07 0.09 0.03 0.09 0.16 0.14 0.19 0.14 0.14 0.17NR AACCGA 0.03 0.01 0.02 0.00 0.01 0.03 0.02 0.00 0.03 0.01 0.00 0.02 0.05 0.04 0.05 0.02 0.06 0.08 0.11 0.07 0.11 0.11 0.07NR AACCGC 0.27 0.27 0.30 0.43 0.30 0.26 0.03 0.02 0.04 0.02 0.01 0.03 0.03 0.03 0.02 0.03 0.03 0.10 0.10 0.14 0.09 0.11 0.08NR AACCGG 0.05 0.01 0.06 0.01 0.01 0.07 0.01 0.01 0.01 0.01 0.00 0.01 0.02 0.00 0.03 0.00 0.03 0.11 0.11 0.11 0.09 0.11 0.09NR AACCGT 0.25 0.45 0.27 0.28 0.42 0.22 0.07 0.13 0.09 0.09 0.12 0.06 0.06 0.10 0.04 0.15 0.05 0.06 0.06 0.06 0.08 0.08 0.06NR AATAGA 0.01 0.00 0.00 0.00 0.00 0.01 0.24 0.17 0.21 0.23 0.18 0.26 0.20 0.13 0.22 0.15 0.21 0.07 0.05 0.04 0.08 0.04 0.08NR AATAGG 0.00 0.00 0.00 0.00 0.00 0.01 0.12 0.05 0.12 0.10 0.03 0.16 0.09 0.05 0.11 0.02 0.10 0.05 0.07 0.04 0.07 0.06 0.04NR AATCGA 0.03 0.01 0.02 0.04 0.01 0.01 0.04 0.01 0.05 0.02 0.00 0.06 0.06 0.05 0.09 0.03 0.08 0.05 0.04 0.03 0.04 0.04 0.06NR AATCGC 0.16 0.15 0.14 0.12 0.11 0.15 0.03 0.01 0.04 0.02 0.01 0.03 0.03 0.01 0.02 0.00 0.04 0.04 0.05 0.04 0.03 0.05 0.04NR AATCGG 0.04 0.01 0.04 0.01 0.01 0.08 0.02 0.01 0.03 0.01 0.00 0.03 0.03 0.02 0.03 0.00 0.03 0.05 0.04 0.04 0.05 0.04 0.04NR AATCGT 0.12 0.08 0.12 0.08 0.10 0.13 0.08 0.07 0.08 0.09 0.06 0.06 0.07 0.05 0.06 0.04 0.07 0.03 0.03 0.04 0.03 0.03 0.03NS AACAGC 0.27 0.30 0.26 0.30 0.33 0.25 0.06 0.05 0.05 0.07 0.04 0.07 0.06 0.08 0.06 0.06 0.06 0.18 0.20 0.23 0.18 0.20 0.17NS AACAGT 0.13 0.07 0.14 0.07 0.06 0.16 0.08 0.08 0.08 0.09 0.10 0.07 0.09 0.10 0.08 0.09 0.08 0.14 0.14 0.13 0.14 0.15 0.14NS AACTCA 0.06 0.04 0.08 0.06 0.04 0.05 0.07 0.06 0.08 0.08 0.04 0.09 0.10 0.10 0.10 0.07 0.10 0.09 0.09 0.09 0.07 0.08 0.08NS AACTCC 0.10 0.17 0.11 0.15 0.23 0.07 0.07 0.11 0.07 0.08 0.15 0.05 0.09 0.15 0.08 0.22 0.07 0.11 0.12 0.15 0.08 0.12 0.09NS AACTCG 0.08 0.08 0.09 0.04 0.10 0.08 0.04 0.03 0.04 0.04 0.02 0.03 0.05 0.04 0.04 0.03 0.05 0.02 0.03 0.03 0.03 0.04 0.02NS AACTCT 0.06 0.14 0.06 0.12 0.11 0.08 0.10 0.18 0.10 0.11 0.22 0.08 0.13 0.19 0.14 0.28 0.12 0.10 0.09 0.10 0.11 0.11 0.10NS AATAGC 0.10 0.06 0.09 0.09 0.04 0.10 0.07 0.04 0.10 0.05 0.03 0.09 0.06 0.03 0.07 0.02 0.06 0.05 0.07 0.04 0.06 0.04 0.06NS AATAGT 0.06 0.01 0.04 0.01 0.01 0.06 0.10 0.07 0.13 0.08 0.06 0.10 0.08 0.04 0.08 0.02 0.09 0.05 0.04 0.03 0.07 0.04 0.06NS AATTCA 0.05 0.02 0.04 0.03 0.01 0.04 0.13 0.09 0.12 0.12 0.08 0.13 0.10 0.08 0.12 0.06 0.12 0.08 0.07 0.05 0.08 0.05 0.08NS AATTCC 0.03 0.04 0.01 0.03 0.04 0.01 0.08 0.08 0.06 0.08 0.08 0.08 0.08 0.08 0.09 0.06 0.09 0.08 0.07 0.07 0.08 0.07 0.08NS AATTCG 0.04 0.02 0.03 0.03 0.01 0.03 0.06 0.04 0.07 0.05 0.03 0.07 0.05 0.04 0.04 0.02 0.05 0.01 0.01 0.01 0.01 0.01 0.01NS AATTCT 0.04 0.05 0.03 0.06 0.04 0.06 0.14 0.15 0.11 0.16 0.14 0.15 0.12 0.08 0.11 0.06 0.13 0.09 0.08 0.08 0.09 0.09 0.11NT AACACA 0.05 0.02 0.03 0.04 0.01 0.03 0.13 0.11 0.14 0.13 0.09 0.14 0.16 0.12 0.20 0.10 0.18 0.23 0.23 0.22 0.21 0.21 0.23NT AACACC 0.27 0.41 0.24 0.34 0.46 0.25 0.10 0.18 0.11 0.13 0.23 0.07 0.12 0.23 0.12 0.28 0.08 0.21 0.22 0.30 0.20 0.27 0.20NT AACACG 0.10 0.10 0.13 0.07 0.10 0.09 0.05 0.03 0.07 0.04 0.04 0.05 0.06 0.05 0.05 0.03 0.04 0.06 0.06 0.07 0.05 0.04 0.06NT AACACT 0.07 0.10 0.06 0.13 0.09 0.09 0.15 0.26 0.15 0.18 0.27 0.13 0.18 0.27 0.18 0.36 0.17 0.17 0.19 0.15 0.19 0.17 0.17NT AATACA 0.06 0.04 0.04 0.03 0.04 0.06 0.18 0.12 0.19 0.17 0.10 0.20 0.12 0.08 0.10 0.04 0.15 0.11 0.10 0.08 0.15 0.12 0.12NT AATACC 0.25 0.20 0.30 0.22 0.19 0.25 0.12 0.11 0.11 0.11 0.10 0.12 0.13 0.12 0.13 0.07 0.15 0.09 0.09 0.09 0.10 0.09 0.09NT AATACG 0.12 0.06 0.14 0.09 0.07 0.14 0.08 0.04 0.07 0.05 0.03 0.09 0.06 0.04 0.06 0.02 0.06 0.02 0.03 0.02 0.02 0.03 0.01NT AATACT 0.08 0.06 0.06 0.08 0.04 0.09 0.18 0.15 0.15 0.18 0.13 0.19 0.16 0.10 0.17 0.10 0.17 0.10 0.08 0.07 0.09 0.07 0.11NV AACGTA 0.07 0.13 0.07 0.12 0.14 0.07 0.07 0.05 0.09 0.05 0.06 0.07 0.06 0.05 0.06 0.03 0.07 0.02 0.02 0.02 0.02 0.02 0.02NV AACGTC 0.19 0.21 0.24 0.17 0.18 0.20 0.10 0.13 0.10 0.10 0.14 0.07 0.09 0.19 0.09 0.21 0.07 0.06 0.06 0.07 0.04 0.07 0.05NV AACGTG 0.19 0.21 0.22 0.17 0.22 0.23 0.06 0.04 0.08 0.05 0.03 0.06 0.07 0.06 0.08 0.06 0.06 0.11 0.10 0.11 0.09 0.12 0.09NV AACGTT 0.16 0.23 0.14 0.22 0.27 0.14 0.16 0.26 0.12 0.20 0.28 0.14 0.16 0.23 0.16 0.28 0.14 0.03 0.05 0.03 0.04 0.05 0.03NV AATGTA 0.04 0.02 0.04 0.04 0.03 0.05 0.13 0.05 0.15 0.09 0.05 0.16 0.09 0.06 0.09 0.05 0.10 0.11 0.11 0.08 0.11 0.09 0.13NV AATGTC 0.12 0.07 0.12 0.10 0.07 0.11 0.13 0.15 0.13 0.14 0.14 0.11 0.15 0.13 0.17 0.11 0.15 0.20 0.20 0.24 0.18 0.22 0.20NV AATGTG 0.12 0.08 0.11 0.12 0.07 0.12 0.10 0.06 0.10 0.09 0.06 0.13 0.13 0.09 0.13 0.07 0.16 0.31 0.29 0.32 0.33 0.27 0.30NV AATGTT 0.10 0.06 0.07 0.06 0.04 0.09 0.25 0.25 0.23 0.28 0.24 0.26 0.25 0.20 0.22 0.19 0.25 0.16 0.16 0.13 0.19 0.17 0.18NW AACTGG 0.96 0.94 0.98 0.95 0.97 0.92 0.46 0.68 0.47 0.55 0.70 0.44 0.50 0.74 0.48 0.78 0.36 0.78 0.80 0.85 0.70 0.76 0.74NW AATTGG 0.04 0.06 0.02 0.04 0.03 0.08 0.54 0.32 0.53 0.45 0.30 0.56 0.50 0.26 0.52 0.22 0.64 0.22 0.20 0.15 0.30 0.24 0.26NY AACTAC 0.31 0.55 0.31 0.40 0.52 0.30 0.20 0.35 0.21 0.28 0.41 0.18 0.28 0.44 0.24 0.60 0.23 0.36 0.38 0.44 0.28 0.38 0.34NY AACTAT 0.29 0.22 0.36 0.34 0.30 0.28 0.24 0.24 0.25 0.25 0.25 0.23 0.27 0.23 0.29 0.17 0.28 0.27 0.29 0.23 0.31 0.28 0.27NY AATTAC 0.20 0.14 0.17 0.17 0.10 0.23 0.23 0.20 0.26 0.21 0.20 0.22 0.20 0.17 0.19 0.12 0.18 0.19 0.17 0.18 0.20 0.16 0.19NY AATTAT 0.20 0.09 0.16 0.09 0.07 0.20 0.32 0.21 0.29 0.27 0.14 0.37 0.25 0.16 0.27 0.11 0.31 0.18 0.16 0.15 0.21 0.18 0.21P* CCATAA 0.12 0.00 0.20 0.00 0.00 0.00 0.18 0.00 0.31 0.20 1.00 0.00 0.19 0.40 0.15 0.14 0.15 0.04 0.05 0.09 0.00 0.00 0.04P* CCATAG 0.00 0.00 0.00 0.00 0.00 0.00 0.07 0.33 0.08 0.30 0.00 0.00 0.12 0.00 0.10 0.29 0.00 0.08 0.13 0.06 0.00 0.07 0.11P* CCATGA 0.16 0.00 0.30 0.00 0.00 0.29 0.18 0.67 0.15 0.30 0.00 0.11 0.06 0.00 0.05 0.14 0.00 0.11 0.07 0.16 0.12 0.07 0.07

Continued on next page

Page 164: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 151

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

P* CCCTAA 0.04 0.50 0.00 0.00 0.00 0.00 0.04 0.00 0.00 0.00 0.00 0.11 0.09 0.00 0.10 0.00 0.08 0.09 0.07 0.06 0.12 0.00 0.04P* CCCTAG 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.03 0.00 0.05 0.00 0.00 0.09 0.07 0.08 0.12 0.14 0.11P* CCCTGA 0.15 0.00 0.10 0.17 0.00 0.14 0.06 0.00 0.00 0.00 0.00 0.22 0.05 0.00 0.15 0.00 0.00 0.24 0.20 0.18 0.12 0.29 0.22P* CCGTAA 0.27 0.00 0.00 0.83 0.00 0.14 0.01 0.00 0.00 0.00 0.00 0.00 0.03 0.00 0.00 0.00 0.15 0.01 0.00 0.04 0.06 0.00 0.00P* CCGTAG 0.04 0.50 0.10 0.00 0.00 0.00 0.01 0.00 0.00 0.00 0.00 0.11 0.02 0.00 0.05 0.00 0.00 0.02 0.03 0.01 0.06 0.00 0.00P* CCGTGA 0.05 0.00 0.00 0.00 0.00 0.14 0.09 0.00 0.08 0.00 0.00 0.11 0.05 0.00 0.05 0.00 0.15 0.06 0.03 0.06 0.00 0.00 0.04P* CCTTAA 0.14 0.00 0.30 0.00 0.00 0.29 0.14 0.00 0.15 0.00 0.00 0.11 0.12 0.20 0.10 0.29 0.08 0.08 0.07 0.06 0.18 0.21 0.18P* CCTTAG 0.01 0.00 0.00 0.00 0.00 0.00 0.08 0.00 0.00 0.10 0.00 0.00 0.13 0.40 0.00 0.14 0.15 0.07 0.08 0.08 0.12 0.00 0.11P* CCTTGA 0.02 0.00 0.00 0.00 0.00 0.00 0.15 0.00 0.23 0.10 0.00 0.22 0.13 0.00 0.20 0.00 0.23 0.12 0.20 0.11 0.12 0.21 0.07PA CCAGCA 0.04 0.05 0.03 0.05 0.05 0.05 0.12 0.10 0.13 0.12 0.09 0.11 0.13 0.08 0.12 0.07 0.16 0.12 0.12 0.11 0.14 0.10 0.13PA CCAGCC 0.04 0.03 0.03 0.04 0.03 0.05 0.06 0.11 0.05 0.10 0.12 0.04 0.07 0.13 0.05 0.14 0.07 0.15 0.12 0.16 0.13 0.14 0.14PA CCAGCG 0.05 0.04 0.05 0.06 0.06 0.05 0.04 0.02 0.04 0.02 0.01 0.06 0.03 0.01 0.03 0.00 0.04 0.02 0.03 0.02 0.02 0.02 0.02PA CCAGCT 0.03 0.04 0.01 0.04 0.04 0.03 0.13 0.31 0.11 0.20 0.34 0.09 0.17 0.26 0.18 0.30 0.15 0.13 0.13 0.12 0.13 0.13 0.13PA CCCGCA 0.04 0.03 0.05 0.02 0.03 0.03 0.04 0.02 0.03 0.02 0.02 0.04 0.03 0.03 0.02 0.01 0.03 0.02 0.01 0.02 0.01 0.02 0.01PA CCCGCC 0.06 0.03 0.11 0.02 0.02 0.07 0.03 0.02 0.04 0.02 0.02 0.03 0.02 0.02 0.02 0.01 0.02 0.03 0.03 0.04 0.03 0.03 0.03PA CCCGCG 0.04 0.01 0.04 0.02 0.01 0.04 0.01 0.00 0.01 0.01 0.00 0.02 0.01 0.01 0.00 0.00 0.01 0.01 0.01 0.01 0.02 0.02 0.01PA CCCGCT 0.03 0.02 0.03 0.01 0.02 0.04 0.05 0.06 0.06 0.06 0.06 0.06 0.04 0.04 0.04 0.03 0.04 0.02 0.02 0.02 0.02 0.02 0.02PA CCGGCA 0.15 0.22 0.14 0.16 0.20 0.12 0.04 0.01 0.04 0.03 0.01 0.05 0.03 0.02 0.05 0.01 0.04 0.02 0.02 0.02 0.02 0.01 0.01PA CCGGCC 0.04 0.05 0.04 0.02 0.05 0.03 0.02 0.01 0.03 0.01 0.01 0.02 0.02 0.01 0.02 0.01 0.02 0.03 0.03 0.04 0.04 0.03 0.03PA CCGGCG 0.17 0.15 0.18 0.15 0.16 0.18 0.01 0.01 0.01 0.01 0.00 0.02 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.01PA CCGGCT 0.06 0.12 0.04 0.15 0.13 0.06 0.04 0.03 0.03 0.04 0.03 0.06 0.03 0.03 0.04 0.02 0.04 0.02 0.03 0.02 0.01 0.02 0.02PA CCTGCA 0.05 0.04 0.04 0.07 0.03 0.06 0.12 0.06 0.10 0.09 0.06 0.13 0.11 0.08 0.14 0.06 0.13 0.11 0.11 0.11 0.11 0.09 0.12PA CCTGCC 0.08 0.04 0.07 0.04 0.03 0.10 0.08 0.08 0.08 0.09 0.10 0.06 0.09 0.10 0.08 0.11 0.06 0.15 0.15 0.16 0.14 0.17 0.15PA CCTGCG 0.09 0.08 0.07 0.09 0.09 0.08 0.04 0.03 0.03 0.03 0.02 0.06 0.04 0.02 0.04 0.01 0.04 0.03 0.03 0.02 0.02 0.03 0.02PA CCTGCT 0.05 0.05 0.04 0.06 0.06 0.03 0.16 0.15 0.19 0.17 0.13 0.16 0.16 0.18 0.15 0.20 0.15 0.14 0.15 0.12 0.15 0.14 0.16PC CCATGC 0.09 0.23 0.07 0.29 0.20 0.17 0.19 0.13 0.22 0.15 0.12 0.17 0.14 0.13 0.11 0.04 0.14 0.10 0.11 0.09 0.11 0.10 0.08PC CCATGT 0.05 0.04 0.05 0.07 0.04 0.04 0.23 0.50 0.12 0.40 0.52 0.18 0.24 0.38 0.21 0.39 0.21 0.10 0.12 0.12 0.10 0.11 0.14PC CCCTGC 0.16 0.04 0.20 0.07 0.08 0.15 0.06 0.03 0.03 0.07 0.08 0.05 0.07 0.03 0.08 0.02 0.07 0.26 0.27 0.30 0.25 0.31 0.23PC CCCTGT 0.12 0.00 0.16 0.00 0.00 0.08 0.10 0.03 0.16 0.05 0.04 0.11 0.11 0.05 0.15 0.11 0.12 0.20 0.18 0.23 0.17 0.13 0.20PC CCGTGC 0.22 0.39 0.21 0.21 0.36 0.21 0.04 0.01 0.06 0.01 0.00 0.04 0.03 0.02 0.04 0.02 0.05 0.04 0.04 0.03 0.04 0.06 0.03PC CCGTGT 0.11 0.12 0.05 0.14 0.12 0.08 0.06 0.03 0.03 0.02 0.00 0.07 0.06 0.00 0.05 0.04 0.06 0.04 0.04 0.04 0.06 0.07 0.05PC CCTTGC 0.14 0.12 0.18 0.14 0.12 0.12 0.11 0.06 0.16 0.10 0.08 0.16 0.16 0.15 0.14 0.18 0.18 0.12 0.10 0.10 0.11 0.10 0.12PC CCTTGT 0.11 0.08 0.07 0.07 0.08 0.15 0.20 0.20 0.21 0.20 0.17 0.23 0.19 0.25 0.22 0.18 0.18 0.13 0.13 0.10 0.15 0.12 0.15PD CCAGAC 0.07 0.11 0.05 0.09 0.11 0.07 0.12 0.17 0.15 0.13 0.20 0.12 0.14 0.20 0.14 0.19 0.13 0.20 0.16 0.22 0.20 0.15 0.20PD CCAGAT 0.08 0.08 0.05 0.07 0.06 0.07 0.26 0.34 0.22 0.29 0.37 0.23 0.28 0.24 0.28 0.29 0.28 0.22 0.18 0.19 0.24 0.21 0.24PD CCCGAC 0.05 0.02 0.07 0.02 0.01 0.04 0.04 0.03 0.05 0.04 0.04 0.04 0.04 0.02 0.03 0.04 0.04 0.05 0.05 0.06 0.06 0.06 0.04PD CCCGAT 0.11 0.04 0.16 0.08 0.03 0.12 0.08 0.06 0.07 0.08 0.04 0.10 0.09 0.08 0.09 0.07 0.09 0.04 0.05 0.04 0.03 0.05 0.03PD CCGGAC 0.17 0.25 0.15 0.28 0.23 0.17 0.05 0.04 0.05 0.04 0.04 0.05 0.03 0.03 0.03 0.02 0.03 0.04 0.04 0.07 0.03 0.04 0.03PD CCGGAT 0.30 0.34 0.30 0.30 0.39 0.33 0.08 0.06 0.09 0.08 0.03 0.09 0.06 0.04 0.08 0.01 0.07 0.04 0.05 0.04 0.05 0.05 0.04PD CCTGAC 0.10 0.09 0.14 0.07 0.06 0.09 0.12 0.10 0.17 0.11 0.09 0.09 0.12 0.17 0.12 0.20 0.11 0.20 0.23 0.22 0.18 0.23 0.20PD CCTGAT 0.12 0.07 0.08 0.07 0.09 0.10 0.25 0.21 0.20 0.24 0.18 0.29 0.23 0.22 0.24 0.18 0.25 0.20 0.23 0.16 0.21 0.22 0.22PE CCAGAA 0.15 0.13 0.15 0.20 0.18 0.13 0.29 0.47 0.30 0.38 0.50 0.27 0.25 0.23 0.26 0.25 0.26 0.19 0.22 0.18 0.20 0.20 0.22PE CCAGAG 0.06 0.05 0.06 0.06 0.04 0.07 0.13 0.08 0.12 0.10 0.10 0.12 0.18 0.24 0.20 0.26 0.16 0.23 0.20 0.25 0.20 0.23 0.21PE CCCGAA 0.04 0.01 0.06 0.03 0.02 0.05 0.08 0.06 0.07 0.07 0.05 0.07 0.08 0.07 0.05 0.06 0.08 0.03 0.03 0.03 0.02 0.03 0.03PE CCCGAG 0.02 0.01 0.03 0.01 0.00 0.02 0.03 0.02 0.03 0.02 0.01 0.04 0.05 0.05 0.05 0.04 0.06 0.07 0.07 0.08 0.08 0.07 0.06PE CCGGAA 0.42 0.51 0.41 0.53 0.51 0.38 0.09 0.05 0.11 0.07 0.04 0.09 0.06 0.04 0.08 0.03 0.06 0.03 0.03 0.03 0.04 0.02 0.03PE CCGGAG 0.13 0.09 0.15 0.08 0.09 0.14 0.04 0.02 0.06 0.02 0.02 0.06 0.04 0.03 0.05 0.01 0.04 0.06 0.05 0.06 0.05 0.05 0.04PE CCTGAA 0.13 0.15 0.11 0.06 0.11 0.16 0.23 0.23 0.21 0.25 0.24 0.25 0.23 0.20 0.21 0.20 0.23 0.16 0.17 0.15 0.18 0.16 0.18PE CCTGAG 0.04 0.05 0.03 0.04 0.05 0.05 0.10 0.07 0.11 0.07 0.04 0.10 0.12 0.14 0.11 0.14 0.11 0.23 0.23 0.23 0.24 0.24 0.24PF CCATTC 0.07 0.08 0.07 0.07 0.05 0.07 0.15 0.29 0.17 0.21 0.37 0.12 0.15 0.25 0.15 0.34 0.13 0.10 0.11 0.11 0.09 0.10 0.11PF CCATTT 0.09 0.07 0.07 0.05 0.02 0.07 0.28 0.30 0.22 0.30 0.32 0.29 0.23 0.19 0.24 0.17 0.25 0.14 0.11 0.10 0.18 0.14 0.15PF CCCTTC 0.05 0.02 0.05 0.01 0.04 0.06 0.07 0.07 0.06 0.07 0.04 0.09 0.07 0.08 0.09 0.07 0.06 0.24 0.27 0.32 0.21 0.28 0.21PF CCCTTT 0.07 0.01 0.09 0.04 0.01 0.09 0.11 0.05 0.14 0.08 0.04 0.13 0.10 0.05 0.11 0.03 0.12 0.17 0.18 0.17 0.15 0.16 0.16PF CCGTTC 0.25 0.43 0.24 0.52 0.54 0.24 0.05 0.03 0.03 0.05 0.01 0.06 0.06 0.06 0.05 0.03 0.07 0.03 0.03 0.03 0.03 0.03 0.04PF CCGTTT 0.30 0.26 0.33 0.18 0.26 0.30 0.07 0.02 0.08 0.06 0.01 0.05 0.09 0.05 0.10 0.03 0.09 0.03 0.03 0.02 0.04 0.03 0.04PF CCTTTC 0.07 0.07 0.06 0.05 0.04 0.05 0.12 0.14 0.17 0.13 0.18 0.13 0.14 0.20 0.12 0.24 0.12 0.16 0.14 0.17 0.16 0.15 0.16PF CCTTTT 0.10 0.06 0.09 0.07 0.05 0.11 0.14 0.10 0.14 0.11 0.04 0.13 0.15 0.12 0.15 0.10 0.15 0.13 0.13 0.10 0.15 0.12 0.14PG CCAGGA 0.04 0.02 0.03 0.01 0.00 0.04 0.08 0.03 0.08 0.06 0.03 0.09 0.16 0.13 0.18 0.12 0.17 0.11 0.10 0.10 0.10 0.10 0.13PG CCAGGC 0.08 0.07 0.07 0.11 0.09 0.06 0.08 0.09 0.09 0.09 0.08 0.08 0.06 0.05 0.07 0.05 0.06 0.11 0.10 0.11 0.10 0.10 0.10PG CCAGGG 0.03 0.02 0.03 0.04 0.01 0.03 0.04 0.02 0.06 0.03 0.01 0.05 0.05 0.01 0.04 0.01 0.05 0.10 0.07 0.11 0.08 0.06 0.09PG CCAGGT 0.06 0.08 0.05 0.08 0.07 0.05 0.20 0.43 0.15 0.29 0.49 0.15 0.16 0.34 0.14 0.41 0.11 0.07 0.07 0.05 0.07 0.06 0.07PG CCCGGA 0.02 0.01 0.04 0.02 0.01 0.04 0.03 0.01 0.05 0.02 0.01 0.04 0.04 0.01 0.03 0.02 0.05 0.02 0.03 0.02 0.02 0.03 0.01PG CCCGGC 0.09 0.05 0.15 0.04 0.05 0.11 0.03 0.02 0.03 0.02 0.02 0.03 0.01 0.01 0.02 0.01 0.02 0.03 0.03 0.03 0.03 0.03 0.02PG CCCGGG 0.01 0.02 0.01 0.01 0.01 0.02 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.01 0.03 0.04 0.03 0.03 0.04 0.02PG CCCGGT 0.06 0.03 0.10 0.03 0.02 0.06 0.06 0.06 0.04 0.05 0.08 0.06 0.04 0.03 0.05 0.03 0.03 0.01 0.01 0.01 0.00 0.01 0.01PG CCGGGA 0.06 0.04 0.05 0.04 0.07 0.08 0.04 0.02 0.04 0.02 0.02 0.06 0.03 0.03 0.05 0.01 0.05 0.02 0.02 0.02 0.01 0.03 0.02PG CCGGGC 0.14 0.22 0.16 0.23 0.20 0.14 0.03 0.02 0.04 0.03 0.01 0.04 0.02 0.02 0.02 0.02 0.01 0.03 0.03 0.03 0.02 0.02 0.02PG CCGGGG 0.08 0.06 0.08 0.08 0.06 0.06 0.02 0.01 0.01 0.01 0.01 0.03 0.01 0.01 0.01 0.01 0.02 0.02 0.02 0.03 0.02 0.03 0.02PG CCGGGT 0.12 0.20 0.07 0.14 0.19 0.10 0.03 0.01 0.04 0.03 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.01 0.02 0.01 0.01 0.01 0.02PG CCTGGA 0.02 0.01 0.03 0.00 0.01 0.02 0.08 0.03 0.08 0.05 0.01 0.09 0.13 0.11 0.13 0.06 0.14 0.13 0.13 0.12 0.13 0.14 0.14PG CCTGGC 0.12 0.09 0.08 0.14 0.14 0.08 0.07 0.05 0.09 0.06 0.03 0.06 0.06 0.05 0.05 0.04 0.05 0.12 0.13 0.14 0.13 0.14 0.12PG CCTGGG 0.02 0.01 0.03 0.01 0.01 0.04 0.05 0.02 0.07 0.03 0.01 0.05 0.04 0.03 0.04 0.01 0.05 0.12 0.10 0.12 0.14 0.10 0.12PG CCTGGT 0.06 0.08 0.04 0.03 0.07 0.05 0.16 0.18 0.14 0.20 0.17 0.15 0.14 0.14 0.13 0.18 0.15 0.08 0.09 0.07 0.09 0.10 0.08PH CCACAC 0.09 0.06 0.11 0.13 0.04 0.13 0.12 0.18 0.12 0.12 0.19 0.11 0.10 0.15 0.11 0.22 0.10 0.16 0.17 0.16 0.18 0.14 0.17PH CCACAT 0.10 0.07 0.08 0.06 0.09 0.16 0.23 0.21 0.26 0.22 0.20 0.23 0.18 0.13 0.18 0.09 0.20 0.13 0.12 0.09 0.13 0.10 0.15PH CCCCAC 0.03 0.02 0.04 0.02 0.00 0.05 0.04 0.04 0.04 0.04 0.01 0.03 0.07 0.05 0.09 0.05 0.08 0.18 0.18 0.23 0.15 0.18 0.18PH CCCCAT 0.05 0.04 0.08 0.00 0.04 0.02 0.10 0.05 0.09 0.08 0.03 0.12 0.12 0.07 0.12 0.05 0.14 0.14 0.12 0.16 0.14 0.16 0.13PH CCGCAC 0.25 0.46 0.23 0.43 0.46 0.18 0.05 0.03 0.07 0.04 0.01 0.05 0.03 0.01 0.03 0.01 0.04 0.04 0.03 0.05 0.02 0.03 0.03PH CCGCAT 0.35 0.27 0.34 0.24 0.33 0.31 0.09 0.03 0.12 0.06 0.02 0.10 0.06 0.01 0.09 0.01 0.04 0.02 0.02 0.02 0.03 0.01 0.02PH CCTCAC 0.04 0.04 0.03 0.07 0.04 0.05 0.13 0.20 0.13 0.19 0.22 0.11 0.14 0.26 0.10 0.38 0.13 0.17 0.17 0.17 0.17 0.19 0.14PH CCTCAT 0.09 0.03 0.08 0.06 0.01 0.11 0.24 0.26 0.17 0.27 0.31 0.25 0.29 0.33 0.29 0.20 0.26 0.16 0.20 0.12 0.17 0.19 0.17PI CCAATA 0.02 0.01 0.02 0.00 0.00 0.03 0.12 0.06 0.12 0.08 0.05 0.14 0.10 0.06 0.12 0.03 0.14 0.05 0.04 0.04 0.05 0.03 0.07PI CCAATC 0.08 0.12 0.08 0.10 0.09 0.07 0.09 0.20 0.06 0.15 0.20 0.07 0.10 0.14 0.10 0.17 0.08 0.07 0.07 0.07 0.06 0.07 0.07PI CCAATT 0.09 0.03 0.07 0.10 0.06 0.07 0.18 0.32 0.14 0.26 0.34 0.17 0.19 0.31 0.15 0.35 0.17 0.09 0.11 0.07 0.10 0.12 0.12PI CCCATA 0.01 0.01 0.01 0.01 0.01 0.03 0.06 0.01 0.07 0.03 0.01 0.10 0.06 0.03 0.08 0.02 0.08 0.07 0.04 0.06 0.06 0.03 0.07PI CCCATC 0.08 0.06 0.11 0.04 0.04 0.07 0.06 0.05 0.09 0.05 0.05 0.04 0.06 0.05 0.05 0.05 0.06 0.28 0.28 0.36 0.23 0.29 0.24PI CCCATT 0.09 0.04 0.07 0.06 0.04 0.11 0.09 0.06 0.10 0.07 0.06 0.11 0.10 0.08 0.10 0.05 0.10 0.17 0.19 0.18 0.21 0.20 0.16PI CCGATA 0.04 0.01 0.06 0.02 0.01 0.07 0.04 0.01 0.05 0.02 0.01 0.05 0.03 0.02 0.04 0.00 0.04 0.01 0.01 0.01 0.01 0.02 0.01PI CCGATC 0.17 0.32 0.13 0.30 0.29 0.11 0.03 0.01 0.03 0.02 0.02 0.02 0.03 0.03 0.03 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02PI CCGATT 0.29 0.31 0.35 0.30 0.36 0.27 0.05 0.03 0.06 0.04 0.02 0.04 0.05 0.03 0.05 0.01 0.05 0.02 0.02 0.02 0.03 0.01 0.01PI CCTATA 0.01 0.00 0.01 0.00 0.01 0.02 0.07 0.02 0.08 0.05 0.02 0.07 0.07 0.04 0.07 0.03 0.08 0.04 0.03 0.03 0.06 0.03 0.05PI CCTATC 0.07 0.05 0.06 0.01 0.06 0.07 0.07 0.10 0.10 0.09 0.10 0.07 0.08 0.11 0.09 0.12 0.06 0.09 0.09 0.08 0.08 0.09 0.08PI CCTATT 0.06 0.05 0.04 0.04 0.05 0.08 0.12 0.13 0.11 0.13 0.12 0.12 0.13 0.11 0.12 0.15 0.13 0.09 0.09 0.06 0.10 0.10 0.10PK CCAAAA 0.18 0.13 0.18 0.17 0.08 0.23 0.23 0.24 0.20 0.24 0.24 0.25 0.18 0.10 0.20 0.13 0.20 0.11 0.09 0.07 0.12 0.09 0.12PK CCAAAG 0.04 0.04 0.04 0.02 0.01 0.04 0.21 0.46 0.15 0.31 0.50 0.15 0.20 0.37 0.19 0.40 0.17 0.17 0.14 0.15 0.18 0.14 0.18PK CCCAAA 0.08 0.05 0.08 0.03 0.03 0.09 0.12 0.04 0.18 0.09 0.04 0.12 0.17 0.11 0.17 0.07 0.19 0.19 0.19 0.18 0.19 0.19 0.20PK CCCAAG 0.01 0.01 0.01 0.00 0.00 0.02 0.09 0.06 0.10 0.08 0.06 0.11 0.14 0.13 0.15 0.11 0.13 0.29 0.29 0.36 0.27 0.32 0.26PK CCGAAA 0.46 0.54 0.50 0.60 0.66 0.39 0.07 0.02 0.06 0.05 0.00 0.08 0.06 0.03 0.06 0.01 0.07 0.02 0.03 0.02 0.02 0.03 0.02PK CCGAAG 0.13 0.15 0.15 0.11 0.17 0.11 0.05 0.01 0.06 0.04 0.01 0.06 0.04 0.04 0.03 0.01 0.06 0.04 0.04 0.04 0.04 0.04 0.04PK CCTAAA 0.07 0.05 0.04 0.05 0.03 0.10 0.14 0.08 0.17 0.12 0.08 0.15 0.11 0.09 0.10 0.08 0.12 0.09 0.10 0.08 0.07 0.09 0.11PK CCTAAG 0.02 0.04 0.00 0.02 0.02 0.01 0.09 0.09 0.10 0.09 0.08 0.08 0.10 0.14 0.09 0.19 0.08 0.10 0.11 0.09 0.09 0.10 0.09PL CCACTA 0.01 0.00 0.02 0.01 0.00 0.02 0.05 0.05 0.04 0.05 0.06 0.06 0.04 0.03 0.04 0.02 0.05 0.02 0.02 0.02 0.03 0.02 0.03PL CCACTC 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.03 0.02 0.01 0.01 0.02 0.02 0.03 0.02 0.02 0.05 0.04 0.05 0.04 0.04 0.05PL CCACTG 0.08 0.08 0.10 0.07 0.07 0.07 0.04 0.03 0.04 0.03 0.03 0.05 0.04 0.04 0.05 0.03 0.05 0.10 0.08 0.10 0.10 0.08 0.10PL CCACTT 0.02 0.01 0.02 0.00 0.01 0.02 0.04 0.03 0.05 0.04 0.03 0.05 0.05 0.06 0.05 0.05 0.05 0.04 0.04 0.03 0.05 0.05 0.05PL CCATTA 0.04 0.03 0.03 0.03 0.03 0.04 0.12 0.19 0.11 0.14 0.17 0.11 0.07 0.07 0.06 0.06 0.09 0.02 0.02 0.01 0.02 0.01 0.03PL CCATTG 0.03 0.03 0.03 0.05 0.04 0.03 0.12 0.27 0.08 0.17 0.30 0.09 0.12 0.17 0.11 0.21 0.11 0.04 0.03 0.03 0.04 0.03 0.04PL CCCCTA 0.00 0.00 0.00 0.00 0.00 0.00 0.02 0.01 0.01 0.02 0.01 0.02 0.02 0.02 0.02 0.01 0.02 0.02 0.03 0.03 0.01 0.01 0.01PL CCCCTC 0.01 0.00 0.01 0.00 0.01 0.01 0.01 0.01 0.02 0.00 0.00 0.02 0.01 0.01 0.01 0.01 0.01 0.06 0.06 0.07 0.05 0.06 0.05PL CCCCTG 0.02 0.03 0.02 0.04 0.01 0.02 0.01 0.01 0.02 0.01 0.01 0.01 0.02 0.03 0.02 0.01 0.02 0.12 0.12 0.15 0.11 0.12 0.10PL CCCCTT 0.01 0.01 0.01 0.00 0.00 0.01 0.02 0.00 0.01 0.01 0.00 0.01 0.02 0.01 0.02 0.01 0.02 0.04 0.03 0.03 0.03 0.04 0.04PL CCCTTA 0.01 0.01 0.01 0.00 0.01 0.01 0.05 0.03 0.05 0.04 0.01 0.06 0.03 0.01 0.03 0.01 0.03 0.02 0.02 0.02 0.02 0.02 0.03PL CCCTTG 0.01 0.01 0.01 0.00 0.00 0.01 0.04 0.03 0.06 0.03 0.03 0.04 0.05 0.03 0.04 0.04 0.04 0.06 0.05 0.07 0.06 0.06 0.06PL CCGCTA 0.04 0.04 0.04 0.03 0.03 0.02 0.03 0.02 0.04 0.03 0.02 0.04 0.02 0.01 0.02 0.00 0.02 0.01 0.00 0.01 0.01 0.01 0.01PL CCGCTC 0.06 0.04 0.07 0.05 0.04 0.06 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.02 0.02 0.02 0.01 0.03 0.01PL CCGCTG 0.38 0.53 0.36 0.49 0.54 0.37 0.02 0.01 0.04 0.01 0.01 0.02 0.02 0.01 0.02 0.01 0.02 0.04 0.04 0.04 0.04 0.04 0.03PL CCGCTT 0.05 0.03 0.05 0.03 0.02 0.04 0.02 0.01 0.02 0.02 0.01 0.03 0.02 0.01 0.02 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01PL CCGTTA 0.07 0.03 0.07 0.07 0.02 0.08 0.05 0.02 0.05 0.03 0.02 0.05 0.03 0.02 0.03 0.00 0.03 0.00 0.00 0.00 0.00 0.00 0.00PL CCGTTG 0.08 0.08 0.07 0.05 0.07 0.05 0.03 0.02 0.03 0.03 0.02 0.04 0.05 0.03 0.05 0.03 0.05 0.01 0.01 0.01 0.01 0.01 0.01PL CCTCTA 0.00 0.00 0.00 0.00 0.00 0.01 0.04 0.04 0.04 0.04 0.05 0.04 0.04 0.04 0.04 0.04 0.04 0.03 0.03 0.03 0.02 0.03 0.04PL CCTCTC 0.01 0.00 0.01 0.01 0.00 0.02 0.02 0.01 0.02 0.01 0.01 0.02 0.03 0.02 0.03 0.03 0.03 0.06 0.05 0.05 0.05 0.07 0.06PL CCTCTG 0.03 0.03 0.03 0.04 0.03 0.04 0.03 0.02 0.05 0.03 0.01 0.03 0.05 0.07 0.05 0.07 0.05 0.12 0.11 0.11 0.12 0.12 0.11PL CCTCTT 0.01 0.01 0.01 0.01 0.00 0.01 0.04 0.03 0.04 0.04 0.01 0.03 0.06 0.07 0.07 0.07 0.07 0.05 0.06 0.04 0.05 0.06 0.06PL CCTTTA 0.02 0.01 0.02 0.03 0.04 0.03 0.09 0.06 0.07 0.08 0.08 0.09 0.08 0.05 0.08 0.06 0.08 0.03 0.03 0.02 0.03 0.02 0.03PL CCTTTG 0.01 0.01 0.01 0.00 0.01 0.03 0.09 0.10 0.08 0.10 0.09 0.10 0.11 0.15 0.10 0.20 0.09 0.06 0.07 0.05 0.07 0.06 0.07PM CCAATG 0.24 0.22 0.22 0.32 0.27 0.30 0.42 0.63 0.42 0.53 0.68 0.39 0.42 0.50 0.42 0.45 0.47 0.22 0.26 0.18 0.26 0.19 0.24PM CCCATG 0.06 0.03 0.08 0.00 0.02 0.06 0.21 0.11 0.22 0.15 0.10 0.22 0.24 0.24 0.28 0.24 0.23 0.54 0.48 0.59 0.51 0.58 0.53PM CCGATG 0.64 0.72 0.68 0.65 0.64 0.60 0.12 0.05 0.12 0.08 0.03 0.16 0.11 0.05 0.10 0.04 0.10 0.06 0.05 0.06 0.04 0.05 0.06PM CCTATG 0.05 0.03 0.02 0.04 0.07 0.04 0.25 0.21 0.24 0.24 0.19 0.23 0.23 0.22 0.20 0.28 0.20 0.18 0.22 0.18 0.20 0.19 0.17PN CCAAAC 0.13 0.15 0.11 0.12 0.13 0.15 0.17 0.31 0.17 0.22 0.38 0.14 0.17 0.22 0.15 0.30 0.11 0.14 0.14 0.12 0.16 0.11 0.15PN CCAAAT 0.10 0.04 0.07 0.06 0.07 0.13 0.26 0.32 0.27 0.30 0.31 0.25 0.18 0.16 0.16 0.14 0.20 0.17 0.15 0.13 0.16 0.14 0.19PN CCCAAC 0.08 0.03 0.11 0.04 0.01 0.10 0.07 0.07 0.07 0.07 0.06 0.08 0.13 0.13 0.14 0.09 0.11 0.27 0.29 0.34 0.24 0.34 0.24PN CCCAAT 0.09 0.07 0.15 0.04 0.07 0.09 0.11 0.04 0.17 0.09 0.04 0.13 0.16 0.10 0.19 0.05 0.20 0.19 0.21 0.21 0.19 0.20 0.19PN CCGAAC 0.27 0.49 0.19 0.45 0.45 0.20 0.05 0.02 0.04 0.03 0.01 0.06 0.04 0.04 0.04 0.01 0.05 0.03 0.01 0.03 0.04 0.02 0.02PN CCGAAT 0.19 0.11 0.21 0.17 0.14 0.16 0.07 0.02 0.06 0.05 0.02 0.09 0.06 0.04 0.07 0.02 0.07 0.03 0.02 0.02 0.04 0.02 0.03PN CCTAAC 0.09 0.08 0.11 0.08 0.10 0.10 0.10 0.11 0.10 0.10 0.12 0.09 0.11 0.20 0.11 0.28 0.08 0.09 0.08 0.09 0.09 0.08 0.09PN CCTAAT 0.06 0.03 0.05 0.05 0.03 0.08 0.16 0.12 0.13 0.14 0.07 0.16 0.16 0.11 0.13 0.10 0.18 0.09 0.10 0.07 0.10 0.08 0.09PP CCACCA 0.06 0.04 0.05 0.06 0.05 0.09 0.20 0.30 0.16 0.20 0.33 0.17 0.12 0.12 0.16 0.15 0.12 0.11 0.10 0.10 0.10 0.10 0.12PP CCACCC 0.02 0.03 0.01 0.02 0.00 0.02 0.04 0.03 0.06 0.04 0.04 0.06 0.05 0.05 0.05 0.02 0.05 0.09 0.09 0.10 0.09 0.08 0.09PP CCACCG 0.12 0.15 0.14 0.17 0.15 0.13 0.06 0.01 0.09 0.04 0.02 0.05 0.03 0.03 0.04 0.01 0.05 0.02 0.02 0.02 0.03 0.01 0.02PP CCACCT 0.03 0.03 0.03 0.02 0.05 0.04 0.13 0.16 0.09 0.14 0.17 0.11 0.10 0.12 0.10 0.14 0.09 0.11 0.11 0.11 0.11 0.12 0.12PP CCCCCA 0.01 0.02 0.01 0.02 0.01 0.00 0.04 0.04 0.04 0.05 0.04 0.05 0.06 0.06 0.05 0.03 0.05 0.09 0.08 0.10 0.09 0.08 0.09

Continued on next page

Page 165: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 152

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

PP CCCCCC 0.01 0.00 0.00 0.00 0.00 0.01 0.01 0.00 0.02 0.01 0.00 0.01 0.02 0.03 0.01 0.01 0.03 0.04 0.04 0.05 0.03 0.03 0.03PP CCCCCG 0.02 0.01 0.05 0.02 0.01 0.01 0.01 0.00 0.02 0.00 0.00 0.01 0.01 0.01 0.02 0.00 0.01 0.03 0.03 0.03 0.03 0.03 0.02PP CCCCCT 0.02 0.00 0.02 0.00 0.01 0.03 0.03 0.02 0.04 0.02 0.02 0.03 0.05 0.06 0.03 0.06 0.04 0.07 0.07 0.07 0.08 0.08 0.07PP CCGCCA 0.19 0.22 0.14 0.24 0.20 0.19 0.06 0.03 0.07 0.04 0.01 0.07 0.04 0.04 0.04 0.00 0.04 0.02 0.03 0.02 0.02 0.03 0.02PP CCGCCC 0.06 0.04 0.09 0.03 0.02 0.05 0.02 0.00 0.02 0.01 0.00 0.02 0.01 0.02 0.02 0.00 0.01 0.03 0.02 0.03 0.03 0.03 0.02PP CCGCCG 0.29 0.34 0.31 0.30 0.33 0.24 0.01 0.00 0.02 0.01 0.00 0.02 0.01 0.01 0.02 0.00 0.01 0.01 0.02 0.01 0.01 0.02 0.01PP CCGCCT 0.08 0.02 0.06 0.05 0.09 0.07 0.04 0.02 0.04 0.03 0.01 0.05 0.03 0.02 0.03 0.01 0.03 0.02 0.02 0.02 0.02 0.03 0.02PP CCTCCA 0.02 0.02 0.02 0.00 0.01 0.04 0.15 0.19 0.16 0.18 0.21 0.13 0.17 0.16 0.15 0.26 0.18 0.12 0.12 0.12 0.14 0.13 0.13PP CCTCCC 0.02 0.00 0.01 0.00 0.00 0.05 0.05 0.05 0.03 0.05 0.03 0.06 0.07 0.05 0.09 0.05 0.07 0.08 0.09 0.09 0.07 0.07 0.08PP CCTCCG 0.04 0.06 0.04 0.06 0.06 0.03 0.04 0.03 0.06 0.03 0.02 0.04 0.05 0.02 0.05 0.01 0.05 0.02 0.02 0.02 0.02 0.03 0.02PP CCTCCT 0.02 0.02 0.02 0.02 0.01 0.01 0.10 0.11 0.09 0.14 0.12 0.10 0.17 0.23 0.13 0.22 0.15 0.12 0.13 0.11 0.13 0.12 0.12PQ CCACAA 0.12 0.08 0.12 0.09 0.10 0.16 0.23 0.34 0.18 0.28 0.35 0.23 0.17 0.17 0.17 0.18 0.17 0.08 0.09 0.07 0.07 0.06 0.08PQ CCACAG 0.12 0.12 0.16 0.13 0.12 0.12 0.14 0.11 0.17 0.13 0.13 0.12 0.13 0.13 0.14 0.14 0.11 0.22 0.21 0.21 0.21 0.21 0.23PQ CCCCAA 0.01 0.00 0.01 0.00 0.01 0.02 0.07 0.05 0.10 0.05 0.04 0.08 0.12 0.10 0.14 0.09 0.12 0.08 0.09 0.09 0.07 0.08 0.07PQ CCCCAG 0.03 0.03 0.03 0.05 0.02 0.02 0.03 0.03 0.04 0.03 0.02 0.04 0.08 0.08 0.10 0.02 0.09 0.25 0.23 0.29 0.27 0.27 0.23PQ CCGCAA 0.28 0.21 0.28 0.26 0.22 0.24 0.09 0.04 0.12 0.08 0.02 0.12 0.07 0.03 0.06 0.01 0.08 0.01 0.02 0.01 0.01 0.02 0.01PQ CCGCAG 0.39 0.50 0.35 0.43 0.49 0.35 0.07 0.01 0.07 0.04 0.01 0.07 0.04 0.03 0.03 0.01 0.04 0.05 0.05 0.06 0.05 0.05 0.04PQ CCTCAA 0.02 0.02 0.01 0.01 0.01 0.04 0.26 0.34 0.22 0.29 0.35 0.23 0.27 0.30 0.22 0.38 0.27 0.08 0.08 0.07 0.07 0.05 0.09PQ CCTCAG 0.04 0.04 0.04 0.01 0.03 0.04 0.10 0.08 0.11 0.10 0.06 0.12 0.14 0.15 0.14 0.16 0.11 0.23 0.24 0.21 0.26 0.26 0.24PR CCAAGA 0.01 0.01 0.00 0.01 0.00 0.01 0.27 0.57 0.23 0.39 0.62 0.24 0.24 0.42 0.23 0.47 0.23 0.07 0.08 0.06 0.08 0.07 0.08PR CCAAGG 0.00 0.00 0.00 0.00 0.00 0.00 0.10 0.08 0.10 0.08 0.05 0.12 0.08 0.06 0.08 0.06 0.10 0.07 0.07 0.06 0.06 0.04 0.08PR CCACGA 0.02 0.01 0.04 0.00 0.01 0.04 0.03 0.00 0.03 0.02 0.00 0.03 0.03 0.01 0.03 0.02 0.04 0.03 0.04 0.02 0.04 0.06 0.03PR CCACGC 0.10 0.09 0.09 0.11 0.05 0.12 0.02 0.01 0.04 0.03 0.02 0.02 0.02 0.01 0.03 0.01 0.02 0.03 0.03 0.04 0.03 0.04 0.02PR CCACGG 0.03 0.01 0.04 0.02 0.01 0.04 0.02 0.00 0.02 0.01 0.00 0.01 0.02 0.00 0.00 0.00 0.01 0.04 0.05 0.05 0.05 0.04 0.05PR CCACGT 0.06 0.06 0.09 0.09 0.06 0.04 0.05 0.08 0.03 0.08 0.12 0.05 0.03 0.04 0.02 0.07 0.02 0.02 0.03 0.02 0.03 0.03 0.02PR CCCAGA 0.01 0.01 0.00 0.01 0.01 0.02 0.07 0.02 0.10 0.06 0.01 0.07 0.10 0.07 0.11 0.06 0.11 0.09 0.07 0.09 0.08 0.05 0.08PR CCCAGG 0.00 0.00 0.00 0.00 0.00 0.00 0.03 0.00 0.04 0.01 0.01 0.03 0.04 0.03 0.06 0.02 0.06 0.12 0.10 0.13 0.11 0.08 0.10PR CCCCGA 0.01 0.00 0.01 0.00 0.00 0.02 0.01 0.00 0.01 0.00 0.00 0.00 0.03 0.01 0.02 0.01 0.03 0.05 0.05 0.05 0.05 0.06 0.05PR CCCCGC 0.04 0.01 0.03 0.02 0.01 0.04 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.00 0.00 0.00 0.01 0.05 0.05 0.05 0.03 0.05 0.04PR CCCCGG 0.01 0.01 0.02 0.00 0.00 0.01 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.08 0.06 0.08 0.08 0.06 0.07PR CCCCGT 0.03 0.01 0.04 0.00 0.02 0.06 0.02 0.02 0.01 0.03 0.01 0.02 0.03 0.02 0.03 0.03 0.02 0.03 0.03 0.03 0.03 0.04 0.03PR CCGAGA 0.01 0.00 0.00 0.00 0.00 0.02 0.05 0.01 0.05 0.03 0.01 0.05 0.04 0.01 0.05 0.01 0.04 0.01 0.01 0.01 0.02 0.02 0.01PR CCGAGG 0.00 0.00 0.00 0.00 0.00 0.01 0.02 0.00 0.01 0.01 0.00 0.03 0.02 0.01 0.03 0.01 0.01 0.02 0.02 0.02 0.03 0.01 0.02PR CCGCGA 0.04 0.02 0.04 0.00 0.00 0.04 0.01 0.00 0.01 0.00 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.01 0.01 0.01 0.00 0.01 0.00PR CCGCGC 0.26 0.28 0.31 0.25 0.27 0.25 0.01 0.00 0.01 0.00 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.02 0.01 0.02 0.01 0.03 0.01PR CCGCGG 0.02 0.00 0.05 0.00 0.00 0.04 0.01 0.00 0.00 0.00 0.00 0.01 0.00 0.00 0.01 0.00 0.00 0.01 0.01 0.02 0.02 0.02 0.01PR CCGCGT 0.25 0.40 0.17 0.40 0.47 0.17 0.01 0.01 0.01 0.01 0.01 0.02 0.01 0.01 0.01 0.00 0.01 0.00 0.01 0.01 0.01 0.00 0.00PR CCTAGA 0.00 0.00 0.00 0.00 0.00 0.00 0.08 0.06 0.09 0.09 0.06 0.07 0.10 0.07 0.10 0.10 0.11 0.04 0.03 0.03 0.03 0.03 0.04PR CCTAGG 0.00 0.00 0.00 0.00 0.00 0.00 0.04 0.02 0.04 0.03 0.01 0.05 0.04 0.03 0.05 0.02 0.03 0.03 0.02 0.03 0.02 0.02 0.03PR CCTCGA 0.01 0.00 0.00 0.00 0.00 0.01 0.04 0.00 0.03 0.01 0.00 0.04 0.03 0.03 0.02 0.00 0.04 0.06 0.06 0.04 0.05 0.06 0.06PR CCTCGC 0.04 0.05 0.05 0.06 0.05 0.04 0.02 0.02 0.03 0.03 0.01 0.02 0.02 0.02 0.01 0.01 0.02 0.03 0.04 0.04 0.03 0.04 0.03PR CCTCGG 0.01 0.01 0.00 0.00 0.01 0.01 0.01 0.00 0.02 0.00 0.00 0.01 0.02 0.01 0.02 0.00 0.03 0.07 0.07 0.07 0.07 0.06 0.09PR CCTCGT 0.04 0.04 0.02 0.02 0.05 0.03 0.06 0.09 0.06 0.08 0.06 0.04 0.07 0.13 0.07 0.11 0.04 0.03 0.04 0.01 0.04 0.06 0.03PS CCAAGC 0.04 0.08 0.00 0.12 0.07 0.04 0.04 0.04 0.04 0.04 0.03 0.04 0.04 0.05 0.05 0.04 0.04 0.04 0.04 0.05 0.05 0.03 0.05PS CCAAGT 0.02 0.02 0.02 0.02 0.00 0.01 0.07 0.10 0.07 0.09 0.09 0.07 0.06 0.06 0.05 0.07 0.06 0.04 0.05 0.04 0.04 0.06 0.06PS CCATCA 0.04 0.03 0.03 0.03 0.04 0.05 0.09 0.09 0.11 0.09 0.08 0.09 0.07 0.06 0.07 0.05 0.07 0.05 0.04 0.05 0.06 0.05 0.06PS CCATCC 0.03 0.04 0.02 0.04 0.03 0.01 0.06 0.12 0.04 0.08 0.14 0.05 0.05 0.10 0.05 0.12 0.05 0.06 0.05 0.06 0.06 0.07 0.06PS CCATCG 0.04 0.01 0.06 0.03 0.01 0.04 0.04 0.03 0.03 0.04 0.03 0.04 0.04 0.04 0.04 0.03 0.04 0.01 0.01 0.01 0.01 0.01 0.01PS CCATCT 0.02 0.03 0.01 0.02 0.02 0.03 0.11 0.21 0.11 0.15 0.26 0.08 0.08 0.17 0.07 0.19 0.06 0.06 0.06 0.05 0.07 0.06 0.07PS CCCAGC 0.07 0.03 0.05 0.03 0.04 0.06 0.02 0.00 0.04 0.01 0.00 0.02 0.02 0.01 0.02 0.00 0.02 0.12 0.11 0.15 0.10 0.12 0.10PS CCCAGT 0.03 0.01 0.02 0.01 0.01 0.04 0.03 0.01 0.04 0.02 0.01 0.03 0.04 0.02 0.04 0.00 0.05 0.07 0.09 0.08 0.07 0.09 0.07PS CCCTCA 0.02 0.00 0.02 0.02 0.01 0.02 0.03 0.02 0.04 0.03 0.01 0.03 0.04 0.03 0.06 0.01 0.05 0.06 0.05 0.05 0.06 0.06 0.05PS CCCTCC 0.03 0.01 0.03 0.03 0.02 0.03 0.03 0.02 0.04 0.03 0.01 0.03 0.03 0.03 0.03 0.03 0.03 0.07 0.06 0.07 0.06 0.06 0.06PS CCCTCG 0.02 0.01 0.03 0.00 0.00 0.01 0.02 0.00 0.01 0.01 0.01 0.02 0.02 0.01 0.02 0.01 0.01 0.02 0.02 0.03 0.01 0.01 0.01PS CCCTCT 0.02 0.01 0.03 0.02 0.01 0.03 0.06 0.04 0.06 0.05 0.04 0.07 0.04 0.03 0.05 0.01 0.04 0.06 0.06 0.06 0.06 0.06 0.06PS CCGAGC 0.07 0.09 0.07 0.11 0.13 0.06 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.02 0.01 0.01 0.02 0.01PS CCGAGT 0.03 0.02 0.04 0.02 0.02 0.01 0.01 0.00 0.02 0.00 0.01 0.02 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.01PS CCGTCA 0.08 0.04 0.08 0.04 0.05 0.08 0.02 0.00 0.03 0.01 0.00 0.03 0.03 0.01 0.04 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01PS CCGTCC 0.05 0.10 0.06 0.12 0.10 0.06 0.01 0.01 0.01 0.01 0.00 0.02 0.01 0.01 0.01 0.00 0.02 0.01 0.02 0.01 0.01 0.03 0.01PS CCGTCG 0.08 0.05 0.09 0.04 0.04 0.07 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.00 0.01 0.00 0.01 0.01 0.00PS CCGTCT 0.06 0.18 0.06 0.13 0.17 0.05 0.02 0.01 0.03 0.01 0.00 0.02 0.03 0.02 0.03 0.01 0.04 0.01 0.02 0.01 0.02 0.01 0.02PS CCTAGC 0.01 0.02 0.01 0.01 0.01 0.01 0.02 0.01 0.01 0.01 0.01 0.02 0.02 0.02 0.02 0.01 0.02 0.03 0.04 0.03 0.03 0.03 0.03PS CCTAGT 0.00 0.00 0.00 0.00 0.00 0.01 0.03 0.02 0.03 0.03 0.02 0.04 0.04 0.01 0.04 0.03 0.04 0.03 0.03 0.02 0.03 0.03 0.03PS CCTTCA 0.06 0.04 0.09 0.03 0.04 0.09 0.08 0.06 0.07 0.07 0.04 0.09 0.09 0.06 0.11 0.06 0.11 0.06 0.06 0.05 0.07 0.06 0.07PS CCTTCC 0.07 0.07 0.07 0.03 0.07 0.08 0.06 0.07 0.04 0.07 0.08 0.06 0.07 0.10 0.06 0.10 0.07 0.07 0.06 0.07 0.07 0.06 0.07PS CCTTCG 0.05 0.03 0.04 0.04 0.02 0.04 0.04 0.03 0.05 0.03 0.02 0.03 0.04 0.05 0.04 0.03 0.04 0.01 0.02 0.01 0.01 0.02 0.01PS CCTTCT 0.07 0.07 0.05 0.08 0.11 0.06 0.09 0.11 0.07 0.11 0.10 0.10 0.10 0.09 0.10 0.16 0.09 0.07 0.07 0.06 0.09 0.08 0.08PT CCAACA 0.06 0.03 0.08 0.03 0.02 0.05 0.13 0.13 0.13 0.14 0.13 0.14 0.11 0.08 0.11 0.07 0.13 0.09 0.08 0.07 0.10 0.08 0.11PT CCAACC 0.12 0.12 0.10 0.14 0.13 0.10 0.09 0.18 0.08 0.11 0.19 0.07 0.09 0.19 0.12 0.22 0.07 0.07 0.07 0.07 0.07 0.06 0.09PT CCAACG 0.10 0.05 0.11 0.15 0.09 0.13 0.05 0.04 0.05 0.05 0.04 0.04 0.05 0.05 0.05 0.03 0.06 0.02 0.01 0.01 0.01 0.01 0.02PT CCAACT 0.03 0.07 0.02 0.06 0.07 0.06 0.16 0.31 0.12 0.23 0.34 0.12 0.17 0.26 0.20 0.29 0.12 0.08 0.09 0.07 0.10 0.10 0.09PT CCCACA 0.02 0.01 0.02 0.01 0.00 0.02 0.06 0.02 0.07 0.05 0.02 0.08 0.07 0.04 0.06 0.05 0.07 0.14 0.16 0.16 0.15 0.12 0.14PT CCCACC 0.06 0.01 0.09 0.02 0.01 0.07 0.04 0.03 0.06 0.03 0.03 0.05 0.05 0.04 0.06 0.06 0.05 0.16 0.15 0.22 0.14 0.17 0.14PT CCCACG 0.03 0.00 0.03 0.02 0.00 0.04 0.03 0.01 0.03 0.02 0.01 0.03 0.03 0.02 0.03 0.00 0.03 0.05 0.03 0.05 0.05 0.04 0.03PT CCCACT 0.02 0.01 0.01 0.02 0.01 0.01 0.07 0.03 0.08 0.05 0.03 0.09 0.07 0.06 0.06 0.05 0.09 0.11 0.11 0.11 0.10 0.11 0.12PT CCGACA 0.08 0.07 0.06 0.06 0.04 0.08 0.04 0.01 0.06 0.02 0.00 0.04 0.03 0.01 0.02 0.00 0.03 0.01 0.01 0.01 0.02 0.01 0.02PT CCGACC 0.16 0.30 0.18 0.21 0.35 0.09 0.01 0.00 0.01 0.00 0.00 0.01 0.02 0.01 0.02 0.01 0.02 0.02 0.02 0.02 0.02 0.02 0.01PT CCGACG 0.16 0.11 0.16 0.09 0.08 0.19 0.01 0.00 0.01 0.01 0.00 0.02 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.00 0.01 0.01 0.01PT CCGACT 0.08 0.18 0.04 0.14 0.18 0.07 0.03 0.01 0.02 0.02 0.01 0.04 0.03 0.02 0.03 0.01 0.04 0.01 0.02 0.01 0.01 0.01 0.01PT CCTACA 0.01 0.00 0.00 0.01 0.00 0.01 0.09 0.05 0.07 0.07 0.05 0.10 0.08 0.05 0.05 0.03 0.10 0.07 0.08 0.05 0.06 0.08 0.08PT CCTACC 0.04 0.01 0.05 0.02 0.02 0.05 0.07 0.08 0.07 0.07 0.07 0.06 0.06 0.08 0.04 0.07 0.04 0.07 0.08 0.07 0.07 0.08 0.07PT CCTACG 0.03 0.01 0.02 0.02 0.00 0.01 0.04 0.02 0.05 0.04 0.02 0.04 0.04 0.02 0.04 0.01 0.04 0.01 0.01 0.01 0.02 0.01 0.01PT CCTACT 0.02 0.01 0.01 0.02 0.02 0.02 0.09 0.07 0.08 0.11 0.07 0.10 0.10 0.09 0.10 0.11 0.09 0.07 0.07 0.06 0.08 0.07 0.07PV CCAGTA 0.03 0.03 0.02 0.03 0.01 0.03 0.09 0.09 0.06 0.07 0.05 0.10 0.08 0.07 0.09 0.03 0.08 0.05 0.04 0.05 0.05 0.04 0.06PV CCAGTC 0.02 0.01 0.01 0.01 0.02 0.03 0.06 0.10 0.09 0.08 0.12 0.05 0.07 0.13 0.08 0.14 0.07 0.07 0.09 0.09 0.07 0.08 0.08PV CCAGTG 0.05 0.04 0.06 0.04 0.02 0.06 0.07 0.06 0.09 0.06 0.06 0.08 0.09 0.07 0.09 0.08 0.09 0.15 0.15 0.17 0.14 0.15 0.14PV CCAGTT 0.03 0.04 0.03 0.02 0.04 0.02 0.13 0.21 0.09 0.18 0.25 0.10 0.15 0.19 0.14 0.24 0.14 0.07 0.08 0.06 0.06 0.08 0.09PV CCCGTA 0.02 0.00 0.03 0.00 0.01 0.02 0.05 0.02 0.04 0.02 0.02 0.06 0.02 0.01 0.02 0.01 0.02 0.01 0.01 0.01 0.00 0.00 0.01PV CCCGTC 0.03 0.02 0.04 0.01 0.01 0.04 0.03 0.03 0.05 0.03 0.04 0.03 0.03 0.03 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.04 0.02PV CCCGTG 0.03 0.01 0.04 0.01 0.01 0.04 0.04 0.02 0.03 0.03 0.01 0.03 0.03 0.02 0.03 0.02 0.03 0.05 0.07 0.05 0.05 0.06 0.04PV CCCGTT 0.05 0.02 0.06 0.04 0.03 0.05 0.06 0.05 0.04 0.06 0.05 0.06 0.05 0.03 0.06 0.04 0.06 0.01 0.01 0.01 0.01 0.01 0.01PV CCGGTA 0.14 0.20 0.11 0.21 0.23 0.14 0.04 0.02 0.03 0.02 0.01 0.04 0.03 0.02 0.03 0.01 0.03 0.01 0.01 0.01 0.01 0.02 0.01PV CCGGTC 0.08 0.08 0.08 0.09 0.07 0.06 0.02 0.01 0.03 0.02 0.01 0.01 0.02 0.01 0.01 0.01 0.01 0.02 0.02 0.02 0.02 0.02 0.01PV CCGGTG 0.23 0.16 0.28 0.16 0.16 0.25 0.02 0.02 0.01 0.02 0.01 0.02 0.02 0.01 0.02 0.00 0.02 0.04 0.04 0.05 0.04 0.05 0.03PV CCGGTT 0.15 0.29 0.12 0.28 0.28 0.13 0.04 0.03 0.05 0.05 0.03 0.06 0.04 0.03 0.04 0.01 0.04 0.01 0.01 0.01 0.01 0.01 0.01PV CCTGTA 0.03 0.01 0.02 0.02 0.02 0.03 0.09 0.06 0.10 0.07 0.04 0.12 0.07 0.04 0.07 0.03 0.09 0.06 0.07 0.05 0.06 0.05 0.06PV CCTGTC 0.04 0.02 0.04 0.03 0.02 0.04 0.06 0.08 0.07 0.07 0.08 0.05 0.08 0.10 0.08 0.12 0.07 0.11 0.09 0.12 0.11 0.09 0.11PV CCTGTG 0.03 0.02 0.03 0.01 0.03 0.02 0.07 0.05 0.10 0.06 0.04 0.08 0.08 0.07 0.08 0.06 0.08 0.22 0.21 0.23 0.25 0.23 0.21PV CCTGTT 0.05 0.04 0.04 0.03 0.04 0.04 0.14 0.16 0.14 0.17 0.17 0.12 0.14 0.17 0.14 0.18 0.14 0.09 0.09 0.07 0.10 0.08 0.11PW CCATGG 0.09 0.04 0.06 0.00 0.03 0.08 0.49 0.68 0.53 0.67 0.74 0.33 0.40 0.51 0.36 0.57 0.34 0.24 0.26 0.23 0.25 0.19 0.27PW CCCTGG 0.21 0.11 0.21 0.04 0.00 0.27 0.13 0.05 0.08 0.05 0.00 0.11 0.16 0.09 0.22 0.04 0.18 0.44 0.39 0.49 0.37 0.40 0.42PW CCGTGG 0.68 0.84 0.72 0.91 0.97 0.65 0.10 0.03 0.03 0.04 0.01 0.15 0.09 0.06 0.14 0.00 0.10 0.09 0.11 0.08 0.11 0.12 0.08PW CCTTGG 0.02 0.00 0.01 0.04 0.00 0.00 0.28 0.24 0.35 0.24 0.25 0.41 0.35 0.34 0.28 0.38 0.39 0.23 0.24 0.20 0.27 0.29 0.23PY CCATAC 0.05 0.07 0.03 0.07 0.07 0.03 0.16 0.30 0.17 0.22 0.33 0.15 0.16 0.28 0.13 0.32 0.13 0.11 0.14 0.11 0.09 0.15 0.12PY CCATAT 0.05 0.06 0.03 0.11 0.04 0.07 0.25 0.26 0.23 0.26 0.23 0.26 0.19 0.15 0.22 0.10 0.18 0.12 0.12 0.10 0.12 0.11 0.15PY CCCTAC 0.07 0.05 0.07 0.06 0.05 0.07 0.06 0.03 0.08 0.05 0.04 0.07 0.09 0.10 0.08 0.07 0.09 0.23 0.26 0.28 0.22 0.25 0.22PY CCCTAT 0.09 0.03 0.10 0.04 0.04 0.13 0.07 0.03 0.08 0.06 0.01 0.07 0.10 0.08 0.10 0.05 0.10 0.19 0.16 0.19 0.17 0.17 0.16PY CCGTAC 0.15 0.28 0.16 0.23 0.29 0.13 0.07 0.01 0.12 0.04 0.01 0.07 0.06 0.03 0.06 0.02 0.04 0.04 0.04 0.04 0.04 0.06 0.04PY CCGTAT 0.24 0.24 0.32 0.21 0.28 0.25 0.08 0.02 0.10 0.05 0.02 0.07 0.07 0.05 0.07 0.05 0.09 0.04 0.02 0.02 0.05 0.03 0.04PY CCTTAC 0.14 0.13 0.10 0.17 0.12 0.11 0.12 0.17 0.09 0.12 0.20 0.12 0.17 0.21 0.14 0.30 0.16 0.15 0.13 0.14 0.16 0.14 0.15PY CCTTAT 0.21 0.13 0.18 0.10 0.10 0.21 0.18 0.18 0.14 0.20 0.16 0.20 0.18 0.11 0.19 0.10 0.22 0.14 0.12 0.11 0.16 0.09 0.12Q* CAATAA 0.36 0.25 0.29 0.42 0.29 0.31 0.35 0.38 0.38 0.42 0.29 0.48 0.24 0.07 0.31 0.12 0.36 0.08 0.10 0.10 0.07 0.21 0.06Q* CAATAG 0.03 0.06 0.04 0.00 0.00 0.00 0.15 0.10 0.16 0.17 0.18 0.10 0.20 0.21 0.25 0.25 0.36 0.05 0.00 0.06 0.00 0.00 0.00Q* CAATGA 0.15 0.06 0.21 0.00 0.00 0.19 0.17 0.14 0.16 0.04 0.18 0.05 0.10 0.00 0.12 0.00 0.14 0.10 0.17 0.12 0.13 0.08 0.06Q* CAGTAA 0.34 0.62 0.29 0.58 0.64 0.38 0.18 0.29 0.22 0.25 0.18 0.19 0.17 0.21 0.00 0.50 0.07 0.17 0.18 0.21 0.07 0.08 0.09Q* CAGTAG 0.04 0.00 0.08 0.00 0.07 0.06 0.07 0.10 0.03 0.12 0.06 0.14 0.16 0.29 0.19 0.12 0.07 0.15 0.20 0.12 0.27 0.21 0.25Q* CAGTGA 0.07 0.00 0.08 0.00 0.00 0.06 0.08 0.00 0.06 0.00 0.12 0.05 0.12 0.21 0.12 0.00 0.00 0.46 0.35 0.38 0.47 0.42 0.53QA CAAGCA 0.03 0.02 0.02 0.03 0.01 0.02 0.19 0.14 0.23 0.16 0.13 0.22 0.16 0.12 0.18 0.07 0.20 0.10 0.12 0.08 0.11 0.10 0.12QA CAAGCC 0.05 0.06 0.05 0.04 0.04 0.05 0.15 0.19 0.15 0.18 0.21 0.15 0.12 0.16 0.13 0.18 0.10 0.11 0.11 0.12 0.11 0.09 0.12QA CAAGCG 0.06 0.06 0.04 0.06 0.05 0.06 0.08 0.04 0.07 0.06 0.03 0.10 0.07 0.04 0.07 0.03 0.09 0.02 0.02 0.01 0.02 0.03 0.02QA CAAGCT 0.03 0.04 0.01 0.04 0.03 0.03 0.26 0.47 0.18 0.36 0.47 0.19 0.24 0.31 0.26 0.37 0.23 0.10 0.10 0.10 0.11 0.10 0.11QA CAGGCA 0.20 0.21 0.21 0.20 0.21 0.22 0.10 0.04 0.08 0.07 0.03 0.12 0.13 0.09 0.12 0.05 0.14 0.17 0.18 0.16 0.16 0.15 0.17QA CAGGCC 0.14 0.10 0.19 0.12 0.10 0.16 0.07 0.04 0.09 0.05 0.04 0.05 0.09 0.10 0.06 0.09 0.08 0.25 0.20 0.29 0.24 0.25 0.24QA CAGGCG 0.36 0.33 0.36 0.34 0.35 0.35 0.05 0.00 0.08 0.03 0.01 0.06 0.04 0.02 0.05 0.02 0.04 0.05 0.04 0.05 0.04 0.05 0.04QA CAGGCT 0.13 0.18 0.11 0.17 0.22 0.11 0.10 0.08 0.12 0.10 0.07 0.10 0.15 0.16 0.13 0.19 0.12 0.20 0.23 0.19 0.20 0.23 0.18QC CAATGC 0.18 0.08 0.27 0.14 0.06 0.16 0.20 0.10 0.15 0.15 0.08 0.22 0.25 0.20 0.22 0.15 0.24 0.08 0.10 0.11 0.07 0.09 0.09QC CAATGT 0.17 0.21 0.18 0.14 0.12 0.22 0.46 0.82 0.40 0.60 0.77 0.42 0.46 0.40 0.52 0.47 0.47 0.12 0.10 0.08 0.08 0.11 0.09QC CAGTGC 0.38 0.46 0.47 0.29 0.53 0.41 0.16 0.01 0.20 0.10 0.04 0.18 0.12 0.22 0.11 0.27 0.12 0.36 0.34 0.40 0.41 0.39 0.37QC CAGTGT 0.27 0.25 0.09 0.43 0.29 0.22 0.18 0.06 0.24 0.15 0.10 0.18 0.17 0.18 0.15 0.12 0.17 0.43 0.46 0.41 0.44 0.41 0.46QD CAAGAC 0.05 0.10 0.07 0.06 0.03 0.07 0.21 0.28 0.24 0.23 0.28 0.21 0.21 0.23 0.23 0.20 0.20 0.17 0.14 0.16 0.16 0.13 0.19QD CAAGAT 0.10 0.11 0.08 0.07 0.08 0.10 0.46 0.52 0.37 0.49 0.53 0.43 0.41 0.35 0.43 0.41 0.43 0.20 0.20 0.16 0.20 0.21 0.22QD CAGGAC 0.29 0.32 0.30 0.38 0.38 0.31 0.12 0.07 0.17 0.10 0.08 0.13 0.13 0.21 0.11 0.22 0.12 0.34 0.35 0.39 0.32 0.33 0.31QD CAGGAT 0.56 0.48 0.55 0.49 0.51 0.52 0.20 0.14 0.22 0.18 0.12 0.23 0.24 0.21 0.23 0.17 0.24 0.28 0.31 0.28 0.32 0.33 0.28QE CAAGAA 0.14 0.12 0.12 0.13 0.13 0.12 0.51 0.63 0.49 0.56 0.69 0.51 0.36 0.33 0.34 0.35 0.39 0.19 0.19 0.15 0.19 0.15 0.22QE CAAGAG 0.10 0.09 0.11 0.10 0.10 0.11 0.21 0.18 0.20 0.18 0.14 0.20 0.27 0.30 0.28 0.31 0.24 0.17 0.15 0.16 0.17 0.14 0.17QE CAGGAA 0.53 0.62 0.51 0.57 0.60 0.50 0.19 0.13 0.22 0.18 0.11 0.18 0.22 0.17 0.24 0.16 0.23 0.26 0.26 0.24 0.26 0.26 0.26QE CAGGAG 0.24 0.16 0.27 0.20 0.16 0.27 0.09 0.06 0.10 0.08 0.06 0.10 0.15 0.20 0.15 0.17 0.14 0.38 0.41 0.44 0.38 0.46 0.36QF CAATTC 0.09 0.06 0.11 0.09 0.07 0.06 0.25 0.36 0.21 0.28 0.40 0.20 0.20 0.33 0.19 0.37 0.19 0.08 0.08 0.10 0.04 0.07 0.08QF CAATTT 0.19 0.12 0.18 0.12 0.07 0.21 0.37 0.41 0.32 0.43 0.39 0.41 0.29 0.24 0.29 0.25 0.30 0.10 0.09 0.09 0.09 0.08 0.09QF CAGTTC 0.33 0.49 0.34 0.46 0.56 0.30 0.14 0.11 0.16 0.12 0.12 0.14 0.19 0.20 0.18 0.18 0.18 0.41 0.39 0.47 0.40 0.43 0.40QF CAGTTT 0.40 0.33 0.36 0.33 0.30 0.43 0.24 0.12 0.31 0.17 0.10 0.25 0.31 0.23 0.33 0.21 0.33 0.41 0.45 0.35 0.46 0.43 0.43QG CAAGGA 0.04 0.01 0.03 0.02 0.01 0.06 0.15 0.07 0.19 0.10 0.06 0.17 0.23 0.21 0.23 0.17 0.22 0.14 0.15 0.12 0.15 0.16 0.16

Continued on next page

Page 166: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 153

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

QG CAAGGC 0.09 0.09 0.11 0.08 0.08 0.10 0.14 0.11 0.15 0.13 0.12 0.14 0.11 0.08 0.11 0.07 0.13 0.12 0.12 0.12 0.11 0.12 0.12QG CAAGGG 0.07 0.04 0.08 0.02 0.04 0.08 0.09 0.04 0.07 0.06 0.03 0.10 0.10 0.05 0.12 0.03 0.11 0.09 0.07 0.08 0.09 0.07 0.09QG CAAGGT 0.08 0.08 0.08 0.06 0.08 0.08 0.33 0.64 0.28 0.48 0.69 0.28 0.25 0.36 0.24 0.47 0.24 0.08 0.08 0.06 0.07 0.07 0.09QG CAGGGA 0.10 0.06 0.11 0.08 0.03 0.10 0.09 0.03 0.10 0.05 0.01 0.09 0.13 0.08 0.13 0.06 0.12 0.14 0.12 0.13 0.14 0.12 0.14QG CAGGGC 0.29 0.39 0.28 0.32 0.39 0.30 0.07 0.04 0.09 0.05 0.02 0.07 0.04 0.04 0.03 0.03 0.05 0.21 0.20 0.23 0.21 0.24 0.18QG CAGGGG 0.18 0.14 0.20 0.14 0.10 0.17 0.04 0.01 0.05 0.03 0.02 0.04 0.04 0.02 0.05 0.01 0.05 0.11 0.10 0.12 0.11 0.07 0.10QG CAGGGT 0.14 0.20 0.12 0.28 0.28 0.12 0.10 0.07 0.06 0.10 0.06 0.10 0.11 0.15 0.09 0.17 0.09 0.12 0.14 0.14 0.12 0.14 0.12QH CAACAC 0.14 0.14 0.15 0.08 0.16 0.17 0.20 0.33 0.25 0.23 0.32 0.20 0.20 0.25 0.17 0.37 0.16 0.12 0.14 0.14 0.12 0.10 0.11QH CAACAT 0.22 0.15 0.21 0.11 0.20 0.21 0.40 0.46 0.37 0.43 0.51 0.34 0.34 0.32 0.30 0.32 0.36 0.13 0.12 0.09 0.14 0.09 0.14QH CAGCAC 0.24 0.38 0.29 0.46 0.45 0.19 0.13 0.10 0.10 0.12 0.09 0.17 0.15 0.17 0.18 0.21 0.17 0.41 0.41 0.49 0.40 0.44 0.42QH CAGCAT 0.39 0.33 0.35 0.35 0.19 0.42 0.26 0.11 0.27 0.22 0.09 0.29 0.31 0.27 0.34 0.10 0.32 0.33 0.33 0.28 0.35 0.36 0.33QI CAAATA 0.04 0.02 0.02 0.01 0.01 0.08 0.22 0.11 0.23 0.16 0.11 0.23 0.16 0.09 0.19 0.05 0.19 0.07 0.06 0.05 0.04 0.03 0.10QI CAAATC 0.21 0.19 0.27 0.18 0.13 0.20 0.17 0.32 0.15 0.25 0.33 0.14 0.16 0.22 0.14 0.25 0.12 0.10 0.07 0.11 0.07 0.06 0.10QI CAAATT 0.22 0.15 0.20 0.13 0.18 0.24 0.32 0.41 0.30 0.37 0.43 0.36 0.26 0.27 0.24 0.31 0.23 0.10 0.09 0.09 0.10 0.09 0.11QI CAGATA 0.05 0.03 0.05 0.01 0.02 0.03 0.09 0.02 0.10 0.05 0.03 0.10 0.12 0.07 0.14 0.03 0.16 0.14 0.12 0.13 0.13 0.11 0.14QI CAGATC 0.21 0.31 0.24 0.34 0.32 0.20 0.07 0.05 0.07 0.06 0.03 0.05 0.12 0.17 0.09 0.19 0.10 0.33 0.39 0.39 0.35 0.38 0.30QI CAGATT 0.27 0.30 0.23 0.32 0.34 0.24 0.12 0.09 0.14 0.11 0.07 0.12 0.18 0.18 0.20 0.18 0.20 0.26 0.28 0.23 0.31 0.34 0.25QK CAAAAA 0.40 0.28 0.39 0.35 0.25 0.47 0.38 0.34 0.38 0.40 0.32 0.38 0.27 0.17 0.33 0.14 0.32 0.10 0.09 0.09 0.10 0.07 0.11QK CAAAAG 0.12 0.07 0.15 0.05 0.07 0.14 0.31 0.49 0.28 0.36 0.53 0.29 0.29 0.39 0.24 0.43 0.29 0.13 0.15 0.14 0.12 0.13 0.13QK CAGAAA 0.36 0.49 0.34 0.46 0.54 0.31 0.19 0.10 0.21 0.15 0.07 0.20 0.26 0.17 0.29 0.18 0.25 0.30 0.30 0.27 0.30 0.26 0.31QK CAGAAG 0.12 0.16 0.12 0.14 0.15 0.09 0.12 0.07 0.13 0.09 0.08 0.13 0.18 0.28 0.14 0.25 0.14 0.47 0.47 0.50 0.48 0.54 0.45QL CAACTA 0.01 0.01 0.02 0.01 0.00 0.02 0.10 0.08 0.09 0.10 0.07 0.10 0.09 0.07 0.10 0.04 0.09 0.02 0.02 0.02 0.02 0.02 0.02QL CAACTC 0.05 0.05 0.06 0.05 0.03 0.05 0.03 0.02 0.04 0.02 0.01 0.03 0.04 0.03 0.05 0.03 0.04 0.04 0.04 0.04 0.03 0.03 0.04QL CAACTG 0.22 0.20 0.20 0.23 0.21 0.22 0.09 0.07 0.10 0.08 0.05 0.09 0.10 0.11 0.10 0.11 0.10 0.07 0.06 0.07 0.06 0.05 0.07QL CAACTT 0.06 0.05 0.07 0.02 0.03 0.05 0.07 0.05 0.06 0.07 0.04 0.08 0.09 0.06 0.08 0.05 0.10 0.04 0.05 0.03 0.05 0.03 0.04QL CAATTA 0.05 0.02 0.04 0.05 0.02 0.06 0.19 0.22 0.20 0.20 0.23 0.18 0.10 0.10 0.10 0.10 0.11 0.02 0.01 0.01 0.01 0.01 0.02QL CAATTG 0.04 0.04 0.03 0.03 0.03 0.03 0.19 0.34 0.14 0.26 0.39 0.17 0.18 0.26 0.16 0.31 0.16 0.02 0.01 0.01 0.02 0.01 0.02QL CAGCTA 0.04 0.01 0.05 0.01 0.01 0.03 0.05 0.04 0.05 0.04 0.03 0.06 0.06 0.05 0.07 0.04 0.06 0.07 0.07 0.07 0.07 0.07 0.07QL CAGCTC 0.06 0.06 0.08 0.02 0.06 0.05 0.02 0.01 0.02 0.01 0.01 0.03 0.03 0.03 0.04 0.02 0.03 0.16 0.16 0.17 0.15 0.16 0.15QL CAGCTG 0.17 0.32 0.15 0.34 0.36 0.15 0.04 0.02 0.05 0.03 0.02 0.05 0.07 0.08 0.06 0.07 0.06 0.32 0.35 0.38 0.34 0.41 0.32QL CAGCTT 0.10 0.10 0.12 0.07 0.07 0.10 0.04 0.02 0.05 0.03 0.02 0.04 0.06 0.06 0.07 0.04 0.07 0.11 0.11 0.09 0.12 0.10 0.11QL CAGTTA 0.09 0.05 0.08 0.07 0.06 0.11 0.09 0.05 0.09 0.08 0.04 0.10 0.07 0.05 0.07 0.05 0.07 0.05 0.04 0.03 0.04 0.03 0.06QL CAGTTG 0.11 0.10 0.11 0.10 0.12 0.11 0.09 0.07 0.10 0.08 0.09 0.08 0.11 0.11 0.11 0.13 0.12 0.08 0.08 0.07 0.09 0.09 0.08QM CAAATG 0.37 0.29 0.36 0.33 0.29 0.40 0.76 0.81 0.70 0.80 0.90 0.76 0.63 0.52 0.64 0.59 0.65 0.26 0.26 0.25 0.25 0.20 0.23QM CAGATG 0.63 0.70 0.64 0.67 0.71 0.60 0.24 0.19 0.30 0.20 0.10 0.24 0.37 0.48 0.36 0.41 0.35 0.74 0.74 0.75 0.75 0.80 0.77QN CAAAAC 0.29 0.26 0.30 0.33 0.18 0.28 0.27 0.41 0.27 0.32 0.44 0.24 0.24 0.29 0.24 0.27 0.22 0.13 0.12 0.14 0.15 0.11 0.14QN CAAAAT 0.24 0.10 0.24 0.12 0.10 0.26 0.43 0.40 0.43 0.40 0.40 0.46 0.30 0.17 0.35 0.17 0.33 0.15 0.14 0.13 0.15 0.14 0.17QN CAGAAC 0.28 0.46 0.25 0.30 0.54 0.27 0.11 0.09 0.11 0.11 0.09 0.11 0.18 0.29 0.13 0.32 0.16 0.38 0.41 0.43 0.36 0.44 0.35QN CAGAAT 0.19 0.18 0.21 0.25 0.17 0.19 0.18 0.11 0.20 0.17 0.07 0.20 0.27 0.26 0.28 0.24 0.28 0.34 0.32 0.30 0.34 0.31 0.34QP CAACCA 0.06 0.05 0.07 0.06 0.03 0.06 0.28 0.38 0.30 0.32 0.43 0.22 0.24 0.24 0.27 0.26 0.23 0.07 0.07 0.08 0.06 0.06 0.07QP CAACCC 0.06 0.02 0.06 0.01 0.01 0.08 0.07 0.07 0.06 0.08 0.07 0.09 0.08 0.11 0.06 0.06 0.07 0.06 0.06 0.07 0.06 0.05 0.05QP CAACCG 0.19 0.21 0.16 0.17 0.22 0.17 0.11 0.06 0.10 0.08 0.03 0.12 0.07 0.05 0.07 0.03 0.09 0.01 0.01 0.01 0.01 0.01 0.01QP CAACCT 0.08 0.05 0.05 0.07 0.04 0.07 0.21 0.25 0.21 0.24 0.27 0.21 0.19 0.19 0.19 0.26 0.21 0.07 0.09 0.07 0.07 0.07 0.07QP CAGCCA 0.15 0.14 0.17 0.14 0.15 0.17 0.12 0.08 0.12 0.09 0.09 0.12 0.17 0.19 0.19 0.20 0.14 0.24 0.21 0.24 0.22 0.23 0.26QP CAGCCC 0.05 0.04 0.09 0.02 0.02 0.07 0.05 0.04 0.09 0.05 0.04 0.04 0.06 0.04 0.06 0.06 0.06 0.24 0.23 0.26 0.24 0.20 0.23QP CAGCCG 0.31 0.38 0.32 0.44 0.40 0.28 0.05 0.02 0.06 0.03 0.01 0.07 0.05 0.04 0.05 0.01 0.06 0.06 0.07 0.06 0.05 0.07 0.05QP CAGCCT 0.10 0.11 0.08 0.10 0.14 0.09 0.10 0.09 0.09 0.11 0.05 0.12 0.14 0.14 0.12 0.12 0.13 0.25 0.26 0.22 0.29 0.31 0.25QQ CAACAA 0.17 0.14 0.21 0.14 0.09 0.19 0.39 0.59 0.36 0.47 0.60 0.39 0.33 0.36 0.33 0.37 0.34 0.09 0.07 0.08 0.08 0.08 0.09QQ CAACAG 0.17 0.15 0.19 0.13 0.21 0.21 0.22 0.18 0.23 0.21 0.16 0.21 0.26 0.26 0.28 0.31 0.25 0.16 0.16 0.15 0.15 0.17 0.16QQ CAGCAA 0.31 0.27 0.26 0.21 0.23 0.34 0.23 0.16 0.22 0.22 0.17 0.22 0.24 0.26 0.23 0.21 0.26 0.20 0.20 0.18 0.20 0.18 0.19QQ CAGCAG 0.34 0.44 0.34 0.53 0.47 0.27 0.16 0.07 0.20 0.10 0.07 0.18 0.18 0.12 0.16 0.12 0.15 0.56 0.57 0.59 0.57 0.58 0.56QR CAAAGA 0.01 0.01 0.00 0.02 0.01 0.01 0.35 0.57 0.31 0.45 0.64 0.30 0.29 0.35 0.29 0.40 0.27 0.09 0.08 0.07 0.07 0.05 0.10QR CAAAGG 0.01 0.01 0.00 0.00 0.00 0.00 0.16 0.09 0.15 0.14 0.05 0.17 0.13 0.05 0.13 0.04 0.16 0.07 0.07 0.07 0.07 0.04 0.08QR CAACGA 0.04 0.00 0.05 0.02 0.01 0.05 0.05 0.01 0.09 0.04 0.01 0.05 0.09 0.03 0.08 0.02 0.12 0.02 0.02 0.01 0.02 0.03 0.02QR CAACGC 0.13 0.13 0.14 0.08 0.10 0.16 0.03 0.02 0.02 0.03 0.01 0.04 0.02 0.03 0.02 0.02 0.02 0.02 0.02 0.02 0.01 0.02 0.02QR CAACGG 0.05 0.01 0.06 0.02 0.01 0.07 0.03 0.00 0.04 0.02 0.00 0.04 0.04 0.03 0.05 0.02 0.04 0.03 0.02 0.03 0.03 0.01 0.03QR CAACGT 0.15 0.17 0.14 0.17 0.21 0.15 0.09 0.16 0.05 0.10 0.17 0.08 0.07 0.15 0.07 0.17 0.06 0.01 0.03 0.01 0.01 0.02 0.01QR CAGAGA 0.01 0.00 0.01 0.01 0.00 0.00 0.11 0.07 0.12 0.10 0.05 0.11 0.17 0.23 0.18 0.21 0.15 0.20 0.19 0.18 0.17 0.16 0.18QR CAGAGG 0.01 0.00 0.00 0.00 0.00 0.00 0.06 0.03 0.05 0.03 0.03 0.07 0.06 0.03 0.06 0.01 0.06 0.21 0.20 0.23 0.21 0.20 0.22QR CAGCGA 0.07 0.03 0.07 0.02 0.02 0.06 0.03 0.01 0.02 0.01 0.00 0.03 0.04 0.03 0.04 0.01 0.03 0.06 0.09 0.06 0.09 0.07 0.06QR CAGCGC 0.18 0.21 0.21 0.21 0.16 0.18 0.03 0.01 0.04 0.02 0.01 0.03 0.02 0.02 0.01 0.02 0.02 0.11 0.10 0.13 0.10 0.13 0.10QR CAGCGG 0.08 0.03 0.10 0.04 0.03 0.09 0.02 0.01 0.03 0.01 0.00 0.03 0.03 0.00 0.02 0.00 0.03 0.12 0.12 0.12 0.15 0.17 0.11QR CAGCGT 0.27 0.41 0.22 0.42 0.46 0.23 0.06 0.04 0.09 0.05 0.03 0.06 0.04 0.05 0.04 0.06 0.03 0.06 0.06 0.07 0.08 0.10 0.06QS CAAAGC 0.15 0.07 0.15 0.09 0.05 0.15 0.09 0.06 0.11 0.07 0.06 0.10 0.07 0.05 0.07 0.04 0.08 0.07 0.05 0.07 0.06 0.04 0.07QS CAAAGT 0.09 0.05 0.08 0.07 0.03 0.11 0.15 0.13 0.15 0.16 0.09 0.18 0.12 0.09 0.15 0.07 0.16 0.06 0.05 0.05 0.05 0.04 0.07QS CAATCA 0.05 0.03 0.05 0.03 0.04 0.05 0.14 0.10 0.13 0.13 0.10 0.14 0.14 0.12 0.15 0.09 0.14 0.03 0.03 0.03 0.04 0.03 0.03QS CAATCC 0.06 0.06 0.06 0.08 0.06 0.07 0.09 0.15 0.09 0.11 0.18 0.08 0.09 0.12 0.08 0.16 0.08 0.03 0.03 0.03 0.01 0.03 0.02QS CAATCG 0.05 0.04 0.07 0.01 0.03 0.08 0.07 0.06 0.06 0.06 0.04 0.08 0.07 0.05 0.07 0.04 0.09 0.01 0.01 0.01 0.01 0.01 0.01QS CAATCT 0.05 0.05 0.06 0.03 0.03 0.07 0.18 0.30 0.16 0.24 0.33 0.14 0.16 0.19 0.14 0.25 0.14 0.03 0.04 0.03 0.03 0.04 0.03QS CAGAGC 0.13 0.20 0.13 0.22 0.21 0.13 0.03 0.02 0.04 0.02 0.01 0.03 0.04 0.03 0.03 0.03 0.04 0.21 0.17 0.23 0.21 0.23 0.20QS CAGAGT 0.06 0.03 0.06 0.03 0.04 0.08 0.05 0.03 0.04 0.04 0.05 0.05 0.07 0.07 0.07 0.04 0.07 0.16 0.17 0.16 0.15 0.14 0.14QS CAGTCA 0.09 0.05 0.09 0.11 0.05 0.06 0.07 0.04 0.09 0.05 0.04 0.06 0.08 0.07 0.07 0.06 0.08 0.12 0.12 0.10 0.11 0.11 0.14QS CAGTCC 0.06 0.11 0.06 0.06 0.10 0.05 0.04 0.03 0.04 0.04 0.04 0.04 0.05 0.08 0.04 0.06 0.03 0.12 0.15 0.14 0.14 0.15 0.11QS CAGTCG 0.13 0.13 0.15 0.13 0.12 0.10 0.03 0.01 0.03 0.02 0.01 0.03 0.04 0.04 0.04 0.04 0.04 0.03 0.04 0.03 0.03 0.03 0.02QS CAGTCT 0.07 0.18 0.04 0.12 0.25 0.05 0.06 0.06 0.06 0.06 0.05 0.07 0.08 0.11 0.09 0.13 0.06 0.14 0.15 0.12 0.16 0.17 0.15QT CAAACA 0.07 0.06 0.06 0.06 0.07 0.10 0.24 0.17 0.23 0.21 0.18 0.25 0.20 0.14 0.19 0.09 0.20 0.10 0.10 0.09 0.10 0.09 0.10QT CAAACC 0.21 0.21 0.22 0.19 0.16 0.22 0.14 0.25 0.14 0.17 0.25 0.12 0.12 0.17 0.11 0.22 0.10 0.08 0.10 0.08 0.07 0.06 0.08QT CAAACG 0.15 0.09 0.21 0.08 0.10 0.15 0.11 0.07 0.14 0.10 0.06 0.11 0.10 0.09 0.10 0.03 0.12 0.02 0.02 0.02 0.02 0.03 0.02QT CAAACT 0.08 0.06 0.06 0.07 0.07 0.06 0.26 0.36 0.19 0.34 0.35 0.23 0.23 0.24 0.23 0.30 0.22 0.08 0.09 0.06 0.08 0.05 0.10QT CAGACA 0.07 0.04 0.08 0.03 0.01 0.06 0.10 0.03 0.17 0.06 0.05 0.09 0.11 0.07 0.14 0.04 0.12 0.24 0.22 0.26 0.23 0.20 0.25QT CAGACC 0.19 0.29 0.17 0.29 0.28 0.21 0.05 0.04 0.03 0.04 0.04 0.05 0.07 0.13 0.06 0.15 0.07 0.23 0.23 0.24 0.24 0.26 0.21QT CAGACG 0.15 0.10 0.15 0.06 0.12 0.15 0.04 0.02 0.04 0.04 0.02 0.05 0.05 0.05 0.05 0.03 0.04 0.07 0.05 0.07 0.06 0.09 0.06QT CAGACT 0.08 0.16 0.05 0.22 0.18 0.06 0.07 0.06 0.07 0.06 0.04 0.10 0.12 0.12 0.13 0.15 0.13 0.19 0.19 0.17 0.19 0.23 0.18QV CAAGTA 0.02 0.01 0.01 0.02 0.02 0.03 0.17 0.08 0.17 0.13 0.06 0.19 0.11 0.09 0.12 0.07 0.14 0.06 0.06 0.05 0.07 0.05 0.07QV CAAGTC 0.03 0.03 0.02 0.03 0.02 0.05 0.13 0.23 0.10 0.19 0.25 0.08 0.12 0.18 0.14 0.17 0.11 0.08 0.06 0.10 0.07 0.05 0.09QV CAAGTG 0.05 0.05 0.03 0.04 0.04 0.08 0.16 0.10 0.18 0.14 0.08 0.15 0.14 0.11 0.16 0.07 0.13 0.15 0.16 0.15 0.14 0.17 0.14QV CAAGTT 0.04 0.06 0.02 0.06 0.08 0.05 0.26 0.43 0.20 0.31 0.44 0.26 0.27 0.28 0.28 0.35 0.26 0.08 0.09 0.06 0.09 0.07 0.09QV CAGGTA 0.15 0.15 0.12 0.17 0.18 0.13 0.07 0.03 0.09 0.05 0.02 0.09 0.07 0.05 0.07 0.04 0.07 0.07 0.08 0.07 0.06 0.08 0.07QV CAGGTC 0.14 0.09 0.20 0.08 0.08 0.15 0.05 0.03 0.08 0.04 0.03 0.05 0.07 0.07 0.06 0.10 0.07 0.14 0.13 0.17 0.14 0.12 0.13QV CAGGTG 0.33 0.23 0.40 0.33 0.23 0.34 0.07 0.03 0.07 0.05 0.03 0.06 0.08 0.08 0.07 0.05 0.07 0.29 0.29 0.32 0.30 0.31 0.27QV CAGGTT 0.23 0.37 0.20 0.27 0.35 0.17 0.10 0.08 0.11 0.10 0.09 0.12 0.14 0.14 0.11 0.16 0.15 0.12 0.13 0.09 0.12 0.15 0.13QW CAATGG 0.33 0.23 0.34 0.26 0.26 0.39 0.72 0.84 0.63 0.75 0.88 0.66 0.71 0.69 0.73 0.77 0.71 0.19 0.26 0.20 0.15 0.15 0.18QW CAGTGG 0.67 0.77 0.66 0.74 0.74 0.61 0.28 0.16 0.37 0.25 0.12 0.34 0.29 0.31 0.27 0.23 0.29 0.81 0.74 0.80 0.85 0.85 0.82QY CAATAC 0.15 0.15 0.13 0.12 0.16 0.18 0.27 0.39 0.25 0.35 0.41 0.24 0.26 0.40 0.27 0.38 0.26 0.10 0.09 0.11 0.08 0.10 0.08QY CAATAT 0.25 0.15 0.24 0.15 0.14 0.27 0.36 0.32 0.29 0.34 0.36 0.42 0.30 0.27 0.29 0.26 0.30 0.12 0.10 0.10 0.10 0.08 0.10QY CAGTAC 0.28 0.42 0.30 0.33 0.44 0.33 0.17 0.14 0.23 0.14 0.14 0.15 0.18 0.17 0.16 0.20 0.19 0.41 0.40 0.46 0.41 0.41 0.42QY CAGTAT 0.32 0.28 0.33 0.40 0.26 0.22 0.20 0.14 0.22 0.18 0.08 0.20 0.26 0.16 0.28 0.16 0.26 0.37 0.41 0.33 0.40 0.41 0.40R* AGATAA 0.04 0.00 0.03 0.04 0.06 0.04 0.14 0.00 0.22 0.06 0.00 0.13 0.14 0.00 0.18 0.06 0.07 0.09 0.07 0.08 0.00 0.00 0.03R* AGATAG 0.01 0.00 0.00 0.00 0.00 0.00 0.10 0.04 0.13 0.06 0.00 0.04 0.09 0.06 0.04 0.06 0.16 0.08 0.04 0.06 0.10 0.04 0.03R* AGATGA 0.02 0.00 0.03 0.00 0.00 0.09 0.09 0.04 0.09 0.11 0.00 0.00 0.11 0.00 0.04 0.00 0.13 0.15 0.11 0.09 0.14 0.09 0.19R* AGGTAA 0.04 0.00 0.00 0.00 0.06 0.00 0.09 0.12 0.13 0.17 0.14 0.09 0.07 0.12 0.04 0.00 0.07 0.07 0.17 0.11 0.00 0.00 0.00R* AGGTAG 0.01 0.00 0.03 0.00 0.00 0.04 0.07 0.00 0.13 0.11 0.00 0.13 0.08 0.06 0.04 0.00 0.07 0.06 0.08 0.11 0.10 0.00 0.16R* AGGTGA 0.02 0.00 0.00 0.00 0.00 0.09 0.08 0.00 0.04 0.00 0.00 0.09 0.11 0.12 0.27 0.00 0.13 0.10 0.08 0.15 0.05 0.04 0.07R* CGATAA 0.09 0.09 0.16 0.00 0.00 0.14 0.04 0.00 0.00 0.00 0.00 0.09 0.03 0.00 0.04 0.00 0.03 0.03 0.04 0.03 0.00 0.17 0.00R* CGATAG 0.01 0.00 0.00 0.00 0.00 0.00 0.03 0.00 0.00 0.06 0.00 0.00 0.04 0.00 0.09 0.00 0.00 0.02 0.01 0.00 0.00 0.00 0.13R* CGATGA 0.03 0.00 0.03 0.00 0.00 0.00 0.02 0.00 0.00 0.00 0.00 0.00 0.04 0.06 0.00 0.00 0.03 0.05 0.06 0.04 0.10 0.04 0.07R* CGCTAA 0.21 0.23 0.25 0.46 0.23 0.23 0.04 0.08 0.04 0.06 0.07 0.04 0.01 0.00 0.00 0.00 0.00 0.03 0.07 0.04 0.19 0.26 0.00R* CGCTAG 0.02 0.00 0.00 0.00 0.00 0.00 0.01 0.04 0.00 0.00 0.00 0.00 0.02 0.06 0.04 0.06 0.00 0.04 0.04 0.05 0.05 0.00 0.00R* CGCTGA 0.06 0.09 0.06 0.00 0.18 0.00 0.02 0.04 0.00 0.00 0.00 0.04 0.02 0.00 0.04 0.00 0.03 0.09 0.08 0.06 0.00 0.22 0.13R* CGGTAA 0.05 0.00 0.16 0.00 0.00 0.00 0.01 0.00 0.09 0.06 0.00 0.04 0.01 0.00 0.00 0.00 0.00 0.02 0.01 0.01 0.05 0.00 0.00R* CGGTAG 0.01 0.04 0.00 0.00 0.00 0.00 0.01 0.00 0.04 0.00 0.00 0.00 0.02 0.00 0.04 0.00 0.00 0.03 0.03 0.01 0.00 0.00 0.07R* CGGTGA 0.02 0.00 0.06 0.00 0.00 0.00 0.02 0.00 0.00 0.00 0.00 0.13 0.03 0.00 0.04 0.00 0.00 0.06 0.01 0.06 0.10 0.09 0.07R* CGTTAA 0.28 0.46 0.12 0.50 0.47 0.27 0.12 0.46 0.00 0.22 0.50 0.13 0.08 0.29 0.00 0.50 0.10 0.02 0.00 0.03 0.00 0.00 0.03R* CGTTAG 0.03 0.00 0.03 0.00 0.00 0.00 0.08 0.08 0.04 0.06 0.07 0.04 0.06 0.12 0.00 0.19 0.03 0.02 0.03 0.03 0.05 0.00 0.03R* CGTTGA 0.05 0.09 0.03 0.00 0.00 0.09 0.06 0.08 0.04 0.06 0.21 0.00 0.05 0.12 0.04 0.12 0.16 0.03 0.07 0.06 0.10 0.04 0.00RA AGAGCA 0.01 0.00 0.01 0.00 0.01 0.01 0.14 0.09 0.16 0.12 0.09 0.14 0.13 0.10 0.12 0.08 0.13 0.09 0.08 0.07 0.09 0.06 0.09RA AGAGCC 0.01 0.00 0.00 0.00 0.00 0.01 0.11 0.15 0.09 0.11 0.18 0.09 0.11 0.17 0.11 0.18 0.12 0.09 0.09 0.09 0.10 0.07 0.10RA AGAGCG 0.01 0.00 0.01 0.00 0.00 0.02 0.05 0.03 0.04 0.04 0.02 0.06 0.04 0.03 0.03 0.01 0.04 0.01 0.01 0.01 0.02 0.01 0.01RA AGAGCT 0.01 0.00 0.01 0.01 0.00 0.00 0.18 0.34 0.13 0.25 0.38 0.15 0.21 0.30 0.19 0.36 0.19 0.08 0.10 0.07 0.09 0.08 0.09RA AGGGCA 0.01 0.00 0.00 0.00 0.00 0.01 0.07 0.04 0.06 0.05 0.03 0.09 0.06 0.02 0.07 0.01 0.08 0.06 0.05 0.06 0.05 0.04 0.06RA AGGGCC 0.00 0.00 0.01 0.00 0.00 0.00 0.05 0.04 0.07 0.04 0.04 0.06 0.04 0.02 0.05 0.02 0.06 0.07 0.07 0.09 0.06 0.05 0.08RA AGGGCG 0.01 0.00 0.01 0.00 0.00 0.00 0.03 0.01 0.03 0.01 0.00 0.03 0.02 0.01 0.03 0.00 0.02 0.01 0.01 0.01 0.01 0.01 0.01RA AGGGCT 0.00 0.00 0.01 0.00 0.00 0.00 0.09 0.06 0.10 0.08 0.05 0.08 0.07 0.05 0.08 0.05 0.10 0.06 0.04 0.07 0.04 0.04 0.06RA CGAGCA 0.01 0.00 0.01 0.00 0.01 0.03 0.02 0.00 0.03 0.01 0.00 0.03 0.03 0.02 0.03 0.01 0.03 0.04 0.03 0.03 0.07 0.04 0.05RA CGAGCC 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.00 0.02 0.01 0.00 0.01 0.02 0.01 0.02 0.01 0.03 0.06 0.06 0.06 0.07 0.07 0.06RA CGAGCG 0.02 0.01 0.02 0.00 0.01 0.01 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.00 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.01RA CGAGCT 0.01 0.01 0.01 0.00 0.01 0.01 0.02 0.00 0.03 0.01 0.00 0.03 0.04 0.02 0.05 0.01 0.05 0.05 0.07 0.04 0.05 0.07 0.04RA CGCGCA 0.09 0.09 0.07 0.10 0.06 0.09 0.02 0.01 0.02 0.01 0.01 0.01 0.00 0.00 0.01 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.01RA CGCGCC 0.15 0.10 0.24 0.14 0.13 0.18 0.01 0.01 0.01 0.01 0.00 0.00 0.00 0.01 0.00 0.01 0.00 0.02 0.02 0.02 0.01 0.03 0.01RA CGCGCG 0.11 0.08 0.12 0.08 0.08 0.09 0.00 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.01RA CGCGCT 0.07 0.10 0.07 0.11 0.12 0.05 0.01 0.01 0.01 0.02 0.01 0.02 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.02 0.01 0.01 0.01RA CGGGCA 0.04 0.02 0.04 0.02 0.01 0.06 0.01 0.00 0.01 0.00 0.00 0.02 0.02 0.01 0.02 0.00 0.02 0.05 0.04 0.06 0.05 0.03 0.05RA CGGGCC 0.02 0.01 0.03 0.00 0.01 0.04 0.01 0.00 0.00 0.00 0.00 0.01 0.01 0.01 0.02 0.00 0.01 0.08 0.07 0.08 0.07 0.10 0.08RA CGGGCG 0.07 0.02 0.06 0.03 0.01 0.08 0.00 0.00 0.00 0.00 0.00 0.01 0.01 0.00 0.00 0.00 0.01 0.02 0.02 0.03 0.01 0.02 0.01RA CGGGCT 0.02 0.02 0.02 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.00 0.01 0.02 0.01 0.03 0.01 0.02 0.06 0.06 0.05 0.06 0.08 0.05RA CGTGCA 0.06 0.10 0.05 0.08 0.11 0.06 0.04 0.04 0.04 0.06 0.03 0.04 0.04 0.03 0.04 0.03 0.04 0.03 0.03 0.03 0.03 0.04 0.03RA CGTGCC 0.08 0.10 0.07 0.09 0.09 0.09 0.04 0.06 0.04 0.06 0.07 0.04 0.04 0.05 0.03 0.07 0.01 0.05 0.06 0.05 0.04 0.06 0.04RA CGTGCG 0.12 0.16 0.10 0.17 0.19 0.09 0.02 0.02 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01RA CGTGCT 0.06 0.17 0.04 0.13 0.14 0.04 0.06 0.09 0.04 0.08 0.08 0.05 0.07 0.12 0.05 0.14 0.05 0.03 0.05 0.03 0.03 0.06 0.04RC AGATGC 0.01 0.00 0.00 0.00 0.00 0.02 0.13 0.10 0.16 0.15 0.13 0.09 0.16 0.14 0.18 0.15 0.14 0.08 0.07 0.08 0.07 0.04 0.07RC AGATGT 0.02 0.02 0.03 0.00 0.00 0.00 0.26 0.37 0.33 0.27 0.40 0.26 0.28 0.42 0.30 0.47 0.25 0.10 0.06 0.07 0.06 0.05 0.08

Continued on next page

Page 167: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 154

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

RC AGGTGC 0.00 0.00 0.01 0.00 0.00 0.02 0.07 0.05 0.09 0.06 0.00 0.10 0.04 0.04 0.04 0.00 0.06 0.08 0.09 0.08 0.07 0.05 0.08RC AGGTGT 0.01 0.00 0.01 0.00 0.00 0.00 0.09 0.03 0.07 0.06 0.05 0.08 0.09 0.04 0.07 0.02 0.09 0.09 0.12 0.09 0.07 0.10 0.09RC CGATGC 0.01 0.00 0.00 0.00 0.00 0.00 0.05 0.00 0.04 0.01 0.00 0.07 0.06 0.04 0.07 0.03 0.09 0.06 0.05 0.06 0.07 0.11 0.06RC CGATGT 0.01 0.00 0.01 0.00 0.00 0.02 0.05 0.02 0.05 0.03 0.00 0.06 0.08 0.05 0.07 0.00 0.09 0.05 0.06 0.05 0.06 0.02 0.05RC CGCTGC 0.31 0.33 0.45 0.56 0.36 0.35 0.04 0.01 0.05 0.04 0.03 0.02 0.02 0.01 0.02 0.00 0.02 0.19 0.18 0.23 0.17 0.19 0.18RC CGCTGT 0.21 0.11 0.20 0.16 0.04 0.22 0.05 0.06 0.02 0.02 0.01 0.06 0.04 0.03 0.02 0.03 0.03 0.15 0.18 0.15 0.17 0.21 0.15RC CGGTGC 0.01 0.00 0.03 0.00 0.00 0.00 0.02 0.00 0.01 0.01 0.00 0.02 0.02 0.01 0.04 0.00 0.05 0.06 0.06 0.06 0.07 0.09 0.06RC CGGTGT 0.02 0.00 0.01 0.00 0.00 0.00 0.02 0.01 0.01 0.01 0.00 0.02 0.04 0.03 0.02 0.00 0.04 0.06 0.04 0.05 0.06 0.04 0.06RC CGTTGC 0.21 0.42 0.16 0.24 0.36 0.13 0.08 0.08 0.10 0.09 0.10 0.08 0.06 0.05 0.04 0.07 0.05 0.04 0.03 0.05 0.09 0.04 0.04RC CGTTGT 0.17 0.11 0.09 0.04 0.24 0.24 0.14 0.28 0.07 0.25 0.28 0.16 0.11 0.14 0.12 0.23 0.10 0.04 0.06 0.03 0.05 0.06 0.05RD AGAGAC 0.01 0.00 0.01 0.00 0.00 0.02 0.16 0.24 0.15 0.18 0.32 0.12 0.19 0.29 0.18 0.34 0.17 0.15 0.15 0.14 0.14 0.14 0.17RD AGAGAT 0.01 0.00 0.02 0.01 0.01 0.01 0.32 0.34 0.29 0.34 0.34 0.31 0.33 0.28 0.35 0.32 0.33 0.16 0.17 0.14 0.16 0.17 0.15RD AGGGAC 0.00 0.00 0.00 0.00 0.00 0.01 0.07 0.05 0.08 0.06 0.04 0.08 0.06 0.04 0.07 0.04 0.06 0.12 0.10 0.14 0.12 0.07 0.12RD AGGGAT 0.01 0.01 0.02 0.01 0.00 0.02 0.12 0.07 0.11 0.11 0.03 0.15 0.12 0.07 0.12 0.04 0.16 0.09 0.08 0.10 0.09 0.08 0.10RD CGAGAC 0.01 0.01 0.01 0.01 0.01 0.00 0.03 0.00 0.03 0.01 0.00 0.02 0.04 0.04 0.04 0.02 0.04 0.09 0.08 0.09 0.10 0.07 0.08RD CGAGAT 0.02 0.01 0.01 0.01 0.01 0.05 0.05 0.01 0.06 0.02 0.01 0.06 0.06 0.01 0.09 0.01 0.08 0.07 0.09 0.06 0.09 0.08 0.09RD CGCGAC 0.19 0.20 0.21 0.17 0.20 0.16 0.02 0.01 0.03 0.02 0.01 0.02 0.00 0.00 0.00 0.00 0.01 0.02 0.02 0.02 0.02 0.03 0.01RD CGCGAT 0.33 0.27 0.35 0.31 0.27 0.36 0.04 0.02 0.06 0.04 0.02 0.05 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01RD CGGGAC 0.01 0.01 0.02 0.01 0.00 0.02 0.01 0.00 0.02 0.01 0.01 0.02 0.02 0.01 0.01 0.01 0.01 0.11 0.10 0.12 0.10 0.10 0.09RD CGGGAT 0.04 0.01 0.06 0.04 0.02 0.05 0.02 0.01 0.03 0.01 0.01 0.02 0.04 0.03 0.03 0.01 0.05 0.08 0.08 0.08 0.07 0.11 0.07RD CGTGAC 0.16 0.24 0.16 0.21 0.30 0.11 0.06 0.10 0.06 0.07 0.09 0.05 0.05 0.10 0.03 0.11 0.03 0.05 0.05 0.06 0.06 0.06 0.06RD CGTGAT 0.20 0.24 0.15 0.23 0.16 0.20 0.10 0.14 0.08 0.14 0.12 0.10 0.08 0.10 0.07 0.11 0.06 0.05 0.06 0.04 0.05 0.07 0.06RE AGAGAA 0.02 0.02 0.01 0.01 0.01 0.01 0.35 0.47 0.31 0.38 0.52 0.29 0.30 0.28 0.33 0.27 0.29 0.15 0.14 0.13 0.15 0.12 0.17RE AGAGAG 0.01 0.01 0.01 0.01 0.00 0.02 0.14 0.12 0.14 0.14 0.12 0.16 0.21 0.28 0.21 0.34 0.21 0.14 0.15 0.13 0.15 0.12 0.14RE AGGGAA 0.01 0.00 0.01 0.00 0.00 0.03 0.14 0.10 0.18 0.11 0.08 0.16 0.12 0.09 0.12 0.06 0.14 0.09 0.10 0.08 0.08 0.08 0.09RE AGGGAG 0.01 0.00 0.01 0.01 0.00 0.01 0.07 0.03 0.05 0.06 0.02 0.07 0.08 0.04 0.08 0.04 0.09 0.12 0.10 0.15 0.09 0.08 0.12RE CGAGAA 0.03 0.01 0.06 0.02 0.01 0.04 0.05 0.02 0.06 0.04 0.00 0.06 0.06 0.03 0.06 0.02 0.06 0.07 0.07 0.05 0.07 0.09 0.07RE CGAGAG 0.01 0.00 0.01 0.01 0.00 0.02 0.02 0.01 0.04 0.01 0.00 0.02 0.05 0.03 0.04 0.01 0.04 0.09 0.10 0.09 0.13 0.12 0.09RE CGCGAA 0.24 0.24 0.26 0.30 0.20 0.23 0.03 0.02 0.03 0.03 0.01 0.04 0.00 0.00 0.00 0.00 0.00 0.01 0.01 0.01 0.01 0.00 0.01RE CGCGAG 0.12 0.11 0.15 0.09 0.10 0.12 0.02 0.01 0.04 0.01 0.01 0.02 0.01 0.00 0.01 0.00 0.00 0.02 0.03 0.03 0.02 0.03 0.01RE CGGGAA 0.09 0.03 0.11 0.03 0.03 0.12 0.03 0.01 0.02 0.02 0.00 0.03 0.03 0.01 0.04 0.00 0.05 0.08 0.09 0.08 0.07 0.09 0.08RE CGGGAG 0.03 0.01 0.05 0.00 0.01 0.04 0.01 0.00 0.02 0.01 0.00 0.01 0.02 0.02 0.02 0.01 0.03 0.13 0.11 0.14 0.13 0.14 0.12RE CGTGAA 0.30 0.43 0.23 0.40 0.46 0.24 0.10 0.18 0.08 0.15 0.19 0.09 0.07 0.09 0.06 0.10 0.06 0.03 0.05 0.03 0.04 0.04 0.04RE CGTGAG 0.11 0.14 0.09 0.13 0.17 0.11 0.04 0.04 0.03 0.05 0.04 0.04 0.05 0.13 0.03 0.14 0.03 0.06 0.05 0.07 0.06 0.09 0.06RF AGATTC 0.00 0.00 0.00 0.00 0.01 0.01 0.17 0.31 0.14 0.24 0.36 0.15 0.16 0.28 0.14 0.35 0.12 0.08 0.09 0.08 0.05 0.06 0.08RF AGATTT 0.01 0.00 0.00 0.00 0.01 0.02 0.31 0.31 0.30 0.33 0.29 0.29 0.22 0.22 0.26 0.21 0.23 0.11 0.11 0.08 0.09 0.10 0.12RF AGGTTC 0.00 0.00 0.00 0.00 0.00 0.00 0.09 0.09 0.09 0.08 0.08 0.09 0.08 0.02 0.08 0.02 0.08 0.10 0.07 0.11 0.06 0.07 0.10RF AGGTTT 0.01 0.00 0.00 0.00 0.00 0.00 0.16 0.08 0.14 0.12 0.07 0.19 0.13 0.06 0.13 0.04 0.15 0.11 0.10 0.08 0.15 0.07 0.12RF CGATTC 0.02 0.03 0.03 0.00 0.01 0.02 0.02 0.01 0.03 0.01 0.00 0.03 0.06 0.04 0.05 0.01 0.06 0.06 0.06 0.04 0.06 0.06 0.05RF CGATTT 0.04 0.01 0.05 0.01 0.01 0.07 0.05 0.01 0.05 0.02 0.00 0.07 0.08 0.04 0.09 0.02 0.09 0.06 0.06 0.05 0.08 0.06 0.06RF CGCTTC 0.16 0.24 0.15 0.21 0.24 0.17 0.02 0.02 0.01 0.02 0.01 0.01 0.02 0.03 0.01 0.03 0.02 0.17 0.16 0.22 0.15 0.20 0.15RF CGCTTT 0.25 0.17 0.30 0.21 0.16 0.27 0.03 0.01 0.07 0.02 0.01 0.03 0.03 0.03 0.03 0.00 0.04 0.10 0.11 0.12 0.08 0.10 0.09RF CGGTTC 0.01 0.00 0.01 0.00 0.00 0.00 0.02 0.01 0.02 0.01 0.00 0.03 0.03 0.02 0.04 0.01 0.05 0.06 0.06 0.06 0.07 0.05 0.06RF CGGTTT 0.04 0.01 0.03 0.00 0.00 0.03 0.04 0.01 0.03 0.02 0.01 0.05 0.05 0.02 0.04 0.00 0.06 0.06 0.05 0.04 0.06 0.07 0.05RF CGTTTC 0.17 0.29 0.13 0.32 0.33 0.13 0.05 0.09 0.07 0.06 0.10 0.03 0.07 0.15 0.08 0.21 0.04 0.06 0.07 0.07 0.08 0.09 0.05RF CGTTTT 0.29 0.23 0.30 0.26 0.23 0.28 0.06 0.07 0.06 0.07 0.06 0.04 0.07 0.09 0.07 0.10 0.07 0.05 0.05 0.05 0.06 0.06 0.06RG AGAGGA 0.01 0.00 0.00 0.00 0.00 0.01 0.11 0.05 0.10 0.09 0.03 0.11 0.17 0.14 0.21 0.15 0.17 0.09 0.10 0.08 0.12 0.10 0.10RG AGAGGC 0.01 0.01 0.01 0.01 0.00 0.01 0.10 0.08 0.11 0.10 0.09 0.10 0.09 0.05 0.09 0.06 0.10 0.08 0.07 0.07 0.08 0.05 0.08RG AGAGGG 0.01 0.01 0.00 0.01 0.00 0.00 0.04 0.03 0.06 0.04 0.02 0.05 0.06 0.04 0.08 0.02 0.07 0.06 0.05 0.05 0.05 0.04 0.06RG AGAGGT 0.01 0.01 0.00 0.01 0.00 0.01 0.25 0.42 0.20 0.32 0.49 0.19 0.20 0.33 0.19 0.36 0.16 0.05 0.06 0.04 0.06 0.06 0.05RG AGGGGA 0.00 0.00 0.00 0.00 0.00 0.00 0.04 0.01 0.06 0.02 0.00 0.04 0.06 0.02 0.08 0.01 0.07 0.04 0.04 0.04 0.03 0.03 0.04RG AGGGGC 0.00 0.00 0.01 0.01 0.00 0.00 0.04 0.02 0.03 0.02 0.01 0.04 0.03 0.02 0.02 0.01 0.04 0.06 0.05 0.07 0.05 0.05 0.05RG AGGGGG 0.00 0.00 0.01 0.00 0.00 0.00 0.02 0.01 0.03 0.01 0.00 0.03 0.01 0.00 0.02 0.00 0.03 0.03 0.02 0.03 0.02 0.02 0.03RG AGGGGT 0.00 0.00 0.00 0.00 0.00 0.00 0.06 0.06 0.06 0.06 0.05 0.07 0.05 0.03 0.05 0.03 0.07 0.03 0.03 0.03 0.05 0.04 0.04RG CGAGGA 0.01 0.01 0.01 0.01 0.00 0.01 0.02 0.00 0.04 0.01 0.00 0.03 0.04 0.02 0.05 0.01 0.05 0.05 0.06 0.05 0.05 0.06 0.07RG CGAGGC 0.01 0.01 0.01 0.00 0.00 0.02 0.01 0.00 0.01 0.01 0.00 0.02 0.02 0.01 0.02 0.01 0.01 0.06 0.05 0.07 0.06 0.06 0.06RG CGAGGG 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.00 0.00 0.00 0.00 0.01 0.01 0.00 0.00 0.00 0.01 0.04 0.04 0.04 0.04 0.03 0.04RG CGAGGT 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.00 0.02 0.01 0.00 0.02 0.03 0.02 0.04 0.01 0.04 0.03 0.04 0.03 0.04 0.04 0.03RG CGCGGA 0.04 0.01 0.05 0.02 0.01 0.04 0.01 0.01 0.02 0.01 0.00 0.02 0.01 0.00 0.00 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.01RG CGCGGC 0.21 0.21 0.24 0.28 0.21 0.19 0.01 0.00 0.03 0.01 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.02 0.03 0.02 0.02 0.02 0.01RG CGCGGG 0.06 0.03 0.09 0.05 0.03 0.04 0.01 0.01 0.01 0.00 0.00 0.01 0.00 0.00 0.01 0.00 0.00 0.01 0.01 0.01 0.01 0.02 0.01RG CGCGGT 0.16 0.16 0.17 0.14 0.20 0.17 0.02 0.01 0.01 0.02 0.02 0.02 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.00 0.01 0.00RG CGGGGA 0.02 0.00 0.01 0.01 0.00 0.03 0.01 0.00 0.01 0.01 0.00 0.01 0.02 0.01 0.02 0.00 0.02 0.04 0.03 0.05 0.05 0.03 0.05RG CGGGGC 0.02 0.00 0.02 0.01 0.00 0.02 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.00 0.07 0.06 0.08 0.06 0.06 0.06RG CGGGGG 0.01 0.01 0.02 0.01 0.00 0.02 0.00 0.00 0.00 0.00 0.00 0.01 0.00 0.00 0.01 0.00 0.01 0.03 0.02 0.03 0.02 0.02 0.02RG CGGGGT 0.01 0.00 0.02 0.01 0.00 0.02 0.01 0.00 0.01 0.00 0.00 0.02 0.01 0.01 0.01 0.00 0.01 0.03 0.04 0.03 0.04 0.03 0.04RG CGTGGA 0.04 0.02 0.04 0.01 0.02 0.03 0.04 0.02 0.04 0.03 0.02 0.05 0.07 0.09 0.04 0.09 0.05 0.04 0.05 0.03 0.05 0.06 0.04RG CGTGGC 0.16 0.21 0.15 0.14 0.21 0.16 0.04 0.04 0.04 0.04 0.04 0.04 0.02 0.02 0.01 0.03 0.01 0.05 0.05 0.06 0.04 0.05 0.05RG CGTGGG 0.05 0.03 0.05 0.02 0.02 0.06 0.02 0.02 0.04 0.03 0.02 0.02 0.02 0.02 0.02 0.01 0.01 0.04 0.04 0.04 0.02 0.05 0.04RG CGTGGT 0.14 0.27 0.10 0.25 0.25 0.12 0.11 0.21 0.06 0.15 0.18 0.08 0.07 0.14 0.03 0.18 0.04 0.03 0.05 0.03 0.04 0.06 0.03RH AGACAC 0.01 0.01 0.01 0.01 0.01 0.01 0.16 0.29 0.14 0.19 0.33 0.12 0.18 0.27 0.15 0.29 0.18 0.12 0.12 0.12 0.11 0.07 0.12RH AGACAT 0.02 0.01 0.01 0.01 0.00 0.02 0.27 0.30 0.28 0.32 0.33 0.24 0.24 0.20 0.31 0.25 0.22 0.13 0.12 0.10 0.11 0.07 0.13RH AGGCAC 0.00 0.00 0.00 0.00 0.00 0.01 0.07 0.03 0.08 0.08 0.03 0.06 0.06 0.02 0.06 0.02 0.07 0.12 0.10 0.13 0.10 0.08 0.11RH AGGCAT 0.01 0.00 0.01 0.00 0.00 0.01 0.14 0.06 0.18 0.08 0.02 0.19 0.12 0.07 0.18 0.03 0.12 0.10 0.12 0.09 0.11 0.08 0.11RH CGACAC 0.02 0.00 0.03 0.00 0.00 0.02 0.02 0.00 0.04 0.01 0.00 0.03 0.04 0.02 0.02 0.02 0.04 0.06 0.05 0.06 0.08 0.05 0.07RH CGACAT 0.04 0.04 0.05 0.04 0.01 0.05 0.06 0.00 0.04 0.01 0.00 0.07 0.05 0.03 0.05 0.02 0.09 0.05 0.04 0.04 0.06 0.06 0.06RH CGCCAC 0.17 0.21 0.13 0.20 0.22 0.14 0.03 0.02 0.03 0.04 0.02 0.03 0.03 0.03 0.03 0.05 0.02 0.11 0.11 0.15 0.08 0.22 0.08RH CGCCAT 0.25 0.16 0.29 0.18 0.12 0.23 0.06 0.03 0.05 0.05 0.02 0.08 0.05 0.05 0.02 0.04 0.04 0.08 0.09 0.09 0.04 0.09 0.08RH CGGCAC 0.03 0.01 0.04 0.01 0.00 0.04 0.02 0.00 0.03 0.00 0.00 0.02 0.02 0.00 0.01 0.00 0.01 0.10 0.07 0.10 0.11 0.10 0.09RH CGGCAT 0.06 0.01 0.08 0.04 0.02 0.08 0.02 0.00 0.02 0.01 0.00 0.02 0.02 0.01 0.04 0.00 0.05 0.07 0.09 0.06 0.09 0.07 0.07RH CGTCAC 0.17 0.33 0.18 0.28 0.39 0.14 0.06 0.13 0.05 0.08 0.13 0.04 0.07 0.14 0.07 0.16 0.06 0.05 0.04 0.04 0.05 0.04 0.04RH CGTCAT 0.23 0.21 0.18 0.22 0.23 0.25 0.10 0.12 0.07 0.13 0.12 0.09 0.12 0.16 0.07 0.12 0.10 0.04 0.05 0.02 0.05 0.06 0.03RI AGAATA 0.01 0.00 0.00 0.00 0.00 0.01 0.16 0.07 0.17 0.11 0.06 0.17 0.12 0.07 0.14 0.04 0.13 0.07 0.05 0.04 0.07 0.04 0.07RI AGAATC 0.01 0.01 0.00 0.02 0.00 0.01 0.12 0.22 0.10 0.16 0.26 0.09 0.13 0.22 0.13 0.28 0.12 0.09 0.09 0.10 0.07 0.07 0.09RI AGAATT 0.02 0.00 0.02 0.01 0.00 0.02 0.22 0.33 0.19 0.30 0.36 0.18 0.20 0.24 0.21 0.27 0.18 0.11 0.10 0.08 0.10 0.10 0.11RI AGGATA 0.00 0.01 0.01 0.00 0.00 0.00 0.07 0.02 0.07 0.04 0.01 0.10 0.06 0.02 0.06 0.01 0.07 0.05 0.03 0.05 0.06 0.02 0.05RI AGGATC 0.01 0.00 0.01 0.00 0.00 0.00 0.04 0.02 0.04 0.03 0.02 0.04 0.04 0.03 0.05 0.01 0.06 0.10 0.09 0.12 0.09 0.07 0.09RI AGGATT 0.01 0.00 0.01 0.00 0.00 0.00 0.08 0.04 0.08 0.07 0.04 0.07 0.06 0.03 0.07 0.01 0.07 0.09 0.08 0.09 0.06 0.07 0.08RI CGAATA 0.01 0.00 0.01 0.00 0.00 0.00 0.03 0.00 0.05 0.01 0.00 0.05 0.03 0.01 0.04 0.00 0.04 0.02 0.01 0.01 0.02 0.02 0.03RI CGAATC 0.02 0.01 0.02 0.00 0.01 0.02 0.02 0.00 0.03 0.01 0.00 0.02 0.04 0.03 0.04 0.02 0.03 0.06 0.07 0.07 0.08 0.09 0.06RI CGAATT 0.04 0.02 0.04 0.02 0.02 0.07 0.03 0.01 0.02 0.02 0.00 0.04 0.05 0.04 0.05 0.04 0.06 0.05 0.05 0.04 0.06 0.04 0.06RI CGCATA 0.02 0.02 0.02 0.01 0.00 0.03 0.02 0.00 0.02 0.01 0.00 0.03 0.02 0.02 0.02 0.01 0.03 0.01 0.02 0.02 0.02 0.02 0.02RI CGCATC 0.14 0.15 0.17 0.18 0.14 0.15 0.01 0.01 0.02 0.01 0.01 0.01 0.02 0.01 0.01 0.01 0.02 0.11 0.11 0.13 0.09 0.17 0.11RI CGCATT 0.21 0.18 0.24 0.20 0.20 0.22 0.02 0.01 0.04 0.02 0.01 0.02 0.02 0.01 0.02 0.02 0.02 0.05 0.07 0.05 0.05 0.07 0.05RI CGGATA 0.02 0.01 0.02 0.00 0.00 0.02 0.01 0.00 0.01 0.01 0.00 0.01 0.02 0.00 0.02 0.00 0.01 0.03 0.03 0.02 0.03 0.02 0.03RI CGGATC 0.03 0.02 0.04 0.01 0.01 0.03 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.01 0.02 0.00 0.02 0.07 0.07 0.08 0.08 0.09 0.07RI CGGATT 0.05 0.02 0.04 0.02 0.02 0.06 0.01 0.01 0.02 0.01 0.00 0.02 0.02 0.01 0.02 0.01 0.02 0.05 0.06 0.04 0.06 0.06 0.05RI CGTATA 0.01 0.01 0.01 0.01 0.02 0.01 0.03 0.03 0.03 0.03 0.02 0.04 0.03 0.02 0.02 0.02 0.02 0.01 0.01 0.01 0.01 0.01 0.01RI CGTATC 0.15 0.30 0.15 0.25 0.31 0.13 0.04 0.09 0.02 0.06 0.08 0.03 0.05 0.10 0.03 0.11 0.04 0.03 0.03 0.03 0.03 0.02 0.03RI CGTATT 0.23 0.25 0.18 0.28 0.26 0.20 0.07 0.12 0.06 0.11 0.12 0.06 0.07 0.13 0.05 0.13 0.06 0.02 0.03 0.02 0.02 0.03 0.02RK AGAAAA 0.04 0.03 0.03 0.01 0.00 0.05 0.27 0.21 0.24 0.26 0.21 0.28 0.22 0.17 0.25 0.19 0.24 0.12 0.10 0.09 0.11 0.08 0.14RK AGAAAG 0.02 0.00 0.02 0.00 0.00 0.03 0.22 0.46 0.18 0.28 0.52 0.17 0.23 0.38 0.21 0.48 0.18 0.11 0.12 0.11 0.09 0.08 0.11RK AGGAAA 0.01 0.00 0.00 0.00 0.00 0.02 0.16 0.07 0.18 0.13 0.06 0.20 0.12 0.04 0.13 0.02 0.12 0.14 0.12 0.14 0.13 0.10 0.14RK AGGAAG 0.01 0.00 0.01 0.00 0.00 0.01 0.09 0.07 0.11 0.09 0.05 0.09 0.08 0.05 0.08 0.03 0.09 0.19 0.17 0.23 0.17 0.15 0.18RK CGAAAA 0.05 0.02 0.04 0.04 0.02 0.08 0.04 0.01 0.05 0.02 0.00 0.05 0.06 0.03 0.07 0.02 0.07 0.04 0.05 0.03 0.06 0.06 0.05RK CGAAAG 0.01 0.00 0.01 0.00 0.00 0.01 0.02 0.01 0.03 0.01 0.00 0.02 0.06 0.06 0.05 0.03 0.06 0.06 0.06 0.05 0.07 0.06 0.06RK CGCAAA 0.26 0.22 0.36 0.24 0.23 0.25 0.03 0.01 0.03 0.03 0.01 0.03 0.04 0.03 0.04 0.03 0.05 0.04 0.05 0.04 0.04 0.06 0.04RK CGCAAG 0.10 0.08 0.07 0.12 0.08 0.08 0.02 0.01 0.03 0.02 0.01 0.03 0.04 0.06 0.04 0.03 0.05 0.08 0.11 0.10 0.09 0.16 0.07RK CGGAAA 0.03 0.01 0.03 0.01 0.00 0.04 0.03 0.01 0.04 0.01 0.00 0.03 0.03 0.01 0.04 0.00 0.04 0.07 0.08 0.05 0.09 0.08 0.07RK CGGAAG 0.02 0.01 0.00 0.00 0.00 0.01 0.02 0.01 0.01 0.01 0.00 0.02 0.02 0.01 0.02 0.01 0.02 0.11 0.10 0.12 0.11 0.10 0.11RK CGTAAA 0.32 0.43 0.33 0.42 0.50 0.29 0.06 0.08 0.05 0.09 0.06 0.06 0.05 0.06 0.05 0.05 0.04 0.02 0.02 0.01 0.02 0.03 0.02RK CGTAAG 0.12 0.20 0.10 0.16 0.16 0.13 0.04 0.07 0.03 0.06 0.07 0.03 0.05 0.10 0.04 0.12 0.04 0.02 0.01 0.02 0.01 0.03 0.02RL AGACTA 0.00 0.00 0.00 0.00 0.00 0.00 0.07 0.07 0.05 0.07 0.08 0.06 0.05 0.03 0.06 0.03 0.05 0.02 0.02 0.01 0.02 0.01 0.02RL AGACTC 0.00 0.00 0.00 0.00 0.00 0.00 0.02 0.01 0.02 0.01 0.01 0.02 0.03 0.04 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0.01 0.03RL AGACTG 0.01 0.01 0.01 0.01 0.00 0.01 0.05 0.05 0.07 0.05 0.04 0.05 0.06 0.09 0.06 0.09 0.05 0.06 0.05 0.05 0.06 0.04 0.07RL AGACTT 0.01 0.00 0.01 0.00 0.01 0.01 0.04 0.02 0.04 0.04 0.04 0.04 0.06 0.05 0.06 0.07 0.07 0.04 0.03 0.02 0.03 0.02 0.04RL AGATTA 0.01 0.00 0.00 0.00 0.00 0.01 0.14 0.19 0.14 0.17 0.22 0.15 0.08 0.06 0.08 0.07 0.07 0.02 0.02 0.01 0.02 0.01 0.02RL AGATTG 0.00 0.00 0.00 0.00 0.00 0.01 0.12 0.25 0.09 0.17 0.28 0.09 0.12 0.23 0.10 0.29 0.10 0.02 0.02 0.01 0.03 0.02 0.03RL AGGCTA 0.00 0.00 0.00 0.00 0.00 0.00 0.04 0.01 0.04 0.03 0.01 0.05 0.03 0.01 0.02 0.01 0.03 0.02 0.02 0.02 0.02 0.02 0.03RL AGGCTC 0.00 0.00 0.00 0.00 0.00 0.00 0.02 0.01 0.02 0.01 0.00 0.02 0.02 0.01 0.02 0.00 0.03 0.04 0.04 0.04 0.03 0.02 0.04RL AGGCTG 0.01 0.00 0.01 0.01 0.00 0.01 0.03 0.02 0.03 0.02 0.01 0.02 0.04 0.03 0.04 0.01 0.04 0.09 0.07 0.12 0.09 0.08 0.09RL AGGCTT 0.01 0.00 0.01 0.00 0.00 0.01 0.03 0.01 0.03 0.03 0.01 0.04 0.03 0.02 0.03 0.00 0.04 0.03 0.05 0.03 0.04 0.03 0.04RL AGGTTA 0.00 0.00 0.00 0.00 0.00 0.00 0.06 0.04 0.05 0.06 0.04 0.07 0.04 0.02 0.04 0.02 0.04 0.01 0.01 0.01 0.01 0.01 0.02RL AGGTTG 0.01 0.00 0.01 0.00 0.00 0.00 0.05 0.04 0.04 0.05 0.03 0.05 0.05 0.03 0.05 0.02 0.05 0.02 0.03 0.02 0.03 0.03 0.02RL CGACTA 0.01 0.00 0.01 0.00 0.01 0.01 0.02 0.00 0.02 0.01 0.00 0.02 0.02 0.02 0.01 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01RL CGACTC 0.01 0.00 0.01 0.00 0.01 0.01 0.00 0.00 0.01 0.00 0.00 0.00 0.01 0.01 0.02 0.00 0.01 0.02 0.02 0.02 0.01 0.02 0.02RL CGACTG 0.05 0.01 0.06 0.02 0.02 0.05 0.01 0.00 0.01 0.00 0.00 0.01 0.02 0.01 0.01 0.00 0.03 0.03 0.03 0.03 0.03 0.04 0.03RL CGACTT 0.01 0.00 0.01 0.00 0.01 0.01 0.01 0.00 0.01 0.00 0.00 0.02 0.02 0.01 0.01 0.00 0.02 0.02 0.02 0.02 0.01 0.02 0.02RL CGATTA 0.01 0.00 0.01 0.00 0.00 0.01 0.02 0.01 0.03 0.01 0.00 0.03 0.03 0.02 0.03 0.01 0.03 0.01 0.01 0.00 0.00 0.00 0.01RL CGATTG 0.01 0.01 0.01 0.00 0.01 0.01 0.02 0.00 0.02 0.01 0.00 0.03 0.04 0.02 0.03 0.01 0.04 0.01 0.02 0.01 0.02 0.01 0.01RL CGCCTA 0.00 0.00 0.00 0.00 0.00 0.01 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.00 0.01 0.00 0.01 0.02 0.01 0.02 0.02 0.01 0.02RL CGCCTC 0.02 0.02 0.02 0.02 0.02 0.02 0.00 0.00 0.01 0.01 0.00 0.01 0.00 0.00 0.00 0.00 0.01 0.05 0.05 0.06 0.04 0.06 0.04RL CGCCTG 0.18 0.23 0.19 0.26 0.23 0.18 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.09 0.10 0.11 0.08 0.12 0.07RL CGCCTT 0.02 0.02 0.02 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.03 0.02 0.03 0.02 0.03RL CGCTTA 0.03 0.01 0.04 0.02 0.01 0.03 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.01 0.00 0.01RL CGCTTG 0.03 0.02 0.02 0.01 0.01 0.04 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.01 0.01 0.02 0.03 0.03 0.03 0.03 0.02RL CGGCTA 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.00 0.02 0.00 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.02 0.01 0.02 0.02 0.02 0.02RL CGGCTC 0.01 0.00 0.01 0.00 0.00 0.01 0.00 0.00 0.01 0.00 0.00 0.01 0.00 0.00 0.00 0.00 0.01 0.04 0.03 0.04 0.04 0.04 0.04RL CGGCTG 0.06 0.02 0.09 0.02 0.01 0.08 0.01 0.00 0.02 0.00 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.08 0.07 0.09 0.07 0.09 0.07RL CGGCTT 0.01 0.00 0.01 0.01 0.00 0.02 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.00 0.01 0.00 0.01 0.02 0.03 0.02 0.03 0.03 0.03RL CGGTTA 0.02 0.01 0.03 0.00 0.00 0.02 0.01 0.00 0.01 0.01 0.00 0.02 0.01 0.00 0.01 0.00 0.02 0.01 0.01 0.00 0.01 0.01 0.01RL CGGTTG 0.02 0.00 0.04 0.00 0.01 0.02 0.01 0.00 0.02 0.01 0.00 0.02 0.02 0.01 0.02 0.00 0.02 0.02 0.02 0.01 0.01 0.02 0.02

Continued on next page

Page 168: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 155

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

RL CGTCTA 0.01 0.00 0.01 0.00 0.00 0.01 0.02 0.03 0.02 0.03 0.03 0.02 0.02 0.02 0.01 0.02 0.02 0.01 0.01 0.01 0.01 0.01 0.01RL CGTCTC 0.03 0.04 0.03 0.05 0.03 0.04 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.03 0.01 0.02 0.01 0.02 0.02 0.02 0.02 0.03 0.02RL CGTCTG 0.24 0.44 0.19 0.38 0.48 0.18 0.01 0.02 0.02 0.02 0.01 0.01 0.02 0.04 0.03 0.07 0.01 0.03 0.04 0.04 0.03 0.05 0.03RL CGTCTT 0.04 0.05 0.04 0.06 0.05 0.04 0.02 0.02 0.01 0.02 0.02 0.02 0.03 0.04 0.04 0.06 0.03 0.01 0.02 0.01 0.02 0.02 0.02RL CGTTTA 0.05 0.04 0.03 0.05 0.03 0.06 0.04 0.07 0.05 0.06 0.05 0.03 0.03 0.04 0.03 0.04 0.03 0.01 0.01 0.00 0.01 0.01 0.01RL CGTTTG 0.06 0.04 0.06 0.04 0.04 0.05 0.04 0.08 0.05 0.06 0.07 0.03 0.04 0.07 0.04 0.08 0.04 0.01 0.01 0.01 0.02 0.02 0.02RM AGAATG 0.04 0.00 0.03 0.02 0.00 0.05 0.51 0.61 0.43 0.63 0.66 0.48 0.47 0.59 0.50 0.61 0.48 0.21 0.20 0.16 0.19 0.16 0.25RM AGGATG 0.02 0.01 0.02 0.00 0.01 0.01 0.19 0.13 0.16 0.14 0.08 0.22 0.16 0.05 0.17 0.03 0.18 0.28 0.23 0.28 0.23 0.25 0.25RM CGAATG 0.12 0.03 0.12 0.07 0.08 0.09 0.09 0.02 0.16 0.03 0.00 0.12 0.14 0.09 0.17 0.01 0.14 0.13 0.13 0.11 0.18 0.13 0.13RM CGCATG 0.28 0.29 0.26 0.31 0.32 0.30 0.06 0.03 0.09 0.04 0.04 0.04 0.06 0.02 0.07 0.02 0.06 0.18 0.21 0.24 0.16 0.22 0.16RM CGGATG 0.25 0.19 0.33 0.22 0.12 0.33 0.04 0.01 0.06 0.02 0.00 0.05 0.05 0.01 0.04 0.01 0.05 0.16 0.19 0.17 0.20 0.17 0.18RM CGTATG 0.29 0.48 0.24 0.38 0.47 0.23 0.11 0.20 0.10 0.14 0.21 0.09 0.13 0.24 0.06 0.31 0.09 0.04 0.04 0.05 0.05 0.07 0.04RN AGAAAC 0.02 0.00 0.01 0.00 0.00 0.02 0.23 0.38 0.19 0.25 0.44 0.22 0.22 0.35 0.21 0.46 0.20 0.15 0.15 0.15 0.16 0.13 0.16RN AGAAAT 0.03 0.01 0.03 0.00 0.01 0.05 0.32 0.27 0.31 0.33 0.29 0.30 0.25 0.20 0.28 0.20 0.24 0.16 0.13 0.12 0.12 0.11 0.19RN AGGAAC 0.01 0.00 0.01 0.00 0.00 0.01 0.08 0.06 0.08 0.09 0.04 0.09 0.07 0.06 0.08 0.03 0.09 0.16 0.16 0.19 0.13 0.14 0.14RN AGGAAT 0.01 0.00 0.01 0.00 0.00 0.01 0.11 0.07 0.10 0.09 0.06 0.13 0.10 0.06 0.10 0.02 0.10 0.13 0.10 0.13 0.12 0.12 0.12RN CGAAAC 0.02 0.00 0.03 0.01 0.01 0.01 0.03 0.01 0.04 0.01 0.00 0.02 0.06 0.03 0.07 0.01 0.07 0.06 0.07 0.07 0.08 0.08 0.06RN CGAAAT 0.04 0.01 0.04 0.02 0.00 0.04 0.05 0.01 0.07 0.02 0.00 0.05 0.07 0.04 0.06 0.02 0.08 0.06 0.07 0.04 0.07 0.06 0.07RN CGCAAC 0.17 0.20 0.21 0.21 0.19 0.18 0.02 0.02 0.02 0.03 0.02 0.02 0.03 0.04 0.02 0.03 0.03 0.06 0.08 0.07 0.06 0.10 0.06RN CGCAAT 0.19 0.15 0.23 0.16 0.11 0.24 0.03 0.02 0.04 0.03 0.01 0.04 0.04 0.04 0.03 0.04 0.05 0.04 0.05 0.05 0.03 0.05 0.04RN CGGAAC 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.00 0.02 0.01 0.00 0.02 0.02 0.00 0.02 0.00 0.03 0.09 0.08 0.08 0.10 0.08 0.08RN CGGAAT 0.01 0.01 0.01 0.01 0.01 0.01 0.03 0.01 0.02 0.01 0.00 0.03 0.03 0.01 0.02 0.00 0.03 0.07 0.07 0.06 0.08 0.07 0.06RN CGTAAC 0.27 0.47 0.23 0.37 0.48 0.19 0.04 0.08 0.04 0.05 0.07 0.02 0.05 0.12 0.05 0.12 0.03 0.02 0.02 0.02 0.03 0.03 0.02RN CGTAAT 0.23 0.14 0.20 0.22 0.20 0.22 0.06 0.07 0.07 0.08 0.06 0.05 0.05 0.06 0.04 0.06 0.04 0.02 0.02 0.01 0.03 0.03 0.02RP AGACCA 0.01 0.00 0.00 0.01 0.00 0.01 0.18 0.40 0.14 0.25 0.47 0.14 0.17 0.26 0.15 0.28 0.15 0.07 0.08 0.06 0.07 0.08 0.09RP AGACCC 0.01 0.01 0.01 0.00 0.00 0.01 0.06 0.04 0.06 0.05 0.04 0.06 0.08 0.05 0.06 0.07 0.08 0.06 0.06 0.07 0.06 0.04 0.06RP AGACCG 0.01 0.00 0.01 0.00 0.00 0.02 0.06 0.04 0.02 0.05 0.05 0.06 0.04 0.05 0.03 0.04 0.05 0.01 0.01 0.01 0.01 0.01 0.01RP AGACCT 0.01 0.01 0.01 0.01 0.00 0.02 0.14 0.19 0.15 0.17 0.20 0.14 0.15 0.17 0.14 0.22 0.12 0.08 0.07 0.06 0.09 0.07 0.08RP AGGCCA 0.01 0.01 0.01 0.01 0.01 0.00 0.11 0.06 0.11 0.10 0.06 0.10 0.07 0.04 0.08 0.02 0.06 0.07 0.07 0.08 0.08 0.08 0.08RP AGGCCC 0.00 0.00 0.00 0.00 0.00 0.01 0.05 0.02 0.04 0.03 0.00 0.05 0.04 0.02 0.04 0.02 0.04 0.07 0.08 0.09 0.07 0.05 0.06RP AGGCCG 0.01 0.01 0.02 0.00 0.01 0.01 0.04 0.01 0.03 0.02 0.01 0.04 0.03 0.01 0.03 0.00 0.03 0.02 0.02 0.02 0.01 0.02 0.02RP AGGCCT 0.00 0.00 0.00 0.00 0.00 0.00 0.08 0.03 0.10 0.05 0.03 0.12 0.07 0.05 0.07 0.04 0.09 0.08 0.09 0.08 0.06 0.05 0.09RP CGACCA 0.02 0.00 0.01 0.01 0.00 0.03 0.03 0.01 0.03 0.01 0.00 0.03 0.04 0.03 0.03 0.01 0.05 0.03 0.03 0.03 0.04 0.02 0.04RP CGACCC 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.00 0.01 0.00 0.00 0.01 0.02 0.01 0.03 0.00 0.02 0.03 0.03 0.03 0.03 0.03 0.03RP CGACCG 0.04 0.01 0.03 0.00 0.00 0.05 0.00 0.00 0.01 0.00 0.00 0.00 0.01 0.01 0.03 0.00 0.03 0.01 0.01 0.01 0.01 0.01 0.00RP CGACCT 0.02 0.01 0.01 0.00 0.01 0.03 0.02 0.00 0.05 0.01 0.00 0.04 0.03 0.01 0.03 0.01 0.04 0.03 0.03 0.03 0.04 0.04 0.04RP CGCCCA 0.06 0.06 0.07 0.08 0.07 0.05 0.02 0.01 0.03 0.02 0.02 0.02 0.02 0.02 0.03 0.02 0.03 0.04 0.04 0.03 0.04 0.05 0.03RP CGCCCC 0.04 0.03 0.05 0.01 0.04 0.05 0.01 0.00 0.02 0.01 0.01 0.01 0.01 0.02 0.01 0.01 0.01 0.04 0.05 0.04 0.03 0.06 0.04RP CGCCCG 0.24 0.22 0.33 0.21 0.23 0.22 0.01 0.00 0.01 0.01 0.00 0.01 0.00 0.00 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.01RP CGCCCT 0.05 0.06 0.06 0.05 0.05 0.05 0.02 0.00 0.03 0.01 0.00 0.01 0.02 0.03 0.02 0.02 0.03 0.04 0.04 0.04 0.04 0.05 0.04RP CGGCCA 0.01 0.00 0.02 0.01 0.01 0.01 0.01 0.00 0.02 0.00 0.00 0.01 0.02 0.02 0.02 0.00 0.02 0.06 0.05 0.06 0.07 0.06 0.06RP CGGCCC 0.01 0.00 0.00 0.00 0.00 0.01 0.01 0.00 0.01 0.01 0.00 0.02 0.01 0.00 0.01 0.00 0.01 0.07 0.06 0.08 0.07 0.08 0.07RP CGGCCG 0.01 0.00 0.01 0.00 0.00 0.02 0.01 0.00 0.01 0.01 0.00 0.00 0.01 0.00 0.01 0.00 0.01 0.02 0.02 0.03 0.01 0.03 0.01RP CGGCCT 0.01 0.01 0.01 0.00 0.00 0.02 0.01 0.01 0.01 0.01 0.00 0.02 0.01 0.00 0.01 0.00 0.01 0.06 0.06 0.06 0.08 0.05 0.06RP CGTCCA 0.07 0.05 0.04 0.06 0.05 0.07 0.04 0.08 0.04 0.06 0.07 0.03 0.06 0.09 0.06 0.11 0.04 0.03 0.03 0.03 0.02 0.03 0.03RP CGTCCC 0.03 0.01 0.02 0.05 0.01 0.04 0.02 0.02 0.01 0.03 0.00 0.01 0.03 0.04 0.03 0.02 0.03 0.03 0.04 0.03 0.02 0.04 0.02RP CGTCCG 0.27 0.40 0.22 0.42 0.42 0.24 0.01 0.01 0.02 0.02 0.02 0.02 0.01 0.02 0.01 0.01 0.01 0.01 0.00 0.00 0.01 0.01 0.01RP CGTCCT 0.06 0.11 0.05 0.06 0.11 0.05 0.04 0.04 0.04 0.06 0.03 0.04 0.05 0.07 0.06 0.10 0.04 0.03 0.03 0.02 0.04 0.03 0.02RQ AGACAA 0.01 0.01 0.01 0.00 0.01 0.01 0.29 0.55 0.20 0.37 0.58 0.24 0.24 0.29 0.24 0.34 0.23 0.08 0.07 0.07 0.08 0.03 0.09RQ AGACAG 0.01 0.01 0.01 0.01 0.01 0.02 0.13 0.10 0.11 0.15 0.09 0.17 0.18 0.22 0.18 0.26 0.15 0.13 0.14 0.13 0.15 0.12 0.14RQ AGGCAA 0.01 0.00 0.02 0.00 0.00 0.01 0.16 0.07 0.16 0.12 0.06 0.16 0.11 0.08 0.14 0.06 0.13 0.07 0.06 0.07 0.07 0.05 0.08RQ AGGCAG 0.01 0.01 0.00 0.03 0.01 0.00 0.08 0.03 0.11 0.06 0.02 0.09 0.07 0.04 0.08 0.04 0.06 0.17 0.16 0.21 0.16 0.14 0.17RQ CGACAA 0.03 0.00 0.03 0.01 0.01 0.02 0.04 0.00 0.06 0.02 0.00 0.07 0.06 0.04 0.06 0.00 0.08 0.03 0.04 0.02 0.03 0.03 0.04RQ CGACAG 0.03 0.01 0.03 0.01 0.01 0.02 0.03 0.00 0.03 0.01 0.00 0.04 0.03 0.01 0.05 0.00 0.05 0.07 0.09 0.07 0.08 0.10 0.06RQ CGCCAA 0.04 0.03 0.04 0.05 0.02 0.03 0.05 0.04 0.03 0.06 0.04 0.04 0.04 0.02 0.02 0.01 0.05 0.04 0.03 0.04 0.04 0.04 0.04RQ CGCCAG 0.34 0.32 0.39 0.33 0.30 0.40 0.02 0.01 0.03 0.02 0.00 0.02 0.03 0.03 0.03 0.03 0.03 0.13 0.14 0.15 0.13 0.15 0.13RQ CGGCAA 0.06 0.02 0.06 0.03 0.01 0.05 0.03 0.01 0.03 0.01 0.00 0.03 0.03 0.00 0.03 0.00 0.05 0.04 0.04 0.04 0.04 0.04 0.05RQ CGGCAG 0.07 0.03 0.08 0.04 0.02 0.08 0.02 0.00 0.05 0.00 0.00 0.02 0.02 0.02 0.03 0.00 0.05 0.15 0.15 0.14 0.16 0.21 0.13RQ CGTCAA 0.04 0.07 0.04 0.04 0.08 0.07 0.10 0.18 0.10 0.17 0.18 0.07 0.11 0.20 0.11 0.20 0.09 0.02 0.02 0.01 0.01 0.03 0.02RQ CGTCAG 0.33 0.48 0.29 0.45 0.53 0.29 0.04 0.01 0.06 0.03 0.01 0.05 0.05 0.05 0.04 0.06 0.04 0.05 0.06 0.05 0.05 0.07 0.06RR AGAAGA 0.01 0.00 0.01 0.00 0.00 0.01 0.30 0.47 0.28 0.33 0.54 0.26 0.24 0.41 0.21 0.52 0.20 0.08 0.08 0.05 0.08 0.07 0.09RR AGAAGG 0.00 0.00 0.00 0.00 0.00 0.01 0.12 0.06 0.09 0.10 0.06 0.14 0.10 0.05 0.12 0.04 0.13 0.05 0.06 0.05 0.04 0.03 0.05RR AGACGA 0.01 0.00 0.00 0.00 0.00 0.01 0.02 0.01 0.02 0.01 0.00 0.03 0.05 0.04 0.07 0.01 0.05 0.02 0.02 0.01 0.02 0.02 0.02RR AGACGC 0.01 0.00 0.01 0.00 0.00 0.01 0.02 0.01 0.02 0.01 0.01 0.01 0.02 0.01 0.02 0.01 0.02 0.02 0.01 0.02 0.01 0.02 0.02RR AGACGG 0.00 0.01 0.01 0.00 0.00 0.00 0.02 0.00 0.03 0.01 0.01 0.02 0.02 0.01 0.02 0.00 0.03 0.02 0.03 0.01 0.02 0.02 0.02RR AGACGT 0.01 0.00 0.01 0.02 0.01 0.00 0.05 0.10 0.03 0.08 0.10 0.04 0.04 0.07 0.03 0.10 0.04 0.01 0.02 0.01 0.01 0.02 0.01RR AGGAGA 0.00 0.00 0.00 0.00 0.00 0.00 0.09 0.05 0.08 0.09 0.03 0.09 0.06 0.03 0.06 0.02 0.07 0.07 0.07 0.06 0.07 0.05 0.07RR AGGAGG 0.00 0.00 0.00 0.00 0.00 0.00 0.04 0.02 0.07 0.02 0.02 0.05 0.03 0.01 0.04 0.00 0.03 0.07 0.06 0.08 0.05 0.04 0.08RR AGGCGA 0.00 0.00 0.00 0.00 0.00 0.01 0.02 0.00 0.03 0.02 0.00 0.03 0.02 0.01 0.03 0.00 0.03 0.02 0.02 0.02 0.02 0.02 0.02RR AGGCGC 0.01 0.00 0.00 0.00 0.00 0.02 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.03 0.02 0.03 0.02 0.03 0.03RR AGGCGG 0.00 0.00 0.00 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.00 0.02 0.01 0.01 0.02 0.00 0.02 0.04 0.03 0.04 0.04 0.03 0.04RR AGGCGT 0.01 0.00 0.00 0.00 0.00 0.00 0.03 0.01 0.02 0.03 0.01 0.02 0.02 0.02 0.01 0.02 0.01 0.02 0.01 0.02 0.02 0.02 0.01RR CGAAGA 0.00 0.00 0.00 0.00 0.00 0.00 0.03 0.01 0.04 0.01 0.00 0.04 0.07 0.04 0.06 0.03 0.08 0.04 0.05 0.03 0.04 0.04 0.04RR CGAAGG 0.00 0.00 0.00 0.01 0.00 0.00 0.01 0.00 0.03 0.00 0.00 0.03 0.03 0.01 0.03 0.00 0.05 0.03 0.03 0.03 0.03 0.03 0.03RR CGACGA 0.01 0.00 0.01 0.00 0.00 0.01 0.00 0.00 0.01 0.00 0.00 0.00 0.01 0.00 0.01 0.00 0.02 0.01 0.01 0.01 0.01 0.01 0.01RR CGACGC 0.03 0.00 0.03 0.01 0.00 0.03 0.00 0.00 0.00 0.00 0.00 0.01 0.01 0.01 0.00 0.00 0.01 0.01 0.02 0.02 0.01 0.02 0.01RR CGACGG 0.01 0.00 0.01 0.00 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.00 0.01 0.00 0.01 0.01 0.01 0.02 0.02 0.01 0.02RR CGACGT 0.03 0.01 0.02 0.00 0.00 0.02 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.00 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.01RR CGCAGA 0.01 0.01 0.01 0.02 0.01 0.02 0.02 0.01 0.02 0.01 0.01 0.02 0.02 0.03 0.03 0.01 0.03 0.03 0.02 0.03 0.02 0.02 0.02RR CGCAGG 0.01 0.00 0.02 0.00 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.04 0.06 0.06 0.04 0.05 0.04RR CGCCGA 0.02 0.01 0.04 0.01 0.00 0.03 0.00 0.00 0.00 0.00 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.02 0.02 0.02 0.02 0.02 0.02RR CGCCGC 0.16 0.16 0.19 0.20 0.11 0.18 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.00 0.01 0.00 0.00 0.04 0.03 0.05 0.04 0.05 0.03RR CGCCGG 0.03 0.01 0.04 0.01 0.02 0.04 0.00 0.00 0.02 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.03 0.03 0.04 0.03 0.04 0.03RR CGCCGT 0.15 0.17 0.12 0.14 0.20 0.14 0.01 0.01 0.01 0.02 0.01 0.01 0.01 0.03 0.01 0.02 0.01 0.02 0.03 0.02 0.02 0.03 0.01RR CGGAGA 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.01 0.01 0.01 0.00 0.02 0.02 0.01 0.03 0.00 0.02 0.04 0.04 0.03 0.04 0.03 0.04RR CGGAGG 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.00 0.02 0.01 0.00 0.01 0.01 0.00 0.01 0.00 0.01 0.05 0.04 0.05 0.06 0.04 0.05RR CGGCGA 0.01 0.01 0.01 0.00 0.00 0.02 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.00 0.01 0.00 0.01 0.02 0.02 0.03 0.02 0.02 0.02RR CGGCGC 0.03 0.01 0.03 0.00 0.01 0.03 0.00 0.00 0.00 0.00 0.00 0.01 0.00 0.00 0.00 0.00 0.01 0.04 0.03 0.05 0.04 0.04 0.03RR CGGCGG 0.03 0.00 0.03 0.01 0.00 0.03 0.00 0.00 0.00 0.00 0.00 0.01 0.00 0.00 0.01 0.00 0.00 0.04 0.03 0.03 0.03 0.03 0.03RR CGGCGT 0.04 0.02 0.05 0.00 0.01 0.03 0.00 0.00 0.01 0.00 0.00 0.01 0.01 0.00 0.01 0.00 0.00 0.02 0.02 0.02 0.03 0.02 0.02RR CGTAGA 0.00 0.00 0.01 0.00 0.00 0.00 0.04 0.07 0.03 0.06 0.07 0.03 0.04 0.04 0.03 0.06 0.03 0.01 0.01 0.01 0.01 0.02 0.01RR CGTAGG 0.00 0.00 0.00 0.00 0.00 0.01 0.02 0.01 0.03 0.02 0.01 0.01 0.01 0.00 0.01 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01RR CGTCGA 0.02 0.01 0.02 0.01 0.01 0.02 0.01 0.00 0.01 0.01 0.01 0.02 0.02 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.01RR CGTCGC 0.16 0.21 0.14 0.21 0.21 0.13 0.01 0.01 0.03 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.01RR CGTCGG 0.04 0.01 0.06 0.03 0.02 0.06 0.01 0.00 0.00 0.00 0.00 0.01 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.02 0.01 0.02RR CGTCGT 0.15 0.34 0.12 0.31 0.40 0.10 0.04 0.12 0.03 0.08 0.12 0.02 0.04 0.06 0.03 0.08 0.02 0.01 0.01 0.01 0.02 0.02 0.01RS AGAAGC 0.01 0.00 0.00 0.00 0.00 0.00 0.06 0.05 0.06 0.07 0.03 0.06 0.05 0.04 0.07 0.04 0.06 0.06 0.06 0.06 0.06 0.07 0.06RS AGAAGT 0.01 0.01 0.02 0.00 0.01 0.02 0.09 0.06 0.09 0.08 0.05 0.09 0.07 0.07 0.07 0.06 0.09 0.06 0.06 0.04 0.06 0.05 0.07RS AGATCA 0.00 0.00 0.00 0.00 0.00 0.00 0.11 0.10 0.08 0.10 0.12 0.10 0.09 0.06 0.11 0.08 0.10 0.03 0.05 0.02 0.03 0.03 0.03RS AGATCC 0.00 0.00 0.00 0.01 0.00 0.00 0.06 0.12 0.06 0.08 0.14 0.05 0.07 0.11 0.06 0.13 0.05 0.03 0.03 0.03 0.03 0.02 0.03RS AGATCG 0.00 0.00 0.00 0.01 0.00 0.00 0.05 0.04 0.04 0.04 0.03 0.04 0.04 0.03 0.04 0.04 0.04 0.01 0.01 0.01 0.00 0.01 0.01RS AGATCT 0.00 0.00 0.00 0.00 0.00 0.00 0.10 0.22 0.07 0.15 0.27 0.08 0.11 0.17 0.11 0.22 0.11 0.04 0.04 0.03 0.03 0.04 0.04RS AGGAGC 0.00 0.00 0.01 0.00 0.00 0.01 0.02 0.01 0.01 0.02 0.00 0.03 0.02 0.01 0.01 0.01 0.02 0.06 0.05 0.07 0.06 0.03 0.06RS AGGAGT 0.01 0.00 0.01 0.00 0.00 0.01 0.03 0.01 0.03 0.02 0.01 0.04 0.02 0.01 0.03 0.01 0.03 0.04 0.04 0.05 0.04 0.03 0.04RS AGGTCA 0.00 0.01 0.00 0.00 0.00 0.00 0.05 0.02 0.04 0.05 0.03 0.06 0.04 0.04 0.04 0.02 0.04 0.04 0.04 0.03 0.04 0.03 0.04RS AGGTCC 0.00 0.00 0.00 0.00 0.00 0.00 0.03 0.02 0.03 0.03 0.02 0.03 0.03 0.02 0.03 0.01 0.03 0.04 0.03 0.04 0.04 0.02 0.04RS AGGTCG 0.00 0.00 0.00 0.00 0.01 0.00 0.03 0.01 0.03 0.02 0.01 0.03 0.02 0.01 0.02 0.01 0.03 0.01 0.00 0.01 0.00 0.01 0.01RS AGGTCT 0.00 0.00 0.00 0.01 0.00 0.00 0.05 0.04 0.06 0.04 0.03 0.05 0.04 0.04 0.04 0.01 0.03 0.04 0.04 0.03 0.04 0.03 0.04RS CGAAGC 0.01 0.00 0.01 0.00 0.01 0.03 0.01 0.00 0.01 0.00 0.00 0.01 0.02 0.00 0.02 0.00 0.02 0.04 0.04 0.04 0.03 0.03 0.04RS CGAAGT 0.00 0.00 0.01 0.00 0.00 0.00 0.01 0.00 0.02 0.01 0.00 0.01 0.03 0.01 0.03 0.00 0.03 0.03 0.03 0.02 0.03 0.03 0.03RS CGATCA 0.00 0.00 0.00 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.00 0.02 0.03 0.01 0.03 0.01 0.03 0.01 0.02 0.01 0.02 0.01 0.02RS CGATCC 0.01 0.01 0.01 0.00 0.01 0.00 0.01 0.00 0.01 0.00 0.00 0.01 0.02 0.02 0.03 0.01 0.03 0.02 0.02 0.02 0.02 0.03 0.02RS CGATCG 0.01 0.00 0.00 0.00 0.01 0.00 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.00 0.01 0.00 0.00 0.00 0.00RS CGATCT 0.01 0.00 0.01 0.00 0.01 0.01 0.02 0.00 0.03 0.01 0.00 0.02 0.03 0.02 0.04 0.02 0.03 0.02 0.03 0.01 0.02 0.05 0.02RS CGCAGC 0.16 0.12 0.18 0.20 0.13 0.14 0.01 0.01 0.01 0.00 0.00 0.02 0.01 0.01 0.00 0.00 0.00 0.06 0.06 0.06 0.04 0.06 0.04RS CGCAGT 0.11 0.06 0.12 0.08 0.06 0.11 0.01 0.00 0.02 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.02 0.03 0.03 0.03 0.03 0.03 0.03RS CGCTCA 0.04 0.02 0.05 0.02 0.02 0.03 0.01 0.01 0.01 0.01 0.00 0.02 0.01 0.01 0.01 0.01 0.02 0.03 0.02 0.03 0.01 0.04 0.03RS CGCTCC 0.05 0.05 0.05 0.09 0.02 0.05 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.00 0.01 0.01 0.05 0.04 0.07 0.05 0.05 0.05RS CGCTCG 0.06 0.02 0.06 0.01 0.03 0.06 0.01 0.01 0.01 0.01 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01RS CGCTCT 0.04 0.04 0.04 0.03 0.05 0.05 0.02 0.03 0.01 0.01 0.02 0.02 0.02 0.02 0.02 0.03 0.02 0.04 0.04 0.04 0.04 0.04 0.04RS CGGAGC 0.01 0.00 0.01 0.01 0.00 0.02 0.00 0.00 0.00 0.00 0.00 0.01 0.01 0.00 0.00 0.00 0.01 0.04 0.03 0.06 0.05 0.04 0.04RS CGGAGT 0.01 0.01 0.00 0.00 0.01 0.00 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.03 0.03 0.03 0.04 0.03 0.03RS CGGTCA 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.00 0.02 0.01 0.00 0.01 0.01 0.00 0.01 0.00 0.01 0.02 0.01 0.02 0.02 0.02 0.02RS CGGTCC 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.00 0.01 0.00 0.01 0.03 0.02 0.03 0.02 0.03 0.03RS CGGTCG 0.01 0.00 0.00 0.00 0.00 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.00 0.00 0.00 0.01 0.00 0.00 0.00 0.00 0.01 0.00RS CGGTCT 0.00 0.00 0.01 0.00 0.00 0.00 0.01 0.00 0.02 0.01 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.02 0.02 0.02 0.02 0.02 0.02RS CGTAGC 0.10 0.12 0.10 0.18 0.15 0.13 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.02 0.01 0.01 0.01RS CGTAGT 0.05 0.06 0.03 0.01 0.03 0.05 0.02 0.01 0.02 0.02 0.02 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01RS CGTTCA 0.06 0.06 0.05 0.03 0.05 0.04 0.03 0.03 0.05 0.04 0.03 0.04 0.03 0.03 0.03 0.04 0.03 0.01 0.01 0.01 0.01 0.01 0.02RS CGTTCC 0.07 0.17 0.07 0.12 0.16 0.06 0.03 0.06 0.02 0.03 0.04 0.02 0.03 0.06 0.02 0.07 0.03 0.02 0.03 0.02 0.03 0.04 0.02RS CGTTCG 0.07 0.03 0.08 0.04 0.05 0.05 0.01 0.02 0.02 0.01 0.01 0.01 0.02 0.02 0.01 0.02 0.02 0.00 0.00 0.00 0.01 0.00 0.00RS CGTTCT 0.08 0.20 0.05 0.15 0.22 0.09 0.04 0.09 0.03 0.07 0.11 0.03 0.04 0.07 0.03 0.11 0.03 0.03 0.04 0.02 0.03 0.04 0.03RT AGAACA 0.02 0.01 0.01 0.03 0.01 0.02 0.17 0.13 0.21 0.16 0.15 0.17 0.13 0.11 0.14 0.10 0.13 0.09 0.10 0.08 0.11 0.08 0.11RT AGAACC 0.02 0.01 0.02 0.00 0.00 0.01 0.10 0.22 0.06 0.16 0.22 0.09 0.10 0.22 0.11 0.26 0.09 0.07 0.06 0.07 0.07 0.06 0.07RT AGAACG 0.02 0.00 0.01 0.01 0.02 0.03 0.07 0.04 0.06 0.07 0.03 0.07 0.06 0.02 0.07 0.02 0.07 0.02 0.01 0.01 0.02 0.02 0.02RT AGAACT 0.01 0.00 0.00 0.00 0.00 0.00 0.17 0.30 0.14 0.22 0.30 0.16 0.19 0.28 0.16 0.34 0.17 0.08 0.07 0.06 0.07 0.06 0.09RT AGGACA 0.00 0.00 0.00 0.00 0.00 0.01 0.07 0.03 0.06 0.06 0.02 0.09 0.06 0.03 0.06 0.00 0.06 0.09 0.09 0.10 0.09 0.07 0.10RT AGGACC 0.00 0.00 0.00 0.00 0.00 0.01 0.04 0.02 0.05 0.03 0.04 0.05 0.04 0.02 0.04 0.02 0.04 0.09 0.09 0.11 0.07 0.09 0.08RT AGGACG 0.00 0.00 0.00 0.00 0.00 0.01 0.03 0.01 0.04 0.01 0.01 0.03 0.03 0.02 0.02 0.00 0.04 0.02 0.02 0.02 0.01 0.01 0.03RT AGGACT 0.00 0.00 0.00 0.00 0.00 0.00 0.07 0.03 0.07 0.06 0.03 0.06 0.05 0.03 0.05 0.03 0.04 0.08 0.08 0.06 0.06 0.05 0.09RT CGAACA 0.01 0.00 0.01 0.01 0.00 0.01 0.02 0.01 0.02 0.01 0.00 0.02 0.04 0.04 0.04 0.01 0.04 0.04 0.04 0.02 0.04 0.04 0.04RT CGAACC 0.03 0.01 0.03 0.01 0.01 0.04 0.02 0.01 0.02 0.01 0.01 0.01 0.03 0.01 0.02 0.02 0.03 0.03 0.04 0.03 0.04 0.05 0.03

Continued on next page

Page 169: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 156

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

RT CGAACG 0.02 0.00 0.02 0.00 0.00 0.02 0.01 0.00 0.02 0.01 0.00 0.02 0.02 0.01 0.02 0.00 0.02 0.01 0.01 0.01 0.01 0.00 0.01RT CGAACT 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.00 0.01 0.00 0.00 0.03 0.05 0.03 0.05 0.02 0.07 0.03 0.04 0.02 0.04 0.03 0.03RT CGCACA 0.06 0.04 0.07 0.04 0.03 0.05 0.02 0.01 0.05 0.01 0.01 0.03 0.02 0.01 0.02 0.01 0.02 0.05 0.04 0.06 0.05 0.06 0.04RT CGCACC 0.18 0.17 0.20 0.18 0.16 0.23 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.06 0.06 0.09 0.06 0.09 0.04RT CGCACG 0.09 0.06 0.12 0.08 0.05 0.08 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.00 0.01 0.00 0.01 0.02 0.03 0.03 0.02 0.04 0.01RT CGCACT 0.07 0.08 0.06 0.06 0.06 0.06 0.02 0.01 0.03 0.01 0.01 0.02 0.02 0.01 0.02 0.01 0.02 0.03 0.03 0.03 0.02 0.04 0.03RT CGGACA 0.02 0.01 0.02 0.00 0.01 0.03 0.01 0.00 0.03 0.00 0.00 0.02 0.01 0.00 0.02 0.00 0.02 0.05 0.04 0.05 0.04 0.05 0.05RT CGGACC 0.02 0.00 0.04 0.01 0.01 0.01 0.01 0.00 0.01 0.00 0.00 0.00 0.01 0.01 0.01 0.00 0.01 0.05 0.04 0.05 0.05 0.05 0.04RT CGGACG 0.02 0.01 0.01 0.01 0.00 0.02 0.01 0.00 0.01 0.00 0.00 0.00 0.01 0.00 0.01 0.00 0.01 0.01 0.01 0.04 0.02 0.01 0.01RT CGGACT 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.01 0.04 0.04 0.03 0.05 0.03 0.04RT CGTACA 0.04 0.07 0.05 0.03 0.05 0.02 0.03 0.04 0.02 0.05 0.04 0.02 0.03 0.03 0.02 0.02 0.03 0.02 0.01 0.01 0.02 0.02 0.01RT CGTACC 0.19 0.27 0.16 0.26 0.30 0.18 0.03 0.05 0.03 0.04 0.04 0.02 0.03 0.04 0.01 0.06 0.03 0.02 0.03 0.02 0.02 0.03 0.02RT CGTACG 0.07 0.05 0.07 0.05 0.05 0.06 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.00 0.00 0.00 0.00 0.00RT CGTACT 0.09 0.21 0.07 0.19 0.24 0.06 0.04 0.07 0.03 0.05 0.05 0.05 0.04 0.07 0.05 0.07 0.03 0.02 0.01 0.01 0.02 0.03 0.01RV AGAGTA 0.01 0.00 0.00 0.00 0.00 0.00 0.12 0.06 0.13 0.08 0.03 0.14 0.08 0.06 0.08 0.05 0.10 0.04 0.04 0.03 0.04 0.03 0.05RV AGAGTC 0.01 0.00 0.01 0.00 0.00 0.01 0.09 0.14 0.08 0.13 0.17 0.05 0.10 0.18 0.09 0.18 0.09 0.06 0.06 0.08 0.05 0.07 0.07RV AGAGTG 0.01 0.00 0.01 0.01 0.00 0.01 0.08 0.07 0.09 0.07 0.06 0.10 0.10 0.06 0.12 0.07 0.09 0.09 0.10 0.09 0.09 0.09 0.09RV AGAGTT 0.01 0.01 0.00 0.01 0.00 0.02 0.18 0.28 0.11 0.24 0.30 0.17 0.18 0.21 0.21 0.26 0.15 0.07 0.06 0.05 0.06 0.06 0.07RV AGGGTA 0.00 0.01 0.00 0.00 0.00 0.00 0.05 0.01 0.05 0.03 0.01 0.06 0.04 0.02 0.04 0.01 0.06 0.03 0.02 0.03 0.03 0.01 0.03RV AGGGTC 0.00 0.00 0.00 0.00 0.00 0.00 0.04 0.03 0.04 0.04 0.02 0.04 0.04 0.03 0.04 0.02 0.03 0.05 0.04 0.06 0.04 0.04 0.06RV AGGGTG 0.01 0.00 0.01 0.01 0.00 0.01 0.05 0.01 0.05 0.03 0.02 0.04 0.04 0.02 0.05 0.01 0.05 0.07 0.06 0.09 0.07 0.05 0.07RV AGGGTT 0.01 0.00 0.00 0.01 0.00 0.00 0.06 0.04 0.06 0.06 0.03 0.08 0.07 0.03 0.06 0.03 0.08 0.04 0.04 0.03 0.04 0.03 0.04RV CGAGTA 0.01 0.01 0.01 0.01 0.01 0.03 0.02 0.00 0.02 0.01 0.00 0.02 0.03 0.01 0.03 0.00 0.03 0.03 0.03 0.02 0.03 0.03 0.03RV CGAGTC 0.01 0.01 0.01 0.01 0.01 0.02 0.01 0.00 0.02 0.01 0.00 0.01 0.03 0.02 0.02 0.01 0.03 0.04 0.04 0.04 0.05 0.04 0.04RV CGAGTG 0.02 0.01 0.03 0.01 0.01 0.02 0.01 0.00 0.03 0.01 0.00 0.01 0.03 0.02 0.02 0.01 0.02 0.07 0.08 0.07 0.07 0.08 0.07RV CGAGTT 0.01 0.01 0.01 0.00 0.00 0.02 0.02 0.01 0.04 0.02 0.00 0.04 0.04 0.02 0.04 0.01 0.05 0.04 0.04 0.02 0.02 0.04 0.05RV CGCGTA 0.09 0.16 0.07 0.12 0.14 0.07 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.00 0.01 0.00 0.01 0.00 0.00 0.00 0.01 0.00 0.00RV CGCGTC 0.10 0.07 0.12 0.07 0.07 0.10 0.01 0.01 0.02 0.01 0.01 0.00 0.00 0.00 0.00 0.01 0.01 0.01 0.03 0.01 0.02 0.03 0.01RV CGCGTG 0.17 0.17 0.18 0.20 0.17 0.18 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.01 0.01 0.01 0.03 0.03 0.03 0.02 0.03 0.02RV CGCGTT 0.12 0.16 0.13 0.18 0.18 0.12 0.02 0.01 0.02 0.02 0.02 0.03 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.00 0.00 0.00 0.00RV CGGGTA 0.04 0.01 0.05 0.01 0.02 0.07 0.01 0.00 0.03 0.00 0.00 0.01 0.01 0.00 0.02 0.00 0.01 0.02 0.02 0.02 0.03 0.02 0.02RV CGGGTC 0.03 0.01 0.03 0.01 0.01 0.03 0.01 0.00 0.01 0.00 0.00 0.00 0.01 0.01 0.02 0.00 0.01 0.05 0.04 0.04 0.05 0.04 0.04RV CGGGTG 0.08 0.01 0.11 0.01 0.01 0.07 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.00 0.02 0.00 0.01 0.07 0.07 0.07 0.08 0.07 0.05RV CGGGTT 0.03 0.02 0.02 0.03 0.01 0.04 0.01 0.00 0.01 0.01 0.00 0.01 0.02 0.01 0.02 0.01 0.03 0.02 0.01 0.03 0.02 0.03 0.03RV CGTGTA 0.04 0.06 0.03 0.07 0.08 0.03 0.04 0.04 0.03 0.03 0.03 0.03 0.03 0.04 0.02 0.04 0.02 0.02 0.02 0.02 0.03 0.03 0.02RV CGTGTC 0.05 0.05 0.07 0.03 0.03 0.03 0.04 0.09 0.04 0.07 0.10 0.02 0.04 0.08 0.02 0.09 0.03 0.04 0.04 0.04 0.05 0.05 0.04RV CGTGTG 0.07 0.09 0.06 0.09 0.10 0.06 0.03 0.04 0.03 0.04 0.03 0.03 0.03 0.03 0.02 0.03 0.03 0.08 0.09 0.10 0.08 0.11 0.07RV CGTGTT 0.07 0.14 0.04 0.12 0.13 0.06 0.08 0.13 0.06 0.10 0.14 0.07 0.06 0.12 0.04 0.15 0.05 0.03 0.03 0.03 0.04 0.04 0.04RW AGATGG 0.02 0.00 0.01 0.00 0.00 0.01 0.44 0.66 0.26 0.63 0.72 0.45 0.43 0.61 0.40 0.67 0.34 0.17 0.20 0.14 0.21 0.15 0.17RW AGGTGG 0.01 0.00 0.00 0.00 0.00 0.01 0.18 0.09 0.19 0.12 0.06 0.20 0.17 0.10 0.22 0.08 0.20 0.19 0.19 0.18 0.16 0.12 0.17RW CGATGG 0.04 0.02 0.01 0.00 0.00 0.04 0.07 0.00 0.10 0.02 0.00 0.08 0.13 0.04 0.15 0.05 0.24 0.12 0.12 0.10 0.12 0.09 0.15RW CGCTGG 0.71 0.67 0.77 0.73 0.59 0.78 0.09 0.03 0.16 0.03 0.01 0.10 0.07 0.08 0.04 0.08 0.06 0.33 0.34 0.39 0.31 0.44 0.30RW CGGTGG 0.02 0.00 0.01 0.00 0.00 0.02 0.03 0.01 0.08 0.02 0.01 0.05 0.04 0.00 0.03 0.00 0.05 0.12 0.07 0.12 0.11 0.12 0.13RW CGTTGG 0.21 0.31 0.20 0.27 0.41 0.14 0.19 0.21 0.20 0.18 0.19 0.12 0.15 0.18 0.16 0.12 0.11 0.08 0.08 0.09 0.09 0.07 0.08RY AGATAC 0.01 0.01 0.00 0.00 0.00 0.01 0.17 0.27 0.18 0.22 0.29 0.12 0.20 0.28 0.20 0.30 0.19 0.12 0.12 0.11 0.13 0.10 0.13RY AGATAT 0.01 0.02 0.00 0.01 0.01 0.01 0.24 0.19 0.19 0.24 0.17 0.23 0.23 0.17 0.22 0.15 0.20 0.09 0.09 0.08 0.09 0.09 0.11RY AGGTAC 0.00 0.00 0.00 0.00 0.00 0.00 0.09 0.05 0.09 0.08 0.03 0.10 0.07 0.05 0.05 0.03 0.07 0.10 0.10 0.11 0.10 0.07 0.10RY AGGTAT 0.01 0.00 0.00 0.00 0.00 0.00 0.10 0.05 0.10 0.07 0.06 0.14 0.10 0.04 0.12 0.07 0.12 0.07 0.06 0.07 0.07 0.06 0.08RY CGATAC 0.01 0.01 0.02 0.00 0.00 0.02 0.04 0.00 0.07 0.01 0.00 0.05 0.07 0.04 0.06 0.04 0.09 0.07 0.08 0.07 0.07 0.08 0.06RY CGATAT 0.03 0.00 0.02 0.01 0.02 0.04 0.04 0.01 0.05 0.02 0.01 0.07 0.06 0.03 0.09 0.01 0.10 0.05 0.06 0.04 0.04 0.07 0.05RY CGCTAC 0.19 0.20 0.22 0.26 0.20 0.21 0.05 0.02 0.07 0.02 0.01 0.04 0.03 0.05 0.03 0.03 0.03 0.15 0.17 0.19 0.13 0.18 0.12RY CGCTAT 0.25 0.17 0.31 0.17 0.15 0.24 0.04 0.03 0.04 0.04 0.02 0.05 0.03 0.03 0.04 0.03 0.03 0.13 0.11 0.13 0.13 0.15 0.12RY CGGTAC 0.01 0.00 0.01 0.00 0.00 0.02 0.02 0.00 0.03 0.01 0.01 0.02 0.03 0.02 0.04 0.01 0.03 0.07 0.07 0.07 0.07 0.04 0.06RY CGGTAT 0.02 0.01 0.02 0.00 0.00 0.02 0.03 0.02 0.04 0.02 0.00 0.04 0.04 0.02 0.03 0.00 0.05 0.05 0.04 0.05 0.05 0.05 0.05RY CGTTAC 0.18 0.28 0.17 0.26 0.27 0.16 0.08 0.20 0.08 0.12 0.25 0.06 0.07 0.15 0.06 0.19 0.05 0.05 0.06 0.05 0.07 0.07 0.06RY CGTTAT 0.29 0.31 0.23 0.29 0.35 0.28 0.10 0.16 0.06 0.15 0.16 0.07 0.07 0.10 0.06 0.14 0.05 0.04 0.04 0.04 0.04 0.04 0.05S* AGCTAA 0.12 0.31 0.07 0.38 0.10 0.05 0.06 0.10 0.00 0.07 0.13 0.03 0.06 0.08 0.17 0.00 0.08 0.07 0.11 0.06 0.12 0.06 0.03S* AGCTAG 0.01 0.00 0.00 0.00 0.00 0.00 0.03 0.05 0.00 0.03 0.00 0.03 0.05 0.04 0.03 0.10 0.04 0.06 0.05 0.08 0.03 0.09 0.03S* AGCTGA 0.05 0.00 0.04 0.00 0.00 0.05 0.05 0.00 0.00 0.10 0.00 0.05 0.07 0.04 0.03 0.00 0.00 0.13 0.09 0.13 0.06 0.16 0.21S* AGTTAA 0.19 0.15 0.18 0.00 0.20 0.30 0.08 0.10 0.04 0.07 0.20 0.05 0.09 0.08 0.14 0.10 0.08 0.03 0.06 0.02 0.00 0.06 0.03S* AGTTAG 0.01 0.00 0.00 0.00 0.00 0.05 0.05 0.05 0.04 0.10 0.07 0.05 0.08 0.08 0.03 0.10 0.12 0.04 0.03 0.07 0.06 0.00 0.02S* AGTTGA 0.03 0.00 0.04 0.00 0.00 0.05 0.07 0.00 0.08 0.00 0.00 0.03 0.08 0.16 0.14 0.20 0.04 0.03 0.02 0.02 0.06 0.03 0.05S* TCATAA 0.07 0.00 0.07 0.00 0.10 0.25 0.12 0.19 0.16 0.03 0.07 0.10 0.09 0.08 0.07 0.15 0.25 0.04 0.04 0.03 0.00 0.00 0.02S* TCATAG 0.01 0.00 0.00 0.00 0.00 0.05 0.07 0.05 0.20 0.07 0.13 0.05 0.10 0.08 0.10 0.05 0.21 0.05 0.04 0.03 0.00 0.00 0.03S* TCATGA 0.12 0.00 0.18 0.12 0.00 0.05 0.09 0.14 0.00 0.14 0.20 0.20 0.05 0.04 0.10 0.00 0.04 0.05 0.05 0.07 0.03 0.03 0.00S* TCCTAA 0.02 0.08 0.04 0.00 0.00 0.05 0.05 0.10 0.00 0.21 0.13 0.03 0.03 0.04 0.07 0.00 0.00 0.09 0.10 0.07 0.24 0.12 0.05S* TCCTAG 0.00 0.00 0.00 0.00 0.00 0.00 0.02 0.00 0.08 0.00 0.00 0.03 0.03 0.00 0.00 0.00 0.04 0.07 0.06 0.12 0.03 0.00 0.07S* TCCTGA 0.15 0.15 0.15 0.38 0.20 0.00 0.03 0.05 0.00 0.00 0.07 0.05 0.03 0.04 0.00 0.10 0.00 0.15 0.13 0.13 0.15 0.12 0.19S* TCGTAA 0.07 0.08 0.07 0.00 0.10 0.05 0.04 0.05 0.08 0.07 0.00 0.05 0.03 0.08 0.00 0.05 0.00 0.01 0.01 0.02 0.06 0.00 0.00S* TCGTAG 0.02 0.00 0.00 0.00 0.00 0.00 0.02 0.00 0.00 0.00 0.00 0.00 0.02 0.00 0.03 0.00 0.00 0.01 0.00 0.01 0.00 0.00 0.02S* TCGTGA 0.01 0.00 0.04 0.00 0.00 0.00 0.02 0.00 0.00 0.00 0.00 0.05 0.01 0.00 0.00 0.00 0.00 0.01 0.01 0.00 0.00 0.00 0.03S* TCTTAA 0.09 0.23 0.07 0.12 0.30 0.00 0.09 0.14 0.16 0.07 0.00 0.08 0.06 0.04 0.03 0.05 0.00 0.06 0.09 0.07 0.06 0.12 0.10S* TCTTAG 0.00 0.00 0.00 0.00 0.00 0.00 0.04 0.00 0.08 0.03 0.00 0.05 0.05 0.04 0.00 0.05 0.04 0.05 0.07 0.07 0.03 0.12 0.03S* TCTTGA 0.01 0.00 0.04 0.00 0.00 0.05 0.06 0.00 0.08 0.00 0.00 0.08 0.08 0.08 0.03 0.05 0.04 0.06 0.06 0.02 0.06 0.06 0.07SA AGCGCA 0.05 0.04 0.04 0.05 0.03 0.04 0.03 0.01 0.03 0.02 0.01 0.02 0.02 0.01 0.02 0.00 0.02 0.01 0.01 0.01 0.01 0.01 0.01SA AGCGCC 0.12 0.09 0.13 0.10 0.06 0.12 0.03 0.02 0.04 0.02 0.02 0.03 0.02 0.01 0.03 0.02 0.03 0.03 0.04 0.04 0.02 0.03 0.02SA AGCGCG 0.07 0.06 0.06 0.08 0.07 0.07 0.01 0.00 0.01 0.01 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.00SA AGCGCT 0.02 0.01 0.02 0.01 0.02 0.02 0.04 0.03 0.04 0.03 0.03 0.05 0.02 0.02 0.02 0.03 0.02 0.02 0.02 0.01 0.02 0.02 0.01SA AGTGCA 0.03 0.03 0.03 0.03 0.01 0.04 0.06 0.03 0.08 0.05 0.03 0.07 0.05 0.03 0.05 0.02 0.06 0.07 0.06 0.06 0.07 0.05 0.07SA AGTGCC 0.05 0.03 0.04 0.06 0.02 0.05 0.05 0.04 0.04 0.04 0.03 0.04 0.05 0.06 0.06 0.03 0.06 0.10 0.09 0.12 0.11 0.08 0.09SA AGTGCG 0.05 0.04 0.05 0.04 0.03 0.05 0.03 0.01 0.03 0.01 0.01 0.03 0.02 0.01 0.02 0.01 0.02 0.01 0.02 0.01 0.01 0.01 0.01SA AGTGCT 0.02 0.01 0.01 0.02 0.01 0.02 0.07 0.06 0.07 0.07 0.07 0.08 0.08 0.07 0.08 0.07 0.08 0.08 0.10 0.07 0.09 0.11 0.09SA TCAGCA 0.03 0.02 0.03 0.02 0.02 0.03 0.06 0.03 0.06 0.05 0.03 0.07 0.06 0.04 0.06 0.03 0.08 0.07 0.07 0.07 0.06 0.04 0.08SA TCAGCC 0.03 0.02 0.03 0.01 0.01 0.03 0.03 0.02 0.03 0.02 0.02 0.03 0.04 0.04 0.05 0.04 0.04 0.09 0.07 0.10 0.07 0.08 0.09SA TCAGCG 0.04 0.03 0.03 0.01 0.03 0.06 0.02 0.01 0.02 0.01 0.00 0.03 0.02 0.01 0.01 0.00 0.03 0.01 0.02 0.01 0.01 0.02 0.01SA TCAGCT 0.01 0.01 0.01 0.02 0.01 0.01 0.06 0.05 0.06 0.06 0.06 0.06 0.08 0.06 0.10 0.05 0.10 0.08 0.06 0.07 0.08 0.08 0.09SA TCCGCA 0.04 0.07 0.05 0.04 0.09 0.04 0.04 0.03 0.03 0.04 0.03 0.04 0.03 0.02 0.03 0.02 0.02 0.01 0.01 0.01 0.01 0.01 0.01SA TCCGCC 0.04 0.05 0.05 0.06 0.05 0.04 0.03 0.04 0.03 0.04 0.05 0.02 0.02 0.04 0.02 0.05 0.01 0.02 0.02 0.02 0.01 0.03 0.01SA TCCGCG 0.03 0.05 0.04 0.03 0.05 0.03 0.01 0.01 0.03 0.01 0.01 0.01 0.00 0.00 0.01 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.00SA TCCGCT 0.03 0.06 0.03 0.06 0.08 0.03 0.05 0.10 0.03 0.07 0.11 0.03 0.04 0.07 0.04 0.10 0.04 0.01 0.01 0.01 0.01 0.01 0.01SA TCGGCA 0.04 0.03 0.05 0.03 0.02 0.04 0.03 0.01 0.03 0.01 0.01 0.03 0.03 0.02 0.03 0.01 0.03 0.01 0.01 0.02 0.01 0.01 0.01SA TCGGCC 0.01 0.01 0.02 0.01 0.01 0.03 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.03 0.02 0.03 0.02SA TCGGCG 0.07 0.04 0.08 0.03 0.02 0.06 0.01 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.00SA TCGGCT 0.02 0.02 0.01 0.02 0.01 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.03 0.03 0.03 0.03 0.03 0.02 0.02 0.02 0.01 0.01 0.02SA TCTGCA 0.04 0.08 0.03 0.06 0.08 0.04 0.10 0.07 0.09 0.09 0.06 0.11 0.09 0.07 0.09 0.06 0.09 0.09 0.10 0.07 0.11 0.08 0.10SA TCTGCC 0.06 0.06 0.07 0.08 0.09 0.05 0.07 0.12 0.06 0.10 0.14 0.05 0.08 0.13 0.07 0.16 0.07 0.10 0.11 0.12 0.11 0.12 0.10SA TCTGCG 0.06 0.07 0.05 0.07 0.11 0.04 0.04 0.03 0.04 0.03 0.02 0.03 0.03 0.01 0.03 0.02 0.03 0.02 0.02 0.02 0.02 0.02 0.02SA TCTGCT 0.03 0.07 0.03 0.07 0.06 0.04 0.12 0.24 0.10 0.17 0.24 0.11 0.14 0.21 0.12 0.25 0.13 0.10 0.11 0.09 0.10 0.12 0.11SC AGCTGC 0.14 0.24 0.14 0.17 0.17 0.15 0.05 0.02 0.06 0.04 0.02 0.03 0.05 0.05 0.05 0.02 0.05 0.19 0.16 0.20 0.18 0.15 0.15SC AGCTGT 0.09 0.02 0.10 0.06 0.00 0.15 0.07 0.05 0.05 0.04 0.05 0.12 0.08 0.06 0.07 0.05 0.09 0.16 0.13 0.17 0.15 0.18 0.16SC AGTTGC 0.11 0.05 0.09 0.06 0.07 0.12 0.07 0.02 0.07 0.07 0.02 0.09 0.08 0.04 0.07 0.01 0.11 0.04 0.04 0.04 0.04 0.04 0.04SC AGTTGT 0.06 0.02 0.03 0.03 0.03 0.15 0.12 0.07 0.16 0.11 0.05 0.11 0.11 0.07 0.10 0.06 0.12 0.06 0.06 0.03 0.05 0.05 0.06SC TCATGC 0.06 0.05 0.04 0.03 0.03 0.08 0.10 0.08 0.08 0.09 0.06 0.10 0.07 0.05 0.05 0.08 0.08 0.04 0.05 0.04 0.05 0.03 0.04SC TCATGT 0.03 0.00 0.00 0.03 0.00 0.02 0.15 0.17 0.17 0.15 0.18 0.15 0.15 0.18 0.16 0.23 0.14 0.05 0.05 0.03 0.05 0.05 0.05SC TCCTGC 0.18 0.31 0.15 0.28 0.30 0.12 0.05 0.03 0.03 0.04 0.02 0.06 0.05 0.03 0.07 0.06 0.07 0.16 0.18 0.20 0.16 0.18 0.12SC TCCTGT 0.14 0.12 0.22 0.11 0.13 0.12 0.08 0.15 0.05 0.10 0.16 0.07 0.09 0.12 0.09 0.09 0.08 0.15 0.14 0.15 0.13 0.14 0.15SC TCGTGC 0.04 0.02 0.04 0.00 0.03 0.05 0.04 0.02 0.05 0.03 0.01 0.04 0.03 0.02 0.04 0.00 0.04 0.01 0.02 0.01 0.03 0.01 0.03SC TCGTGT 0.03 0.00 0.04 0.00 0.00 0.00 0.06 0.06 0.05 0.05 0.05 0.04 0.05 0.08 0.05 0.02 0.05 0.01 0.02 0.01 0.01 0.04 0.05SC TCTTGC 0.06 0.07 0.11 0.14 0.10 0.03 0.07 0.08 0.07 0.07 0.08 0.07 0.08 0.09 0.13 0.06 0.08 0.06 0.06 0.07 0.05 0.06 0.06SC TCTTGT 0.06 0.10 0.02 0.11 0.13 0.03 0.14 0.27 0.17 0.21 0.31 0.12 0.14 0.23 0.12 0.32 0.10 0.07 0.09 0.05 0.10 0.06 0.09SD AGCGAC 0.12 0.14 0.16 0.10 0.11 0.12 0.04 0.03 0.06 0.03 0.03 0.05 0.03 0.03 0.04 0.01 0.03 0.04 0.04 0.05 0.03 0.05 0.03SD AGCGAT 0.24 0.17 0.23 0.23 0.14 0.27 0.08 0.07 0.08 0.07 0.04 0.08 0.06 0.05 0.06 0.05 0.06 0.03 0.03 0.04 0.03 0.04 0.03SD AGTGAC 0.05 0.03 0.07 0.04 0.01 0.06 0.08 0.06 0.10 0.07 0.06 0.08 0.09 0.09 0.09 0.08 0.09 0.17 0.15 0.20 0.17 0.16 0.17SD AGTGAT 0.10 0.05 0.08 0.05 0.03 0.11 0.15 0.12 0.17 0.12 0.11 0.16 0.14 0.06 0.15 0.06 0.14 0.14 0.14 0.12 0.15 0.13 0.15SD TCAGAC 0.03 0.03 0.02 0.02 0.02 0.02 0.06 0.06 0.08 0.06 0.05 0.07 0.08 0.08 0.07 0.08 0.08 0.12 0.11 0.13 0.11 0.12 0.11SD TCAGAT 0.04 0.04 0.03 0.02 0.02 0.04 0.13 0.10 0.12 0.11 0.09 0.15 0.13 0.10 0.13 0.07 0.15 0.14 0.12 0.11 0.14 0.12 0.15SD TCCGAC 0.06 0.12 0.06 0.07 0.11 0.04 0.04 0.07 0.02 0.05 0.07 0.03 0.04 0.10 0.03 0.10 0.03 0.03 0.04 0.03 0.02 0.05 0.02SD TCCGAT 0.09 0.08 0.12 0.10 0.14 0.10 0.07 0.10 0.06 0.09 0.12 0.06 0.07 0.09 0.07 0.08 0.07 0.02 0.03 0.02 0.02 0.02 0.02SD TCGGAC 0.02 0.01 0.03 0.01 0.01 0.02 0.02 0.02 0.03 0.02 0.02 0.02 0.03 0.03 0.03 0.02 0.03 0.03 0.04 0.03 0.02 0.02 0.02SD TCGGAT 0.04 0.02 0.05 0.02 0.02 0.04 0.05 0.04 0.05 0.06 0.02 0.06 0.05 0.03 0.05 0.02 0.06 0.03 0.04 0.02 0.03 0.03 0.03SD TCTGAC 0.11 0.21 0.08 0.20 0.26 0.10 0.08 0.14 0.10 0.11 0.15 0.07 0.10 0.16 0.10 0.21 0.08 0.12 0.13 0.13 0.12 0.12 0.12SD TCTGAT 0.09 0.10 0.08 0.15 0.13 0.09 0.18 0.20 0.13 0.20 0.24 0.17 0.18 0.18 0.19 0.20 0.18 0.14 0.12 0.12 0.15 0.14 0.14SE AGCGAA 0.26 0.21 0.28 0.27 0.19 0.26 0.08 0.06 0.08 0.06 0.06 0.10 0.03 0.03 0.03 0.02 0.03 0.02 0.03 0.02 0.02 0.02 0.02SE AGCGAG 0.10 0.07 0.13 0.05 0.08 0.14 0.04 0.02 0.05 0.03 0.02 0.04 0.04 0.03 0.03 0.02 0.03 0.05 0.05 0.06 0.06 0.07 0.04SE AGTGAA 0.17 0.12 0.17 0.07 0.07 0.14 0.16 0.14 0.17 0.15 0.13 0.14 0.14 0.08 0.15 0.10 0.14 0.13 0.12 0.10 0.13 0.12 0.14SE AGTGAG 0.06 0.02 0.09 0.03 0.02 0.06 0.07 0.04 0.07 0.05 0.06 0.06 0.08 0.08 0.07 0.07 0.08 0.14 0.13 0.15 0.15 0.12 0.14SE TCAGAA 0.08 0.05 0.06 0.11 0.07 0.10 0.14 0.12 0.15 0.14 0.10 0.16 0.12 0.05 0.13 0.06 0.16 0.13 0.14 0.11 0.13 0.12 0.15SE TCAGAG 0.03 0.02 0.02 0.02 0.02 0.02 0.06 0.04 0.07 0.06 0.03 0.07 0.10 0.09 0.09 0.05 0.11 0.14 0.12 0.15 0.14 0.13 0.13SE TCCGAA 0.05 0.10 0.05 0.10 0.08 0.05 0.07 0.13 0.03 0.10 0.14 0.06 0.07 0.10 0.09 0.09 0.07 0.02 0.02 0.02 0.01 0.02 0.01SE TCCGAG 0.03 0.04 0.03 0.04 0.06 0.02 0.04 0.03 0.06 0.04 0.04 0.04 0.05 0.12 0.05 0.12 0.04 0.03 0.03 0.04 0.04 0.04 0.03SE TCGGAA 0.06 0.05 0.06 0.03 0.04 0.08 0.06 0.04 0.07 0.05 0.03 0.06 0.05 0.03 0.06 0.02 0.06 0.02 0.02 0.02 0.02 0.03 0.02SE TCGGAG 0.02 0.01 0.02 0.00 0.01 0.02 0.03 0.02 0.03 0.02 0.01 0.03 0.04 0.04 0.04 0.03 0.04 0.04 0.04 0.05 0.03 0.04 0.03SE TCTGAA 0.12 0.27 0.09 0.25 0.31 0.09 0.18 0.29 0.16 0.24 0.34 0.17 0.17 0.16 0.16 0.21 0.17 0.13 0.13 0.11 0.13 0.12 0.14SE TCTGAG 0.03 0.04 0.00 0.03 0.06 0.03 0.07 0.08 0.05 0.07 0.06 0.07 0.11 0.18 0.11 0.21 0.09 0.15 0.16 0.16 0.14 0.17 0.15SF AGCTTC 0.11 0.18 0.07 0.18 0.16 0.09 0.04 0.02 0.05 0.03 0.03 0.04 0.04 0.04 0.04 0.02 0.04 0.15 0.17 0.18 0.15 0.12 0.12SF AGCTTT 0.12 0.10 0.13 0.09 0.08 0.12 0.06 0.03 0.06 0.04 0.01 0.06 0.06 0.03 0.07 0.03 0.07 0.11 0.12 0.11 0.10 0.13 0.11SF AGTTTC 0.07 0.05 0.04 0.05 0.06 0.09 0.07 0.06 0.08 0.06 0.07 0.07 0.08 0.07 0.09 0.07 0.09 0.07 0.07 0.07 0.07 0.06 0.06SF AGTTTT 0.13 0.08 0.11 0.06 0.05 0.14 0.10 0.05 0.09 0.07 0.04 0.12 0.10 0.05 0.11 0.02 0.12 0.07 0.07 0.05 0.07 0.07 0.09SF TCATTC 0.05 0.03 0.05 0.06 0.07 0.04 0.09 0.10 0.11 0.10 0.11 0.08 0.08 0.10 0.08 0.09 0.08 0.05 0.04 0.04 0.06 0.04 0.05SF TCATTT 0.08 0.04 0.11 0.03 0.03 0.11 0.15 0.13 0.12 0.14 0.11 0.15 0.13 0.11 0.13 0.09 0.14 0.08 0.08 0.04 0.08 0.08 0.08SF TCCTTC 0.06 0.17 0.07 0.10 0.14 0.05 0.06 0.09 0.07 0.07 0.13 0.05 0.06 0.11 0.05 0.16 0.05 0.18 0.14 0.23 0.16 0.21 0.18

Continued on next page

Page 170: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 157

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

SF TCCTTT 0.07 0.06 0.09 0.06 0.04 0.06 0.10 0.11 0.09 0.10 0.08 0.09 0.08 0.08 0.08 0.07 0.08 0.13 0.12 0.12 0.12 0.11 0.12SF TCGTTC 0.06 0.06 0.07 0.02 0.05 0.05 0.04 0.03 0.04 0.04 0.04 0.03 0.05 0.06 0.05 0.05 0.04 0.01 0.01 0.01 0.01 0.02 0.01SF TCGTTT 0.10 0.04 0.13 0.08 0.07 0.10 0.07 0.04 0.05 0.05 0.04 0.06 0.08 0.07 0.08 0.05 0.08 0.01 0.01 0.01 0.01 0.01 0.02SF TCTTTC 0.07 0.10 0.07 0.20 0.14 0.09 0.10 0.23 0.10 0.16 0.27 0.08 0.11 0.18 0.11 0.25 0.09 0.08 0.07 0.08 0.08 0.08 0.08SF TCTTTT 0.08 0.07 0.07 0.08 0.10 0.07 0.13 0.12 0.15 0.13 0.08 0.16 0.13 0.10 0.12 0.10 0.14 0.08 0.10 0.06 0.08 0.09 0.09SG AGCGGA 0.04 0.02 0.02 0.01 0.03 0.03 0.03 0.01 0.03 0.02 0.01 0.03 0.03 0.03 0.04 0.01 0.03 0.01 0.02 0.02 0.01 0.01 0.01SG AGCGGC 0.13 0.11 0.15 0.09 0.11 0.14 0.03 0.01 0.04 0.02 0.01 0.03 0.01 0.01 0.01 0.01 0.01 0.03 0.03 0.03 0.02 0.03 0.02SG AGCGGG 0.04 0.01 0.03 0.03 0.01 0.04 0.02 0.01 0.02 0.01 0.00 0.03 0.01 0.01 0.01 0.00 0.01 0.02 0.02 0.03 0.02 0.02 0.02SG AGCGGT 0.11 0.12 0.12 0.15 0.10 0.10 0.05 0.04 0.03 0.05 0.04 0.04 0.03 0.03 0.03 0.03 0.02 0.01 0.02 0.01 0.01 0.02 0.01SG AGTGGA 0.02 0.01 0.01 0.00 0.01 0.02 0.05 0.02 0.08 0.03 0.02 0.07 0.08 0.04 0.08 0.03 0.08 0.07 0.08 0.07 0.08 0.09 0.08SG AGTGGC 0.05 0.03 0.04 0.05 0.02 0.06 0.04 0.03 0.04 0.03 0.01 0.04 0.04 0.03 0.03 0.02 0.04 0.09 0.09 0.09 0.10 0.07 0.09SG AGTGGG 0.02 0.01 0.02 0.01 0.00 0.02 0.03 0.01 0.04 0.01 0.01 0.03 0.03 0.01 0.04 0.01 0.04 0.07 0.07 0.07 0.08 0.05 0.09SG AGTGGT 0.04 0.04 0.04 0.04 0.03 0.04 0.09 0.07 0.11 0.08 0.07 0.09 0.07 0.06 0.06 0.05 0.07 0.06 0.08 0.05 0.07 0.07 0.07SG TCAGGA 0.02 0.00 0.01 0.01 0.00 0.02 0.06 0.02 0.06 0.04 0.01 0.08 0.08 0.07 0.10 0.05 0.09 0.07 0.05 0.07 0.08 0.06 0.08SG TCAGGC 0.03 0.03 0.03 0.03 0.01 0.02 0.04 0.03 0.04 0.04 0.02 0.04 0.04 0.03 0.05 0.02 0.04 0.06 0.04 0.06 0.05 0.05 0.05SG TCAGGG 0.01 0.01 0.01 0.02 0.02 0.02 0.03 0.01 0.03 0.02 0.01 0.03 0.03 0.02 0.04 0.01 0.03 0.06 0.04 0.06 0.05 0.04 0.06SG TCAGGT 0.03 0.02 0.03 0.03 0.03 0.02 0.07 0.07 0.08 0.07 0.08 0.06 0.06 0.07 0.07 0.06 0.06 0.04 0.04 0.03 0.03 0.03 0.04SG TCCGGA 0.02 0.01 0.02 0.01 0.00 0.02 0.03 0.02 0.02 0.03 0.01 0.03 0.04 0.04 0.04 0.05 0.04 0.01 0.01 0.01 0.01 0.02 0.01SG TCCGGC 0.10 0.12 0.14 0.13 0.11 0.12 0.02 0.03 0.01 0.02 0.02 0.02 0.01 0.01 0.01 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.01SG TCCGGG 0.04 0.02 0.04 0.02 0.01 0.04 0.01 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.02 0.02 0.01 0.02 0.01SG TCCGGT 0.10 0.16 0.09 0.15 0.17 0.07 0.06 0.15 0.03 0.12 0.17 0.04 0.04 0.11 0.03 0.14 0.03 0.01 0.01 0.01 0.01 0.01 0.01SG TCGGGA 0.01 0.01 0.01 0.00 0.00 0.01 0.02 0.01 0.02 0.01 0.00 0.03 0.03 0.03 0.03 0.01 0.03 0.02 0.01 0.01 0.01 0.00 0.01SG TCGGGC 0.02 0.01 0.01 0.00 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.02 0.03 0.02 0.02 0.01SG TCGGGG 0.01 0.01 0.02 0.00 0.01 0.00 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.00 0.02 0.02 0.01 0.02 0.01 0.02 0.01SG TCGGGT 0.02 0.03 0.02 0.00 0.02 0.03 0.02 0.02 0.02 0.03 0.02 0.03 0.03 0.01 0.03 0.02 0.03 0.01 0.01 0.01 0.01 0.02 0.01SG TCTGGA 0.01 0.00 0.01 0.00 0.00 0.01 0.06 0.03 0.06 0.05 0.03 0.06 0.12 0.11 0.12 0.14 0.11 0.09 0.09 0.09 0.09 0.11 0.10SG TCTGGC 0.08 0.11 0.07 0.13 0.12 0.07 0.05 0.04 0.05 0.05 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.07 0.07 0.07 0.07 0.08 0.07SG TCTGGG 0.01 0.00 0.00 0.00 0.01 0.00 0.03 0.02 0.04 0.02 0.02 0.04 0.03 0.02 0.04 0.02 0.04 0.08 0.08 0.09 0.08 0.08 0.08SG TCTGGT 0.07 0.13 0.06 0.09 0.17 0.06 0.14 0.30 0.10 0.22 0.35 0.10 0.11 0.19 0.09 0.25 0.10 0.05 0.06 0.04 0.06 0.07 0.05SH AGCCAC 0.15 0.17 0.17 0.18 0.17 0.15 0.04 0.01 0.07 0.03 0.02 0.04 0.04 0.04 0.04 0.04 0.04 0.16 0.14 0.20 0.14 0.18 0.15SH AGCCAT 0.20 0.13 0.18 0.26 0.17 0.22 0.07 0.06 0.06 0.06 0.04 0.09 0.07 0.03 0.08 0.02 0.10 0.12 0.14 0.12 0.13 0.11 0.13SH AGTCAC 0.05 0.04 0.03 0.00 0.03 0.05 0.05 0.02 0.04 0.04 0.02 0.05 0.06 0.05 0.06 0.03 0.05 0.09 0.07 0.09 0.08 0.06 0.07SH AGTCAT 0.08 0.05 0.07 0.03 0.03 0.07 0.08 0.04 0.09 0.08 0.04 0.10 0.09 0.04 0.11 0.04 0.09 0.07 0.09 0.06 0.08 0.07 0.09SH TCACAC 0.05 0.04 0.05 0.01 0.02 0.06 0.07 0.05 0.07 0.07 0.06 0.06 0.06 0.05 0.05 0.04 0.06 0.07 0.05 0.07 0.07 0.05 0.07SH TCACAT 0.06 0.05 0.04 0.06 0.05 0.05 0.14 0.09 0.12 0.12 0.06 0.12 0.11 0.07 0.13 0.05 0.14 0.06 0.05 0.05 0.06 0.05 0.06SH TCCCAC 0.05 0.06 0.04 0.06 0.08 0.05 0.05 0.11 0.05 0.07 0.15 0.04 0.07 0.16 0.07 0.19 0.06 0.13 0.14 0.16 0.14 0.16 0.11SH TCCCAT 0.05 0.07 0.05 0.08 0.02 0.04 0.08 0.08 0.11 0.08 0.08 0.08 0.10 0.12 0.09 0.08 0.09 0.10 0.11 0.10 0.10 0.08 0.09SH TCGCAC 0.06 0.08 0.09 0.08 0.08 0.07 0.05 0.04 0.06 0.04 0.03 0.05 0.03 0.02 0.02 0.04 0.03 0.02 0.01 0.01 0.03 0.01 0.01SH TCGCAT 0.09 0.05 0.10 0.06 0.02 0.10 0.09 0.08 0.05 0.07 0.06 0.09 0.07 0.04 0.07 0.01 0.07 0.01 0.01 0.01 0.00 0.01 0.02SH TCTCAC 0.10 0.19 0.13 0.15 0.22 0.07 0.10 0.19 0.07 0.12 0.21 0.08 0.11 0.19 0.10 0.28 0.09 0.08 0.08 0.08 0.08 0.10 0.09SH TCTCAT 0.07 0.05 0.07 0.01 0.09 0.07 0.19 0.22 0.20 0.22 0.23 0.19 0.19 0.18 0.18 0.18 0.20 0.09 0.10 0.05 0.09 0.12 0.10SI AGCATA 0.01 0.01 0.01 0.01 0.00 0.01 0.04 0.01 0.04 0.02 0.02 0.04 0.03 0.02 0.04 0.01 0.04 0.04 0.04 0.04 0.04 0.03 0.05SI AGCATC 0.09 0.11 0.08 0.11 0.11 0.08 0.03 0.02 0.04 0.02 0.01 0.02 0.04 0.03 0.05 0.02 0.03 0.18 0.16 0.21 0.17 0.16 0.17SI AGCATT 0.13 0.10 0.12 0.12 0.09 0.11 0.05 0.03 0.05 0.04 0.03 0.07 0.06 0.03 0.06 0.03 0.07 0.10 0.12 0.11 0.14 0.12 0.11SI AGTATA 0.01 0.01 0.00 0.00 0.00 0.01 0.05 0.03 0.06 0.04 0.01 0.06 0.04 0.02 0.04 0.01 0.04 0.03 0.01 0.01 0.04 0.01 0.03SI AGTATC 0.06 0.03 0.08 0.04 0.02 0.09 0.04 0.03 0.04 0.04 0.03 0.04 0.04 0.04 0.05 0.03 0.04 0.05 0.05 0.05 0.04 0.04 0.05SI AGTATT 0.09 0.05 0.08 0.06 0.05 0.11 0.07 0.06 0.07 0.07 0.04 0.06 0.07 0.04 0.05 0.03 0.07 0.05 0.05 0.04 0.06 0.03 0.06SI TCAATA 0.01 0.01 0.01 0.01 0.00 0.01 0.06 0.02 0.06 0.04 0.02 0.08 0.05 0.02 0.06 0.01 0.06 0.03 0.02 0.01 0.02 0.01 0.03SI TCAATC 0.04 0.03 0.04 0.04 0.02 0.04 0.04 0.03 0.05 0.05 0.02 0.04 0.06 0.07 0.06 0.04 0.05 0.02 0.03 0.02 0.02 0.02 0.03SI TCAATT 0.05 0.03 0.05 0.04 0.04 0.03 0.08 0.07 0.09 0.08 0.05 0.08 0.11 0.09 0.11 0.07 0.11 0.03 0.04 0.02 0.03 0.04 0.04SI TCCATA 0.01 0.00 0.01 0.02 0.00 0.00 0.05 0.04 0.06 0.04 0.03 0.07 0.05 0.02 0.06 0.03 0.05 0.05 0.03 0.04 0.05 0.01 0.04SI TCCATC 0.09 0.16 0.11 0.18 0.16 0.07 0.06 0.14 0.05 0.07 0.15 0.04 0.07 0.14 0.06 0.14 0.06 0.18 0.19 0.22 0.14 0.22 0.15SI TCCATT 0.08 0.11 0.08 0.11 0.12 0.08 0.10 0.15 0.09 0.13 0.19 0.08 0.11 0.15 0.10 0.20 0.10 0.10 0.11 0.10 0.11 0.14 0.10SI TCGATA 0.02 0.00 0.01 0.01 0.00 0.03 0.03 0.01 0.03 0.02 0.01 0.04 0.03 0.02 0.02 0.00 0.03 0.00 0.01 0.00 0.00 0.00 0.01SI TCGATC 0.05 0.04 0.04 0.03 0.05 0.04 0.02 0.01 0.03 0.02 0.01 0.02 0.03 0.04 0.03 0.04 0.03 0.01 0.00 0.01 0.01 0.01 0.01SI TCGATT 0.09 0.07 0.12 0.05 0.06 0.11 0.04 0.03 0.04 0.04 0.02 0.04 0.04 0.03 0.04 0.02 0.05 0.01 0.01 0.01 0.01 0.01 0.01SI TCTATA 0.01 0.00 0.01 0.01 0.00 0.01 0.06 0.03 0.06 0.05 0.04 0.07 0.04 0.02 0.05 0.02 0.04 0.03 0.03 0.02 0.03 0.02 0.03SI TCTATC 0.08 0.17 0.08 0.10 0.16 0.07 0.06 0.11 0.05 0.08 0.12 0.04 0.06 0.12 0.05 0.14 0.05 0.05 0.04 0.06 0.04 0.06 0.05SI TCTATT 0.09 0.09 0.08 0.05 0.09 0.09 0.11 0.18 0.10 0.15 0.18 0.10 0.10 0.12 0.08 0.17 0.09 0.05 0.05 0.03 0.06 0.05 0.05SK AGCAAA 0.27 0.27 0.27 0.36 0.27 0.27 0.07 0.04 0.09 0.05 0.03 0.06 0.07 0.03 0.06 0.03 0.08 0.13 0.12 0.13 0.15 0.11 0.13SK AGCAAG 0.08 0.06 0.10 0.06 0.05 0.06 0.04 0.04 0.06 0.04 0.04 0.05 0.06 0.06 0.06 0.05 0.05 0.17 0.18 0.21 0.15 0.21 0.16SK AGTAAA 0.17 0.05 0.20 0.07 0.06 0.20 0.10 0.05 0.13 0.08 0.03 0.10 0.06 0.04 0.08 0.02 0.06 0.07 0.06 0.04 0.07 0.06 0.08SK AGTAAG 0.06 0.04 0.07 0.03 0.04 0.07 0.05 0.04 0.06 0.05 0.03 0.04 0.05 0.03 0.05 0.04 0.06 0.05 0.04 0.05 0.05 0.04 0.05SK TCAAAA 0.09 0.07 0.09 0.06 0.08 0.10 0.12 0.07 0.11 0.11 0.05 0.14 0.10 0.06 0.13 0.04 0.12 0.07 0.07 0.05 0.07 0.06 0.09SK TCAAAG 0.02 0.00 0.01 0.02 0.01 0.03 0.08 0.07 0.07 0.08 0.07 0.09 0.10 0.10 0.10 0.07 0.10 0.07 0.07 0.07 0.08 0.07 0.07SK TCCAAA 0.06 0.14 0.05 0.17 0.16 0.05 0.12 0.12 0.10 0.13 0.14 0.13 0.15 0.15 0.17 0.14 0.16 0.12 0.12 0.12 0.12 0.10 0.12SK TCCAAG 0.02 0.07 0.01 0.04 0.07 0.01 0.10 0.22 0.07 0.14 0.26 0.08 0.16 0.30 0.15 0.37 0.13 0.16 0.17 0.21 0.16 0.20 0.14SK TCGAAA 0.12 0.09 0.12 0.04 0.08 0.09 0.07 0.04 0.09 0.05 0.02 0.08 0.05 0.03 0.04 0.02 0.06 0.01 0.01 0.01 0.01 0.01 0.01SK TCGAAG 0.03 0.03 0.02 0.01 0.02 0.04 0.05 0.04 0.06 0.04 0.03 0.04 0.04 0.03 0.04 0.03 0.05 0.02 0.02 0.02 0.02 0.02 0.02SK TCTAAA 0.06 0.15 0.06 0.13 0.14 0.06 0.12 0.14 0.10 0.14 0.14 0.12 0.08 0.07 0.07 0.07 0.08 0.06 0.06 0.04 0.05 0.04 0.07SK TCTAAG 0.02 0.03 0.02 0.01 0.03 0.03 0.08 0.14 0.06 0.10 0.14 0.07 0.07 0.12 0.06 0.14 0.06 0.06 0.08 0.06 0.07 0.07 0.07SL AGCCTA 0.00 0.00 0.01 0.00 0.00 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.02 0.01 0.02 0.02 0.01 0.02SL AGCCTC 0.03 0.03 0.03 0.03 0.03 0.03 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.06 0.05 0.07 0.04 0.05 0.05SL AGCCTG 0.13 0.16 0.12 0.18 0.19 0.10 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.10 0.08 0.12 0.09 0.08 0.09SL AGCCTT 0.02 0.01 0.02 0.03 0.01 0.02 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.02 0.04 0.03 0.04 0.04 0.04 0.04SL AGCTTA 0.01 0.01 0.01 0.01 0.00 0.01 0.02 0.01 0.03 0.02 0.01 0.02 0.02 0.01 0.02 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.02SL AGCTTG 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.03 0.02 0.01 0.03 0.03 0.02 0.03 0.01 0.02 0.03 0.04 0.04 0.03 0.02 0.04SL AGTCTA 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.01 0.02 0.01 0.01 0.01 0.02 0.01 0.02 0.00 0.02 0.01 0.01 0.01 0.01 0.01 0.01SL AGTCTC 0.01 0.01 0.01 0.00 0.00 0.01 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.01 0.01 0.00 0.02 0.03 0.02 0.03 0.01 0.02 0.03SL AGTCTG 0.06 0.05 0.05 0.02 0.03 0.08 0.01 0.01 0.03 0.01 0.01 0.01 0.02 0.02 0.02 0.01 0.02 0.04 0.04 0.04 0.04 0.04 0.04SL AGTCTT 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.01 0.01 0.01 0.01 0.03 0.03 0.02 0.03 0.01 0.02 0.02 0.02 0.02 0.02 0.02 0.03SL AGTTTA 0.02 0.00 0.01 0.01 0.00 0.02 0.05 0.03 0.05 0.04 0.03 0.05 0.03 0.02 0.04 0.02 0.05 0.02 0.02 0.01 0.02 0.02 0.02SL AGTTTG 0.03 0.01 0.03 0.01 0.00 0.04 0.05 0.04 0.06 0.05 0.04 0.05 0.05 0.04 0.05 0.03 0.06 0.03 0.02 0.02 0.03 0.01 0.03SL TCACTA 0.01 0.01 0.01 0.00 0.01 0.00 0.03 0.02 0.03 0.03 0.02 0.04 0.02 0.01 0.03 0.01 0.03 0.01 0.01 0.01 0.01 0.01 0.01SL TCACTC 0.02 0.01 0.03 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.01 0.01 0.02 0.02 0.02 0.02 0.02 0.02SL TCACTG 0.07 0.07 0.07 0.09 0.06 0.06 0.03 0.01 0.03 0.02 0.01 0.02 0.03 0.03 0.03 0.02 0.03 0.04 0.05 0.04 0.05 0.04 0.05SL TCACTT 0.02 0.01 0.01 0.01 0.01 0.03 0.03 0.01 0.04 0.02 0.01 0.03 0.03 0.02 0.03 0.01 0.03 0.02 0.02 0.01 0.02 0.02 0.02SL TCATTA 0.03 0.01 0.03 0.01 0.02 0.04 0.07 0.06 0.08 0.07 0.05 0.07 0.04 0.03 0.04 0.03 0.05 0.01 0.01 0.01 0.01 0.01 0.02SL TCATTG 0.02 0.01 0.02 0.01 0.01 0.03 0.06 0.06 0.05 0.06 0.06 0.07 0.07 0.07 0.07 0.08 0.07 0.02 0.02 0.01 0.01 0.02 0.02SL TCCCTA 0.00 0.00 0.00 0.00 0.00 0.00 0.02 0.02 0.02 0.02 0.03 0.02 0.02 0.01 0.01 0.01 0.01 0.02 0.01 0.02 0.02 0.01 0.02SL TCCCTC 0.01 0.01 0.01 0.02 0.01 0.01 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.04 0.04 0.05 0.04 0.05 0.04SL TCCCTG 0.04 0.10 0.04 0.10 0.08 0.03 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.03 0.02 0.04 0.02 0.09 0.09 0.11 0.08 0.10 0.08SL TCCCTT 0.01 0.01 0.01 0.01 0.02 0.01 0.02 0.01 0.01 0.01 0.01 0.02 0.02 0.03 0.02 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0.03SL TCCTTA 0.01 0.01 0.01 0.01 0.01 0.01 0.04 0.04 0.03 0.05 0.05 0.05 0.03 0.03 0.03 0.03 0.03 0.02 0.02 0.02 0.02 0.02 0.02SL TCCTTG 0.01 0.01 0.01 0.01 0.01 0.01 0.04 0.08 0.03 0.05 0.07 0.03 0.04 0.06 0.04 0.07 0.04 0.05 0.04 0.05 0.05 0.05 0.04SL TCGCTA 0.02 0.00 0.02 0.01 0.01 0.02 0.02 0.02 0.02 0.02 0.01 0.02 0.01 0.00 0.01 0.01 0.01 0.00 0.00 0.00 0.00 0.00 0.00SL TCGCTC 0.03 0.02 0.03 0.03 0.02 0.02 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.00 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.01SL TCGCTG 0.17 0.14 0.22 0.13 0.15 0.16 0.02 0.01 0.02 0.01 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.02 0.01 0.03 0.01SL TCGCTT 0.03 0.02 0.02 0.03 0.02 0.04 0.01 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.00 0.00 0.01 0.01 0.00SL TCGTTA 0.03 0.00 0.03 0.01 0.01 0.03 0.03 0.02 0.03 0.02 0.02 0.03 0.03 0.02 0.02 0.01 0.03 0.00 0.00 0.00 0.00 0.00 0.00SL TCGTTG 0.03 0.01 0.03 0.01 0.02 0.04 0.03 0.03 0.02 0.03 0.01 0.03 0.04 0.03 0.05 0.04 0.04 0.01 0.01 0.00 0.01 0.00 0.00SL TCTCTA 0.00 0.00 0.01 0.00 0.01 0.01 0.04 0.06 0.03 0.05 0.07 0.04 0.03 0.03 0.03 0.04 0.03 0.02 0.02 0.01 0.02 0.02 0.02SL TCTCTC 0.01 0.02 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.03 0.02 0.02 0.03 0.04 0.04 0.04 0.03 0.04SL TCTCTG 0.06 0.16 0.04 0.11 0.19 0.04 0.03 0.03 0.03 0.02 0.02 0.02 0.04 0.07 0.04 0.09 0.04 0.07 0.07 0.07 0.07 0.09 0.06SL TCTCTT 0.02 0.02 0.01 0.02 0.02 0.02 0.03 0.03 0.03 0.03 0.03 0.03 0.05 0.06 0.04 0.07 0.04 0.03 0.04 0.02 0.03 0.04 0.03SL TCTTTA 0.02 0.02 0.01 0.01 0.01 0.02 0.09 0.10 0.06 0.10 0.12 0.09 0.06 0.05 0.06 0.04 0.06 0.02 0.02 0.01 0.03 0.02 0.02SL TCTTTG 0.02 0.02 0.01 0.01 0.01 0.02 0.09 0.19 0.08 0.13 0.24 0.07 0.10 0.15 0.09 0.21 0.09 0.04 0.05 0.03 0.04 0.05 0.04SM AGCATG 0.19 0.24 0.23 0.23 0.21 0.20 0.10 0.07 0.10 0.08 0.06 0.12 0.11 0.10 0.11 0.06 0.14 0.30 0.26 0.31 0.35 0.26 0.29SM AGTATG 0.15 0.04 0.16 0.07 0.02 0.15 0.12 0.11 0.12 0.14 0.09 0.11 0.10 0.06 0.10 0.07 0.09 0.10 0.12 0.08 0.08 0.10 0.10SM TCAATG 0.18 0.13 0.16 0.10 0.12 0.16 0.23 0.16 0.27 0.21 0.12 0.27 0.26 0.21 0.27 0.19 0.28 0.10 0.11 0.09 0.10 0.10 0.10SM TCCATG 0.12 0.24 0.08 0.24 0.18 0.08 0.21 0.31 0.18 0.23 0.36 0.16 0.23 0.32 0.26 0.34 0.22 0.34 0.34 0.38 0.30 0.40 0.33SM TCGATG 0.28 0.17 0.34 0.18 0.19 0.29 0.12 0.08 0.15 0.11 0.06 0.12 0.10 0.11 0.09 0.10 0.09 0.03 0.03 0.03 0.03 0.03 0.04SM TCTATG 0.09 0.19 0.04 0.19 0.28 0.12 0.22 0.27 0.18 0.22 0.32 0.22 0.20 0.20 0.18 0.24 0.19 0.12 0.15 0.11 0.13 0.11 0.13SN AGCAAC 0.16 0.20 0.16 0.20 0.17 0.14 0.06 0.05 0.06 0.05 0.04 0.06 0.07 0.06 0.07 0.05 0.06 0.18 0.20 0.21 0.17 0.22 0.15SN AGCAAT 0.16 0.12 0.18 0.10 0.09 0.11 0.08 0.04 0.09 0.07 0.04 0.10 0.08 0.06 0.07 0.04 0.09 0.14 0.13 0.14 0.13 0.10 0.15SN AGTAAC 0.10 0.06 0.12 0.05 0.07 0.14 0.06 0.06 0.06 0.06 0.05 0.07 0.06 0.04 0.07 0.04 0.05 0.07 0.07 0.06 0.08 0.07 0.08SN AGTAAT 0.11 0.06 0.09 0.07 0.04 0.12 0.10 0.07 0.08 0.08 0.06 0.11 0.07 0.06 0.07 0.02 0.07 0.07 0.07 0.04 0.10 0.06 0.08SN TCAAAC 0.04 0.03 0.04 0.04 0.04 0.03 0.08 0.08 0.09 0.09 0.07 0.09 0.10 0.09 0.11 0.08 0.10 0.06 0.06 0.04 0.06 0.05 0.06SN TCAAAT 0.04 0.03 0.03 0.00 0.03 0.05 0.13 0.09 0.14 0.12 0.09 0.14 0.11 0.06 0.13 0.05 0.13 0.09 0.08 0.06 0.07 0.09 0.10SN TCCAAC 0.10 0.18 0.09 0.20 0.22 0.09 0.08 0.15 0.08 0.10 0.18 0.06 0.13 0.23 0.11 0.30 0.12 0.15 0.15 0.20 0.12 0.15 0.14SN TCCAAT 0.05 0.04 0.04 0.06 0.05 0.07 0.11 0.13 0.10 0.11 0.13 0.11 0.14 0.13 0.12 0.12 0.12 0.11 0.11 0.12 0.11 0.13 0.12SN TCGAAC 0.04 0.04 0.04 0.03 0.03 0.03 0.04 0.03 0.05 0.04 0.03 0.04 0.04 0.03 0.04 0.02 0.03 0.01 0.01 0.01 0.01 0.01 0.01SN TCGAAT 0.04 0.01 0.04 0.01 0.01 0.06 0.06 0.04 0.06 0.05 0.02 0.07 0.05 0.04 0.04 0.03 0.06 0.01 0.01 0.01 0.01 0.01 0.01SN TCTAAC 0.11 0.18 0.14 0.19 0.22 0.12 0.08 0.16 0.06 0.11 0.19 0.06 0.08 0.13 0.08 0.17 0.08 0.06 0.05 0.05 0.06 0.05 0.06SN TCTAAT 0.05 0.06 0.03 0.04 0.04 0.06 0.12 0.11 0.12 0.12 0.11 0.10 0.10 0.07 0.10 0.08 0.09 0.06 0.06 0.05 0.07 0.06 0.07SP AGCCCA 0.04 0.03 0.03 0.03 0.03 0.03 0.03 0.02 0.04 0.03 0.01 0.03 0.02 0.02 0.02 0.02 0.02 0.07 0.08 0.07 0.06 0.07 0.07SP AGCCCC 0.02 0.03 0.01 0.03 0.02 0.02 0.01 0.00 0.02 0.01 0.00 0.02 0.02 0.01 0.02 0.01 0.02 0.08 0.07 0.10 0.07 0.09 0.06SP AGCCCG 0.14 0.19 0.11 0.20 0.21 0.17 0.01 0.00 0.02 0.00 0.00 0.01 0.01 0.00 0.01 0.00 0.01 0.02 0.02 0.02 0.02 0.02 0.01SP AGCCCT 0.02 0.04 0.03 0.03 0.03 0.03 0.03 0.01 0.04 0.02 0.01 0.03 0.03 0.02 0.04 0.02 0.04 0.08 0.07 0.08 0.08 0.07 0.08SP AGTCCA 0.02 0.02 0.01 0.00 0.01 0.02 0.04 0.03 0.04 0.04 0.04 0.04 0.04 0.03 0.04 0.02 0.04 0.04 0.04 0.04 0.04 0.04 0.04SP AGTCCC 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.01 0.02 0.01 0.01 0.01 0.03 0.02 0.03 0.01 0.02 0.04 0.05 0.04 0.04 0.06 0.04SP AGTCCG 0.05 0.04 0.07 0.05 0.04 0.03 0.01 0.01 0.01 0.01 0.00 0.02 0.01 0.01 0.02 0.00 0.02 0.01 0.01 0.01 0.01 0.01 0.01SP AGTCCT 0.01 0.01 0.01 0.00 0.03 0.01 0.04 0.03 0.05 0.04 0.03 0.04 0.04 0.03 0.04 0.03 0.04 0.05 0.05 0.05 0.06 0.06 0.06SP TCACCA 0.04 0.02 0.06 0.06 0.01 0.03 0.10 0.11 0.10 0.10 0.09 0.11 0.08 0.07 0.07 0.06 0.07 0.05 0.06 0.05 0.04 0.03 0.06SP TCACCC 0.03 0.01 0.03 0.00 0.00 0.01 0.04 0.02 0.04 0.03 0.02 0.04 0.04 0.02 0.04 0.01 0.05 0.04 0.04 0.04 0.04 0.04 0.04SP TCACCG 0.10 0.07 0.12 0.05 0.05 0.11 0.03 0.01 0.02 0.02 0.01 0.03 0.03 0.02 0.02 0.01 0.03 0.01 0.01 0.01 0.01 0.01 0.01SP TCACCT 0.03 0.00 0.02 0.01 0.01 0.02 0.09 0.06 0.09 0.07 0.04 0.07 0.06 0.04 0.04 0.03 0.06 0.05 0.04 0.04 0.05 0.04 0.05SP TCCCCA 0.02 0.01 0.01 0.03 0.02 0.05 0.04 0.08 0.04 0.06 0.10 0.03 0.06 0.09 0.06 0.12 0.05 0.08 0.06 0.09 0.07 0.06 0.08SP TCCCCC 0.02 0.01 0.02 0.00 0.00 0.02 0.02 0.01 0.03 0.01 0.01 0.02 0.03 0.02 0.03 0.02 0.03 0.04 0.04 0.04 0.04 0.04 0.04SP TCCCCG 0.04 0.10 0.04 0.08 0.09 0.04 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.02 0.03 0.01 0.03 0.01SP TCCCCT 0.03 0.01 0.02 0.03 0.01 0.01 0.03 0.05 0.03 0.04 0.02 0.03 0.05 0.04 0.05 0.07 0.05 0.06 0.06 0.06 0.06 0.05 0.06SP TCGCCA 0.08 0.03 0.09 0.07 0.04 0.04 0.05 0.04 0.07 0.04 0.03 0.04 0.04 0.04 0.02 0.03 0.03 0.01 0.01 0.01 0.01 0.01 0.01

Continued on next page

Page 171: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 158

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

SP TCGCCC 0.03 0.01 0.03 0.01 0.01 0.04 0.02 0.01 0.02 0.01 0.01 0.02 0.02 0.01 0.02 0.01 0.02 0.01 0.01 0.02 0.01 0.02 0.01SP TCGCCG 0.12 0.12 0.14 0.09 0.10 0.16 0.02 0.00 0.03 0.01 0.00 0.02 0.01 0.01 0.01 0.00 0.01 0.00 0.01 0.01 0.01 0.01 0.00SP TCGCCT 0.03 0.03 0.03 0.01 0.01 0.01 0.04 0.03 0.04 0.03 0.02 0.04 0.03 0.02 0.04 0.01 0.03 0.01 0.01 0.01 0.01 0.01 0.01SP TCTCCA 0.02 0.01 0.02 0.03 0.02 0.03 0.14 0.30 0.10 0.21 0.37 0.12 0.13 0.19 0.12 0.26 0.13 0.09 0.08 0.07 0.09 0.10 0.09SP TCTCCC 0.02 0.01 0.02 0.03 0.01 0.03 0.05 0.04 0.06 0.05 0.03 0.07 0.07 0.08 0.06 0.06 0.06 0.05 0.06 0.04 0.07 0.04 0.05SP TCTCCG 0.07 0.22 0.07 0.17 0.22 0.04 0.04 0.02 0.04 0.04 0.02 0.05 0.04 0.03 0.05 0.01 0.04 0.01 0.01 0.01 0.02 0.03 0.01SP TCTCCT 0.03 0.01 0.02 0.00 0.02 0.04 0.09 0.11 0.07 0.10 0.12 0.08 0.12 0.17 0.12 0.20 0.13 0.08 0.10 0.06 0.08 0.08 0.08SQ AGCCAA 0.05 0.03 0.07 0.07 0.05 0.05 0.07 0.05 0.07 0.07 0.05 0.07 0.06 0.05 0.07 0.04 0.06 0.07 0.07 0.07 0.07 0.06 0.08SQ AGCCAG 0.30 0.25 0.30 0.30 0.30 0.28 0.03 0.01 0.03 0.02 0.01 0.03 0.04 0.05 0.04 0.02 0.04 0.20 0.20 0.23 0.21 0.21 0.18SQ AGTCAA 0.03 0.02 0.02 0.02 0.01 0.03 0.08 0.07 0.10 0.08 0.07 0.10 0.10 0.06 0.09 0.04 0.10 0.04 0.05 0.04 0.06 0.04 0.04SQ AGTCAG 0.12 0.06 0.11 0.09 0.08 0.14 0.03 0.01 0.03 0.02 0.01 0.03 0.05 0.04 0.05 0.02 0.05 0.09 0.08 0.09 0.09 0.08 0.09SQ TCACAA 0.07 0.05 0.06 0.03 0.04 0.09 0.15 0.10 0.15 0.13 0.10 0.17 0.10 0.08 0.10 0.07 0.11 0.04 0.04 0.04 0.04 0.03 0.05SQ TCACAG 0.06 0.05 0.06 0.02 0.07 0.05 0.08 0.04 0.09 0.06 0.03 0.07 0.09 0.08 0.09 0.05 0.10 0.10 0.10 0.09 0.10 0.09 0.11SQ TCCCAA 0.01 0.02 0.02 0.02 0.00 0.02 0.10 0.16 0.13 0.11 0.15 0.08 0.10 0.13 0.11 0.18 0.08 0.06 0.06 0.06 0.06 0.05 0.06SQ TCCCAG 0.06 0.09 0.05 0.16 0.10 0.04 0.04 0.03 0.04 0.04 0.03 0.04 0.07 0.09 0.06 0.11 0.06 0.18 0.16 0.20 0.15 0.16 0.17SQ TCGCAA 0.11 0.09 0.12 0.04 0.05 0.12 0.08 0.04 0.09 0.06 0.05 0.09 0.05 0.04 0.04 0.02 0.04 0.01 0.01 0.00 0.01 0.01 0.01SQ TCGCAG 0.10 0.10 0.12 0.10 0.08 0.10 0.04 0.02 0.04 0.03 0.02 0.04 0.04 0.06 0.05 0.04 0.05 0.02 0.02 0.02 0.02 0.03 0.02SQ TCTCAA 0.03 0.04 0.04 0.03 0.04 0.04 0.22 0.36 0.17 0.29 0.38 0.18 0.19 0.18 0.20 0.26 0.19 0.06 0.07 0.05 0.04 0.07 0.06SQ TCTCAG 0.06 0.18 0.04 0.13 0.17 0.05 0.08 0.09 0.08 0.08 0.08 0.09 0.11 0.13 0.12 0.15 0.12 0.14 0.14 0.12 0.14 0.17 0.15SR AGCAGA 0.01 0.00 0.01 0.02 0.01 0.01 0.05 0.04 0.06 0.05 0.04 0.05 0.05 0.04 0.06 0.03 0.05 0.07 0.09 0.07 0.07 0.06 0.08SR AGCAGG 0.01 0.00 0.01 0.00 0.00 0.01 0.03 0.01 0.03 0.02 0.01 0.03 0.02 0.02 0.03 0.01 0.02 0.07 0.05 0.09 0.05 0.05 0.07SR AGCCGA 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.00 0.01 0.01 0.02 0.04 0.03 0.04 0.03 0.04 0.04SR AGCCGC 0.12 0.13 0.14 0.18 0.14 0.10 0.01 0.01 0.01 0.01 0.00 0.00 0.01 0.00 0.00 0.00 0.01 0.05 0.06 0.07 0.05 0.07 0.04SR AGCCGG 0.03 0.01 0.03 0.04 0.01 0.03 0.01 0.00 0.01 0.00 0.00 0.00 0.01 0.00 0.01 0.00 0.01 0.06 0.04 0.06 0.05 0.04 0.05SR AGCCGT 0.12 0.19 0.09 0.16 0.21 0.11 0.01 0.01 0.01 0.02 0.01 0.01 0.01 0.03 0.02 0.02 0.01 0.03 0.04 0.02 0.03 0.04 0.03SR AGTAGA 0.00 0.00 0.00 0.01 0.00 0.00 0.06 0.03 0.07 0.05 0.04 0.05 0.05 0.03 0.05 0.02 0.05 0.02 0.02 0.02 0.02 0.01 0.02SR AGTAGG 0.00 0.00 0.00 0.00 0.00 0.00 0.03 0.01 0.03 0.03 0.01 0.03 0.03 0.01 0.02 0.00 0.03 0.02 0.02 0.01 0.03 0.01 0.02SR AGTCGA 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.00 0.01 0.02 0.01 0.02 0.01 0.03 0.02 0.02 0.01 0.02 0.02 0.01SR AGTCGC 0.04 0.02 0.06 0.01 0.00 0.06 0.01 0.00 0.02 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.03 0.02 0.01 0.02 0.02SR AGTCGG 0.02 0.01 0.02 0.01 0.00 0.02 0.01 0.00 0.00 0.00 0.00 0.01 0.01 0.00 0.01 0.00 0.01 0.02 0.02 0.02 0.02 0.01 0.02SR AGTCGT 0.04 0.02 0.04 0.00 0.01 0.05 0.02 0.02 0.01 0.02 0.01 0.02 0.02 0.02 0.02 0.03 0.02 0.01 0.02 0.01 0.01 0.01 0.02SR TCAAGA 0.01 0.00 0.00 0.00 0.00 0.00 0.14 0.13 0.10 0.16 0.14 0.15 0.12 0.09 0.13 0.13 0.13 0.04 0.04 0.03 0.04 0.04 0.04SR TCAAGG 0.00 0.00 0.00 0.00 0.00 0.00 0.06 0.03 0.05 0.05 0.03 0.08 0.06 0.02 0.06 0.01 0.06 0.03 0.04 0.03 0.03 0.03 0.04SR TCACGA 0.01 0.00 0.00 0.01 0.00 0.01 0.02 0.00 0.04 0.01 0.00 0.02 0.02 0.01 0.02 0.01 0.03 0.01 0.01 0.01 0.01 0.01 0.01SR TCACGC 0.05 0.04 0.05 0.01 0.03 0.06 0.01 0.01 0.01 0.01 0.00 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01SR TCACGG 0.02 0.01 0.02 0.00 0.00 0.02 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.02 0.01 0.01 0.01 0.01 0.02SR TCACGT 0.03 0.02 0.03 0.01 0.02 0.04 0.02 0.03 0.03 0.02 0.02 0.02 0.02 0.02 0.02 0.01 0.02 0.01 0.01 0.00 0.01 0.02 0.01SR TCCAGA 0.01 0.00 0.00 0.01 0.00 0.01 0.08 0.16 0.07 0.11 0.21 0.06 0.12 0.21 0.11 0.25 0.10 0.07 0.07 0.07 0.06 0.04 0.07SR TCCAGG 0.01 0.00 0.01 0.00 0.00 0.00 0.03 0.03 0.03 0.03 0.02 0.03 0.04 0.03 0.05 0.02 0.04 0.08 0.06 0.09 0.07 0.06 0.07SR TCCCGA 0.01 0.00 0.00 0.00 0.01 0.02 0.01 0.00 0.01 0.00 0.00 0.01 0.03 0.02 0.02 0.01 0.03 0.04 0.04 0.04 0.04 0.03 0.03SR TCCCGC 0.08 0.07 0.10 0.13 0.09 0.08 0.01 0.00 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.03 0.03 0.04 0.03 0.03 0.03SR TCCCGG 0.01 0.01 0.02 0.01 0.00 0.02 0.00 0.00 0.01 0.00 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.05 0.05 0.06 0.05 0.04 0.04SR TCCCGT 0.06 0.16 0.05 0.13 0.16 0.04 0.02 0.06 0.01 0.04 0.07 0.02 0.03 0.06 0.02 0.05 0.02 0.02 0.02 0.02 0.03 0.03 0.02SR TCGAGA 0.00 0.00 0.00 0.01 0.00 0.01 0.05 0.04 0.04 0.05 0.04 0.06 0.02 0.01 0.03 0.01 0.02 0.01 0.01 0.00 0.01 0.01 0.01SR TCGAGG 0.00 0.00 0.00 0.00 0.00 0.00 0.03 0.02 0.03 0.02 0.02 0.03 0.01 0.02 0.01 0.00 0.02 0.01 0.01 0.01 0.01 0.01 0.01SR TCGCGA 0.01 0.00 0.02 0.00 0.00 0.01 0.01 0.00 0.01 0.00 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00SR TCGCGC 0.08 0.06 0.09 0.05 0.03 0.08 0.01 0.00 0.02 0.01 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.00SR TCGCGG 0.03 0.02 0.05 0.00 0.01 0.03 0.00 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.01 0.00 0.01 0.00SR TCGCGT 0.06 0.06 0.05 0.04 0.03 0.08 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.00 0.00 0.00 0.00 0.00 0.00SR TCTAGA 0.00 0.00 0.00 0.00 0.00 0.00 0.08 0.14 0.08 0.10 0.15 0.07 0.09 0.11 0.09 0.15 0.07 0.03 0.03 0.02 0.04 0.03 0.03SR TCTAGG 0.00 0.00 0.00 0.00 0.00 0.00 0.04 0.03 0.05 0.04 0.03 0.04 0.04 0.03 0.04 0.02 0.03 0.02 0.02 0.02 0.03 0.02 0.03SR TCTCGA 0.00 0.00 0.00 0.00 0.00 0.01 0.02 0.00 0.02 0.01 0.00 0.02 0.03 0.02 0.03 0.01 0.03 0.03 0.03 0.03 0.04 0.04 0.03SR TCTCGC 0.05 0.07 0.05 0.08 0.11 0.05 0.02 0.01 0.02 0.01 0.02 0.02 0.01 0.01 0.01 0.02 0.01 0.02 0.01 0.02 0.02 0.02 0.01SR TCTCGG 0.00 0.00 0.00 0.00 0.00 0.01 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.02 0.02 0.00 0.01 0.04 0.03 0.03 0.04 0.05 0.04SR TCTCGT 0.04 0.07 0.03 0.04 0.09 0.04 0.04 0.11 0.04 0.07 0.11 0.04 0.06 0.10 0.04 0.14 0.04 0.01 0.02 0.01 0.02 0.03 0.02SS AGCAGC 0.09 0.07 0.08 0.11 0.09 0.12 0.02 0.01 0.02 0.02 0.01 0.02 0.01 0.01 0.02 0.01 0.01 0.09 0.09 0.11 0.10 0.09 0.09SS AGCAGT 0.06 0.03 0.06 0.01 0.02 0.07 0.02 0.02 0.03 0.02 0.01 0.03 0.02 0.01 0.03 0.01 0.02 0.06 0.05 0.06 0.06 0.06 0.06SS AGCTCA 0.01 0.01 0.01 0.02 0.01 0.01 0.02 0.01 0.02 0.02 0.01 0.02 0.02 0.01 0.03 0.02 0.03 0.03 0.03 0.04 0.03 0.03 0.03SS AGCTCC 0.03 0.04 0.04 0.06 0.06 0.02 0.01 0.02 0.01 0.01 0.01 0.01 0.02 0.03 0.02 0.02 0.02 0.05 0.04 0.06 0.05 0.05 0.05SS AGCTCG 0.03 0.03 0.03 0.01 0.02 0.02 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.02 0.01SS AGCTCT 0.02 0.04 0.01 0.06 0.03 0.01 0.03 0.05 0.03 0.03 0.02 0.02 0.03 0.02 0.04 0.02 0.03 0.04 0.05 0.04 0.05 0.04 0.04SS AGTAGC 0.04 0.01 0.05 0.02 0.01 0.04 0.02 0.01 0.03 0.01 0.01 0.02 0.02 0.01 0.02 0.01 0.01 0.02 0.02 0.02 0.01 0.02 0.02SS AGTAGT 0.02 0.01 0.02 0.01 0.01 0.01 0.03 0.01 0.04 0.02 0.01 0.03 0.02 0.01 0.03 0.00 0.02 0.02 0.02 0.01 0.02 0.01 0.02SS AGTTCA 0.03 0.01 0.02 0.03 0.00 0.04 0.03 0.02 0.04 0.03 0.02 0.04 0.03 0.02 0.03 0.01 0.04 0.02 0.03 0.02 0.03 0.01 0.02SS AGTTCC 0.02 0.02 0.03 0.02 0.02 0.03 0.02 0.02 0.02 0.02 0.01 0.02 0.03 0.02 0.03 0.03 0.03 0.02 0.02 0.03 0.02 0.02 0.02SS AGTTCG 0.03 0.02 0.05 0.03 0.02 0.02 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.02 0.00 0.00 0.00 0.01 0.00 0.00SS AGTTCT 0.02 0.01 0.02 0.04 0.01 0.02 0.04 0.03 0.04 0.04 0.02 0.03 0.04 0.03 0.04 0.01 0.04 0.03 0.03 0.02 0.03 0.04 0.04SS TCAAGC 0.01 0.00 0.01 0.00 0.00 0.02 0.02 0.02 0.02 0.02 0.01 0.03 0.02 0.01 0.03 0.00 0.03 0.02 0.02 0.02 0.02 0.02 0.02SS TCAAGT 0.01 0.01 0.01 0.01 0.00 0.01 0.03 0.02 0.04 0.03 0.01 0.03 0.04 0.03 0.04 0.02 0.04 0.02 0.02 0.02 0.03 0.02 0.02SS TCATCA 0.03 0.01 0.02 0.03 0.01 0.03 0.06 0.03 0.06 0.04 0.02 0.06 0.04 0.04 0.04 0.03 0.05 0.03 0.02 0.02 0.03 0.01 0.03SS TCATCC 0.02 0.01 0.02 0.01 0.01 0.01 0.03 0.04 0.02 0.04 0.04 0.03 0.03 0.04 0.03 0.04 0.03 0.03 0.03 0.03 0.03 0.03 0.03SS TCATCG 0.03 0.03 0.04 0.03 0.02 0.03 0.02 0.01 0.02 0.02 0.01 0.02 0.02 0.02 0.02 0.01 0.02 0.01 0.00 0.01 0.00 0.00 0.01SS TCATCT 0.02 0.03 0.02 0.03 0.02 0.04 0.05 0.05 0.05 0.05 0.04 0.05 0.05 0.05 0.04 0.06 0.05 0.04 0.04 0.03 0.04 0.02 0.04SS TCCAGC 0.10 0.11 0.11 0.11 0.14 0.06 0.02 0.02 0.03 0.02 0.02 0.01 0.02 0.02 0.02 0.02 0.02 0.06 0.07 0.08 0.06 0.06 0.06SS TCCAGT 0.05 0.06 0.04 0.04 0.03 0.05 0.03 0.03 0.03 0.03 0.03 0.03 0.04 0.04 0.04 0.03 0.04 0.05 0.04 0.05 0.05 0.05 0.04SS TCCTCA 0.02 0.01 0.02 0.01 0.00 0.02 0.03 0.03 0.04 0.03 0.02 0.03 0.03 0.03 0.03 0.03 0.03 0.04 0.04 0.04 0.03 0.05 0.04SS TCCTCC 0.03 0.06 0.02 0.06 0.06 0.03 0.03 0.05 0.02 0.03 0.06 0.02 0.03 0.06 0.02 0.07 0.03 0.06 0.06 0.06 0.04 0.06 0.05SS TCCTCG 0.02 0.02 0.02 0.00 0.01 0.02 0.02 0.02 0.01 0.01 0.01 0.02 0.01 0.02 0.01 0.02 0.01 0.01 0.02 0.01 0.01 0.02 0.01SS TCCTCT 0.02 0.04 0.01 0.03 0.03 0.02 0.04 0.07 0.03 0.06 0.11 0.04 0.04 0.06 0.03 0.07 0.03 0.05 0.04 0.05 0.05 0.05 0.04SS TCGAGC 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.01 0.00 0.01 0.00SS TCGAGT 0.01 0.00 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.01 0.00 0.01 0.00 0.01 0.01 0.00SS TCGTCA 0.02 0.01 0.02 0.00 0.03 0.02 0.02 0.01 0.02 0.02 0.01 0.03 0.02 0.02 0.02 0.01 0.02 0.01 0.00 0.00 0.01 0.00 0.01SS TCGTCC 0.01 0.02 0.02 0.02 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.02 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01SS TCGTCG 0.02 0.01 0.03 0.01 0.01 0.03 0.01 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.00 0.00 0.00 0.01 0.00SS TCGTCT 0.01 0.01 0.02 0.01 0.01 0.01 0.02 0.02 0.03 0.02 0.02 0.02 0.03 0.03 0.03 0.03 0.03 0.01 0.01 0.01 0.01 0.01 0.01SS TCTAGC 0.00 0.00 0.00 0.00 0.00 0.00 0.02 0.02 0.02 0.02 0.01 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.01SS TCTAGT 0.00 0.00 0.00 0.00 0.00 0.00 0.03 0.03 0.03 0.03 0.02 0.03 0.02 0.02 0.03 0.02 0.03 0.02 0.02 0.01 0.02 0.02 0.02SS TCTTCA 0.04 0.04 0.02 0.04 0.03 0.03 0.06 0.06 0.06 0.07 0.07 0.06 0.06 0.05 0.05 0.05 0.07 0.04 0.05 0.03 0.04 0.04 0.05SS TCTTCC 0.05 0.09 0.05 0.07 0.11 0.03 0.05 0.08 0.04 0.06 0.11 0.04 0.05 0.09 0.05 0.12 0.05 0.04 0.05 0.04 0.04 0.04 0.04SS TCTTCG 0.03 0.04 0.05 0.04 0.03 0.03 0.03 0.02 0.03 0.02 0.03 0.03 0.03 0.03 0.03 0.02 0.03 0.01 0.01 0.01 0.01 0.00 0.01SS TCTTCT 0.05 0.09 0.03 0.04 0.11 0.05 0.08 0.14 0.06 0.11 0.17 0.08 0.07 0.11 0.06 0.15 0.06 0.04 0.04 0.04 0.05 0.04 0.05ST AGCACA 0.03 0.02 0.02 0.02 0.01 0.02 0.04 0.02 0.04 0.03 0.01 0.05 0.04 0.02 0.04 0.01 0.05 0.10 0.08 0.09 0.09 0.08 0.10ST AGCACC 0.10 0.08 0.12 0.16 0.11 0.09 0.03 0.01 0.04 0.02 0.01 0.02 0.03 0.03 0.02 0.03 0.03 0.11 0.10 0.14 0.11 0.10 0.10ST AGCACG 0.05 0.03 0.05 0.03 0.05 0.06 0.02 0.00 0.02 0.01 0.00 0.02 0.01 0.01 0.01 0.01 0.01 0.02 0.03 0.02 0.02 0.03 0.02ST AGCACT 0.03 0.03 0.03 0.04 0.03 0.04 0.04 0.03 0.05 0.03 0.03 0.04 0.04 0.03 0.03 0.02 0.05 0.08 0.08 0.08 0.08 0.09 0.07ST AGTACA 0.02 0.01 0.01 0.02 0.00 0.02 0.05 0.02 0.06 0.03 0.02 0.05 0.03 0.02 0.03 0.01 0.04 0.04 0.04 0.03 0.04 0.04 0.04ST AGTACC 0.06 0.02 0.06 0.05 0.03 0.06 0.04 0.02 0.05 0.03 0.02 0.03 0.03 0.03 0.02 0.02 0.03 0.04 0.04 0.04 0.04 0.03 0.04ST AGTACG 0.04 0.01 0.03 0.02 0.01 0.03 0.02 0.01 0.03 0.01 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.01ST AGTACT 0.02 0.02 0.02 0.01 0.01 0.02 0.04 0.03 0.05 0.04 0.02 0.05 0.04 0.04 0.04 0.02 0.05 0.03 0.03 0.03 0.03 0.03 0.04ST TCAACA 0.03 0.01 0.03 0.00 0.01 0.04 0.06 0.03 0.06 0.05 0.02 0.06 0.06 0.03 0.07 0.02 0.08 0.05 0.05 0.04 0.04 0.04 0.06ST TCAACC 0.06 0.06 0.05 0.04 0.02 0.05 0.03 0.03 0.03 0.03 0.02 0.03 0.05 0.05 0.05 0.05 0.05 0.03 0.04 0.03 0.02 0.01 0.03ST TCAACG 0.06 0.05 0.05 0.04 0.03 0.06 0.03 0.02 0.03 0.02 0.01 0.03 0.03 0.02 0.03 0.01 0.03 0.01 0.01 0.01 0.01 0.01 0.01ST TCAACT 0.02 0.01 0.03 0.02 0.03 0.04 0.07 0.06 0.08 0.06 0.04 0.07 0.08 0.08 0.08 0.06 0.09 0.04 0.04 0.03 0.04 0.04 0.04ST TCCACA 0.02 0.02 0.02 0.01 0.02 0.01 0.06 0.06 0.04 0.06 0.06 0.06 0.06 0.05 0.06 0.06 0.05 0.09 0.08 0.09 0.09 0.08 0.09ST TCCACC 0.11 0.18 0.13 0.12 0.16 0.13 0.04 0.08 0.03 0.06 0.09 0.04 0.06 0.10 0.07 0.12 0.05 0.10 0.09 0.13 0.09 0.12 0.08ST TCCACG 0.05 0.03 0.04 0.03 0.03 0.05 0.02 0.01 0.02 0.02 0.02 0.02 0.03 0.02 0.02 0.01 0.02 0.03 0.03 0.03 0.04 0.04 0.02ST TCCACT 0.04 0.06 0.03 0.06 0.08 0.03 0.08 0.14 0.06 0.11 0.15 0.07 0.08 0.12 0.08 0.17 0.07 0.07 0.07 0.07 0.06 0.08 0.07ST TCGACA 0.02 0.01 0.03 0.01 0.00 0.02 0.03 0.01 0.03 0.02 0.01 0.03 0.03 0.02 0.02 0.01 0.03 0.01 0.01 0.01 0.01 0.00 0.01ST TCGACC 0.05 0.03 0.06 0.03 0.06 0.05 0.01 0.01 0.02 0.02 0.01 0.01 0.02 0.02 0.02 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01ST TCGACG 0.05 0.03 0.05 0.02 0.03 0.06 0.01 0.01 0.01 0.01 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.00 0.00 0.00 0.00 0.00 0.00ST TCGACT 0.02 0.03 0.01 0.03 0.03 0.01 0.02 0.01 0.02 0.02 0.01 0.03 0.03 0.03 0.03 0.03 0.02 0.01 0.01 0.01 0.01 0.01 0.01ST TCTACA 0.02 0.01 0.01 0.02 0.00 0.01 0.08 0.07 0.09 0.08 0.05 0.08 0.06 0.06 0.06 0.04 0.06 0.05 0.05 0.04 0.06 0.05 0.05ST TCTACC 0.07 0.16 0.07 0.15 0.16 0.05 0.05 0.10 0.04 0.08 0.14 0.04 0.06 0.10 0.06 0.12 0.05 0.05 0.05 0.05 0.06 0.06 0.05ST TCTACG 0.03 0.02 0.03 0.01 0.02 0.03 0.03 0.02 0.03 0.03 0.03 0.03 0.03 0.02 0.03 0.02 0.03 0.01 0.01 0.01 0.01 0.01 0.01ST TCTACT 0.02 0.07 0.01 0.06 0.07 0.02 0.10 0.18 0.07 0.14 0.18 0.09 0.09 0.10 0.10 0.15 0.08 0.05 0.06 0.04 0.06 0.06 0.05SV AGCGTA 0.05 0.06 0.06 0.06 0.06 0.05 0.03 0.00 0.03 0.02 0.00 0.03 0.01 0.01 0.01 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01SV AGCGTC 0.07 0.06 0.08 0.05 0.06 0.08 0.02 0.01 0.02 0.01 0.01 0.01 0.02 0.01 0.02 0.01 0.01 0.02 0.03 0.03 0.02 0.03 0.01SV AGCGTG 0.10 0.07 0.10 0.11 0.08 0.11 0.02 0.01 0.03 0.01 0.00 0.02 0.02 0.01 0.01 0.00 0.01 0.03 0.04 0.04 0.02 0.03 0.03SV AGCGTT 0.07 0.06 0.06 0.08 0.05 0.07 0.04 0.03 0.03 0.03 0.01 0.05 0.03 0.02 0.04 0.02 0.03 0.01 0.01 0.01 0.01 0.01 0.01SV AGTGTA 0.01 0.00 0.01 0.00 0.01 0.02 0.04 0.02 0.05 0.03 0.01 0.05 0.03 0.02 0.03 0.01 0.03 0.03 0.04 0.03 0.03 0.04 0.04SV AGTGTC 0.02 0.01 0.01 0.01 0.00 0.02 0.04 0.04 0.04 0.04 0.03 0.04 0.04 0.04 0.04 0.02 0.05 0.07 0.04 0.08 0.05 0.05 0.07SV AGTGTG 0.03 0.02 0.04 0.02 0.01 0.03 0.03 0.02 0.05 0.02 0.01 0.03 0.04 0.03 0.04 0.01 0.04 0.11 0.09 0.11 0.12 0.10 0.10SV AGTGTT 0.02 0.02 0.01 0.01 0.01 0.03 0.07 0.06 0.07 0.06 0.05 0.06 0.07 0.06 0.07 0.04 0.07 0.05 0.05 0.04 0.06 0.05 0.06SV TCAGTA 0.02 0.02 0.02 0.01 0.01 0.03 0.05 0.02 0.07 0.03 0.02 0.05 0.04 0.03 0.03 0.02 0.04 0.03 0.03 0.02 0.03 0.03 0.04SV TCAGTC 0.02 0.02 0.01 0.00 0.01 0.01 0.03 0.03 0.02 0.03 0.02 0.03 0.04 0.03 0.04 0.03 0.04 0.04 0.03 0.04 0.05 0.03 0.04SV TCAGTG 0.03 0.02 0.04 0.04 0.01 0.03 0.04 0.02 0.04 0.03 0.02 0.04 0.05 0.03 0.06 0.01 0.06 0.09 0.08 0.09 0.09 0.08 0.09SV TCAGTT 0.02 0.03 0.01 0.01 0.01 0.01 0.06 0.05 0.05 0.06 0.04 0.07 0.08 0.07 0.08 0.06 0.09 0.04 0.04 0.03 0.04 0.04 0.05SV TCCGTA 0.03 0.06 0.02 0.06 0.07 0.02 0.03 0.03 0.03 0.03 0.03 0.04 0.02 0.03 0.02 0.04 0.02 0.01 0.01 0.01 0.01 0.01 0.01SV TCCGTC 0.04 0.03 0.05 0.05 0.04 0.04 0.03 0.06 0.04 0.04 0.08 0.02 0.03 0.06 0.03 0.06 0.03 0.01 0.02 0.02 0.01 0.03 0.01SV TCCGTG 0.04 0.07 0.04 0.02 0.07 0.04 0.03 0.03 0.02 0.03 0.03 0.03 0.03 0.04 0.03 0.02 0.02 0.04 0.04 0.04 0.03 0.04 0.03SV TCCGTT 0.04 0.09 0.03 0.08 0.09 0.03 0.06 0.12 0.04 0.09 0.14 0.05 0.05 0.08 0.05 0.10 0.04 0.01 0.02 0.01 0.01 0.02 0.01SV TCGGTA 0.05 0.03 0.04 0.04 0.03 0.04 0.02 0.01 0.03 0.03 0.00 0.03 0.03 0.02 0.03 0.01 0.03 0.01 0.01 0.01 0.01 0.01 0.01SV TCGGTC 0.03 0.01 0.04 0.01 0.01 0.03 0.01 0.01 0.02 0.01 0.02 0.01 0.02 0.02 0.02 0.01 0.02 0.01 0.02 0.02 0.01 0.01 0.01SV TCGGTG 0.10 0.07 0.13 0.06 0.07 0.12 0.02 0.01 0.01 0.01 0.00 0.02 0.03 0.02 0.03 0.01 0.03 0.03 0.04 0.04 0.03 0.04 0.02SV TCGGTT 0.04 0.02 0.06 0.01 0.04 0.04 0.03 0.01 0.04 0.02 0.02 0.03 0.04 0.03 0.04 0.03 0.05 0.01 0.01 0.01 0.01 0.01 0.01SV TCTGTA 0.03 0.06 0.01 0.09 0.07 0.02 0.06 0.05 0.06 0.06 0.05 0.07 0.05 0.04 0.05 0.03 0.04 0.04 0.06 0.03 0.05 0.04 0.05SV TCTGTC 0.04 0.04 0.03 0.04 0.04 0.03 0.06 0.10 0.04 0.08 0.16 0.06 0.06 0.09 0.06 0.15 0.06 0.07 0.06 0.09 0.07 0.07 0.08SV TCTGTG 0.03 0.05 0.04 0.04 0.05 0.03 0.07 0.07 0.05 0.07 0.06 0.07 0.07 0.07 0.07 0.09 0.06 0.16 0.17 0.16 0.16 0.17 0.14SV TCTGTT 0.06 0.08 0.05 0.10 0.11 0.07 0.12 0.20 0.09 0.17 0.19 0.10 0.12 0.15 0.10 0.20 0.11 0.07 0.08 0.05 0.07 0.06 0.07SW AGCTGG 0.41 0.36 0.43 0.39 0.40 0.47 0.11 0.07 0.14 0.08 0.05 0.11 0.12 0.08 0.12 0.08 0.12 0.29 0.25 0.28 0.29 0.23 0.29SW AGTTGG 0.10 0.04 0.08 0.00 0.02 0.10 0.16 0.14 0.18 0.15 0.12 0.15 0.17 0.13 0.18 0.06 0.22 0.07 0.09 0.07 0.10 0.10 0.09SW TCATGG 0.12 0.07 0.12 0.07 0.00 0.06 0.25 0.21 0.21 0.25 0.25 0.24 0.20 0.19 0.20 0.24 0.21 0.11 0.12 0.11 0.13 0.13 0.11

Continued on next page

Page 172: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 159

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

SW TCCTGG 0.27 0.47 0.26 0.52 0.54 0.27 0.13 0.19 0.13 0.15 0.18 0.12 0.15 0.15 0.11 0.14 0.14 0.34 0.29 0.36 0.29 0.30 0.30SW TCGTGG 0.09 0.07 0.11 0.03 0.02 0.10 0.12 0.09 0.11 0.14 0.07 0.14 0.11 0.08 0.11 0.08 0.09 0.04 0.05 0.04 0.04 0.04 0.04SW TCTTGG 0.01 0.00 0.00 0.00 0.02 0.00 0.23 0.30 0.23 0.23 0.34 0.25 0.25 0.37 0.29 0.41 0.21 0.14 0.20 0.14 0.15 0.21 0.17SY AGCTAC 0.17 0.17 0.18 0.20 0.16 0.14 0.04 0.04 0.03 0.05 0.04 0.05 0.06 0.07 0.06 0.07 0.07 0.16 0.18 0.20 0.16 0.15 0.15SY AGCTAT 0.20 0.14 0.17 0.20 0.15 0.14 0.07 0.04 0.07 0.04 0.02 0.08 0.07 0.03 0.07 0.02 0.07 0.11 0.15 0.12 0.12 0.16 0.12SY AGTTAC 0.09 0.10 0.10 0.05 0.08 0.12 0.06 0.06 0.07 0.07 0.05 0.07 0.08 0.05 0.07 0.04 0.08 0.08 0.08 0.07 0.08 0.08 0.09SY AGTTAT 0.14 0.07 0.16 0.06 0.05 0.19 0.09 0.08 0.09 0.07 0.06 0.12 0.10 0.07 0.10 0.04 0.12 0.06 0.05 0.04 0.06 0.05 0.07SY TCATAC 0.02 0.01 0.02 0.00 0.03 0.01 0.10 0.08 0.12 0.09 0.08 0.08 0.08 0.09 0.10 0.09 0.07 0.05 0.04 0.04 0.04 0.04 0.05SY TCATAT 0.03 0.01 0.01 0.00 0.01 0.03 0.15 0.08 0.14 0.12 0.07 0.16 0.09 0.07 0.10 0.07 0.10 0.05 0.04 0.04 0.06 0.04 0.06SY TCCTAC 0.06 0.09 0.10 0.10 0.12 0.07 0.06 0.09 0.07 0.08 0.10 0.05 0.08 0.10 0.06 0.13 0.09 0.17 0.15 0.20 0.16 0.14 0.15SY TCCTAT 0.05 0.05 0.03 0.07 0.09 0.03 0.07 0.07 0.06 0.07 0.05 0.05 0.08 0.09 0.09 0.08 0.07 0.14 0.14 0.13 0.12 0.15 0.13SY TCGTAC 0.02 0.01 0.01 0.00 0.01 0.01 0.06 0.05 0.07 0.06 0.06 0.05 0.05 0.04 0.07 0.05 0.04 0.01 0.02 0.02 0.01 0.02 0.01SY TCGTAT 0.04 0.02 0.06 0.03 0.02 0.06 0.07 0.05 0.08 0.06 0.03 0.07 0.06 0.05 0.07 0.04 0.05 0.01 0.01 0.01 0.01 0.02 0.01SY TCTTAC 0.09 0.19 0.07 0.20 0.18 0.06 0.10 0.21 0.09 0.15 0.28 0.08 0.11 0.23 0.09 0.28 0.10 0.08 0.08 0.07 0.09 0.07 0.08SY TCTTAT 0.11 0.14 0.09 0.10 0.10 0.14 0.14 0.15 0.12 0.15 0.16 0.14 0.13 0.12 0.13 0.10 0.13 0.07 0.06 0.07 0.07 0.07 0.07T* ACATAA 0.17 0.00 0.00 0.00 0.00 0.17 0.12 0.00 0.22 0.00 0.00 0.20 0.16 0.22 0.05 0.00 0.32 0.09 0.22 0.04 0.00 0.50 0.04T* ACATAG 0.02 0.00 0.17 0.00 0.00 0.17 0.12 0.00 0.17 0.15 0.00 0.33 0.13 0.11 0.14 0.00 0.09 0.08 0.10 0.12 0.23 0.25 0.11T* ACATGA 0.05 0.00 0.00 1.00 0.00 0.00 0.09 0.00 0.06 0.08 0.00 0.07 0.07 0.00 0.05 0.17 0.18 0.15 0.06 0.12 0.08 0.12 0.15T* ACCTAA 0.07 0.00 0.00 0.00 0.00 0.00 0.07 0.33 0.00 0.08 0.33 0.07 0.06 0.11 0.19 0.00 0.00 0.09 0.10 0.03 0.00 0.00 0.07T* ACCTAG 0.00 0.00 0.00 0.00 0.00 0.00 0.02 0.00 0.00 0.00 0.00 0.00 0.08 0.33 0.14 0.33 0.09 0.10 0.11 0.11 0.15 0.00 0.04T* ACCTGA 0.24 0.00 0.33 0.00 1.00 0.17 0.07 0.00 0.06 0.00 0.00 0.07 0.05 0.00 0.10 0.00 0.00 0.16 0.11 0.13 0.15 0.12 0.11T* ACGTAA 0.17 0.00 0.17 0.00 0.00 0.33 0.09 0.00 0.11 0.08 0.17 0.00 0.07 0.00 0.05 0.17 0.04 0.03 0.04 0.03 0.00 0.00 0.07T* ACGTAG 0.05 0.00 0.00 0.00 0.00 0.00 0.03 0.00 0.06 0.08 0.00 0.00 0.03 0.00 0.05 0.00 0.00 0.03 0.02 0.04 0.00 0.00 0.00T* ACGTGA 0.07 0.00 0.33 0.00 0.00 0.17 0.06 0.00 0.06 0.08 0.00 0.13 0.08 0.00 0.05 0.00 0.04 0.05 0.01 0.07 0.00 0.00 0.11T* ACTTAA 0.10 0.00 0.00 0.00 0.00 0.00 0.12 0.50 0.00 0.00 0.33 0.00 0.11 0.00 0.10 0.33 0.04 0.08 0.08 0.15 0.23 0.00 0.04T* ACTTAG 0.02 0.00 0.00 0.00 0.00 0.00 0.08 0.17 0.06 0.31 0.00 0.07 0.07 0.22 0.05 0.00 0.04 0.05 0.10 0.08 0.08 0.00 0.00T* ACTTGA 0.05 0.00 0.00 0.00 0.00 0.00 0.13 0.00 0.22 0.15 0.17 0.07 0.08 0.00 0.05 0.00 0.14 0.09 0.06 0.09 0.08 0.00 0.26TA ACAGCA 0.04 0.03 0.03 0.03 0.01 0.05 0.10 0.05 0.09 0.07 0.05 0.11 0.10 0.05 0.10 0.03 0.12 0.14 0.13 0.13 0.13 0.13 0.15TA ACAGCC 0.02 0.03 0.04 0.03 0.02 0.02 0.05 0.04 0.05 0.04 0.03 0.04 0.06 0.05 0.05 0.03 0.06 0.17 0.15 0.18 0.14 0.16 0.17TA ACAGCG 0.04 0.02 0.04 0.04 0.01 0.05 0.04 0.01 0.05 0.03 0.01 0.04 0.03 0.01 0.03 0.00 0.03 0.03 0.02 0.03 0.03 0.03 0.02TA ACAGCT 0.02 0.03 0.01 0.03 0.04 0.03 0.08 0.06 0.08 0.07 0.06 0.09 0.11 0.08 0.14 0.06 0.11 0.14 0.14 0.14 0.14 0.13 0.13TA ACCGCA 0.09 0.11 0.09 0.12 0.14 0.08 0.05 0.05 0.05 0.05 0.05 0.05 0.04 0.04 0.04 0.04 0.04 0.02 0.02 0.02 0.02 0.02 0.01TA ACCGCC 0.15 0.10 0.20 0.10 0.11 0.15 0.04 0.07 0.04 0.06 0.07 0.04 0.03 0.06 0.03 0.07 0.02 0.03 0.04 0.04 0.03 0.03 0.02TA ACCGCG 0.11 0.11 0.10 0.12 0.09 0.12 0.02 0.02 0.02 0.01 0.01 0.01 0.01 0.00 0.01 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.01TA ACCGCT 0.08 0.12 0.09 0.13 0.11 0.06 0.07 0.13 0.06 0.11 0.14 0.06 0.06 0.13 0.06 0.16 0.04 0.02 0.02 0.02 0.01 0.02 0.02TA ACGGCA 0.08 0.05 0.07 0.04 0.04 0.11 0.05 0.02 0.06 0.03 0.02 0.06 0.04 0.02 0.04 0.00 0.05 0.02 0.02 0.02 0.03 0.02 0.02TA ACGGCC 0.02 0.01 0.01 0.01 0.00 0.02 0.02 0.02 0.01 0.01 0.01 0.02 0.03 0.01 0.03 0.00 0.03 0.04 0.03 0.04 0.03 0.04 0.03TA ACGGCG 0.12 0.07 0.12 0.08 0.06 0.13 0.02 0.01 0.04 0.01 0.01 0.04 0.02 0.01 0.01 0.01 0.02 0.01 0.02 0.01 0.01 0.01 0.00TA ACGGCT 0.03 0.03 0.02 0.02 0.03 0.04 0.04 0.03 0.03 0.03 0.02 0.04 0.04 0.03 0.05 0.01 0.04 0.03 0.03 0.03 0.03 0.03 0.03TA ACTGCA 0.04 0.06 0.03 0.07 0.09 0.04 0.12 0.10 0.15 0.12 0.08 0.14 0.12 0.09 0.11 0.06 0.14 0.11 0.12 0.09 0.12 0.11 0.11TA ACTGCC 0.06 0.05 0.06 0.04 0.06 0.05 0.10 0.12 0.11 0.11 0.13 0.08 0.11 0.15 0.11 0.17 0.10 0.12 0.11 0.12 0.13 0.12 0.11TA ACTGCG 0.06 0.10 0.07 0.05 0.09 0.05 0.04 0.04 0.04 0.04 0.02 0.04 0.04 0.03 0.04 0.01 0.04 0.02 0.02 0.02 0.02 0.02 0.02TA ACTGCT 0.04 0.07 0.03 0.08 0.10 0.02 0.15 0.24 0.12 0.20 0.28 0.14 0.18 0.25 0.16 0.33 0.14 0.11 0.12 0.10 0.13 0.12 0.13TC ACATGC 0.03 0.00 0.02 0.00 0.00 0.02 0.14 0.10 0.21 0.11 0.06 0.16 0.10 0.07 0.10 0.03 0.10 0.10 0.09 0.10 0.07 0.14 0.10TC ACATGT 0.04 0.04 0.05 0.00 0.00 0.02 0.21 0.23 0.16 0.27 0.25 0.18 0.18 0.11 0.21 0.14 0.16 0.12 0.12 0.08 0.15 0.09 0.13TC ACCTGC 0.40 0.39 0.41 0.41 0.40 0.41 0.07 0.06 0.07 0.08 0.04 0.08 0.08 0.12 0.07 0.11 0.08 0.28 0.26 0.32 0.27 0.28 0.25TC ACCTGT 0.37 0.46 0.39 0.38 0.34 0.36 0.13 0.20 0.13 0.17 0.30 0.12 0.14 0.20 0.14 0.26 0.17 0.23 0.24 0.26 0.21 0.20 0.22TC ACGTGC 0.02 0.00 0.00 0.03 0.03 0.03 0.07 0.02 0.09 0.03 0.01 0.05 0.03 0.00 0.03 0.00 0.04 0.04 0.03 0.04 0.05 0.02 0.04TC ACGTGT 0.02 0.02 0.00 0.00 0.00 0.02 0.08 0.05 0.07 0.05 0.03 0.06 0.05 0.02 0.04 0.03 0.07 0.04 0.05 0.04 0.05 0.08 0.04TC ACTTGC 0.07 0.09 0.10 0.14 0.16 0.12 0.10 0.07 0.06 0.07 0.01 0.12 0.17 0.22 0.20 0.17 0.20 0.09 0.12 0.08 0.08 0.10 0.10TC ACTTGT 0.05 0.00 0.03 0.03 0.08 0.03 0.20 0.28 0.23 0.23 0.29 0.23 0.24 0.27 0.21 0.27 0.19 0.11 0.09 0.08 0.12 0.09 0.13TD ACAGAC 0.03 0.03 0.01 0.01 0.04 0.04 0.10 0.07 0.10 0.09 0.07 0.12 0.12 0.10 0.11 0.06 0.11 0.24 0.24 0.25 0.21 0.18 0.23TD ACAGAT 0.06 0.05 0.05 0.03 0.04 0.09 0.21 0.15 0.20 0.19 0.12 0.24 0.19 0.13 0.19 0.10 0.23 0.24 0.25 0.20 0.28 0.24 0.26TD ACCGAC 0.22 0.25 0.26 0.21 0.28 0.20 0.06 0.09 0.08 0.07 0.10 0.05 0.06 0.10 0.07 0.11 0.04 0.05 0.05 0.06 0.04 0.07 0.04TD ACCGAT 0.32 0.32 0.34 0.32 0.28 0.31 0.12 0.16 0.13 0.15 0.19 0.11 0.12 0.16 0.13 0.19 0.12 0.03 0.04 0.03 0.04 0.04 0.03TD ACGGAC 0.05 0.03 0.05 0.02 0.02 0.08 0.05 0.04 0.07 0.04 0.04 0.04 0.04 0.04 0.03 0.03 0.04 0.05 0.05 0.07 0.04 0.05 0.04TD ACGGAT 0.09 0.07 0.11 0.08 0.04 0.10 0.10 0.05 0.07 0.08 0.03 0.10 0.08 0.03 0.09 0.03 0.09 0.05 0.04 0.04 0.04 0.05 0.04TD ACTGAC 0.12 0.14 0.11 0.17 0.21 0.10 0.12 0.18 0.13 0.15 0.17 0.10 0.14 0.18 0.13 0.21 0.14 0.17 0.17 0.19 0.17 0.19 0.19TD ACTGAT 0.10 0.12 0.07 0.15 0.10 0.09 0.24 0.27 0.22 0.24 0.27 0.25 0.24 0.27 0.24 0.28 0.24 0.16 0.17 0.15 0.17 0.18 0.16TE ACAGAA 0.11 0.06 0.09 0.06 0.04 0.14 0.23 0.15 0.24 0.20 0.14 0.26 0.18 0.10 0.19 0.09 0.23 0.23 0.24 0.18 0.25 0.22 0.24TE ACAGAG 0.05 0.02 0.04 0.03 0.03 0.04 0.10 0.06 0.10 0.07 0.04 0.12 0.14 0.10 0.12 0.07 0.15 0.25 0.23 0.27 0.25 0.24 0.24TE ACCGAA 0.30 0.34 0.37 0.35 0.33 0.25 0.11 0.16 0.09 0.13 0.21 0.10 0.10 0.12 0.10 0.11 0.10 0.03 0.02 0.03 0.03 0.04 0.03TE ACCGAG 0.11 0.16 0.11 0.13 0.15 0.10 0.05 0.06 0.04 0.04 0.04 0.06 0.07 0.11 0.07 0.15 0.05 0.06 0.06 0.08 0.06 0.08 0.06TE ACGGAA 0.15 0.13 0.13 0.13 0.11 0.19 0.10 0.07 0.12 0.08 0.06 0.12 0.07 0.05 0.06 0.03 0.07 0.04 0.04 0.03 0.05 0.05 0.04TE ACGGAG 0.04 0.01 0.07 0.01 0.01 0.06 0.05 0.03 0.07 0.03 0.02 0.04 0.05 0.04 0.04 0.03 0.06 0.06 0.06 0.09 0.07 0.05 0.05TE ACTGAA 0.19 0.23 0.16 0.22 0.27 0.19 0.27 0.40 0.25 0.35 0.41 0.20 0.23 0.21 0.26 0.24 0.21 0.16 0.15 0.12 0.15 0.16 0.16TE ACTGAG 0.05 0.06 0.04 0.06 0.07 0.04 0.10 0.08 0.09 0.10 0.08 0.10 0.15 0.26 0.16 0.28 0.13 0.18 0.20 0.19 0.15 0.17 0.18TF ACATTC 0.04 0.04 0.04 0.03 0.01 0.03 0.10 0.07 0.09 0.08 0.07 0.12 0.10 0.07 0.10 0.10 0.11 0.11 0.09 0.10 0.10 0.08 0.10TF ACATTT 0.09 0.04 0.07 0.08 0.04 0.08 0.20 0.15 0.23 0.18 0.12 0.23 0.17 0.12 0.17 0.11 0.17 0.14 0.12 0.11 0.14 0.11 0.16TF ACCTTC 0.23 0.36 0.26 0.34 0.34 0.19 0.08 0.13 0.09 0.09 0.13 0.06 0.09 0.17 0.09 0.18 0.07 0.27 0.28 0.34 0.25 0.32 0.24TF ACCTTT 0.25 0.18 0.28 0.17 0.23 0.26 0.10 0.11 0.09 0.12 0.12 0.09 0.10 0.08 0.10 0.08 0.10 0.17 0.19 0.17 0.15 0.18 0.16TF ACGTTC 0.07 0.07 0.07 0.06 0.05 0.06 0.05 0.03 0.04 0.04 0.01 0.04 0.06 0.03 0.07 0.01 0.06 0.04 0.04 0.03 0.05 0.05 0.03TF ACGTTT 0.11 0.04 0.12 0.04 0.04 0.13 0.08 0.04 0.10 0.05 0.04 0.10 0.10 0.08 0.10 0.03 0.12 0.04 0.03 0.03 0.04 0.03 0.05TF ACTTTC 0.10 0.15 0.09 0.14 0.19 0.13 0.17 0.31 0.16 0.21 0.33 0.14 0.17 0.30 0.15 0.31 0.15 0.13 0.11 0.13 0.12 0.13 0.14TF ACTTTT 0.10 0.10 0.06 0.14 0.10 0.13 0.22 0.17 0.20 0.23 0.18 0.22 0.20 0.15 0.22 0.18 0.22 0.11 0.13 0.08 0.14 0.12 0.12TG ACAGGA 0.02 0.01 0.03 0.01 0.01 0.03 0.08 0.03 0.09 0.06 0.02 0.11 0.11 0.09 0.11 0.06 0.14 0.13 0.10 0.10 0.12 0.09 0.14TG ACAGGC 0.04 0.01 0.04 0.03 0.02 0.04 0.06 0.03 0.06 0.04 0.03 0.06 0.05 0.04 0.06 0.02 0.06 0.11 0.10 0.13 0.11 0.12 0.11TG ACAGGG 0.02 0.01 0.02 0.01 0.00 0.02 0.04 0.01 0.06 0.02 0.02 0.03 0.04 0.02 0.03 0.01 0.03 0.09 0.07 0.10 0.11 0.07 0.09TG ACAGGT 0.04 0.04 0.03 0.02 0.03 0.04 0.12 0.12 0.10 0.12 0.13 0.11 0.09 0.08 0.09 0.06 0.10 0.07 0.08 0.07 0.06 0.08 0.08TG ACCGGA 0.08 0.04 0.08 0.03 0.03 0.11 0.03 0.03 0.05 0.03 0.01 0.03 0.06 0.07 0.06 0.07 0.05 0.02 0.02 0.03 0.01 0.02 0.02TG ACCGGC 0.19 0.16 0.23 0.17 0.16 0.18 0.03 0.03 0.03 0.03 0.03 0.03 0.02 0.02 0.02 0.01 0.02 0.03 0.04 0.04 0.03 0.05 0.02TG ACCGGG 0.10 0.06 0.10 0.06 0.06 0.10 0.02 0.01 0.02 0.02 0.02 0.03 0.01 0.01 0.02 0.01 0.01 0.03 0.02 0.04 0.02 0.03 0.02TG ACCGGT 0.19 0.27 0.18 0.26 0.30 0.17 0.10 0.20 0.12 0.16 0.24 0.07 0.07 0.15 0.06 0.19 0.05 0.01 0.01 0.01 0.01 0.01 0.01TG ACGGGA 0.02 0.02 0.03 0.01 0.00 0.02 0.04 0.01 0.04 0.02 0.01 0.05 0.04 0.02 0.06 0.01 0.05 0.02 0.02 0.03 0.02 0.01 0.01TG ACGGGC 0.06 0.04 0.07 0.07 0.05 0.06 0.03 0.01 0.03 0.02 0.01 0.04 0.02 0.01 0.02 0.00 0.02 0.03 0.05 0.04 0.05 0.04 0.02TG ACGGGG 0.03 0.01 0.04 0.02 0.01 0.03 0.02 0.01 0.01 0.01 0.01 0.03 0.02 0.01 0.02 0.01 0.02 0.02 0.02 0.03 0.02 0.02 0.02TG ACGGGT 0.05 0.04 0.04 0.04 0.05 0.05 0.05 0.03 0.04 0.04 0.03 0.04 0.03 0.02 0.03 0.02 0.03 0.02 0.02 0.02 0.01 0.01 0.01TG ACTGGA 0.01 0.01 0.01 0.01 0.01 0.01 0.07 0.03 0.07 0.06 0.03 0.08 0.15 0.12 0.15 0.13 0.17 0.14 0.13 0.11 0.16 0.11 0.16TG ACTGGC 0.10 0.19 0.07 0.15 0.16 0.09 0.06 0.05 0.06 0.06 0.04 0.06 0.06 0.06 0.07 0.04 0.07 0.10 0.14 0.12 0.12 0.14 0.10TG ACTGGG 0.01 0.01 0.01 0.01 0.00 0.01 0.05 0.02 0.05 0.03 0.02 0.07 0.04 0.02 0.04 0.02 0.03 0.10 0.09 0.09 0.08 0.09 0.10TG ACTGGT 0.05 0.08 0.03 0.09 0.11 0.04 0.20 0.37 0.16 0.29 0.36 0.16 0.18 0.27 0.18 0.35 0.14 0.07 0.08 0.06 0.07 0.10 0.08TH ACACAC 0.04 0.04 0.05 0.01 0.02 0.05 0.11 0.05 0.16 0.11 0.09 0.11 0.09 0.08 0.09 0.08 0.07 0.17 0.18 0.18 0.13 0.16 0.16TH ACACAT 0.07 0.05 0.04 0.06 0.03 0.11 0.23 0.15 0.20 0.17 0.17 0.23 0.17 0.10 0.22 0.08 0.19 0.14 0.11 0.12 0.14 0.10 0.15TH ACCCAC 0.19 0.22 0.22 0.17 0.20 0.17 0.07 0.14 0.10 0.10 0.14 0.07 0.09 0.21 0.07 0.21 0.06 0.20 0.19 0.25 0.20 0.21 0.20TH ACCCAT 0.20 0.17 0.20 0.10 0.15 0.16 0.10 0.13 0.13 0.13 0.15 0.11 0.15 0.14 0.12 0.11 0.13 0.15 0.17 0.15 0.16 0.18 0.15TH ACGCAC 0.12 0.09 0.14 0.10 0.13 0.09 0.06 0.05 0.04 0.05 0.02 0.05 0.04 0.04 0.03 0.01 0.05 0.04 0.04 0.04 0.04 0.05 0.03TH ACGCAT 0.17 0.10 0.20 0.23 0.10 0.18 0.12 0.04 0.08 0.10 0.04 0.15 0.08 0.05 0.09 0.01 0.11 0.02 0.02 0.02 0.04 0.02 0.03TH ACTCAC 0.12 0.24 0.07 0.21 0.29 0.12 0.11 0.24 0.09 0.15 0.22 0.10 0.14 0.21 0.14 0.23 0.15 0.15 0.15 0.14 0.15 0.13 0.15TH ACTCAT 0.10 0.09 0.09 0.11 0.07 0.11 0.20 0.20 0.19 0.20 0.17 0.19 0.25 0.17 0.25 0.26 0.23 0.13 0.13 0.10 0.14 0.14 0.14TI ACAATA 0.02 0.01 0.01 0.01 0.00 0.01 0.10 0.03 0.11 0.07 0.02 0.11 0.07 0.02 0.08 0.01 0.08 0.05 0.04 0.04 0.05 0.03 0.05TI ACAATC 0.03 0.04 0.03 0.02 0.04 0.03 0.06 0.04 0.07 0.05 0.04 0.07 0.08 0.05 0.08 0.04 0.09 0.07 0.06 0.06 0.06 0.07 0.07TI ACAATT 0.04 0.04 0.04 0.01 0.02 0.06 0.13 0.11 0.12 0.12 0.10 0.15 0.12 0.10 0.12 0.05 0.13 0.09 0.11 0.06 0.10 0.08 0.10TI ACCATA 0.02 0.00 0.03 0.01 0.00 0.02 0.07 0.05 0.08 0.06 0.04 0.09 0.06 0.04 0.07 0.03 0.06 0.07 0.07 0.06 0.06 0.05 0.09TI ACCATC 0.26 0.41 0.26 0.42 0.42 0.22 0.08 0.14 0.08 0.10 0.16 0.07 0.10 0.18 0.09 0.20 0.08 0.32 0.28 0.43 0.33 0.34 0.28TI ACCATT 0.28 0.21 0.29 0.19 0.19 0.31 0.13 0.23 0.11 0.16 0.24 0.10 0.14 0.16 0.13 0.21 0.11 0.18 0.20 0.15 0.17 0.21 0.18TI ACGATA 0.02 0.01 0.02 0.00 0.00 0.02 0.05 0.01 0.07 0.03 0.01 0.05 0.05 0.01 0.06 0.00 0.05 0.01 0.01 0.01 0.01 0.01 0.01TI ACGATC 0.04 0.03 0.04 0.02 0.03 0.06 0.03 0.01 0.03 0.02 0.02 0.02 0.03 0.03 0.04 0.02 0.04 0.02 0.02 0.02 0.02 0.03 0.02TI ACGATT 0.09 0.04 0.09 0.07 0.05 0.09 0.04 0.03 0.04 0.04 0.02 0.05 0.05 0.04 0.05 0.03 0.05 0.02 0.02 0.01 0.02 0.02 0.02TI ACTATA 0.01 0.01 0.01 0.01 0.00 0.00 0.08 0.04 0.09 0.06 0.04 0.09 0.07 0.04 0.06 0.02 0.09 0.04 0.02 0.03 0.03 0.02 0.04TI ACTATC 0.09 0.13 0.10 0.15 0.14 0.10 0.09 0.12 0.07 0.11 0.13 0.08 0.09 0.15 0.09 0.17 0.07 0.07 0.08 0.07 0.06 0.07 0.06TI ACTATT 0.10 0.09 0.08 0.10 0.10 0.08 0.15 0.19 0.13 0.19 0.19 0.13 0.14 0.18 0.14 0.21 0.14 0.07 0.09 0.06 0.08 0.08 0.08TK ACAAAA 0.12 0.06 0.15 0.06 0.04 0.12 0.18 0.10 0.18 0.16 0.09 0.22 0.14 0.07 0.15 0.05 0.17 0.13 0.12 0.10 0.13 0.10 0.15TK ACAAAG 0.04 0.01 0.04 0.02 0.01 0.03 0.14 0.11 0.17 0.14 0.12 0.14 0.13 0.11 0.14 0.10 0.13 0.15 0.16 0.13 0.15 0.14 0.14TK ACCAAA 0.42 0.47 0.45 0.44 0.46 0.43 0.16 0.15 0.17 0.15 0.14 0.14 0.19 0.15 0.21 0.13 0.19 0.19 0.19 0.21 0.22 0.19 0.21TK ACCAAG 0.09 0.16 0.06 0.10 0.17 0.07 0.13 0.28 0.12 0.16 0.30 0.09 0.19 0.37 0.17 0.40 0.14 0.31 0.34 0.37 0.28 0.37 0.28TK ACGAAA 0.12 0.06 0.12 0.10 0.07 0.13 0.09 0.04 0.09 0.07 0.03 0.11 0.07 0.03 0.08 0.02 0.08 0.03 0.02 0.02 0.03 0.02 0.02TK ACGAAG 0.05 0.03 0.05 0.04 0.03 0.05 0.06 0.04 0.06 0.04 0.03 0.06 0.06 0.05 0.05 0.04 0.07 0.04 0.04 0.04 0.04 0.05 0.04TK ACTAAA 0.13 0.15 0.10 0.21 0.18 0.11 0.14 0.15 0.11 0.16 0.13 0.14 0.13 0.09 0.12 0.10 0.14 0.07 0.06 0.06 0.08 0.07 0.08TK ACTAAG 0.03 0.06 0.02 0.04 0.04 0.06 0.10 0.14 0.10 0.12 0.17 0.10 0.10 0.13 0.09 0.16 0.08 0.08 0.07 0.08 0.07 0.07 0.08TL ACACTA 0.01 0.00 0.01 0.00 0.00 0.01 0.04 0.03 0.04 0.03 0.02 0.04 0.03 0.02 0.04 0.01 0.04 0.03 0.03 0.02 0.03 0.03 0.03TL ACACTC 0.02 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.02 0.01 0.01 0.01 0.02 0.02 0.02 0.01 0.02 0.04 0.03 0.05 0.05 0.03 0.05TL ACACTG 0.05 0.04 0.05 0.06 0.04 0.05 0.03 0.02 0.04 0.02 0.01 0.03 0.04 0.03 0.03 0.02 0.04 0.10 0.10 0.11 0.10 0.10 0.11TL ACACTT 0.02 0.01 0.02 0.02 0.01 0.02 0.04 0.01 0.05 0.02 0.01 0.05 0.04 0.04 0.04 0.02 0.05 0.04 0.05 0.03 0.04 0.04 0.04TL ACATTA 0.03 0.02 0.04 0.01 0.01 0.04 0.09 0.06 0.09 0.08 0.05 0.11 0.05 0.03 0.06 0.02 0.06 0.03 0.03 0.01 0.03 0.02 0.03TL ACATTG 0.03 0.02 0.02 0.02 0.00 0.04 0.07 0.07 0.08 0.07 0.07 0.07 0.07 0.05 0.09 0.06 0.07 0.04 0.04 0.03 0.05 0.05 0.04TL ACCCTA 0.01 0.00 0.01 0.01 0.00 0.01 0.02 0.02 0.02 0.02 0.01 0.01 0.02 0.03 0.02 0.02 0.02 0.03 0.03 0.03 0.01 0.02 0.02TL ACCCTC 0.03 0.03 0.04 0.03 0.03 0.04 0.01 0.00 0.01 0.00 0.00 0.01 0.02 0.04 0.01 0.01 0.01 0.06 0.07 0.07 0.05 0.06 0.05TL ACCCTG 0.10 0.19 0.10 0.17 0.21 0.11 0.02 0.01 0.02 0.01 0.01 0.02 0.03 0.03 0.03 0.04 0.02 0.14 0.14 0.17 0.13 0.19 0.12TL ACCCTT 0.02 0.02 0.04 0.01 0.02 0.03 0.03 0.02 0.03 0.02 0.01 0.03 0.04 0.04 0.04 0.03 0.04 0.04 0.04 0.04 0.03 0.04 0.04TL ACCTTA 0.03 0.02 0.04 0.03 0.02 0.03 0.05 0.06 0.04 0.06 0.06 0.04 0.04 0.03 0.04 0.04 0.03 0.03 0.02 0.02 0.03 0.02 0.03TL ACCTTG 0.03 0.03 0.03 0.01 0.01 0.03 0.05 0.08 0.04 0.05 0.10 0.04 0.05 0.08 0.05 0.12 0.04 0.06 0.06 0.07 0.07 0.07 0.06TL ACGCTA 0.03 0.02 0.04 0.01 0.01 0.03 0.03 0.01 0.03 0.02 0.01 0.03 0.02 0.01 0.02 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01TL ACGCTC 0.05 0.03 0.06 0.03 0.02 0.05 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.02 0.02 0.02 0.02 0.01 0.01TL ACGCTG 0.29 0.27 0.29 0.31 0.31 0.27 0.02 0.01 0.03 0.02 0.01 0.02 0.02 0.01 0.02 0.01 0.02 0.04 0.04 0.05 0.05 0.04 0.03TL ACGCTT 0.05 0.02 0.05 0.03 0.03 0.04 0.02 0.01 0.03 0.01 0.01 0.02 0.02 0.01 0.03 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01TL ACGTTA 0.05 0.02 0.04 0.01 0.01 0.06 0.04 0.02 0.03 0.03 0.02 0.03 0.03 0.01 0.03 0.01 0.04 0.01 0.01 0.00 0.01 0.00 0.01TL ACGTTG 0.05 0.04 0.05 0.04 0.05 0.06 0.04 0.02 0.03 0.02 0.02 0.05 0.04 0.04 0.05 0.02 0.05 0.01 0.01 0.01 0.01 0.01 0.01TL ACTCTA 0.00 0.00 0.00 0.01 0.01 0.00 0.04 0.05 0.03 0.06 0.06 0.05 0.04 0.04 0.05 0.03 0.04 0.03 0.02 0.02 0.03 0.02 0.03TL ACTCTC 0.01 0.02 0.01 0.04 0.03 0.01 0.02 0.01 0.02 0.01 0.01 0.02 0.03 0.03 0.03 0.02 0.03 0.04 0.04 0.04 0.04 0.03 0.05TL ACTCTG 0.05 0.13 0.04 0.10 0.14 0.04 0.03 0.03 0.03 0.03 0.03 0.03 0.05 0.06 0.03 0.05 0.04 0.09 0.08 0.09 0.08 0.09 0.09TL ACTCTT 0.01 0.02 0.01 0.01 0.01 0.01 0.04 0.04 0.04 0.04 0.03 0.04 0.07 0.07 0.08 0.05 0.07 0.04 0.04 0.03 0.04 0.04 0.04TL ACTTTA 0.02 0.02 0.01 0.01 0.01 0.02 0.14 0.16 0.12 0.17 0.16 0.12 0.08 0.07 0.08 0.08 0.09 0.03 0.02 0.01 0.04 0.02 0.03

Continued on next page

Page 173: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 160

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

TL ACTTTG 0.01 0.01 0.01 0.01 0.01 0.01 0.14 0.26 0.11 0.18 0.28 0.12 0.13 0.20 0.11 0.29 0.12 0.05 0.06 0.04 0.05 0.05 0.05TM ACAATG 0.13 0.08 0.13 0.13 0.04 0.10 0.35 0.27 0.32 0.32 0.21 0.41 0.32 0.26 0.31 0.21 0.35 0.22 0.24 0.19 0.26 0.20 0.25TM ACCATG 0.49 0.61 0.50 0.55 0.71 0.47 0.25 0.34 0.34 0.29 0.37 0.22 0.30 0.46 0.34 0.46 0.23 0.56 0.56 0.60 0.54 0.58 0.53TM ACGATG 0.28 0.21 0.27 0.20 0.16 0.34 0.14 0.08 0.11 0.10 0.08 0.12 0.13 0.08 0.15 0.04 0.12 0.07 0.07 0.08 0.08 0.07 0.08TM ACTATG 0.10 0.10 0.09 0.12 0.09 0.10 0.25 0.31 0.23 0.28 0.34 0.25 0.25 0.20 0.20 0.29 0.29 0.15 0.13 0.13 0.12 0.14 0.14TN ACAAAC 0.05 0.03 0.03 0.03 0.04 0.05 0.13 0.14 0.14 0.14 0.11 0.14 0.13 0.12 0.14 0.09 0.14 0.13 0.12 0.12 0.15 0.11 0.14TN ACAAAT 0.06 0.02 0.04 0.03 0.01 0.04 0.21 0.12 0.22 0.18 0.09 0.23 0.14 0.09 0.12 0.05 0.17 0.16 0.14 0.12 0.18 0.11 0.20TN ACCAAC 0.35 0.49 0.36 0.37 0.49 0.29 0.12 0.22 0.14 0.14 0.25 0.07 0.17 0.31 0.15 0.42 0.14 0.29 0.36 0.37 0.27 0.34 0.26TN ACCAAT 0.24 0.18 0.27 0.22 0.16 0.27 0.14 0.17 0.12 0.18 0.18 0.13 0.18 0.15 0.18 0.13 0.16 0.20 0.19 0.23 0.24 0.23 0.20TN ACGAAC 0.04 0.05 0.03 0.03 0.04 0.06 0.05 0.03 0.04 0.05 0.03 0.05 0.06 0.04 0.08 0.04 0.05 0.03 0.02 0.02 0.03 0.03 0.03TN ACGAAT 0.05 0.04 0.06 0.06 0.04 0.06 0.08 0.05 0.07 0.06 0.03 0.10 0.07 0.03 0.08 0.00 0.08 0.02 0.02 0.01 0.02 0.02 0.02TN ACTAAC 0.15 0.16 0.13 0.16 0.17 0.15 0.10 0.14 0.11 0.11 0.17 0.09 0.10 0.15 0.10 0.17 0.11 0.07 0.07 0.07 0.07 0.08 0.07TN ACTAAT 0.07 0.04 0.07 0.09 0.05 0.08 0.17 0.13 0.15 0.14 0.14 0.20 0.15 0.11 0.16 0.10 0.15 0.08 0.06 0.06 0.06 0.08 0.09TP ACACCA 0.05 0.04 0.05 0.02 0.03 0.07 0.13 0.13 0.13 0.14 0.12 0.12 0.09 0.07 0.09 0.04 0.09 0.11 0.11 0.09 0.12 0.12 0.13TP ACACCC 0.02 0.02 0.03 0.02 0.03 0.01 0.04 0.02 0.08 0.03 0.01 0.05 0.04 0.03 0.05 0.01 0.05 0.09 0.09 0.09 0.08 0.07 0.08TP ACACCG 0.09 0.05 0.10 0.05 0.07 0.10 0.04 0.01 0.05 0.03 0.01 0.05 0.03 0.01 0.03 0.00 0.03 0.02 0.02 0.02 0.02 0.02 0.02TP ACACCT 0.03 0.03 0.03 0.02 0.03 0.02 0.12 0.07 0.13 0.08 0.08 0.11 0.08 0.05 0.08 0.05 0.10 0.10 0.09 0.09 0.13 0.10 0.11TP ACCCCA 0.04 0.06 0.04 0.08 0.06 0.04 0.07 0.16 0.08 0.10 0.18 0.07 0.09 0.14 0.11 0.18 0.07 0.11 0.10 0.12 0.10 0.12 0.11TP ACCCCC 0.02 0.01 0.03 0.03 0.01 0.03 0.03 0.02 0.02 0.02 0.02 0.03 0.03 0.03 0.04 0.01 0.04 0.07 0.06 0.10 0.07 0.07 0.05TP ACCCCG 0.08 0.14 0.06 0.14 0.14 0.07 0.02 0.01 0.02 0.02 0.01 0.02 0.02 0.01 0.03 0.01 0.02 0.03 0.02 0.04 0.03 0.02 0.03TP ACCCCT 0.03 0.02 0.03 0.03 0.02 0.03 0.04 0.05 0.04 0.06 0.04 0.04 0.06 0.07 0.05 0.09 0.07 0.09 0.09 0.10 0.09 0.08 0.10TP ACGCCA 0.16 0.11 0.14 0.14 0.09 0.18 0.06 0.03 0.05 0.05 0.04 0.05 0.04 0.03 0.04 0.01 0.05 0.02 0.02 0.02 0.02 0.03 0.02TP ACGCCC 0.05 0.01 0.07 0.01 0.00 0.05 0.03 0.01 0.06 0.02 0.01 0.03 0.02 0.01 0.02 0.01 0.03 0.03 0.02 0.03 0.03 0.03 0.02TP ACGCCG 0.27 0.19 0.28 0.19 0.23 0.27 0.03 0.01 0.03 0.02 0.01 0.02 0.02 0.02 0.02 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01TP ACGCCT 0.07 0.04 0.07 0.06 0.05 0.05 0.06 0.02 0.05 0.04 0.01 0.06 0.03 0.01 0.03 0.02 0.04 0.03 0.03 0.03 0.03 0.03 0.02TP ACTCCA 0.01 0.01 0.01 0.02 0.02 0.01 0.16 0.32 0.11 0.22 0.34 0.14 0.18 0.24 0.18 0.25 0.16 0.11 0.15 0.09 0.11 0.11 0.11TP ACTCCC 0.02 0.02 0.02 0.02 0.01 0.01 0.05 0.03 0.03 0.04 0.03 0.04 0.07 0.06 0.08 0.07 0.08 0.07 0.06 0.07 0.06 0.07 0.06TP ACTCCG 0.06 0.22 0.03 0.15 0.18 0.05 0.04 0.02 0.03 0.04 0.01 0.06 0.05 0.03 0.05 0.01 0.06 0.02 0.02 0.01 0.02 0.02 0.02TP ACTCCT 0.02 0.03 0.02 0.03 0.03 0.02 0.10 0.09 0.10 0.11 0.08 0.11 0.14 0.18 0.13 0.22 0.11 0.10 0.10 0.08 0.09 0.09 0.10TQ ACACAA 0.07 0.04 0.06 0.07 0.03 0.05 0.19 0.13 0.19 0.17 0.13 0.20 0.13 0.12 0.13 0.08 0.15 0.09 0.07 0.08 0.09 0.07 0.09TQ ACACAG 0.07 0.04 0.09 0.06 0.03 0.07 0.10 0.05 0.13 0.07 0.05 0.15 0.12 0.11 0.13 0.05 0.12 0.22 0.20 0.20 0.23 0.20 0.23TQ ACCCAA 0.08 0.06 0.08 0.05 0.07 0.10 0.14 0.20 0.14 0.16 0.17 0.08 0.14 0.17 0.14 0.20 0.14 0.09 0.09 0.10 0.08 0.09 0.08TQ ACCCAG 0.23 0.28 0.24 0.27 0.26 0.16 0.05 0.05 0.05 0.06 0.04 0.06 0.10 0.14 0.09 0.15 0.11 0.27 0.31 0.30 0.24 0.33 0.26TQ ACGCAA 0.17 0.15 0.18 0.16 0.10 0.23 0.11 0.07 0.11 0.09 0.06 0.12 0.06 0.04 0.06 0.02 0.07 0.01 0.02 0.01 0.02 0.02 0.01TQ ACGCAG 0.17 0.10 0.19 0.10 0.12 0.19 0.06 0.03 0.09 0.03 0.03 0.07 0.05 0.02 0.05 0.04 0.05 0.05 0.06 0.05 0.06 0.06 0.04TQ ACTCAA 0.06 0.08 0.03 0.07 0.08 0.07 0.25 0.39 0.21 0.34 0.48 0.24 0.25 0.26 0.26 0.30 0.23 0.08 0.07 0.06 0.07 0.05 0.09TQ ACTCAG 0.14 0.25 0.13 0.21 0.30 0.14 0.10 0.08 0.08 0.09 0.06 0.09 0.14 0.14 0.15 0.17 0.14 0.18 0.18 0.19 0.21 0.18 0.20TR ACAAGA 0.01 0.00 0.01 0.01 0.00 0.01 0.22 0.19 0.23 0.23 0.20 0.24 0.14 0.08 0.17 0.07 0.14 0.09 0.08 0.05 0.08 0.07 0.10TR ACAAGG 0.01 0.00 0.00 0.00 0.01 0.00 0.10 0.04 0.12 0.09 0.04 0.10 0.06 0.03 0.07 0.02 0.07 0.07 0.05 0.07 0.06 0.05 0.09TR ACACGA 0.01 0.00 0.01 0.01 0.01 0.01 0.02 0.00 0.03 0.01 0.00 0.03 0.02 0.01 0.03 0.00 0.03 0.03 0.03 0.02 0.03 0.03 0.03TR ACACGC 0.04 0.03 0.04 0.04 0.03 0.03 0.02 0.01 0.02 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.03 0.04 0.04 0.04 0.04 0.03TR ACACGG 0.01 0.00 0.01 0.00 0.01 0.01 0.01 0.00 0.02 0.01 0.00 0.01 0.01 0.00 0.01 0.00 0.02 0.04 0.03 0.05 0.05 0.03 0.05TR ACACGT 0.03 0.04 0.02 0.03 0.02 0.04 0.04 0.03 0.04 0.03 0.04 0.03 0.02 0.02 0.01 0.02 0.01 0.02 0.02 0.02 0.01 0.02 0.01TR ACCAGA 0.02 0.01 0.01 0.01 0.00 0.01 0.11 0.24 0.09 0.18 0.28 0.07 0.16 0.30 0.17 0.37 0.14 0.10 0.11 0.10 0.09 0.10 0.10TR ACCAGG 0.01 0.00 0.01 0.01 0.01 0.01 0.04 0.04 0.04 0.04 0.04 0.04 0.05 0.04 0.05 0.03 0.05 0.11 0.10 0.14 0.10 0.10 0.10TR ACCCGA 0.03 0.01 0.02 0.01 0.01 0.03 0.01 0.00 0.01 0.00 0.00 0.01 0.03 0.02 0.03 0.01 0.04 0.05 0.05 0.05 0.04 0.04 0.04TR ACCCGC 0.20 0.19 0.24 0.23 0.21 0.20 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.06 0.07 0.07 0.06 0.09 0.05TR ACCCGG 0.03 0.01 0.05 0.03 0.03 0.03 0.01 0.00 0.00 0.00 0.00 0.01 0.01 0.00 0.01 0.00 0.01 0.07 0.07 0.08 0.07 0.08 0.06TR ACCCGT 0.16 0.26 0.14 0.28 0.29 0.14 0.03 0.06 0.01 0.04 0.06 0.02 0.03 0.05 0.01 0.06 0.03 0.03 0.04 0.03 0.03 0.04 0.03TR ACGAGA 0.00 0.00 0.00 0.00 0.00 0.00 0.07 0.05 0.07 0.06 0.03 0.07 0.05 0.03 0.06 0.03 0.05 0.01 0.02 0.01 0.01 0.01 0.02TR ACGAGG 0.00 0.00 0.01 0.00 0.00 0.00 0.04 0.01 0.02 0.01 0.00 0.04 0.03 0.02 0.03 0.01 0.04 0.02 0.01 0.02 0.02 0.02 0.02TR ACGCGA 0.03 0.00 0.03 0.01 0.01 0.03 0.01 0.00 0.02 0.01 0.00 0.01 0.01 0.01 0.00 0.00 0.00 0.00 0.01 0.00 0.00 0.00 0.00TR ACGCGC 0.11 0.08 0.13 0.06 0.05 0.13 0.01 0.01 0.01 0.00 0.01 0.01 0.00 0.00 0.00 0.00 0.00 0.01 0.01 0.02 0.01 0.03 0.01TR ACGCGG 0.04 0.02 0.03 0.00 0.01 0.04 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.02 0.01 0.02 0.01TR ACGCGT 0.13 0.11 0.09 0.07 0.09 0.14 0.01 0.01 0.02 0.01 0.01 0.02 0.01 0.01 0.00 0.00 0.01 0.01 0.00 0.01 0.00 0.00 0.00TR ACTAGA 0.00 0.00 0.00 0.00 0.00 0.00 0.12 0.19 0.08 0.14 0.19 0.10 0.14 0.18 0.15 0.20 0.13 0.04 0.04 0.03 0.04 0.04 0.05TR ACTAGG 0.00 0.00 0.00 0.00 0.00 0.00 0.05 0.02 0.05 0.04 0.03 0.05 0.05 0.04 0.05 0.03 0.06 0.03 0.02 0.03 0.03 0.02 0.03TR ACTCGA 0.01 0.00 0.01 0.00 0.00 0.01 0.02 0.01 0.02 0.01 0.00 0.04 0.04 0.02 0.06 0.01 0.05 0.05 0.06 0.03 0.07 0.05 0.06TR ACTCGC 0.07 0.07 0.10 0.10 0.08 0.07 0.01 0.01 0.02 0.01 0.01 0.02 0.02 0.02 0.01 0.01 0.01 0.03 0.04 0.03 0.04 0.03 0.04TR ACTCGG 0.00 0.00 0.00 0.00 0.00 0.01 0.01 0.01 0.02 0.00 0.00 0.01 0.02 0.01 0.01 0.01 0.03 0.05 0.05 0.06 0.05 0.06 0.05TR ACTCGT 0.05 0.15 0.04 0.11 0.16 0.04 0.04 0.07 0.03 0.05 0.05 0.03 0.06 0.10 0.04 0.10 0.05 0.02 0.04 0.02 0.04 0.04 0.02TS ACAAGC 0.01 0.00 0.01 0.01 0.01 0.01 0.04 0.02 0.04 0.03 0.01 0.04 0.03 0.02 0.02 0.01 0.03 0.04 0.03 0.04 0.05 0.03 0.04TS ACAAGT 0.01 0.00 0.00 0.02 0.01 0.01 0.06 0.03 0.07 0.04 0.03 0.06 0.05 0.03 0.05 0.01 0.05 0.04 0.04 0.03 0.04 0.03 0.05TS ACATCA 0.03 0.03 0.02 0.02 0.01 0.04 0.07 0.04 0.07 0.07 0.04 0.07 0.05 0.04 0.05 0.03 0.06 0.06 0.06 0.05 0.08 0.07 0.07TS ACATCC 0.02 0.01 0.02 0.01 0.02 0.02 0.04 0.04 0.03 0.04 0.03 0.05 0.04 0.04 0.05 0.05 0.04 0.05 0.05 0.06 0.05 0.05 0.06TS ACATCG 0.03 0.02 0.02 0.01 0.01 0.02 0.03 0.02 0.04 0.03 0.01 0.03 0.02 0.02 0.03 0.01 0.03 0.01 0.01 0.01 0.01 0.01 0.01TS ACATCT 0.02 0.03 0.02 0.01 0.01 0.01 0.08 0.09 0.07 0.08 0.07 0.09 0.07 0.05 0.07 0.06 0.07 0.07 0.07 0.07 0.07 0.07 0.07TS ACCAGC 0.23 0.21 0.25 0.30 0.18 0.24 0.02 0.03 0.03 0.02 0.01 0.03 0.04 0.04 0.03 0.04 0.04 0.12 0.11 0.15 0.10 0.12 0.10TS ACCAGT 0.11 0.08 0.11 0.08 0.09 0.11 0.03 0.03 0.05 0.03 0.04 0.03 0.05 0.06 0.05 0.04 0.06 0.07 0.08 0.08 0.07 0.09 0.08TS ACCTCA 0.04 0.03 0.05 0.03 0.02 0.02 0.04 0.04 0.04 0.04 0.04 0.04 0.05 0.04 0.04 0.05 0.05 0.07 0.06 0.07 0.08 0.05 0.07TS ACCTCC 0.07 0.10 0.08 0.08 0.09 0.07 0.03 0.05 0.03 0.04 0.05 0.03 0.04 0.07 0.04 0.08 0.03 0.08 0.07 0.10 0.07 0.08 0.07TS ACCTCG 0.07 0.03 0.08 0.02 0.01 0.07 0.02 0.01 0.02 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.02 0.02 0.01 0.02TS ACCTCT 0.07 0.13 0.07 0.12 0.14 0.07 0.05 0.08 0.05 0.07 0.12 0.05 0.05 0.09 0.05 0.14 0.04 0.07 0.09 0.07 0.06 0.08 0.07TS ACGAGC 0.01 0.00 0.01 0.00 0.01 0.01 0.01 0.01 0.03 0.01 0.00 0.02 0.01 0.01 0.01 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.01TS ACGAGT 0.01 0.00 0.00 0.00 0.00 0.01 0.02 0.01 0.03 0.01 0.01 0.02 0.02 0.01 0.02 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01TS ACGTCA 0.03 0.02 0.03 0.03 0.02 0.02 0.03 0.02 0.03 0.02 0.01 0.03 0.02 0.02 0.02 0.01 0.03 0.01 0.02 0.01 0.02 0.02 0.01TS ACGTCC 0.02 0.01 0.02 0.02 0.01 0.01 0.02 0.01 0.02 0.01 0.01 0.02 0.02 0.01 0.02 0.01 0.03 0.01 0.02 0.02 0.02 0.02 0.01TS ACGTCG 0.04 0.03 0.04 0.01 0.02 0.06 0.01 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.01 0.00TS ACGTCT 0.02 0.01 0.02 0.02 0.02 0.03 0.03 0.02 0.02 0.02 0.01 0.03 0.03 0.02 0.03 0.01 0.03 0.01 0.01 0.01 0.02 0.01 0.01TS ACTAGC 0.01 0.00 0.00 0.00 0.01 0.01 0.03 0.02 0.04 0.02 0.02 0.03 0.03 0.02 0.03 0.02 0.03 0.03 0.03 0.02 0.02 0.02 0.03TS ACTAGT 0.00 0.00 0.00 0.01 0.01 0.00 0.05 0.03 0.06 0.04 0.04 0.04 0.04 0.03 0.06 0.02 0.05 0.02 0.03 0.02 0.02 0.04 0.02TS ACTTCA 0.03 0.03 0.04 0.02 0.03 0.04 0.09 0.08 0.08 0.10 0.07 0.09 0.09 0.08 0.10 0.06 0.10 0.06 0.06 0.05 0.05 0.06 0.06TS ACTTCC 0.05 0.09 0.03 0.08 0.11 0.03 0.06 0.12 0.05 0.08 0.14 0.06 0.07 0.11 0.08 0.14 0.06 0.05 0.05 0.05 0.06 0.03 0.06TS ACTTCG 0.03 0.04 0.03 0.03 0.02 0.06 0.03 0.03 0.03 0.03 0.03 0.04 0.04 0.04 0.04 0.02 0.05 0.01 0.01 0.01 0.01 0.01 0.01TS ACTTCT 0.04 0.08 0.04 0.08 0.12 0.03 0.11 0.17 0.08 0.15 0.21 0.09 0.10 0.13 0.09 0.17 0.09 0.06 0.07 0.05 0.07 0.07 0.06TT ACAACA 0.04 0.02 0.02 0.01 0.02 0.03 0.11 0.05 0.14 0.07 0.04 0.12 0.08 0.06 0.07 0.04 0.09 0.09 0.08 0.06 0.08 0.07 0.11TT ACAACC 0.05 0.03 0.03 0.04 0.01 0.05 0.06 0.04 0.07 0.04 0.04 0.04 0.06 0.06 0.06 0.03 0.07 0.07 0.08 0.07 0.07 0.07 0.06TT ACAACG 0.05 0.04 0.04 0.02 0.02 0.05 0.04 0.01 0.03 0.03 0.02 0.05 0.04 0.01 0.03 0.01 0.05 0.02 0.03 0.02 0.03 0.02 0.02TT ACAACT 0.02 0.02 0.01 0.04 0.02 0.02 0.08 0.06 0.06 0.08 0.07 0.09 0.10 0.06 0.11 0.05 0.10 0.07 0.07 0.06 0.08 0.06 0.09TT ACCACA 0.06 0.04 0.07 0.04 0.04 0.07 0.07 0.06 0.09 0.07 0.06 0.07 0.09 0.07 0.08 0.07 0.10 0.16 0.15 0.17 0.16 0.16 0.16TT ACCACC 0.25 0.31 0.30 0.26 0.32 0.27 0.06 0.12 0.05 0.10 0.14 0.05 0.08 0.15 0.08 0.20 0.06 0.18 0.18 0.24 0.15 0.22 0.16TT ACCACG 0.14 0.12 0.22 0.12 0.10 0.16 0.04 0.02 0.04 0.03 0.03 0.04 0.03 0.03 0.04 0.04 0.04 0.05 0.05 0.06 0.05 0.05 0.04TT ACCACT 0.10 0.15 0.09 0.14 0.18 0.08 0.10 0.17 0.09 0.13 0.16 0.08 0.12 0.18 0.12 0.21 0.09 0.12 0.12 0.12 0.11 0.12 0.11TT ACGACA 0.03 0.03 0.03 0.01 0.01 0.03 0.04 0.01 0.05 0.03 0.02 0.05 0.03 0.02 0.02 0.01 0.03 0.02 0.01 0.01 0.02 0.02 0.02TT ACGACC 0.06 0.04 0.05 0.06 0.05 0.05 0.02 0.01 0.02 0.02 0.01 0.02 0.02 0.02 0.02 0.01 0.03 0.02 0.01 0.03 0.02 0.01 0.01TT ACGACG 0.06 0.04 0.06 0.04 0.04 0.07 0.01 0.01 0.02 0.01 0.01 0.01 0.02 0.01 0.02 0.00 0.02 0.01 0.00 0.01 0.01 0.01 0.01TT ACGACT 0.03 0.02 0.01 0.04 0.03 0.01 0.03 0.02 0.03 0.02 0.02 0.03 0.03 0.02 0.04 0.02 0.03 0.01 0.01 0.02 0.01 0.02 0.02TT ACTACA 0.01 0.00 0.01 0.00 0.00 0.01 0.09 0.09 0.08 0.09 0.08 0.11 0.09 0.07 0.10 0.05 0.10 0.07 0.09 0.05 0.09 0.09 0.08TT ACTACC 0.06 0.08 0.03 0.11 0.09 0.05 0.08 0.10 0.10 0.07 0.10 0.06 0.07 0.10 0.07 0.11 0.07 0.06 0.06 0.05 0.07 0.05 0.06TT ACTACG 0.03 0.03 0.02 0.02 0.02 0.04 0.04 0.03 0.04 0.04 0.03 0.05 0.04 0.02 0.04 0.02 0.04 0.01 0.02 0.01 0.01 0.01 0.01TT ACTACT 0.02 0.05 0.01 0.04 0.06 0.02 0.13 0.19 0.10 0.16 0.19 0.10 0.11 0.12 0.11 0.13 0.09 0.05 0.05 0.04 0.06 0.05 0.06TV ACAGTA 0.02 0.02 0.01 0.02 0.02 0.02 0.08 0.02 0.10 0.04 0.01 0.09 0.06 0.03 0.06 0.02 0.07 0.05 0.05 0.04 0.04 0.06 0.06TV ACAGTC 0.02 0.01 0.01 0.02 0.01 0.02 0.05 0.04 0.05 0.04 0.03 0.03 0.05 0.04 0.06 0.03 0.05 0.08 0.08 0.09 0.07 0.08 0.07TV ACAGTG 0.04 0.01 0.03 0.01 0.02 0.03 0.06 0.03 0.08 0.04 0.04 0.08 0.07 0.05 0.08 0.02 0.09 0.16 0.16 0.17 0.15 0.15 0.15TV ACAGTT 0.02 0.02 0.01 0.02 0.02 0.02 0.09 0.06 0.09 0.07 0.06 0.11 0.11 0.09 0.12 0.05 0.13 0.07 0.08 0.06 0.07 0.07 0.09TV ACCGTA 0.07 0.13 0.07 0.13 0.14 0.06 0.04 0.03 0.06 0.03 0.02 0.04 0.03 0.01 0.03 0.02 0.02 0.01 0.01 0.01 0.01 0.01 0.01TV ACCGTC 0.10 0.06 0.13 0.08 0.07 0.11 0.05 0.10 0.04 0.07 0.10 0.03 0.04 0.10 0.03 0.13 0.03 0.03 0.03 0.03 0.02 0.02 0.02TV ACCGTG 0.13 0.13 0.16 0.12 0.12 0.12 0.04 0.04 0.04 0.03 0.04 0.04 0.04 0.04 0.03 0.04 0.04 0.06 0.07 0.07 0.07 0.08 0.06TV ACCGTT 0.15 0.26 0.14 0.28 0.26 0.11 0.08 0.12 0.08 0.10 0.14 0.07 0.08 0.13 0.07 0.14 0.07 0.01 0.02 0.01 0.02 0.02 0.01TV ACGGTA 0.07 0.05 0.07 0.07 0.04 0.08 0.04 0.02 0.04 0.03 0.01 0.05 0.03 0.01 0.03 0.00 0.03 0.01 0.01 0.01 0.01 0.01 0.01TV ACGGTC 0.05 0.02 0.05 0.02 0.03 0.06 0.02 0.01 0.02 0.02 0.02 0.02 0.02 0.01 0.01 0.01 0.03 0.02 0.02 0.02 0.02 0.02 0.02TV ACGGTG 0.14 0.06 0.15 0.05 0.05 0.15 0.03 0.01 0.06 0.02 0.01 0.04 0.03 0.02 0.03 0.01 0.03 0.05 0.06 0.06 0.06 0.06 0.04TV ACGGTT 0.07 0.04 0.06 0.05 0.05 0.07 0.04 0.03 0.01 0.04 0.03 0.04 0.04 0.02 0.04 0.02 0.04 0.01 0.01 0.01 0.01 0.01 0.02TV ACTGTA 0.02 0.04 0.02 0.04 0.04 0.03 0.08 0.06 0.08 0.07 0.04 0.09 0.06 0.04 0.06 0.04 0.06 0.06 0.06 0.05 0.05 0.05 0.06TV ACTGTC 0.04 0.03 0.02 0.03 0.03 0.04 0.07 0.14 0.07 0.12 0.15 0.07 0.09 0.14 0.10 0.14 0.07 0.10 0.09 0.11 0.09 0.09 0.10TV ACTGTG 0.03 0.03 0.03 0.03 0.04 0.03 0.07 0.07 0.08 0.07 0.06 0.07 0.09 0.07 0.09 0.07 0.09 0.19 0.17 0.20 0.19 0.18 0.19TV ACTGTT 0.04 0.08 0.02 0.04 0.06 0.04 0.15 0.22 0.10 0.20 0.23 0.14 0.16 0.20 0.15 0.26 0.16 0.08 0.09 0.06 0.10 0.08 0.09TW ACATGG 0.12 0.05 0.10 0.02 0.07 0.09 0.33 0.26 0.37 0.28 0.27 0.41 0.27 0.21 0.26 0.15 0.25 0.26 0.23 0.28 0.27 0.21 0.31TW ACCTGG 0.78 0.92 0.80 0.98 0.86 0.79 0.20 0.30 0.26 0.21 0.27 0.13 0.24 0.37 0.26 0.50 0.18 0.45 0.45 0.46 0.45 0.41 0.38TW ACGTGG 0.09 0.02 0.08 0.00 0.04 0.12 0.14 0.08 0.16 0.10 0.03 0.12 0.11 0.06 0.11 0.00 0.11 0.11 0.11 0.09 0.11 0.08 0.10TW ACTTGG 0.01 0.02 0.01 0.00 0.02 0.00 0.33 0.36 0.21 0.40 0.44 0.34 0.38 0.37 0.37 0.35 0.46 0.19 0.21 0.17 0.17 0.30 0.21TY ACATAC 0.04 0.03 0.03 0.01 0.01 0.03 0.12 0.11 0.11 0.14 0.10 0.12 0.10 0.06 0.12 0.14 0.11 0.14 0.16 0.15 0.12 0.14 0.14TY ACATAT 0.04 0.02 0.02 0.00 0.01 0.06 0.20 0.12 0.21 0.16 0.10 0.23 0.14 0.11 0.13 0.06 0.15 0.11 0.08 0.08 0.11 0.07 0.12TY ACCTAC 0.23 0.27 0.26 0.39 0.41 0.29 0.09 0.14 0.09 0.12 0.18 0.08 0.12 0.20 0.13 0.18 0.08 0.27 0.28 0.35 0.26 0.28 0.24TY ACCTAT 0.27 0.24 0.32 0.22 0.21 0.28 0.10 0.11 0.12 0.11 0.11 0.10 0.12 0.13 0.10 0.10 0.12 0.19 0.19 0.19 0.22 0.22 0.18TY ACGTAC 0.03 0.03 0.03 0.00 0.02 0.05 0.06 0.04 0.08 0.04 0.03 0.04 0.05 0.03 0.06 0.03 0.07 0.04 0.05 0.04 0.04 0.04 0.04TY ACGTAT 0.09 0.03 0.09 0.02 0.03 0.06 0.09 0.05 0.12 0.06 0.04 0.12 0.08 0.04 0.09 0.02 0.09 0.03 0.02 0.03 0.04 0.02 0.03TY ACTTAC 0.16 0.24 0.12 0.24 0.22 0.13 0.15 0.23 0.12 0.17 0.27 0.10 0.17 0.28 0.18 0.33 0.15 0.15 0.15 0.12 0.14 0.16 0.17TY ACTTAT 0.15 0.15 0.12 0.12 0.10 0.10 0.18 0.21 0.15 0.20 0.17 0.21 0.20 0.15 0.20 0.14 0.22 0.08 0.07 0.06 0.07 0.07 0.08V* GTATAA 0.07 0.07 0.09 0.12 0.00 0.08 0.16 0.15 0.14 0.12 0.00 0.16 0.10 0.07 0.11 0.06 0.00 0.03 0.03 0.01 0.08 0.00 0.00V* GTATAG 0.02 0.00 0.04 0.00 0.00 0.08 0.05 0.00 0.05 0.00 0.00 0.08 0.08 0.10 0.06 0.06 0.19 0.04 0.03 0.03 0.00 0.00 0.04V* GTATGA 0.08 0.00 0.09 0.00 0.00 0.08 0.09 0.00 0.10 0.09 0.00 0.08 0.07 0.03 0.06 0.06 0.08 0.07 0.06 0.10 0.08 0.04 0.06V* GTCTAA 0.06 0.07 0.14 0.12 0.25 0.00 0.07 0.15 0.14 0.12 0.11 0.04 0.09 0.10 0.14 0.06 0.08 0.06 0.13 0.10 0.15 0.14 0.04V* GTCTAG 0.01 0.00 0.00 0.00 0.00 0.00 0.02 0.00 0.05 0.00 0.00 0.00 0.03 0.07 0.00 0.00 0.00 0.06 0.04 0.08 0.04 0.04 0.00V* GTCTGA 0.13 0.13 0.18 0.12 0.00 0.25 0.03 0.00 0.00 0.03 0.06 0.00 0.04 0.00 0.03 0.00 0.08 0.16 0.09 0.13 0.08 0.18 0.12V* GTGTAA 0.17 0.07 0.04 0.25 0.25 0.08 0.08 0.23 0.00 0.06 0.28 0.04 0.10 0.16 0.03 0.06 0.08 0.10 0.08 0.09 0.08 0.18 0.08V* GTGTAG 0.04 0.07 0.04 0.00 0.00 0.08 0.03 0.00 0.10 0.00 0.00 0.04 0.07 0.00 0.03 0.12 0.04 0.10 0.15 0.08 0.27 0.14 0.20V* GTGTGA 0.07 0.13 0.04 0.00 0.25 0.00 0.05 0.04 0.05 0.03 0.06 0.08 0.03 0.03 0.11 0.00 0.00 0.22 0.16 0.29 0.08 0.04 0.20V* GTTTAA 0.24 0.27 0.27 0.38 0.25 0.25 0.19 0.23 0.24 0.28 0.22 0.20 0.15 0.19 0.22 0.31 0.08 0.06 0.10 0.02 0.04 0.09 0.10V* GTTTAG 0.04 0.00 0.04 0.00 0.00 0.00 0.08 0.08 0.10 0.06 0.00 0.12 0.12 0.16 0.17 0.19 0.19 0.03 0.07 0.02 0.08 0.09 0.04V* GTTTGA 0.09 0.20 0.00 0.00 0.00 0.08 0.14 0.12 0.05 0.19 0.28 0.16 0.12 0.10 0.06 0.06 0.19 0.08 0.06 0.04 0.04 0.04 0.10VA GTAGCA 0.03 0.03 0.02 0.04 0.03 0.04 0.07 0.03 0.08 0.04 0.03 0.09 0.06 0.04 0.08 0.02 0.07 0.05 0.04 0.04 0.04 0.04 0.05

Continued on next page

Page 174: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 161

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

VA GTAGCC 0.02 0.02 0.02 0.01 0.02 0.03 0.04 0.02 0.03 0.03 0.02 0.05 0.04 0.03 0.05 0.03 0.03 0.06 0.05 0.06 0.06 0.05 0.06VA GTAGCG 0.05 0.04 0.04 0.06 0.06 0.04 0.03 0.01 0.04 0.02 0.01 0.04 0.01 0.01 0.02 0.00 0.02 0.01 0.01 0.01 0.01 0.01 0.01VA GTAGCT 0.01 0.03 0.01 0.04 0.05 0.01 0.06 0.04 0.05 0.04 0.04 0.07 0.07 0.06 0.07 0.05 0.07 0.06 0.05 0.04 0.06 0.06 0.07VA GTCGCA 0.04 0.03 0.04 0.04 0.03 0.03 0.05 0.03 0.06 0.04 0.04 0.04 0.03 0.04 0.03 0.03 0.03 0.01 0.01 0.01 0.01 0.01 0.01VA GTCGCC 0.09 0.06 0.12 0.06 0.05 0.11 0.04 0.06 0.03 0.04 0.06 0.02 0.04 0.06 0.04 0.07 0.03 0.02 0.02 0.02 0.03 0.02 0.02VA GTCGCG 0.07 0.06 0.07 0.04 0.04 0.08 0.01 0.01 0.02 0.01 0.01 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.00 0.00 0.00 0.00VA GTCGCT 0.05 0.04 0.05 0.06 0.05 0.05 0.06 0.09 0.07 0.07 0.10 0.04 0.05 0.07 0.05 0.08 0.04 0.01 0.01 0.01 0.02 0.02 0.02VA GTGGCA 0.08 0.06 0.08 0.09 0.06 0.08 0.07 0.04 0.09 0.06 0.03 0.07 0.07 0.04 0.08 0.02 0.08 0.13 0.14 0.12 0.13 0.13 0.13VA GTGGCC 0.03 0.02 0.04 0.03 0.03 0.03 0.05 0.04 0.07 0.04 0.03 0.06 0.06 0.05 0.07 0.03 0.04 0.23 0.20 0.28 0.20 0.21 0.20VA GTGGCG 0.20 0.13 0.22 0.11 0.10 0.21 0.03 0.00 0.03 0.01 0.00 0.03 0.02 0.01 0.01 0.01 0.02 0.03 0.03 0.04 0.02 0.04 0.02VA GTGGCT 0.05 0.04 0.04 0.05 0.06 0.04 0.06 0.05 0.07 0.06 0.05 0.08 0.08 0.06 0.09 0.04 0.09 0.19 0.19 0.20 0.17 0.18 0.17VA GTTGCA 0.04 0.07 0.03 0.07 0.08 0.03 0.11 0.10 0.13 0.10 0.09 0.13 0.12 0.08 0.12 0.08 0.13 0.05 0.07 0.04 0.07 0.07 0.06VA GTTGCC 0.11 0.10 0.11 0.11 0.10 0.10 0.10 0.16 0.07 0.14 0.17 0.10 0.13 0.17 0.12 0.23 0.13 0.07 0.07 0.07 0.07 0.06 0.07VA GTTGCG 0.07 0.10 0.07 0.07 0.10 0.06 0.04 0.03 0.02 0.03 0.02 0.04 0.03 0.02 0.03 0.01 0.04 0.01 0.00 0.01 0.00 0.01 0.01VA GTTGCT 0.07 0.16 0.04 0.14 0.15 0.06 0.17 0.28 0.14 0.25 0.32 0.14 0.19 0.27 0.14 0.31 0.18 0.08 0.10 0.06 0.10 0.10 0.10VC GTATGC 0.05 0.04 0.03 0.06 0.06 0.03 0.09 0.04 0.06 0.05 0.04 0.13 0.08 0.04 0.06 0.02 0.11 0.04 0.03 0.04 0.03 0.03 0.04VC GTATGT 0.07 0.11 0.05 0.06 0.11 0.10 0.11 0.06 0.16 0.10 0.05 0.14 0.12 0.10 0.10 0.11 0.13 0.06 0.08 0.04 0.04 0.05 0.06VC GTCTGC 0.19 0.22 0.27 0.15 0.17 0.27 0.07 0.07 0.06 0.08 0.08 0.03 0.09 0.08 0.10 0.13 0.10 0.18 0.18 0.19 0.17 0.18 0.16VC GTCTGT 0.13 0.10 0.17 0.00 0.04 0.14 0.13 0.20 0.15 0.17 0.18 0.07 0.14 0.23 0.14 0.27 0.13 0.15 0.13 0.16 0.17 0.13 0.17VC GTGTGC 0.13 0.17 0.13 0.15 0.09 0.04 0.07 0.05 0.08 0.04 0.03 0.08 0.07 0.06 0.08 0.01 0.09 0.20 0.24 0.22 0.21 0.27 0.17VC GTGTGT 0.09 0.01 0.09 0.03 0.02 0.14 0.09 0.08 0.10 0.05 0.06 0.08 0.10 0.08 0.13 0.11 0.07 0.21 0.19 0.20 0.20 0.19 0.21VC GTTTGC 0.20 0.21 0.14 0.36 0.33 0.08 0.17 0.14 0.13 0.12 0.15 0.16 0.17 0.14 0.23 0.11 0.17 0.07 0.07 0.06 0.08 0.07 0.06VC GTTTGT 0.14 0.14 0.12 0.18 0.18 0.20 0.27 0.37 0.26 0.39 0.42 0.31 0.23 0.27 0.17 0.24 0.20 0.09 0.09 0.07 0.10 0.07 0.13VD GTAGAC 0.03 0.06 0.03 0.06 0.06 0.04 0.07 0.05 0.08 0.06 0.03 0.07 0.07 0.05 0.08 0.05 0.08 0.08 0.08 0.08 0.08 0.07 0.09VD GTAGAT 0.07 0.07 0.04 0.08 0.05 0.07 0.15 0.07 0.18 0.11 0.07 0.18 0.10 0.06 0.11 0.05 0.11 0.10 0.10 0.08 0.10 0.11 0.10VD GTCGAC 0.07 0.05 0.06 0.04 0.07 0.07 0.07 0.12 0.08 0.09 0.11 0.04 0.06 0.12 0.06 0.13 0.05 0.02 0.02 0.03 0.02 0.02 0.02VD GTCGAT 0.25 0.15 0.28 0.19 0.13 0.26 0.10 0.15 0.08 0.12 0.17 0.08 0.10 0.11 0.10 0.10 0.10 0.02 0.02 0.02 0.01 0.01 0.02VD GTGGAC 0.06 0.07 0.08 0.06 0.08 0.05 0.08 0.07 0.09 0.08 0.06 0.08 0.09 0.10 0.09 0.07 0.09 0.31 0.28 0.36 0.29 0.30 0.27VD GTGGAT 0.18 0.12 0.24 0.12 0.12 0.20 0.14 0.10 0.12 0.10 0.07 0.17 0.14 0.10 0.17 0.07 0.14 0.27 0.29 0.28 0.28 0.30 0.27VD GTTGAC 0.11 0.23 0.09 0.20 0.24 0.08 0.13 0.21 0.14 0.16 0.23 0.11 0.18 0.24 0.16 0.26 0.15 0.09 0.09 0.09 0.09 0.08 0.09VD GTTGAT 0.24 0.25 0.19 0.25 0.24 0.24 0.25 0.25 0.23 0.29 0.27 0.26 0.26 0.23 0.24 0.26 0.27 0.11 0.11 0.07 0.12 0.10 0.13VE GTAGAA 0.11 0.14 0.10 0.15 0.16 0.10 0.15 0.09 0.18 0.12 0.09 0.16 0.10 0.05 0.09 0.04 0.12 0.11 0.10 0.07 0.12 0.09 0.12VE GTAGAG 0.05 0.06 0.06 0.05 0.05 0.05 0.08 0.04 0.09 0.05 0.03 0.07 0.08 0.07 0.08 0.05 0.07 0.10 0.09 0.10 0.11 0.09 0.10VE GTCGAA 0.13 0.10 0.16 0.10 0.08 0.13 0.11 0.18 0.13 0.16 0.22 0.10 0.09 0.09 0.10 0.08 0.09 0.01 0.01 0.01 0.01 0.01 0.01VE GTCGAG 0.07 0.04 0.06 0.03 0.03 0.06 0.04 0.04 0.04 0.04 0.04 0.03 0.05 0.10 0.04 0.10 0.04 0.02 0.02 0.03 0.02 0.04 0.02VE GTGGAA 0.19 0.12 0.24 0.17 0.14 0.20 0.18 0.13 0.19 0.15 0.13 0.19 0.15 0.10 0.15 0.08 0.14 0.23 0.23 0.22 0.23 0.22 0.24VE GTGGAG 0.09 0.05 0.10 0.05 0.04 0.09 0.09 0.05 0.08 0.06 0.04 0.10 0.11 0.10 0.11 0.05 0.14 0.35 0.33 0.41 0.33 0.34 0.31VE GTTGAA 0.24 0.37 0.18 0.35 0.37 0.22 0.26 0.38 0.20 0.32 0.36 0.23 0.26 0.24 0.25 0.28 0.27 0.10 0.12 0.08 0.11 0.13 0.11VE GTTGAG 0.13 0.13 0.11 0.12 0.12 0.15 0.10 0.09 0.09 0.10 0.08 0.10 0.16 0.26 0.18 0.30 0.13 0.08 0.09 0.08 0.08 0.09 0.09VF GTATTC 0.08 0.11 0.06 0.12 0.14 0.10 0.08 0.05 0.09 0.06 0.03 0.09 0.09 0.05 0.09 0.05 0.08 0.04 0.04 0.04 0.04 0.05 0.04VF GTATTT 0.12 0.10 0.11 0.15 0.10 0.12 0.15 0.08 0.16 0.12 0.06 0.18 0.14 0.12 0.12 0.09 0.13 0.07 0.09 0.05 0.09 0.07 0.10VF GTCTTC 0.10 0.15 0.10 0.09 0.19 0.07 0.08 0.14 0.09 0.11 0.17 0.09 0.07 0.14 0.07 0.16 0.06 0.21 0.19 0.25 0.20 0.20 0.17VF GTCTTT 0.15 0.10 0.12 0.08 0.09 0.19 0.11 0.14 0.09 0.12 0.14 0.08 0.10 0.11 0.12 0.12 0.11 0.13 0.11 0.13 0.12 0.12 0.13VF GTGTTC 0.13 0.23 0.13 0.20 0.20 0.11 0.06 0.06 0.06 0.05 0.06 0.05 0.10 0.11 0.10 0.10 0.09 0.17 0.18 0.19 0.16 0.18 0.16VF GTGTTT 0.18 0.14 0.24 0.15 0.12 0.17 0.11 0.09 0.12 0.10 0.08 0.12 0.16 0.12 0.19 0.09 0.18 0.19 0.21 0.18 0.22 0.22 0.21VF GTTTTC 0.10 0.11 0.09 0.12 0.08 0.11 0.20 0.27 0.18 0.28 0.33 0.17 0.16 0.23 0.14 0.27 0.17 0.09 0.09 0.09 0.09 0.08 0.09VF GTTTTT 0.13 0.07 0.14 0.08 0.08 0.14 0.20 0.17 0.23 0.17 0.13 0.22 0.17 0.12 0.18 0.11 0.18 0.09 0.09 0.06 0.09 0.09 0.10VG GTAGGA 0.01 0.01 0.01 0.00 0.01 0.01 0.05 0.01 0.04 0.03 0.01 0.06 0.06 0.05 0.07 0.03 0.07 0.05 0.05 0.04 0.05 0.04 0.05VG GTAGGC 0.04 0.04 0.04 0.04 0.04 0.03 0.04 0.01 0.04 0.03 0.01 0.05 0.03 0.02 0.02 0.02 0.03 0.04 0.04 0.04 0.04 0.04 0.04VG GTAGGG 0.03 0.02 0.02 0.01 0.01 0.03 0.03 0.01 0.04 0.02 0.01 0.04 0.02 0.01 0.03 0.00 0.02 0.03 0.02 0.03 0.01 0.02 0.03VG GTAGGT 0.04 0.09 0.03 0.08 0.09 0.04 0.07 0.04 0.06 0.05 0.03 0.06 0.05 0.05 0.04 0.04 0.05 0.02 0.02 0.03 0.02 0.03 0.02VG GTCGGA 0.02 0.01 0.03 0.01 0.01 0.03 0.04 0.03 0.04 0.04 0.02 0.03 0.05 0.06 0.04 0.07 0.05 0.01 0.01 0.01 0.02 0.01 0.01VG GTCGGC 0.13 0.10 0.14 0.10 0.12 0.12 0.03 0.03 0.03 0.04 0.04 0.03 0.02 0.02 0.03 0.01 0.01 0.02 0.02 0.02 0.02 0.02 0.01VG GTCGGG 0.06 0.02 0.07 0.02 0.02 0.07 0.02 0.01 0.02 0.02 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.02 0.01 0.02 0.02VG GTCGGT 0.13 0.12 0.12 0.13 0.11 0.12 0.10 0.23 0.07 0.16 0.24 0.07 0.06 0.14 0.04 0.17 0.04 0.01 0.01 0.01 0.01 0.02 0.01VG GTGGGA 0.03 0.01 0.04 0.00 0.01 0.03 0.05 0.01 0.05 0.02 0.00 0.05 0.08 0.05 0.08 0.04 0.07 0.11 0.09 0.11 0.11 0.09 0.11VG GTGGGC 0.08 0.10 0.10 0.08 0.07 0.09 0.04 0.02 0.05 0.03 0.02 0.05 0.04 0.03 0.04 0.01 0.05 0.18 0.19 0.21 0.16 0.19 0.16VG GTGGGG 0.06 0.01 0.06 0.03 0.02 0.07 0.03 0.01 0.04 0.02 0.01 0.04 0.03 0.01 0.03 0.00 0.03 0.11 0.09 0.12 0.12 0.09 0.11VG GTGGGT 0.08 0.10 0.06 0.10 0.09 0.07 0.07 0.06 0.08 0.07 0.06 0.07 0.05 0.04 0.05 0.03 0.07 0.09 0.09 0.10 0.07 0.10 0.08VG GTTGGA 0.02 0.01 0.02 0.01 0.01 0.02 0.11 0.05 0.14 0.07 0.04 0.15 0.19 0.16 0.22 0.15 0.20 0.09 0.10 0.08 0.11 0.09 0.12VG GTTGGC 0.14 0.17 0.15 0.19 0.17 0.15 0.07 0.05 0.06 0.06 0.04 0.08 0.07 0.04 0.06 0.04 0.06 0.08 0.09 0.07 0.09 0.10 0.09VG GTTGGG 0.04 0.02 0.04 0.03 0.02 0.05 0.05 0.03 0.05 0.04 0.03 0.05 0.05 0.03 0.07 0.01 0.07 0.07 0.06 0.06 0.09 0.05 0.08VG GTTGGT 0.10 0.17 0.08 0.17 0.19 0.08 0.21 0.39 0.18 0.30 0.43 0.16 0.19 0.30 0.16 0.36 0.18 0.07 0.10 0.05 0.09 0.10 0.08VH GTACAC 0.06 0.10 0.04 0.10 0.07 0.08 0.06 0.03 0.06 0.07 0.02 0.07 0.06 0.07 0.06 0.06 0.07 0.07 0.08 0.07 0.05 0.09 0.07VH GTACAT 0.10 0.10 0.14 0.10 0.09 0.15 0.14 0.10 0.14 0.12 0.06 0.12 0.09 0.04 0.12 0.03 0.10 0.07 0.06 0.05 0.06 0.05 0.07VH GTCCAC 0.06 0.07 0.04 0.04 0.07 0.06 0.08 0.17 0.09 0.09 0.16 0.05 0.10 0.20 0.11 0.23 0.07 0.16 0.14 0.18 0.13 0.17 0.15VH GTCCAT 0.11 0.04 0.10 0.07 0.04 0.09 0.14 0.12 0.14 0.15 0.16 0.12 0.12 0.09 0.12 0.10 0.12 0.14 0.15 0.13 0.13 0.12 0.15VH GTGCAC 0.10 0.10 0.11 0.09 0.13 0.12 0.06 0.04 0.07 0.06 0.03 0.07 0.06 0.09 0.06 0.09 0.06 0.20 0.17 0.23 0.22 0.24 0.16VH GTGCAT 0.26 0.12 0.31 0.17 0.17 0.27 0.11 0.05 0.13 0.08 0.05 0.12 0.12 0.05 0.12 0.06 0.14 0.13 0.13 0.14 0.12 0.12 0.12VH GTTCAC 0.16 0.31 0.09 0.26 0.30 0.06 0.15 0.21 0.14 0.15 0.25 0.13 0.18 0.23 0.13 0.24 0.18 0.12 0.12 0.11 0.13 0.10 0.12VH GTTCAT 0.16 0.15 0.17 0.17 0.14 0.17 0.26 0.27 0.22 0.29 0.27 0.32 0.27 0.23 0.27 0.20 0.26 0.13 0.14 0.09 0.14 0.11 0.15VI GTAATA 0.01 0.00 0.01 0.00 0.00 0.01 0.07 0.01 0.07 0.04 0.02 0.08 0.04 0.02 0.04 0.01 0.04 0.03 0.02 0.02 0.03 0.02 0.03VI GTAATC 0.03 0.07 0.02 0.05 0.05 0.02 0.04 0.02 0.05 0.03 0.01 0.04 0.04 0.03 0.04 0.04 0.05 0.03 0.03 0.02 0.02 0.03 0.03VI GTAATT 0.05 0.05 0.06 0.05 0.05 0.04 0.08 0.05 0.06 0.07 0.04 0.07 0.07 0.06 0.08 0.05 0.09 0.04 0.05 0.03 0.04 0.04 0.04VI GTCATA 0.01 0.00 0.01 0.00 0.00 0.00 0.06 0.04 0.05 0.05 0.03 0.05 0.06 0.03 0.05 0.02 0.06 0.05 0.04 0.05 0.05 0.03 0.05VI GTCATC 0.09 0.07 0.10 0.07 0.08 0.09 0.08 0.14 0.10 0.10 0.14 0.07 0.09 0.13 0.08 0.14 0.08 0.24 0.25 0.31 0.20 0.27 0.21VI GTCATT 0.13 0.08 0.14 0.10 0.09 0.14 0.14 0.18 0.13 0.15 0.21 0.14 0.14 0.20 0.15 0.21 0.15 0.15 0.14 0.15 0.15 0.15 0.16VI GTGATA 0.03 0.01 0.02 0.00 0.00 0.02 0.05 0.03 0.07 0.03 0.03 0.07 0.07 0.03 0.06 0.01 0.07 0.06 0.04 0.04 0.07 0.04 0.06VI GTGATC 0.16 0.17 0.17 0.20 0.16 0.17 0.04 0.03 0.06 0.04 0.03 0.03 0.07 0.06 0.06 0.05 0.05 0.14 0.14 0.15 0.13 0.14 0.13VI GTGATT 0.23 0.19 0.25 0.20 0.16 0.27 0.07 0.05 0.06 0.06 0.05 0.07 0.11 0.07 0.12 0.08 0.11 0.12 0.14 0.11 0.15 0.13 0.13VI GTTATA 0.01 0.01 0.01 0.00 0.01 0.00 0.09 0.03 0.12 0.06 0.03 0.08 0.06 0.03 0.06 0.02 0.07 0.03 0.02 0.02 0.02 0.03 0.03VI GTTATC 0.14 0.24 0.10 0.23 0.30 0.13 0.10 0.18 0.08 0.14 0.17 0.10 0.10 0.16 0.10 0.17 0.09 0.05 0.05 0.06 0.06 0.06 0.06VI GTTATT 0.11 0.10 0.11 0.09 0.11 0.11 0.19 0.24 0.15 0.22 0.25 0.19 0.15 0.18 0.15 0.21 0.15 0.07 0.07 0.04 0.08 0.08 0.07VK GTAAAA 0.16 0.12 0.14 0.15 0.14 0.17 0.13 0.04 0.16 0.08 0.04 0.15 0.07 0.05 0.08 0.03 0.09 0.07 0.06 0.05 0.07 0.05 0.09VK GTAAAG 0.03 0.01 0.00 0.00 0.00 0.03 0.08 0.05 0.09 0.07 0.06 0.11 0.08 0.07 0.07 0.05 0.08 0.08 0.07 0.06 0.10 0.06 0.08VK GTCAAA 0.12 0.09 0.14 0.07 0.09 0.10 0.15 0.16 0.16 0.17 0.15 0.12 0.17 0.13 0.20 0.13 0.16 0.10 0.10 0.12 0.09 0.11 0.11VK GTCAAG 0.02 0.02 0.01 0.02 0.02 0.01 0.13 0.24 0.12 0.19 0.28 0.10 0.19 0.34 0.16 0.39 0.14 0.15 0.16 0.20 0.14 0.17 0.14VK GTGAAA 0.34 0.35 0.36 0.42 0.34 0.35 0.13 0.07 0.15 0.11 0.06 0.14 0.15 0.08 0.15 0.07 0.16 0.18 0.17 0.16 0.18 0.15 0.19VK GTGAAG 0.12 0.09 0.18 0.08 0.10 0.14 0.09 0.07 0.09 0.07 0.07 0.10 0.10 0.07 0.12 0.06 0.12 0.30 0.32 0.32 0.31 0.36 0.26VK GTTAAA 0.15 0.22 0.12 0.17 0.23 0.15 0.17 0.17 0.15 0.18 0.13 0.18 0.13 0.08 0.13 0.09 0.16 0.07 0.06 0.05 0.07 0.05 0.08VK GTTAAG 0.06 0.09 0.05 0.08 0.08 0.04 0.12 0.20 0.08 0.14 0.22 0.10 0.11 0.18 0.09 0.19 0.09 0.05 0.06 0.05 0.04 0.05 0.05VL GTACTA 0.01 0.01 0.00 0.01 0.01 0.00 0.03 0.02 0.03 0.02 0.01 0.03 0.03 0.02 0.03 0.02 0.03 0.01 0.01 0.01 0.01 0.01 0.01VL GTACTC 0.02 0.02 0.03 0.01 0.01 0.02 0.01 0.01 0.02 0.01 0.01 0.01 0.02 0.01 0.02 0.01 0.02 0.01 0.01 0.02 0.01 0.01 0.01VL GTACTG 0.11 0.14 0.12 0.18 0.17 0.10 0.03 0.01 0.03 0.01 0.01 0.04 0.03 0.02 0.04 0.01 0.03 0.03 0.04 0.03 0.04 0.03 0.03VL GTACTT 0.02 0.01 0.01 0.01 0.01 0.03 0.03 0.01 0.03 0.02 0.01 0.03 0.03 0.02 0.03 0.01 0.03 0.02 0.02 0.01 0.02 0.01 0.02VL GTATTA 0.04 0.02 0.04 0.04 0.01 0.04 0.05 0.03 0.04 0.04 0.02 0.06 0.04 0.02 0.04 0.01 0.05 0.01 0.01 0.01 0.01 0.01 0.01VL GTATTG 0.04 0.02 0.05 0.02 0.03 0.05 0.06 0.04 0.06 0.04 0.03 0.07 0.06 0.05 0.05 0.03 0.06 0.02 0.02 0.01 0.01 0.03 0.02VL GTCCTA 0.00 0.00 0.00 0.00 0.00 0.00 0.02 0.02 0.02 0.02 0.01 0.02 0.02 0.01 0.02 0.01 0.01 0.02 0.02 0.02 0.02 0.02 0.02VL GTCCTC 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.01 0.06 0.07 0.08 0.05 0.06 0.05VL GTCCTG 0.03 0.04 0.04 0.04 0.04 0.04 0.02 0.01 0.03 0.02 0.01 0.02 0.02 0.03 0.03 0.04 0.02 0.10 0.10 0.13 0.09 0.09 0.10VL GTCCTT 0.01 0.01 0.01 0.00 0.00 0.01 0.03 0.02 0.04 0.03 0.02 0.03 0.03 0.04 0.03 0.04 0.03 0.04 0.04 0.04 0.04 0.05 0.05VL GTCTTA 0.01 0.01 0.01 0.01 0.00 0.02 0.04 0.07 0.04 0.06 0.07 0.03 0.03 0.03 0.03 0.03 0.04 0.02 0.02 0.01 0.03 0.02 0.03VL GTCTTG 0.01 0.00 0.01 0.00 0.00 0.01 0.06 0.13 0.06 0.08 0.16 0.04 0.05 0.09 0.05 0.10 0.04 0.04 0.04 0.04 0.03 0.04 0.04VL GTGCTA 0.02 0.01 0.01 0.00 0.02 0.02 0.03 0.02 0.02 0.02 0.01 0.03 0.03 0.02 0.03 0.01 0.04 0.03 0.03 0.03 0.04 0.03 0.03VL GTGCTC 0.04 0.03 0.04 0.03 0.02 0.04 0.01 0.01 0.02 0.01 0.01 0.02 0.02 0.01 0.02 0.01 0.02 0.07 0.07 0.07 0.06 0.07 0.05VL GTGCTG 0.31 0.30 0.32 0.29 0.30 0.30 0.03 0.01 0.04 0.01 0.01 0.03 0.04 0.04 0.04 0.02 0.04 0.17 0.17 0.20 0.15 0.20 0.14VL GTGCTT 0.04 0.03 0.04 0.02 0.02 0.04 0.03 0.01 0.03 0.02 0.01 0.04 0.04 0.03 0.03 0.02 0.04 0.05 0.04 0.05 0.05 0.04 0.06VL GTGTTA 0.04 0.03 0.04 0.03 0.02 0.04 0.04 0.03 0.03 0.03 0.02 0.04 0.03 0.03 0.04 0.02 0.04 0.02 0.02 0.02 0.03 0.02 0.03VL GTGTTG 0.07 0.03 0.06 0.03 0.03 0.07 0.04 0.05 0.05 0.04 0.05 0.04 0.06 0.06 0.05 0.05 0.05 0.05 0.06 0.05 0.06 0.05 0.05VL GTTCTA 0.00 0.00 0.00 0.00 0.00 0.01 0.04 0.05 0.04 0.05 0.06 0.04 0.05 0.04 0.05 0.04 0.05 0.02 0.02 0.01 0.02 0.02 0.02VL GTTCTC 0.02 0.03 0.02 0.03 0.02 0.03 0.03 0.02 0.04 0.02 0.01 0.03 0.04 0.04 0.03 0.03 0.03 0.04 0.04 0.04 0.04 0.03 0.04VL GTTCTG 0.08 0.19 0.06 0.20 0.23 0.07 0.04 0.03 0.03 0.04 0.02 0.04 0.05 0.08 0.05 0.08 0.04 0.06 0.06 0.06 0.08 0.06 0.07VL GTTCTT 0.02 0.03 0.02 0.02 0.03 0.02 0.07 0.07 0.06 0.08 0.07 0.07 0.08 0.08 0.08 0.09 0.08 0.04 0.04 0.03 0.04 0.05 0.05VL GTTTTA 0.03 0.02 0.03 0.01 0.01 0.03 0.12 0.12 0.11 0.13 0.11 0.13 0.07 0.06 0.08 0.07 0.08 0.03 0.02 0.01 0.03 0.02 0.03VL GTTTTG 0.03 0.01 0.03 0.00 0.01 0.02 0.13 0.22 0.11 0.18 0.25 0.10 0.13 0.17 0.11 0.21 0.12 0.04 0.04 0.02 0.04 0.04 0.04VM GTAATG 0.17 0.28 0.16 0.33 0.27 0.15 0.23 0.09 0.24 0.15 0.08 0.24 0.20 0.16 0.20 0.09 0.23 0.11 0.10 0.08 0.12 0.07 0.14VM GTCATG 0.15 0.12 0.17 0.09 0.12 0.14 0.25 0.35 0.27 0.30 0.36 0.24 0.28 0.35 0.22 0.43 0.25 0.36 0.32 0.41 0.39 0.39 0.33VM GTGATG 0.57 0.46 0.60 0.42 0.44 0.63 0.19 0.14 0.22 0.15 0.12 0.20 0.26 0.21 0.31 0.17 0.27 0.42 0.45 0.43 0.37 0.42 0.41VM GTTATG 0.10 0.14 0.07 0.15 0.18 0.09 0.33 0.42 0.27 0.40 0.45 0.32 0.26 0.29 0.27 0.31 0.25 0.11 0.13 0.07 0.12 0.11 0.12VN GTAAAC 0.07 0.12 0.06 0.11 0.15 0.05 0.09 0.04 0.11 0.07 0.03 0.09 0.08 0.07 0.10 0.05 0.08 0.06 0.07 0.04 0.06 0.05 0.06VN GTAAAT 0.07 0.06 0.06 0.08 0.06 0.08 0.15 0.07 0.15 0.10 0.07 0.18 0.07 0.04 0.08 0.03 0.09 0.08 0.07 0.06 0.09 0.07 0.10VN GTCAAC 0.12 0.11 0.18 0.12 0.12 0.08 0.11 0.19 0.11 0.15 0.23 0.09 0.18 0.29 0.16 0.35 0.16 0.19 0.22 0.26 0.15 0.23 0.17VN GTCAAT 0.13 0.09 0.14 0.06 0.07 0.16 0.14 0.16 0.15 0.15 0.16 0.10 0.19 0.15 0.20 0.14 0.18 0.14 0.14 0.16 0.14 0.13 0.15VN GTGAAC 0.12 0.16 0.11 0.19 0.15 0.12 0.08 0.06 0.10 0.06 0.04 0.09 0.10 0.09 0.12 0.06 0.11 0.22 0.21 0.23 0.22 0.23 0.21VN GTGAAT 0.16 0.10 0.15 0.13 0.11 0.24 0.11 0.06 0.13 0.09 0.04 0.10 0.13 0.09 0.13 0.04 0.14 0.19 0.17 0.16 0.20 0.17 0.19VN GTTAAC 0.20 0.29 0.21 0.24 0.29 0.17 0.13 0.23 0.09 0.17 0.28 0.13 0.12 0.17 0.10 0.23 0.11 0.05 0.06 0.05 0.07 0.06 0.06VN GTTAAT 0.12 0.07 0.10 0.08 0.06 0.12 0.19 0.19 0.18 0.22 0.15 0.22 0.13 0.10 0.12 0.10 0.13 0.07 0.05 0.05 0.07 0.06 0.07VP GTACCA 0.03 0.05 0.04 0.03 0.05 0.04 0.10 0.07 0.10 0.08 0.05 0.09 0.06 0.05 0.06 0.04 0.07 0.04 0.04 0.03 0.04 0.04 0.04VP GTACCC 0.02 0.01 0.02 0.01 0.01 0.03 0.04 0.01 0.04 0.02 0.01 0.05 0.03 0.02 0.04 0.01 0.04 0.04 0.04 0.05 0.03 0.04 0.04VP GTACCG 0.13 0.17 0.08 0.18 0.17 0.11 0.04 0.01 0.05 0.02 0.00 0.06 0.02 0.02 0.02 0.01 0.03 0.01 0.00 0.01 0.01 0.01 0.01VP GTACCT 0.03 0.03 0.02 0.02 0.02 0.03 0.07 0.03 0.06 0.04 0.03 0.09 0.06 0.03 0.06 0.04 0.07 0.04 0.04 0.03 0.05 0.04 0.05VP GTCCCA 0.01 0.01 0.01 0.03 0.01 0.01 0.07 0.13 0.06 0.10 0.14 0.05 0.07 0.13 0.04 0.15 0.06 0.07 0.06 0.07 0.07 0.07 0.06VP GTCCCC 0.02 0.01 0.04 0.02 0.01 0.01 0.03 0.03 0.03 0.03 0.01 0.04 0.04 0.03 0.04 0.02 0.03 0.08 0.07 0.09 0.07 0.07 0.06VP GTCCCG 0.04 0.04 0.05 0.04 0.05 0.04 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.00 0.01 0.00 0.01 0.02 0.02 0.02 0.02 0.01 0.02VP GTCCCT 0.02 0.02 0.02 0.02 0.01 0.03 0.05 0.05 0.06 0.05 0.04 0.04 0.06 0.08 0.05 0.07 0.04 0.09 0.10 0.10 0.09 0.08 0.09VP GTGCCA 0.09 0.07 0.09 0.07 0.07 0.09 0.07 0.06 0.07 0.06 0.04 0.07 0.06 0.06 0.06 0.05 0.07 0.10 0.09 0.10 0.10 0.08 0.10VP GTGCCC 0.03 0.01 0.05 0.01 0.00 0.05 0.04 0.02 0.04 0.03 0.03 0.04 0.03 0.01 0.04 0.01 0.04 0.13 0.13 0.15 0.11 0.16 0.11VP GTGCCG 0.25 0.17 0.26 0.23 0.18 0.22 0.03 0.01 0.04 0.01 0.01 0.03 0.02 0.01 0.02 0.01 0.02 0.03 0.03 0.03 0.03 0.03 0.02VP GTGCCT 0.06 0.03 0.06 0.02 0.05 0.08 0.05 0.03 0.04 0.05 0.03 0.06 0.06 0.03 0.06 0.06 0.05 0.12 0.12 0.12 0.13 0.13 0.13VP GTTCCA 0.03 0.02 0.03 0.04 0.04 0.03 0.17 0.35 0.15 0.25 0.40 0.11 0.19 0.23 0.17 0.26 0.19 0.07 0.07 0.06 0.07 0.06 0.09VP GTTCCC 0.04 0.02 0.04 0.02 0.01 0.05 0.06 0.04 0.10 0.05 0.04 0.08 0.08 0.07 0.09 0.06 0.07 0.06 0.05 0.06 0.07 0.05 0.05VP GTTCCG 0.14 0.22 0.15 0.20 0.25 0.11 0.04 0.02 0.03 0.04 0.01 0.05 0.04 0.02 0.05 0.02 0.04 0.01 0.02 0.01 0.01 0.01 0.01

Continued on next page

Page 175: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 162

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

VP GTTCCT 0.06 0.09 0.04 0.05 0.06 0.08 0.14 0.16 0.12 0.17 0.17 0.13 0.18 0.20 0.18 0.21 0.18 0.09 0.12 0.08 0.11 0.12 0.12VQ GTACAA 0.08 0.09 0.08 0.07 0.09 0.07 0.15 0.10 0.14 0.12 0.07 0.15 0.10 0.07 0.12 0.07 0.11 0.06 0.06 0.04 0.05 0.04 0.05VQ GTACAG 0.15 0.21 0.14 0.23 0.24 0.16 0.08 0.04 0.11 0.04 0.02 0.08 0.06 0.04 0.07 0.02 0.06 0.11 0.10 0.09 0.09 0.12 0.11VQ GTCCAA 0.01 0.00 0.01 0.01 0.01 0.00 0.12 0.21 0.12 0.15 0.25 0.09 0.12 0.15 0.14 0.21 0.11 0.06 0.06 0.07 0.07 0.05 0.07VQ GTCCAG 0.08 0.07 0.13 0.07 0.07 0.07 0.05 0.03 0.06 0.05 0.04 0.06 0.08 0.10 0.06 0.11 0.06 0.19 0.17 0.22 0.17 0.17 0.18VQ GTGCAA 0.14 0.08 0.12 0.08 0.05 0.17 0.14 0.12 0.17 0.14 0.12 0.16 0.12 0.12 0.12 0.06 0.12 0.08 0.07 0.09 0.08 0.08 0.08VQ GTGCAG 0.30 0.24 0.33 0.15 0.19 0.35 0.07 0.03 0.12 0.04 0.03 0.06 0.07 0.07 0.08 0.04 0.06 0.29 0.29 0.31 0.30 0.32 0.26VQ GTTCAA 0.04 0.04 0.03 0.05 0.05 0.04 0.28 0.40 0.21 0.36 0.43 0.30 0.29 0.30 0.25 0.35 0.31 0.07 0.08 0.06 0.07 0.07 0.08VQ GTTCAG 0.20 0.26 0.16 0.33 0.30 0.13 0.10 0.07 0.08 0.09 0.04 0.10 0.17 0.14 0.17 0.13 0.16 0.14 0.16 0.12 0.16 0.16 0.16VR GTAAGA 0.01 0.01 0.00 0.00 0.00 0.02 0.11 0.08 0.13 0.11 0.07 0.14 0.08 0.05 0.07 0.04 0.08 0.03 0.03 0.03 0.02 0.03 0.04VR GTAAGG 0.00 0.00 0.00 0.00 0.00 0.01 0.06 0.01 0.06 0.05 0.02 0.06 0.04 0.02 0.04 0.01 0.06 0.02 0.02 0.02 0.01 0.01 0.03VR GTACGA 0.01 0.00 0.01 0.00 0.00 0.00 0.03 0.00 0.05 0.01 0.00 0.04 0.03 0.02 0.03 0.01 0.04 0.02 0.01 0.01 0.02 0.02 0.01VR GTACGC 0.08 0.07 0.07 0.08 0.07 0.08 0.02 0.01 0.03 0.01 0.01 0.02 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.02 0.01 0.01 0.02VR GTACGG 0.02 0.01 0.02 0.01 0.01 0.02 0.01 0.01 0.02 0.00 0.00 0.02 0.01 0.01 0.01 0.00 0.01 0.02 0.01 0.02 0.02 0.03 0.03VR GTACGT 0.09 0.16 0.07 0.14 0.17 0.08 0.04 0.03 0.04 0.03 0.02 0.02 0.03 0.02 0.02 0.02 0.02 0.01 0.02 0.01 0.01 0.01 0.01VR GTCAGA 0.02 0.01 0.01 0.01 0.01 0.01 0.11 0.21 0.10 0.14 0.24 0.05 0.14 0.26 0.13 0.31 0.10 0.06 0.06 0.07 0.05 0.06 0.08VR GTCAGG 0.01 0.00 0.01 0.00 0.00 0.02 0.05 0.02 0.05 0.03 0.02 0.03 0.04 0.03 0.06 0.02 0.03 0.06 0.05 0.07 0.06 0.04 0.05VR GTCCGA 0.00 0.00 0.00 0.01 0.00 0.00 0.01 0.00 0.01 0.00 0.00 0.01 0.03 0.02 0.03 0.01 0.04 0.05 0.04 0.04 0.04 0.06 0.05VR GTCCGC 0.05 0.04 0.06 0.03 0.02 0.04 0.01 0.01 0.01 0.02 0.01 0.02 0.01 0.02 0.02 0.02 0.01 0.04 0.05 0.04 0.03 0.04 0.04VR GTCCGG 0.01 0.01 0.02 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.00 0.01 0.01 0.00 0.01 0.00 0.01 0.06 0.05 0.05 0.06 0.06 0.05VR GTCCGT 0.05 0.05 0.03 0.07 0.07 0.05 0.03 0.08 0.03 0.05 0.06 0.02 0.03 0.06 0.03 0.08 0.03 0.03 0.04 0.03 0.04 0.04 0.04VR GTGAGA 0.01 0.01 0.01 0.01 0.01 0.02 0.09 0.07 0.11 0.08 0.07 0.07 0.09 0.05 0.08 0.03 0.09 0.08 0.07 0.09 0.09 0.07 0.08VR GTGAGG 0.01 0.00 0.00 0.00 0.00 0.01 0.04 0.01 0.03 0.03 0.02 0.07 0.04 0.02 0.03 0.01 0.04 0.10 0.07 0.12 0.10 0.05 0.10VR GTGCGA 0.02 0.01 0.04 0.02 0.00 0.03 0.01 0.00 0.01 0.00 0.00 0.02 0.02 0.01 0.03 0.01 0.03 0.03 0.05 0.03 0.03 0.04 0.03VR GTGCGC 0.17 0.10 0.23 0.12 0.10 0.20 0.01 0.01 0.04 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.07 0.08 0.08 0.08 0.10 0.05VR GTGCGG 0.05 0.01 0.06 0.03 0.02 0.07 0.01 0.00 0.02 0.00 0.00 0.02 0.01 0.01 0.02 0.00 0.01 0.07 0.06 0.08 0.06 0.09 0.06VR GTGCGT 0.19 0.21 0.17 0.17 0.22 0.15 0.02 0.02 0.01 0.02 0.02 0.02 0.02 0.03 0.02 0.03 0.02 0.03 0.02 0.04 0.03 0.04 0.03VR GTTAGA 0.00 0.00 0.00 0.00 0.00 0.00 0.14 0.22 0.10 0.17 0.24 0.13 0.13 0.17 0.13 0.21 0.12 0.03 0.04 0.02 0.03 0.03 0.03VR GTTAGG 0.00 0.00 0.00 0.00 0.00 0.00 0.05 0.04 0.03 0.04 0.04 0.06 0.04 0.03 0.04 0.03 0.04 0.02 0.03 0.01 0.02 0.01 0.02VR GTTCGA 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.00 0.04 0.01 0.00 0.05 0.06 0.02 0.06 0.00 0.07 0.05 0.06 0.04 0.07 0.07 0.06VR GTTCGC 0.09 0.10 0.09 0.14 0.10 0.09 0.03 0.02 0.04 0.02 0.01 0.03 0.02 0.02 0.02 0.02 0.03 0.03 0.03 0.02 0.04 0.03 0.03VR GTTCGG 0.01 0.01 0.01 0.01 0.00 0.01 0.01 0.00 0.00 0.01 0.01 0.02 0.02 0.01 0.03 0.01 0.03 0.04 0.05 0.04 0.05 0.04 0.04VR GTTCGT 0.09 0.19 0.06 0.16 0.21 0.07 0.08 0.14 0.04 0.13 0.14 0.06 0.08 0.10 0.07 0.10 0.07 0.03 0.03 0.02 0.03 0.05 0.04VS GTAAGC 0.04 0.04 0.03 0.06 0.04 0.02 0.02 0.01 0.02 0.01 0.00 0.03 0.02 0.01 0.02 0.01 0.02 0.02 0.02 0.01 0.01 0.01 0.02VS GTAAGT 0.02 0.02 0.01 0.02 0.01 0.03 0.03 0.02 0.03 0.02 0.01 0.04 0.02 0.01 0.01 0.01 0.03 0.01 0.02 0.01 0.01 0.01 0.01VS GTATCA 0.02 0.01 0.01 0.00 0.00 0.03 0.05 0.03 0.05 0.04 0.01 0.06 0.04 0.03 0.05 0.01 0.05 0.02 0.02 0.02 0.02 0.02 0.03VS GTATCC 0.02 0.05 0.01 0.05 0.05 0.01 0.04 0.03 0.03 0.04 0.03 0.04 0.04 0.04 0.05 0.03 0.04 0.02 0.03 0.02 0.02 0.02 0.02VS GTATCG 0.03 0.03 0.02 0.02 0.02 0.02 0.03 0.01 0.03 0.01 0.01 0.03 0.02 0.01 0.02 0.01 0.02 0.00 0.01 0.00 0.00 0.00 0.00VS GTATCT 0.02 0.04 0.01 0.06 0.07 0.01 0.06 0.03 0.07 0.04 0.03 0.06 0.06 0.05 0.05 0.03 0.06 0.03 0.03 0.02 0.03 0.03 0.04VS GTCAGC 0.15 0.13 0.15 0.09 0.12 0.15 0.02 0.03 0.04 0.02 0.03 0.03 0.03 0.02 0.04 0.02 0.03 0.08 0.08 0.09 0.07 0.09 0.07VS GTCAGT 0.08 0.03 0.08 0.07 0.03 0.10 0.04 0.03 0.05 0.04 0.03 0.03 0.05 0.04 0.05 0.04 0.04 0.06 0.06 0.06 0.06 0.06 0.06VS GTCTCA 0.02 0.01 0.02 0.01 0.01 0.01 0.03 0.02 0.02 0.03 0.01 0.03 0.04 0.02 0.04 0.03 0.04 0.04 0.04 0.04 0.04 0.04 0.04VS GTCTCC 0.04 0.03 0.05 0.04 0.02 0.03 0.03 0.08 0.02 0.05 0.09 0.03 0.04 0.07 0.04 0.09 0.03 0.07 0.06 0.09 0.07 0.09 0.07VS GTCTCG 0.03 0.02 0.04 0.02 0.02 0.05 0.01 0.02 0.02 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01VS GTCTCT 0.04 0.04 0.05 0.05 0.05 0.04 0.05 0.08 0.06 0.07 0.10 0.04 0.05 0.08 0.06 0.10 0.05 0.06 0.06 0.07 0.06 0.07 0.06VS GTGAGC 0.06 0.04 0.06 0.05 0.03 0.06 0.02 0.01 0.04 0.02 0.01 0.02 0.02 0.02 0.02 0.01 0.02 0.07 0.07 0.08 0.06 0.07 0.06VS GTGAGT 0.04 0.04 0.05 0.01 0.02 0.06 0.03 0.01 0.03 0.02 0.01 0.03 0.03 0.02 0.03 0.01 0.03 0.04 0.04 0.04 0.05 0.04 0.04VS GTGTCA 0.02 0.01 0.01 0.01 0.01 0.02 0.03 0.02 0.04 0.03 0.01 0.04 0.04 0.03 0.04 0.02 0.04 0.06 0.06 0.06 0.07 0.05 0.06VS GTGTCC 0.01 0.02 0.01 0.01 0.02 0.02 0.02 0.03 0.03 0.03 0.02 0.03 0.03 0.03 0.02 0.03 0.02 0.10 0.07 0.10 0.09 0.09 0.09VS GTGTCG 0.04 0.03 0.08 0.01 0.03 0.04 0.02 0.01 0.02 0.01 0.01 0.01 0.02 0.01 0.02 0.00 0.02 0.01 0.03 0.02 0.01 0.02 0.01VS GTGTCT 0.02 0.03 0.02 0.01 0.04 0.01 0.04 0.03 0.03 0.03 0.04 0.04 0.05 0.05 0.04 0.06 0.04 0.10 0.11 0.09 0.11 0.13 0.09VS GTTAGC 0.04 0.06 0.03 0.04 0.04 0.03 0.03 0.02 0.03 0.02 0.01 0.04 0.03 0.02 0.02 0.02 0.02 0.02 0.02 0.01 0.03 0.02 0.02VS GTTAGT 0.01 0.01 0.01 0.01 0.02 0.01 0.05 0.04 0.05 0.04 0.03 0.05 0.04 0.02 0.05 0.03 0.04 0.02 0.02 0.01 0.02 0.01 0.02VS GTTTCA 0.04 0.03 0.03 0.05 0.03 0.05 0.09 0.07 0.09 0.09 0.08 0.09 0.09 0.06 0.10 0.04 0.09 0.04 0.04 0.02 0.05 0.04 0.04VS GTTTCC 0.09 0.12 0.07 0.12 0.13 0.06 0.08 0.13 0.06 0.11 0.16 0.07 0.09 0.13 0.07 0.15 0.09 0.05 0.05 0.04 0.04 0.05 0.05VS GTTTCG 0.05 0.03 0.07 0.04 0.02 0.05 0.04 0.03 0.04 0.03 0.02 0.05 0.04 0.04 0.03 0.03 0.03 0.01 0.01 0.01 0.01 0.01 0.01VS GTTTCT 0.09 0.14 0.07 0.17 0.17 0.08 0.13 0.21 0.11 0.18 0.23 0.12 0.12 0.18 0.10 0.21 0.12 0.06 0.06 0.05 0.06 0.05 0.07VT GTAACA 0.03 0.01 0.02 0.01 0.01 0.03 0.07 0.03 0.10 0.04 0.02 0.08 0.04 0.02 0.04 0.02 0.04 0.04 0.04 0.03 0.05 0.03 0.05VT GTAACC 0.05 0.10 0.04 0.06 0.09 0.03 0.04 0.04 0.04 0.03 0.01 0.04 0.05 0.04 0.05 0.04 0.06 0.03 0.04 0.03 0.03 0.03 0.03VT GTAACG 0.06 0.04 0.05 0.09 0.07 0.06 0.04 0.01 0.07 0.02 0.01 0.05 0.02 0.01 0.02 0.01 0.03 0.01 0.01 0.00 0.01 0.00 0.01VT GTAACT 0.03 0.07 0.02 0.07 0.07 0.02 0.07 0.05 0.05 0.06 0.03 0.08 0.06 0.06 0.07 0.05 0.07 0.04 0.03 0.03 0.04 0.04 0.05VT GTCACA 0.03 0.03 0.03 0.01 0.03 0.03 0.07 0.05 0.06 0.07 0.04 0.06 0.08 0.08 0.09 0.06 0.07 0.09 0.09 0.10 0.09 0.08 0.10VT GTCACC 0.15 0.10 0.19 0.14 0.12 0.16 0.07 0.12 0.07 0.10 0.14 0.04 0.09 0.15 0.08 0.17 0.08 0.14 0.14 0.17 0.12 0.16 0.13VT GTCACG 0.07 0.02 0.10 0.03 0.01 0.09 0.03 0.02 0.03 0.02 0.02 0.03 0.03 0.01 0.03 0.01 0.04 0.02 0.03 0.02 0.02 0.03 0.02VT GTCACT 0.07 0.05 0.06 0.04 0.04 0.09 0.10 0.16 0.11 0.14 0.20 0.08 0.12 0.17 0.12 0.18 0.09 0.10 0.10 0.12 0.11 0.11 0.11VT GTGACA 0.04 0.02 0.03 0.03 0.02 0.03 0.06 0.04 0.06 0.04 0.01 0.07 0.06 0.03 0.06 0.03 0.07 0.13 0.11 0.12 0.12 0.10 0.13VT GTGACC 0.12 0.18 0.10 0.12 0.15 0.12 0.04 0.01 0.05 0.03 0.02 0.04 0.05 0.04 0.04 0.04 0.05 0.14 0.14 0.15 0.11 0.14 0.11VT GTGACG 0.12 0.08 0.14 0.09 0.07 0.13 0.03 0.01 0.03 0.01 0.01 0.03 0.03 0.01 0.03 0.01 0.02 0.03 0.04 0.03 0.04 0.04 0.02VT GTGACT 0.06 0.08 0.05 0.07 0.10 0.03 0.05 0.04 0.06 0.04 0.03 0.07 0.07 0.05 0.07 0.04 0.07 0.11 0.13 0.11 0.13 0.10 0.10VT GTTACA 0.02 0.01 0.01 0.01 0.01 0.01 0.09 0.08 0.04 0.08 0.07 0.11 0.08 0.04 0.07 0.05 0.09 0.04 0.04 0.03 0.04 0.04 0.04VT GTTACC 0.09 0.13 0.08 0.15 0.14 0.08 0.08 0.13 0.06 0.11 0.15 0.06 0.08 0.12 0.08 0.14 0.07 0.03 0.05 0.03 0.04 0.04 0.04VT GTTACG 0.04 0.01 0.03 0.03 0.03 0.04 0.04 0.02 0.03 0.02 0.01 0.04 0.04 0.02 0.03 0.02 0.04 0.01 0.01 0.00 0.01 0.01 0.01VT GTTACT 0.04 0.06 0.03 0.03 0.04 0.03 0.14 0.20 0.13 0.18 0.22 0.12 0.11 0.14 0.11 0.14 0.10 0.04 0.04 0.03 0.04 0.04 0.05VV GTAGTA 0.02 0.03 0.01 0.02 0.01 0.02 0.04 0.01 0.05 0.03 0.02 0.04 0.04 0.01 0.04 0.01 0.05 0.02 0.02 0.02 0.03 0.02 0.03VV GTAGTC 0.02 0.02 0.02 0.01 0.01 0.02 0.03 0.02 0.03 0.03 0.02 0.03 0.04 0.02 0.04 0.02 0.05 0.03 0.03 0.03 0.02 0.03 0.02VV GTAGTG 0.05 0.04 0.04 0.06 0.04 0.04 0.05 0.02 0.06 0.03 0.01 0.05 0.04 0.02 0.05 0.01 0.04 0.05 0.05 0.04 0.05 0.05 0.05VV GTAGTT 0.02 0.05 0.01 0.03 0.05 0.02 0.07 0.04 0.08 0.05 0.02 0.09 0.06 0.03 0.06 0.04 0.07 0.03 0.03 0.02 0.04 0.03 0.04VV GTCGTA 0.02 0.02 0.02 0.02 0.01 0.02 0.03 0.02 0.03 0.03 0.02 0.04 0.02 0.02 0.02 0.02 0.03 0.01 0.01 0.01 0.01 0.01 0.01VV GTCGTC 0.04 0.03 0.03 0.02 0.03 0.04 0.04 0.07 0.05 0.05 0.07 0.03 0.04 0.05 0.04 0.08 0.03 0.02 0.01 0.02 0.01 0.01 0.02VV GTCGTG 0.06 0.06 0.06 0.05 0.05 0.06 0.03 0.01 0.02 0.02 0.02 0.03 0.02 0.02 0.03 0.02 0.02 0.03 0.04 0.03 0.03 0.03 0.02VV GTCGTT 0.05 0.05 0.05 0.06 0.06 0.05 0.07 0.11 0.07 0.10 0.12 0.05 0.07 0.11 0.07 0.11 0.06 0.01 0.01 0.01 0.01 0.02 0.01VV GTGGTA 0.07 0.06 0.06 0.04 0.05 0.07 0.06 0.02 0.07 0.04 0.02 0.08 0.05 0.04 0.06 0.02 0.04 0.08 0.07 0.08 0.08 0.07 0.08VV GTGGTC 0.09 0.06 0.09 0.06 0.07 0.10 0.04 0.04 0.05 0.04 0.03 0.04 0.05 0.03 0.05 0.03 0.04 0.13 0.11 0.15 0.10 0.11 0.10VV GTGGTG 0.26 0.15 0.35 0.17 0.15 0.28 0.05 0.02 0.04 0.02 0.02 0.06 0.06 0.05 0.07 0.03 0.05 0.26 0.25 0.29 0.23 0.24 0.22VV GTGGTT 0.12 0.15 0.11 0.17 0.16 0.11 0.07 0.05 0.09 0.06 0.03 0.08 0.08 0.06 0.08 0.05 0.08 0.10 0.11 0.09 0.11 0.10 0.10VV GTTGTA 0.02 0.03 0.02 0.03 0.03 0.02 0.07 0.04 0.05 0.06 0.04 0.08 0.07 0.05 0.07 0.05 0.08 0.04 0.05 0.03 0.06 0.04 0.05VV GTTGTC 0.05 0.05 0.04 0.07 0.04 0.05 0.10 0.18 0.10 0.15 0.19 0.07 0.10 0.16 0.10 0.19 0.09 0.06 0.05 0.06 0.05 0.06 0.07VV GTTGTG 0.05 0.07 0.05 0.07 0.07 0.05 0.07 0.05 0.07 0.06 0.04 0.07 0.09 0.07 0.08 0.07 0.10 0.09 0.10 0.08 0.08 0.10 0.10VV GTTGTT 0.07 0.14 0.04 0.12 0.15 0.06 0.18 0.29 0.14 0.24 0.32 0.15 0.17 0.24 0.15 0.24 0.17 0.06 0.07 0.05 0.09 0.06 0.08VW GTATGG 0.16 0.23 0.11 0.27 0.26 0.16 0.24 0.14 0.24 0.21 0.10 0.25 0.21 0.12 0.20 0.12 0.16 0.12 0.10 0.11 0.10 0.13 0.13VW GTCTGG 0.55 0.43 0.61 0.54 0.47 0.56 0.18 0.33 0.21 0.20 0.31 0.16 0.21 0.31 0.18 0.31 0.29 0.29 0.34 0.32 0.28 0.34 0.26VW GTGTGG 0.23 0.23 0.26 0.14 0.16 0.26 0.16 0.07 0.14 0.10 0.05 0.14 0.17 0.17 0.16 0.17 0.15 0.44 0.40 0.44 0.47 0.33 0.46VW GTTTGG 0.06 0.10 0.02 0.05 0.12 0.02 0.42 0.47 0.41 0.48 0.54 0.45 0.41 0.39 0.46 0.41 0.40 0.16 0.16 0.13 0.16 0.20 0.15VY GTATAC 0.04 0.07 0.04 0.06 0.06 0.04 0.09 0.05 0.11 0.07 0.04 0.09 0.08 0.06 0.07 0.06 0.09 0.05 0.06 0.05 0.06 0.04 0.05VY GTATAT 0.05 0.05 0.05 0.09 0.05 0.04 0.14 0.07 0.20 0.09 0.07 0.17 0.08 0.07 0.09 0.04 0.08 0.07 0.07 0.06 0.07 0.06 0.07VY GTCTAC 0.10 0.10 0.11 0.08 0.07 0.10 0.09 0.18 0.10 0.12 0.18 0.07 0.13 0.21 0.13 0.23 0.10 0.19 0.18 0.24 0.16 0.18 0.18VY GTCTAT 0.16 0.13 0.16 0.12 0.09 0.14 0.08 0.08 0.07 0.08 0.10 0.09 0.11 0.07 0.10 0.07 0.11 0.13 0.14 0.15 0.12 0.17 0.15VY GTGTAC 0.05 0.10 0.06 0.04 0.08 0.04 0.07 0.05 0.09 0.05 0.04 0.07 0.09 0.08 0.08 0.07 0.08 0.20 0.18 0.20 0.19 0.21 0.18VY GTGTAT 0.13 0.05 0.12 0.11 0.08 0.12 0.09 0.06 0.09 0.08 0.06 0.08 0.10 0.11 0.10 0.06 0.08 0.16 0.15 0.17 0.16 0.15 0.14VY GTTTAC 0.18 0.24 0.16 0.27 0.28 0.17 0.19 0.30 0.13 0.27 0.34 0.15 0.21 0.26 0.21 0.32 0.21 0.09 0.10 0.06 0.10 0.08 0.10VY GTTTAT 0.29 0.27 0.30 0.24 0.30 0.33 0.25 0.21 0.21 0.24 0.17 0.27 0.21 0.15 0.21 0.14 0.24 0.11 0.13 0.07 0.14 0.12 0.13W* TGGTAA 0.77 0.83 0.88 0.00 1.00 1.00 0.49 0.50 0.50 0.64 0.83 0.67 0.47 0.71 0.83 1.00 0.33 0.23 0.25 0.45 0.14 0.00 0.40W* TGGTAG 0.08 0.17 0.12 0.00 0.00 0.00 0.25 0.20 0.25 0.09 0.17 0.33 0.20 0.14 0.08 0.00 0.00 0.27 0.30 0.25 0.29 0.00 0.20W* TGGTGA 0.15 0.00 0.00 0.00 0.00 0.00 0.26 0.30 0.25 0.27 0.00 0.00 0.33 0.14 0.08 0.00 0.67 0.49 0.45 0.30 0.57 1.00 0.40WA TGGGCA 0.23 0.29 0.17 0.33 0.29 0.28 0.29 0.16 0.33 0.21 0.13 0.34 0.26 0.24 0.24 0.22 0.27 0.27 0.23 0.26 0.29 0.21 0.29WA TGGGCC 0.14 0.16 0.18 0.09 0.06 0.17 0.22 0.23 0.23 0.25 0.20 0.15 0.24 0.34 0.23 0.27 0.22 0.36 0.37 0.38 0.37 0.49 0.36WA TGGGCG 0.48 0.40 0.54 0.50 0.58 0.42 0.12 0.05 0.14 0.06 0.06 0.14 0.08 0.05 0.10 0.01 0.12 0.07 0.08 0.06 0.07 0.02 0.06WA TGGGCT 0.14 0.15 0.10 0.09 0.07 0.13 0.37 0.56 0.29 0.47 0.61 0.37 0.41 0.38 0.42 0.49 0.40 0.30 0.33 0.30 0.27 0.28 0.29WC TGGTGC 0.49 0.54 0.50 0.75 0.33 0.55 0.37 0.26 0.38 0.37 0.19 0.36 0.34 0.27 0.36 0.07 0.33 0.48 0.32 0.53 0.45 0.39 0.49WC TGGTGT 0.51 0.46 0.50 0.25 0.67 0.45 0.63 0.74 0.62 0.63 0.81 0.64 0.66 0.73 0.64 0.93 0.67 0.52 0.68 0.47 0.55 0.61 0.51WD TGGGAC 0.28 0.46 0.27 0.31 0.37 0.27 0.39 0.34 0.52 0.38 0.46 0.37 0.34 0.46 0.30 0.47 0.35 0.51 0.49 0.58 0.55 0.50 0.46WD TGGGAT 0.72 0.55 0.73 0.69 0.63 0.73 0.61 0.66 0.48 0.62 0.54 0.63 0.66 0.54 0.70 0.53 0.65 0.49 0.51 0.42 0.45 0.50 0.54WE TGGGAA 0.75 0.86 0.79 0.90 0.86 0.72 0.68 0.77 0.61 0.76 0.84 0.67 0.60 0.53 0.65 0.54 0.62 0.48 0.43 0.40 0.49 0.42 0.52WE TGGGAG 0.25 0.14 0.21 0.10 0.14 0.28 0.32 0.23 0.39 0.24 0.16 0.33 0.40 0.47 0.35 0.46 0.38 0.52 0.57 0.60 0.51 0.58 0.48WF TGGTTC 0.33 0.56 0.36 0.46 0.47 0.28 0.40 0.55 0.45 0.42 0.68 0.37 0.42 0.49 0.41 0.58 0.39 0.50 0.37 0.58 0.39 0.46 0.45WF TGGTTT 0.67 0.44 0.64 0.54 0.53 0.72 0.60 0.46 0.55 0.58 0.33 0.63 0.57 0.51 0.59 0.42 0.61 0.50 0.63 0.42 0.61 0.54 0.55WG TGGGGA 0.25 0.14 0.25 0.06 0.14 0.24 0.19 0.07 0.23 0.11 0.05 0.21 0.38 0.33 0.37 0.32 0.36 0.28 0.20 0.24 0.28 0.26 0.32WG TGGGGC 0.40 0.48 0.43 0.52 0.43 0.38 0.20 0.16 0.18 0.17 0.13 0.14 0.11 0.06 0.12 0.05 0.13 0.35 0.37 0.40 0.31 0.29 0.29WG TGGGGG 0.17 0.08 0.20 0.12 0.14 0.21 0.16 0.14 0.18 0.12 0.09 0.19 0.09 0.02 0.11 0.01 0.10 0.16 0.13 0.16 0.15 0.10 0.18WG TGGGGT 0.18 0.30 0.12 0.30 0.29 0.17 0.45 0.63 0.40 0.60 0.73 0.46 0.42 0.59 0.40 0.62 0.41 0.21 0.30 0.20 0.27 0.34 0.21WH TGGCAC 0.40 0.59 0.31 0.68 0.56 0.38 0.40 0.44 0.46 0.40 0.42 0.42 0.38 0.58 0.37 0.50 0.33 0.53 0.57 0.56 0.53 0.64 0.51WH TGGCAT 0.60 0.41 0.69 0.32 0.44 0.62 0.60 0.56 0.55 0.60 0.58 0.58 0.62 0.42 0.63 0.50 0.67 0.47 0.43 0.44 0.47 0.36 0.49WI TGGATA 0.14 0.09 0.08 0.04 0.00 0.13 0.31 0.13 0.33 0.19 0.11 0.42 0.25 0.10 0.30 0.05 0.28 0.19 0.16 0.16 0.17 0.14 0.22WI TGGATC 0.41 0.62 0.51 0.58 0.79 0.39 0.23 0.32 0.17 0.31 0.31 0.20 0.30 0.33 0.25 0.44 0.29 0.43 0.44 0.51 0.45 0.46 0.36WI TGGATT 0.44 0.29 0.42 0.38 0.21 0.48 0.46 0.55 0.50 0.50 0.58 0.38 0.45 0.56 0.44 0.52 0.43 0.38 0.41 0.34 0.38 0.41 0.42WK TGGAAA 0.74 0.86 0.70 0.85 0.84 0.64 0.61 0.51 0.65 0.57 0.49 0.67 0.58 0.44 0.55 0.40 0.59 0.43 0.40 0.35 0.48 0.39 0.47WK TGGAAG 0.26 0.14 0.30 0.15 0.16 0.36 0.39 0.49 0.35 0.43 0.51 0.33 0.42 0.56 0.45 0.60 0.41 0.57 0.60 0.65 0.52 0.61 0.53WL TGGCTA 0.07 0.03 0.08 0.02 0.03 0.06 0.16 0.12 0.14 0.14 0.09 0.18 0.14 0.10 0.16 0.08 0.13 0.10 0.12 0.11 0.11 0.09 0.10WL TGGCTC 0.04 0.04 0.05 0.07 0.03 0.03 0.07 0.02 0.13 0.06 0.00 0.10 0.09 0.08 0.11 0.07 0.10 0.18 0.17 0.20 0.15 0.14 0.16WL TGGCTG 0.56 0.67 0.55 0.69 0.67 0.60 0.14 0.08 0.11 0.10 0.04 0.16 0.17 0.14 0.18 0.15 0.17 0.41 0.36 0.43 0.41 0.46 0.38WL TGGCTT 0.08 0.06 0.11 0.05 0.10 0.10 0.12 0.06 0.09 0.07 0.03 0.09 0.16 0.12 0.14 0.04 0.17 0.15 0.17 0.13 0.15 0.14 0.18WL TGGTTA 0.12 0.08 0.11 0.05 0.08 0.10 0.27 0.34 0.25 0.34 0.41 0.23 0.20 0.17 0.19 0.25 0.21 0.06 0.08 0.04 0.07 0.06 0.08WL TGGTTG 0.13 0.12 0.10 0.12 0.10 0.11 0.25 0.38 0.29 0.28 0.43 0.24 0.24 0.39 0.22 0.42 0.22 0.10 0.09 0.09 0.10 0.11 0.09WM TGGATG 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00WN TGGAAC 0.56 0.75 0.59 0.61 0.71 0.39 0.39 0.51 0.32 0.44 0.58 0.34 0.44 0.55 0.44 0.54 0.39 0.50 0.52 0.51 0.45 0.49 0.44WN TGGAAT 0.44 0.25 0.41 0.39 0.29 0.61 0.61 0.49 0.68 0.56 0.42 0.66 0.56 0.45 0.56 0.46 0.61 0.50 0.48 0.49 0.55 0.51 0.56WP TGGCCA 0.17 0.15 0.23 0.23 0.17 0.18 0.42 0.55 0.40 0.44 0.53 0.40 0.32 0.54 0.31 0.45 0.28 0.32 0.28 0.30 0.36 0.33 0.29WP TGGCCC 0.09 0.06 0.14 0.06 0.00 0.09 0.19 0.12 0.26 0.16 0.05 0.13 0.23 0.06 0.26 0.11 0.33 0.28 0.33 0.34 0.32 0.31 0.30WP TGGCCG 0.57 0.67 0.46 0.59 0.67 0.58 0.10 0.07 0.06 0.09 0.07 0.17 0.10 0.06 0.08 0.09 0.08 0.08 0.10 0.07 0.04 0.09 0.09WP TGGCCT 0.17 0.12 0.17 0.12 0.17 0.15 0.29 0.27 0.28 0.31 0.35 0.30 0.35 0.33 0.34 0.36 0.32 0.32 0.29 0.29 0.27 0.27 0.33WQ TGGCAA 0.38 0.26 0.43 0.18 0.18 0.44 0.71 0.82 0.72 0.83 0.93 0.77 0.62 0.70 0.66 0.85 0.63 0.28 0.24 0.27 0.30 0.17 0.31WQ TGGCAG 0.62 0.74 0.57 0.82 0.82 0.56 0.29 0.18 0.28 0.17 0.07 0.23 0.38 0.30 0.34 0.15 0.37 0.72 0.76 0.73 0.70 0.83 0.69

Continued on next page

Page 176: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 163

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

WR TGGAGA 0.01 0.00 0.01 0.04 0.00 0.01 0.57 0.77 0.54 0.66 0.81 0.50 0.59 0.69 0.64 0.77 0.58 0.29 0.34 0.28 0.24 0.32 0.33WR TGGAGG 0.00 0.00 0.00 0.00 0.00 0.00 0.25 0.12 0.25 0.19 0.10 0.31 0.21 0.10 0.17 0.09 0.25 0.29 0.26 0.29 0.27 0.27 0.29WR TGGCGA 0.12 0.05 0.09 0.08 0.00 0.12 0.05 0.01 0.05 0.04 0.01 0.07 0.07 0.01 0.05 0.04 0.06 0.09 0.09 0.08 0.10 0.08 0.09WR TGGCGC 0.32 0.28 0.43 0.46 0.33 0.31 0.03 0.02 0.06 0.03 0.00 0.03 0.03 0.06 0.03 0.02 0.03 0.12 0.11 0.15 0.12 0.11 0.09WR TGGCGG 0.16 0.01 0.20 0.04 0.04 0.16 0.02 0.00 0.01 0.00 0.00 0.03 0.03 0.00 0.05 0.02 0.03 0.13 0.10 0.12 0.15 0.09 0.12WR TGGCGT 0.38 0.66 0.28 0.38 0.62 0.41 0.07 0.08 0.09 0.08 0.08 0.07 0.07 0.14 0.05 0.07 0.05 0.08 0.10 0.08 0.11 0.14 0.08WS TGGAGC 0.24 0.25 0.23 0.29 0.31 0.27 0.09 0.06 0.13 0.06 0.02 0.10 0.11 0.09 0.10 0.07 0.11 0.27 0.22 0.29 0.21 0.16 0.22WS TGGAGT 0.16 0.09 0.14 0.11 0.03 0.15 0.13 0.11 0.09 0.10 0.11 0.14 0.19 0.10 0.20 0.09 0.20 0.21 0.19 0.20 0.23 0.27 0.23WS TGGTCA 0.20 0.25 0.21 0.07 0.09 0.18 0.25 0.18 0.29 0.22 0.14 0.22 0.19 0.20 0.21 0.17 0.23 0.15 0.15 0.13 0.14 0.13 0.16WS TGGTCC 0.08 0.16 0.07 0.25 0.20 0.05 0.15 0.20 0.16 0.17 0.20 0.14 0.16 0.21 0.16 0.25 0.14 0.18 0.20 0.18 0.14 0.19 0.16WS TGGTCG 0.24 0.12 0.31 0.11 0.14 0.30 0.11 0.10 0.11 0.09 0.06 0.10 0.09 0.09 0.11 0.03 0.09 0.03 0.03 0.02 0.05 0.04 0.03WS TGGTCT 0.09 0.12 0.04 0.18 0.23 0.03 0.27 0.36 0.22 0.36 0.48 0.30 0.26 0.31 0.22 0.38 0.23 0.17 0.21 0.18 0.23 0.20 0.20WT TGGACA 0.16 0.07 0.16 0.22 0.13 0.15 0.32 0.17 0.19 0.28 0.16 0.45 0.23 0.16 0.18 0.04 0.28 0.35 0.33 0.35 0.33 0.38 0.40WT TGGACC 0.32 0.43 0.39 0.44 0.40 0.25 0.22 0.23 0.24 0.24 0.33 0.14 0.24 0.29 0.22 0.38 0.23 0.30 0.28 0.34 0.32 0.36 0.27WT TGGACG 0.38 0.24 0.35 0.22 0.28 0.49 0.15 0.08 0.24 0.10 0.04 0.13 0.11 0.08 0.11 0.06 0.13 0.08 0.08 0.09 0.07 0.09 0.06WT TGGACT 0.13 0.24 0.10 0.11 0.19 0.11 0.31 0.52 0.33 0.38 0.47 0.28 0.42 0.47 0.49 0.53 0.35 0.27 0.31 0.22 0.29 0.17 0.27WV TGGGTA 0.23 0.18 0.25 0.20 0.18 0.29 0.24 0.18 0.30 0.21 0.15 0.25 0.20 0.09 0.20 0.08 0.21 0.15 0.13 0.13 0.15 0.12 0.16WV TGGGTC 0.15 0.11 0.17 0.12 0.17 0.12 0.20 0.17 0.16 0.16 0.14 0.17 0.23 0.33 0.24 0.31 0.20 0.24 0.28 0.27 0.19 0.21 0.22WV TGGGTG 0.40 0.43 0.47 0.39 0.30 0.35 0.15 0.10 0.15 0.15 0.06 0.16 0.19 0.08 0.19 0.08 0.19 0.43 0.40 0.42 0.44 0.48 0.40WV TGGGTT 0.22 0.28 0.12 0.29 0.35 0.25 0.41 0.55 0.38 0.48 0.65 0.41 0.38 0.50 0.37 0.52 0.40 0.18 0.18 0.17 0.22 0.20 0.22WW TGGTGG 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00WY TGGTAC 0.38 0.53 0.34 0.61 0.56 0.36 0.49 0.50 0.58 0.58 0.65 0.44 0.50 0.70 0.51 0.72 0.44 0.57 0.40 0.59 0.48 0.58 0.57WY TGGTAT 0.62 0.47 0.66 0.39 0.43 0.64 0.51 0.50 0.42 0.42 0.35 0.56 0.50 0.30 0.49 0.28 0.56 0.42 0.60 0.41 0.52 0.42 0.43Y* TACTAA 0.30 0.89 0.14 0.71 0.71 0.17 0.23 0.29 0.00 0.23 0.33 0.17 0.22 0.50 0.08 0.33 0.36 0.17 0.24 0.15 0.20 0.30 0.21Y* TACTAG 0.01 0.00 0.00 0.00 0.00 0.00 0.09 0.08 0.25 0.00 0.07 0.00 0.16 0.06 0.08 0.50 0.14 0.10 0.13 0.20 0.20 0.11 0.00Y* TACTGA 0.11 0.00 0.14 0.00 0.00 0.17 0.24 0.12 0.25 0.12 0.13 0.00 0.12 0.00 0.33 0.00 0.07 0.45 0.33 0.27 0.40 0.30 0.64Y* TATTAA 0.37 0.11 0.71 0.14 0.14 0.33 0.20 0.25 0.25 0.23 0.27 0.50 0.18 0.25 0.12 0.08 0.21 0.12 0.16 0.15 0.10 0.07 0.14Y* TATTAG 0.02 0.00 0.00 0.00 0.00 0.00 0.09 0.04 0.08 0.18 0.00 0.00 0.18 0.12 0.12 0.08 0.07 0.05 0.06 0.12 0.10 0.07 0.00Y* TATTGA 0.19 0.00 0.00 0.14 0.14 0.33 0.15 0.21 0.17 0.23 0.20 0.33 0.14 0.06 0.25 0.00 0.14 0.12 0.07 0.12 0.00 0.15 0.00YA TACGCA 0.07 0.13 0.06 0.10 0.18 0.06 0.09 0.06 0.09 0.07 0.03 0.11 0.08 0.06 0.07 0.03 0.05 0.04 0.04 0.04 0.06 0.02 0.05YA TACGCC 0.18 0.14 0.26 0.13 0.10 0.19 0.09 0.12 0.10 0.10 0.14 0.06 0.10 0.21 0.09 0.22 0.08 0.07 0.09 0.08 0.08 0.07 0.07YA TACGCG 0.12 0.12 0.12 0.09 0.10 0.14 0.04 0.02 0.03 0.03 0.03 0.05 0.01 0.01 0.01 0.00 0.01 0.02 0.01 0.03 0.03 0.02 0.01YA TACGCT 0.08 0.15 0.05 0.17 0.14 0.06 0.14 0.26 0.10 0.17 0.27 0.13 0.14 0.22 0.12 0.28 0.13 0.04 0.05 0.04 0.04 0.05 0.05YA TATGCA 0.09 0.06 0.05 0.07 0.08 0.07 0.19 0.10 0.24 0.14 0.10 0.18 0.15 0.11 0.16 0.08 0.19 0.25 0.21 0.20 0.23 0.23 0.23YA TATGCC 0.23 0.15 0.24 0.18 0.14 0.26 0.14 0.13 0.15 0.15 0.13 0.16 0.18 0.14 0.21 0.11 0.20 0.29 0.32 0.33 0.26 0.32 0.27YA TATGCG 0.17 0.16 0.16 0.15 0.18 0.17 0.08 0.06 0.07 0.08 0.03 0.08 0.06 0.03 0.08 0.02 0.07 0.04 0.04 0.04 0.04 0.04 0.03YA TATGCT 0.07 0.09 0.05 0.10 0.08 0.06 0.24 0.24 0.21 0.25 0.26 0.23 0.27 0.22 0.26 0.26 0.27 0.24 0.24 0.23 0.25 0.24 0.28YC TACTGC 0.36 0.53 0.52 0.48 0.45 0.36 0.15 0.12 0.19 0.15 0.13 0.15 0.16 0.26 0.17 0.18 0.21 0.38 0.41 0.45 0.38 0.39 0.36YC TACTGT 0.16 0.20 0.10 0.04 0.17 0.19 0.31 0.55 0.28 0.42 0.58 0.27 0.32 0.38 0.36 0.67 0.31 0.37 0.37 0.35 0.33 0.39 0.38YC TATTGC 0.30 0.13 0.28 0.17 0.24 0.33 0.20 0.06 0.33 0.09 0.03 0.22 0.21 0.11 0.17 0.05 0.21 0.12 0.13 0.10 0.14 0.12 0.13YC TATTGT 0.17 0.13 0.10 0.30 0.14 0.11 0.35 0.27 0.21 0.33 0.25 0.37 0.31 0.26 0.29 0.10 0.27 0.13 0.10 0.10 0.16 0.10 0.13YD TACGAC 0.24 0.32 0.27 0.28 0.29 0.22 0.15 0.20 0.14 0.16 0.23 0.12 0.17 0.27 0.19 0.35 0.13 0.10 0.09 0.12 0.09 0.12 0.09YD TACGAT 0.27 0.25 0.27 0.23 0.24 0.24 0.26 0.31 0.27 0.28 0.34 0.23 0.25 0.21 0.24 0.22 0.26 0.08 0.10 0.09 0.06 0.11 0.08YD TATGAC 0.31 0.27 0.33 0.31 0.31 0.36 0.22 0.19 0.22 0.19 0.17 0.24 0.23 0.28 0.21 0.23 0.24 0.44 0.43 0.45 0.43 0.34 0.42YD TATGAT 0.18 0.16 0.14 0.18 0.16 0.18 0.38 0.30 0.37 0.36 0.26 0.41 0.34 0.25 0.36 0.21 0.38 0.38 0.37 0.34 0.42 0.43 0.41YE TACGAA 0.28 0.39 0.31 0.41 0.34 0.32 0.28 0.40 0.32 0.33 0.43 0.26 0.24 0.23 0.23 0.26 0.22 0.06 0.05 0.06 0.05 0.04 0.07YE TACGAG 0.11 0.12 0.15 0.11 0.12 0.07 0.12 0.09 0.16 0.10 0.10 0.10 0.17 0.30 0.18 0.33 0.14 0.12 0.11 0.13 0.10 0.15 0.10YE TATGAA 0.43 0.36 0.33 0.36 0.36 0.46 0.42 0.39 0.34 0.42 0.37 0.43 0.35 0.28 0.37 0.21 0.40 0.41 0.40 0.36 0.48 0.34 0.43YE TATGAG 0.17 0.13 0.21 0.11 0.17 0.15 0.17 0.12 0.17 0.16 0.11 0.20 0.24 0.19 0.22 0.21 0.24 0.41 0.43 0.45 0.37 0.47 0.40YF TACTTC 0.25 0.45 0.23 0.44 0.44 0.24 0.17 0.25 0.23 0.21 0.27 0.13 0.21 0.37 0.21 0.34 0.17 0.35 0.34 0.43 0.35 0.37 0.33YF TACTTT 0.18 0.16 0.18 0.14 0.19 0.18 0.22 0.24 0.20 0.21 0.24 0.23 0.26 0.30 0.24 0.38 0.27 0.25 0.29 0.24 0.23 0.30 0.24YF TATTTC 0.29 0.24 0.31 0.24 0.22 0.30 0.26 0.29 0.25 0.30 0.31 0.23 0.23 0.17 0.23 0.20 0.24 0.20 0.18 0.18 0.18 0.15 0.18YF TATTTT 0.28 0.16 0.28 0.18 0.15 0.28 0.35 0.22 0.32 0.28 0.17 0.40 0.30 0.15 0.32 0.08 0.33 0.21 0.18 0.14 0.23 0.18 0.24YG TACGGA 0.03 0.02 0.03 0.01 0.02 0.04 0.08 0.03 0.07 0.06 0.04 0.07 0.14 0.15 0.12 0.16 0.14 0.04 0.04 0.05 0.02 0.03 0.04YG TACGGC 0.26 0.30 0.28 0.30 0.30 0.22 0.07 0.05 0.10 0.07 0.06 0.09 0.05 0.04 0.06 0.04 0.06 0.07 0.05 0.07 0.06 0.05 0.06YG TACGGG 0.05 0.02 0.07 0.02 0.03 0.07 0.05 0.05 0.03 0.04 0.04 0.03 0.04 0.04 0.05 0.03 0.04 0.05 0.07 0.06 0.07 0.06 0.04YG TACGGT 0.21 0.32 0.19 0.33 0.31 0.21 0.19 0.40 0.14 0.29 0.43 0.17 0.14 0.29 0.12 0.36 0.13 0.03 0.04 0.03 0.03 0.04 0.03YG TATGGA 0.04 0.03 0.04 0.02 0.01 0.04 0.14 0.04 0.17 0.07 0.03 0.17 0.23 0.16 0.23 0.10 0.22 0.24 0.27 0.21 0.23 0.25 0.25YG TATGGC 0.22 0.15 0.26 0.14 0.17 0.18 0.11 0.06 0.16 0.09 0.05 0.09 0.09 0.06 0.09 0.03 0.10 0.24 0.17 0.26 0.24 0.19 0.23YG TATGGG 0.03 0.03 0.02 0.02 0.03 0.05 0.08 0.04 0.09 0.05 0.02 0.10 0.08 0.04 0.10 0.02 0.09 0.18 0.18 0.19 0.18 0.16 0.18YG TATGGT 0.16 0.13 0.12 0.16 0.13 0.20 0.29 0.32 0.23 0.33 0.32 0.28 0.22 0.22 0.23 0.25 0.21 0.15 0.18 0.13 0.17 0.22 0.18YH TACCAC 0.18 0.24 0.28 0.31 0.30 0.24 0.18 0.25 0.17 0.21 0.31 0.14 0.21 0.37 0.17 0.45 0.17 0.39 0.41 0.49 0.39 0.40 0.37YH TACCAT 0.19 0.21 0.20 0.15 0.23 0.17 0.28 0.35 0.33 0.29 0.28 0.30 0.28 0.28 0.27 0.29 0.27 0.28 0.27 0.28 0.26 0.31 0.26YH TATCAC 0.39 0.35 0.30 0.36 0.26 0.43 0.18 0.16 0.18 0.17 0.17 0.20 0.20 0.16 0.17 0.14 0.23 0.17 0.16 0.13 0.13 0.17 0.21YH TATCAT 0.25 0.21 0.23 0.18 0.21 0.16 0.35 0.25 0.32 0.33 0.24 0.36 0.31 0.20 0.39 0.12 0.34 0.16 0.16 0.11 0.22 0.11 0.17YI TACATA 0.02 0.01 0.02 0.00 0.00 0.01 0.10 0.05 0.16 0.07 0.04 0.11 0.08 0.04 0.10 0.02 0.10 0.10 0.08 0.09 0.10 0.07 0.09YI TACATC 0.23 0.43 0.24 0.38 0.43 0.17 0.15 0.23 0.20 0.17 0.25 0.12 0.18 0.28 0.15 0.28 0.17 0.35 0.30 0.43 0.29 0.31 0.32YI TACATT 0.18 0.20 0.15 0.22 0.28 0.24 0.19 0.28 0.12 0.22 0.32 0.19 0.29 0.39 0.31 0.47 0.25 0.23 0.29 0.22 0.26 0.27 0.25YI TATATA 0.04 0.00 0.02 0.01 0.01 0.02 0.12 0.05 0.12 0.09 0.02 0.13 0.07 0.01 0.07 0.01 0.06 0.06 0.06 0.04 0.04 0.03 0.06YI TATATC 0.29 0.23 0.36 0.22 0.18 0.34 0.16 0.15 0.16 0.17 0.14 0.15 0.16 0.10 0.15 0.10 0.17 0.13 0.14 0.10 0.15 0.17 0.12YI TATATT 0.24 0.13 0.21 0.16 0.10 0.21 0.27 0.25 0.23 0.28 0.24 0.29 0.22 0.17 0.21 0.12 0.25 0.13 0.12 0.11 0.16 0.15 0.15YK TACAAA 0.37 0.52 0.37 0.62 0.55 0.30 0.29 0.30 0.32 0.30 0.27 0.29 0.33 0.28 0.33 0.25 0.29 0.29 0.28 0.26 0.29 0.23 0.30YK TACAAG 0.09 0.09 0.05 0.07 0.13 0.06 0.23 0.40 0.24 0.30 0.44 0.19 0.34 0.52 0.33 0.59 0.34 0.37 0.42 0.46 0.35 0.47 0.36YK TATAAA 0.42 0.30 0.41 0.29 0.21 0.48 0.29 0.17 0.26 0.24 0.16 0.30 0.18 0.08 0.20 0.06 0.22 0.17 0.12 0.13 0.16 0.15 0.19YK TATAAG 0.12 0.09 0.18 0.01 0.10 0.16 0.18 0.14 0.17 0.17 0.13 0.22 0.14 0.12 0.14 0.10 0.15 0.17 0.18 0.15 0.19 0.16 0.16YL TACCTA 0.00 0.00 0.00 0.00 0.00 0.00 0.06 0.06 0.06 0.06 0.06 0.06 0.04 0.04 0.04 0.03 0.05 0.05 0.04 0.06 0.04 0.03 0.05YL TACCTC 0.04 0.06 0.04 0.06 0.07 0.04 0.03 0.01 0.05 0.02 0.01 0.03 0.04 0.04 0.05 0.04 0.04 0.12 0.11 0.14 0.12 0.11 0.12YL TACCTG 0.17 0.36 0.12 0.29 0.29 0.16 0.05 0.03 0.07 0.04 0.04 0.04 0.07 0.12 0.06 0.13 0.05 0.26 0.25 0.31 0.25 0.28 0.23YL TACCTT 0.03 0.02 0.03 0.05 0.03 0.03 0.05 0.03 0.06 0.04 0.03 0.04 0.08 0.08 0.07 0.08 0.07 0.08 0.08 0.07 0.10 0.10 0.07YL TACTTA 0.02 0.01 0.01 0.03 0.01 0.03 0.10 0.13 0.10 0.11 0.14 0.09 0.07 0.07 0.06 0.10 0.07 0.04 0.05 0.03 0.05 0.04 0.05YL TACTTG 0.02 0.00 0.01 0.01 0.00 0.02 0.13 0.24 0.12 0.17 0.28 0.09 0.13 0.20 0.11 0.28 0.11 0.10 0.11 0.09 0.09 0.12 0.10YL TATCTA 0.02 0.02 0.01 0.01 0.02 0.01 0.07 0.06 0.07 0.07 0.06 0.07 0.07 0.05 0.07 0.03 0.07 0.03 0.03 0.02 0.03 0.02 0.03YL TATCTC 0.13 0.07 0.18 0.14 0.11 0.13 0.03 0.01 0.03 0.02 0.01 0.04 0.06 0.03 0.05 0.03 0.07 0.06 0.06 0.05 0.03 0.05 0.05YL TATCTG 0.33 0.30 0.33 0.31 0.32 0.29 0.06 0.04 0.07 0.06 0.03 0.06 0.09 0.07 0.09 0.05 0.09 0.10 0.10 0.11 0.10 0.09 0.10YL TATCTT 0.09 0.06 0.08 0.06 0.07 0.10 0.07 0.03 0.07 0.05 0.02 0.08 0.11 0.09 0.15 0.04 0.12 0.06 0.04 0.04 0.06 0.05 0.06YL TATTTA 0.08 0.04 0.08 0.01 0.02 0.09 0.17 0.12 0.14 0.16 0.12 0.20 0.09 0.06 0.07 0.05 0.11 0.04 0.04 0.02 0.05 0.03 0.05YL TATTTG 0.08 0.05 0.11 0.03 0.05 0.11 0.19 0.22 0.16 0.20 0.21 0.20 0.17 0.15 0.18 0.14 0.17 0.06 0.08 0.05 0.07 0.09 0.08YM TACATG 0.38 0.51 0.33 0.58 0.56 0.33 0.48 0.55 0.57 0.47 0.57 0.44 0.60 0.66 0.62 0.69 0.58 0.73 0.80 0.81 0.78 0.80 0.70YM TATATG 0.62 0.49 0.67 0.42 0.44 0.67 0.52 0.45 0.43 0.53 0.42 0.56 0.40 0.34 0.38 0.31 0.42 0.27 0.20 0.19 0.22 0.20 0.30YN TACAAC 0.40 0.56 0.43 0.60 0.56 0.33 0.21 0.41 0.16 0.29 0.47 0.20 0.33 0.51 0.32 0.60 0.30 0.38 0.36 0.48 0.35 0.44 0.38YN TACAAT 0.12 0.14 0.07 0.09 0.10 0.10 0.28 0.26 0.34 0.31 0.20 0.26 0.34 0.27 0.35 0.23 0.34 0.29 0.32 0.28 0.30 0.29 0.27YN TATAAC 0.38 0.27 0.43 0.29 0.31 0.43 0.20 0.15 0.17 0.17 0.20 0.21 0.15 0.13 0.17 0.11 0.14 0.15 0.14 0.12 0.15 0.12 0.16YN TATAAT 0.10 0.04 0.06 0.01 0.02 0.13 0.31 0.17 0.33 0.23 0.14 0.33 0.18 0.10 0.16 0.06 0.23 0.17 0.18 0.12 0.20 0.16 0.19YP TACCCA 0.05 0.06 0.09 0.10 0.06 0.07 0.18 0.27 0.22 0.23 0.35 0.11 0.16 0.24 0.13 0.35 0.14 0.23 0.20 0.24 0.20 0.21 0.25YP TACCCC 0.05 0.03 0.06 0.03 0.02 0.08 0.05 0.04 0.05 0.05 0.05 0.03 0.08 0.07 0.07 0.05 0.10 0.16 0.17 0.20 0.15 0.19 0.14YP TACCCG 0.20 0.36 0.20 0.25 0.27 0.18 0.03 0.03 0.04 0.04 0.02 0.04 0.03 0.02 0.03 0.01 0.04 0.05 0.04 0.06 0.07 0.05 0.05YP TACCCT 0.04 0.02 0.02 0.03 0.02 0.09 0.09 0.10 0.09 0.09 0.11 0.09 0.13 0.16 0.12 0.17 0.11 0.18 0.16 0.18 0.18 0.18 0.18YP TATCCA 0.09 0.12 0.07 0.12 0.09 0.05 0.27 0.29 0.23 0.27 0.30 0.29 0.22 0.21 0.22 0.20 0.24 0.13 0.14 0.10 0.12 0.13 0.14YP TATCCC 0.11 0.03 0.14 0.05 0.05 0.15 0.08 0.05 0.08 0.07 0.03 0.10 0.12 0.08 0.16 0.06 0.14 0.09 0.12 0.08 0.09 0.07 0.09YP TATCCG 0.37 0.33 0.36 0.33 0.41 0.29 0.09 0.06 0.11 0.06 0.00 0.09 0.06 0.03 0.07 0.02 0.05 0.02 0.03 0.02 0.02 0.04 0.02YP TATCCT 0.09 0.05 0.05 0.08 0.07 0.10 0.20 0.15 0.19 0.18 0.14 0.25 0.20 0.20 0.20 0.15 0.17 0.13 0.13 0.11 0.17 0.13 0.13YQ TACCAA 0.05 0.01 0.07 0.03 0.03 0.07 0.34 0.50 0.28 0.36 0.50 0.26 0.26 0.32 0.29 0.31 0.26 0.17 0.18 0.19 0.13 0.18 0.17YQ TACCAG 0.23 0.35 0.28 0.36 0.36 0.27 0.14 0.12 0.15 0.14 0.12 0.17 0.21 0.30 0.18 0.36 0.18 0.49 0.49 0.54 0.52 0.53 0.47YQ TATCAA 0.21 0.13 0.21 0.11 0.10 0.18 0.38 0.28 0.46 0.37 0.32 0.41 0.32 0.18 0.34 0.18 0.35 0.11 0.09 0.07 0.10 0.08 0.12YQ TATCAG 0.51 0.51 0.45 0.50 0.51 0.49 0.14 0.10 0.11 0.13 0.06 0.16 0.22 0.20 0.19 0.15 0.22 0.23 0.24 0.19 0.25 0.21 0.23YR TACAGA 0.01 0.01 0.01 0.00 0.00 0.01 0.21 0.41 0.18 0.29 0.49 0.18 0.26 0.44 0.27 0.47 0.24 0.17 0.19 0.16 0.16 0.13 0.17YR TACAGG 0.01 0.01 0.00 0.01 0.00 0.01 0.11 0.05 0.15 0.10 0.06 0.12 0.09 0.07 0.08 0.04 0.09 0.15 0.15 0.15 0.14 0.12 0.17YR TACCGA 0.02 0.01 0.02 0.01 0.02 0.01 0.02 0.01 0.03 0.02 0.00 0.03 0.06 0.03 0.07 0.02 0.07 0.10 0.09 0.11 0.12 0.10 0.09YR TACCGC 0.18 0.26 0.26 0.24 0.23 0.15 0.03 0.02 0.05 0.03 0.01 0.02 0.03 0.02 0.03 0.04 0.03 0.12 0.15 0.14 0.12 0.16 0.10YR TACCGG 0.04 0.01 0.03 0.00 0.00 0.03 0.02 0.00 0.02 0.01 0.00 0.03 0.02 0.02 0.02 0.00 0.02 0.12 0.14 0.13 0.13 0.14 0.10YR TACCGT 0.15 0.30 0.13 0.20 0.29 0.18 0.09 0.16 0.08 0.12 0.18 0.05 0.07 0.15 0.07 0.21 0.03 0.07 0.08 0.09 0.06 0.10 0.05YR TATAGA 0.01 0.00 0.00 0.00 0.00 0.00 0.22 0.16 0.13 0.20 0.14 0.21 0.18 0.13 0.20 0.13 0.17 0.07 0.04 0.05 0.04 0.06 0.08YR TATAGG 0.00 0.00 0.00 0.00 0.00 0.00 0.11 0.07 0.12 0.08 0.04 0.14 0.06 0.03 0.06 0.02 0.07 0.04 0.03 0.04 0.04 0.04 0.06YR TATCGA 0.03 0.01 0.02 0.00 0.00 0.03 0.04 0.01 0.04 0.01 0.00 0.04 0.08 0.02 0.08 0.02 0.11 0.05 0.04 0.04 0.08 0.05 0.05YR TATCGC 0.32 0.20 0.36 0.24 0.29 0.37 0.04 0.01 0.03 0.03 0.01 0.04 0.04 0.03 0.03 0.01 0.05 0.04 0.04 0.04 0.04 0.03 0.03YR TATCGG 0.06 0.01 0.05 0.01 0.00 0.07 0.03 0.01 0.04 0.01 0.00 0.04 0.03 0.01 0.03 0.00 0.04 0.05 0.04 0.04 0.05 0.05 0.05YR TATCGT 0.19 0.18 0.13 0.29 0.16 0.13 0.10 0.09 0.12 0.10 0.07 0.10 0.08 0.05 0.07 0.04 0.09 0.03 0.02 0.02 0.03 0.03 0.03YS TACAGC 0.24 0.31 0.22 0.27 0.27 0.21 0.04 0.04 0.04 0.04 0.03 0.04 0.06 0.05 0.08 0.03 0.06 0.20 0.22 0.24 0.17 0.17 0.18YS TACAGT 0.08 0.04 0.06 0.04 0.04 0.09 0.07 0.07 0.07 0.07 0.05 0.06 0.09 0.09 0.08 0.04 0.10 0.14 0.12 0.14 0.17 0.13 0.14YS TACTCA 0.04 0.04 0.03 0.04 0.03 0.04 0.08 0.07 0.08 0.07 0.10 0.09 0.10 0.12 0.10 0.11 0.09 0.09 0.08 0.09 0.08 0.09 0.09YS TACTCC 0.09 0.15 0.09 0.14 0.19 0.08 0.07 0.12 0.08 0.11 0.14 0.06 0.10 0.17 0.10 0.22 0.08 0.11 0.12 0.13 0.10 0.10 0.11YS TACTCG 0.05 0.04 0.06 0.02 0.02 0.06 0.04 0.03 0.05 0.03 0.04 0.04 0.04 0.03 0.04 0.04 0.04 0.03 0.03 0.03 0.03 0.06 0.02YS TACTCT 0.06 0.12 0.08 0.19 0.15 0.05 0.12 0.20 0.08 0.17 0.24 0.10 0.14 0.21 0.13 0.31 0.13 0.09 0.10 0.09 0.10 0.12 0.09YS TATAGC 0.11 0.08 0.15 0.11 0.05 0.12 0.04 0.02 0.07 0.03 0.01 0.05 0.03 0.03 0.03 0.01 0.03 0.05 0.06 0.04 0.05 0.06 0.05YS TATAGT 0.03 0.01 0.02 0.01 0.01 0.04 0.07 0.03 0.09 0.04 0.03 0.06 0.05 0.04 0.04 0.01 0.06 0.04 0.05 0.04 0.06 0.04 0.06YS TATTCA 0.07 0.01 0.07 0.06 0.04 0.08 0.13 0.07 0.14 0.10 0.02 0.16 0.11 0.06 0.11 0.03 0.12 0.07 0.04 0.05 0.08 0.05 0.08YS TATTCC 0.12 0.11 0.13 0.07 0.13 0.10 0.10 0.10 0.09 0.09 0.12 0.09 0.09 0.09 0.09 0.06 0.09 0.08 0.08 0.08 0.07 0.09 0.07YS TATTCG 0.06 0.04 0.07 0.00 0.02 0.06 0.06 0.06 0.06 0.05 0.04 0.06 0.06 0.04 0.06 0.02 0.06 0.01 0.01 0.01 0.01 0.01 0.01YS TATTCT 0.06 0.05 0.03 0.05 0.05 0.08 0.18 0.19 0.14 0.19 0.19 0.19 0.13 0.07 0.13 0.10 0.14 0.09 0.09 0.06 0.09 0.09 0.10YT TACACA 0.04 0.01 0.01 0.02 0.01 0.08 0.15 0.10 0.18 0.14 0.12 0.16 0.17 0.14 0.15 0.10 0.20 0.24 0.22 0.24 0.24 0.22 0.26YT TACACC 0.34 0.40 0.42 0.51 0.38 0.36 0.09 0.18 0.10 0.12 0.21 0.07 0.14 0.24 0.14 0.33 0.11 0.22 0.21 0.27 0.17 0.22 0.18YT TACACG 0.06 0.01 0.06 0.00 0.02 0.07 0.07 0.04 0.09 0.05 0.04 0.06 0.07 0.05 0.05 0.03 0.07 0.07 0.08 0.08 0.08 0.07 0.06YT TACACT 0.07 0.18 0.04 0.11 0.19 0.05 0.17 0.29 0.14 0.24 0.34 0.16 0.20 0.30 0.22 0.36 0.15 0.15 0.14 0.18 0.16 0.13 0.17YT TATACA 0.03 0.03 0.02 0.00 0.03 0.03 0.16 0.09 0.16 0.12 0.05 0.19 0.12 0.08 0.12 0.05 0.13 0.10 0.14 0.07 0.12 0.13 0.10YT TATACC 0.31 0.28 0.32 0.28 0.31 0.21 0.11 0.12 0.10 0.12 0.11 0.12 0.11 0.07 0.14 0.05 0.09 0.11 0.09 0.10 0.12 0.10 0.10YT TATACG 0.10 0.03 0.09 0.06 0.05 0.16 0.09 0.02 0.09 0.06 0.02 0.09 0.06 0.03 0.05 0.02 0.11 0.02 0.03 0.01 0.01 0.02 0.02YT TATACT 0.05 0.05 0.03 0.02 0.01 0.03 0.16 0.15 0.15 0.15 0.12 0.15 0.13 0.09 0.13 0.06 0.15 0.09 0.09 0.06 0.10 0.10 0.12YV TACGTA 0.04 0.10 0.05 0.09 0.10 0.03 0.08 0.05 0.07 0.06 0.03 0.09 0.05 0.02 0.06 0.02 0.06 0.02 0.02 0.02 0.02 0.02 0.02YV TACGTC 0.11 0.10 0.13 0.09 0.09 0.07 0.10 0.13 0.14 0.15 0.16 0.06 0.10 0.15 0.11 0.17 0.08 0.05 0.06 0.05 0.06 0.06 0.04YV TACGTG 0.11 0.13 0.12 0.12 0.11 0.11 0.08 0.06 0.08 0.06 0.06 0.08 0.09 0.09 0.09 0.04 0.06 0.12 0.14 0.14 0.11 0.13 0.10YV TACGTT 0.12 0.17 0.10 0.12 0.15 0.12 0.17 0.27 0.15 0.20 0.29 0.15 0.18 0.26 0.16 0.35 0.17 0.03 0.04 0.03 0.03 0.03 0.04YV TATGTA 0.06 0.05 0.06 0.03 0.04 0.04 0.09 0.04 0.11 0.05 0.03 0.13 0.06 0.04 0.07 0.02 0.07 0.11 0.08 0.09 0.10 0.10 0.12

Continued on next page

Page 177: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

A. SUPPLEMENTARY FOR ESTABLISHING REFERENCE CODONBIASES USING -OMICS DATASETS 164

Table A.1 – continued from previous pageE. coli S. cerevisiae P. pastoris CHO cells

Am

ino

acid

pair

Codon

pair

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.top10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

prot.top10

prot.low10

genom

e

transcr.top10

transcr.low10

transl.hi

prot.top10

prot.low10

YV TATGTC 0.20 0.14 0.22 0.20 0.14 0.23 0.13 0.15 0.15 0.14 0.15 0.10 0.14 0.13 0.14 0.11 0.17 0.18 0.17 0.21 0.16 0.13 0.19YV TATGTG 0.19 0.14 0.18 0.09 0.15 0.23 0.13 0.07 0.11 0.07 0.06 0.17 0.15 0.09 0.16 0.07 0.17 0.34 0.34 0.35 0.35 0.37 0.32YV TATGTT 0.17 0.17 0.14 0.27 0.22 0.18 0.23 0.24 0.18 0.26 0.22 0.21 0.23 0.21 0.22 0.20 0.21 0.15 0.15 0.11 0.17 0.17 0.17YW TACTGG 0.87 0.88 0.91 0.88 0.90 0.93 0.48 0.61 0.61 0.50 0.80 0.41 0.48 0.60 0.49 0.80 0.45 0.77 0.67 0.81 0.72 0.77 0.79YW TATTGG 0.13 0.12 0.09 0.12 0.10 0.07 0.52 0.39 0.39 0.50 0.20 0.59 0.52 0.40 0.51 0.20 0.55 0.23 0.33 0.18 0.28 0.23 0.21YY TACTAC 0.27 0.42 0.29 0.43 0.48 0.28 0.22 0.33 0.26 0.27 0.39 0.18 0.29 0.43 0.27 0.56 0.28 0.36 0.34 0.42 0.31 0.38 0.36YY TACTAT 0.17 0.17 0.11 0.10 0.22 0.20 0.25 0.20 0.26 0.24 0.23 0.27 0.25 0.19 0.24 0.16 0.24 0.28 0.33 0.28 0.24 0.34 0.25YY TATTAC 0.35 0.31 0.42 0.29 0.22 0.41 0.21 0.22 0.18 0.22 0.21 0.25 0.22 0.22 0.24 0.17 0.24 0.20 0.16 0.18 0.21 0.15 0.19YY TATTAT 0.21 0.11 0.18 0.18 0.08 0.12 0.33 0.25 0.31 0.26 0.18 0.30 0.23 0.16 0.25 0.11 0.24 0.17 0.18 0.12 0.23 0.14 0.20

Continued on next page

Page 178: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

Appendix B

Supplementary for MatingFactor α prepro-LeaderSequence Design

B.1 Designed mating factor leader sequences

Mating factor leader sequences (MFLS), wild type (WT), individual codon(IC), multi-objective(MO), codon context (CC):

>MFLSWT

AUGAGAUUUCCUUCUAUUUUUACUGCUGUUUUAUUCGCUGCUUCCUCCGCUUUAGCUGCUCCAGUCAACACUACCACUGAAGAUGAAACGGCUCAAAUUCCAGCUGAAGCUGUCAUCGGUUACUCUGAUUUAGAAGGUGAUUUCGAUGUUGCUGUUUUGCCAUUUUCCAACUCCACCAAUAACGGUUUAUUGUUUAUCAAUACUACUAUUGCCUCCAUUGCUGCUAAAGAAGAAGGUGUUUCUUUGGAUAAAAGA

>MFLSIC

AUGAGAUUCCCAAGCAUAUUUACUGCCGUGUUAUUUGCUGCUUCCUCUGCUUUGGCAGCUCCAGUCAACACAACAACCGAGGAUGAAACUGCUCAAAUUCCUGCUGAGGCCGUUAUUGGUUACUCAGAUUUGGAAGGAGACUUUGAUGUUGCAGUCCUUCCUUUCAGUAAUUCCACCAACAAUGGACUGCUAUUCAUCAACACUACCAUCGCCUCUAUUGCUGCCAAAGAAGAGGGUGUUUCUUUGGACAAGAGA

>MFLSMO

AUGAGAUUCCCAUCUAUCUUUACUGCCGUGUUAUUUGCUGCUUCCUCUGCUUUGGCAGCUCCAGUCAACACAACAACUGAGGAUGAAACUGCUCAAAUUCCUGCUGAGGCCGUUAUUGGUUACUCUGAUUUGGAAGGAGACUUUGAUGUUGCUGUCUUGCCUUUCUCUAAUUCCACCAACAAUGGACUGUUGUUCAUCAACACUACCAUCGCCUCUAUUGCUGCCAAGGAAGAGGGUGUUUCUUUGGACAAGAGA

165

Page 179: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

B. SUPPLEMENTARY FOR MATING FACTOR α PREPRO-LEADERSEQUENCE DESIGN 166

>MFLSCC

AUGAGAUUCCCAUCUAUCUUUACUGCCGUUUUGUUUGCUGCUUCCUCUGCUUUGGCAGCUCCAGUUAACACAACUACUGAGGAUGAAACUGCUCAAAUUCCUGCUGAGGCAGUUAUUGGUUACUCUGAUUUGGAAGGUGACUUUGAUGUUGCUGUCUUGCCUUUCUCUAACUCCACCAACAACGGUUUGUUGUUCAUCAACACUACCAUUGCCUCUAUUGCUGCCAAGGAAGAGGGUGUUUCUUUGGACAAGAGA

ICU MOCO CCO

Lip

as

e a

cti

vit

y (

U/O

Dc

ell)

0

2

4

6

8

10

Figure B.1: 1st set of new transformation of P. pastoris using differentcodon optimized MFLS for CAL-B production. Three independently iso-lated transformants of each variant were cultivated by flask culture and thesecretory lipase activity of each culture was measured three times.

Page 180: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

B. SUPPLEMENTARY FOR MATING FACTOR α PREPRO-LEADERSEQUENCE DESIGN 167

ICU MOCO CCO

Lip

as

e a

cti

vit

y (

U/O

Dc

ell)

0

2

4

6

Lipase assay at room temperature

Lipase assay at 40OC

Figure B.2: 2nd set of new transformation of P. pastoris using differentcodon optimized MFLS for CAL-B production. Two independently iso-lated transformants of each variant were cultivated by flask culture andthe secretory lipase activity of each culture was measured three times atdifferent temperatures.

Page 181: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

Appendix C

Supplementary for Invertase

Sequence Design

C.1 Designed invertase sequences

The designed invertase sequences are shown in Table C.1 - C.2.

168

Page 182: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

C. SUPPLEMENTARY FOR INVERTASE SEQUENCE DESIGN 169

Table C.1: Part 1. Wild-type and various codon-optimised sequences. Dif-ferences in the DNA sequence (1302 bp) of the WT, and CVO, CCO,and SSO genes are highlighted. The final encoded protein product for allDNA sequences is the same. Nucleotides are highlighted as adenine (green),thymine (red), cytosine (blue), and guanine (black)

Page 183: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

C. SUPPLEMENTARY FOR INVERTASE SEQUENCE DESIGN 170

Table C.2: Part 2. Wild-type and various codon-optimised sequences. Dif-ferences in the DNA sequence (1302 bp) of the WT, and CVO, CCO,and SSO genes are highlighted. The final encoded protein product for allDNA sequences is the same. Nucleotides are highlighted as adenine (green),thymine (red), cytosine (blue), and guanine (black)

Page 184: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

C. SUPPLEMENTARY FOR INVERTASE SEQUENCE DESIGN 171

Table C.3: Part 3. Wild-type and various codon-optimised sequences. Dif-ferences in the DNA sequence (1302 bp) of the WT, and CVO, CCO,and SSO genes are highlighted. The final encoded protein product for allDNA sequences is the same. Nucleotides are highlighted as adenine (green),thymine (red), cytosine (blue), and guanine (black)

Page 185: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

C. SUPPLEMENTARY FOR INVERTASE SEQUENCE DESIGN 172

Table C.4: Part 4. Wild-type and various codon-optimised sequences. Dif-ferences in the DNA sequence (1302 bp) of the WT, and CVO, CCO,and SSO genes are highlighted. The final encoded protein product for allDNA sequences is the same. Nucleotides are highlighted as adenine (green),thymine (red), cytosine (blue), and guanine (black)

Page 186: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

C. SUPPLEMENTARY FOR INVERTASE SEQUENCE DESIGN 173

Figure

C.1:Codon

distribution

ofthevariou

sop

timized

sequences.

Plots

ofthe(A

)relative

individual

codon

usage

(ICU)

distribution

and(B

)codon

contextdistribution

fortheW

T,CVO,CCO

andSSO

sequences.

UA

C

UA

U

UG

G

GU

G

GU

A

GU

C

GU

U

AC

G

AC

A

AC

C

AC

U

UC

G

UC

A

UC

C

UC

U

AG

C

AG

U

CG

G

CG

A

CG

C

CG

U

AG

G

AG

A

CA

G

CA

A

CC

G

CC

A

CC

C

CC

U

AA

C

AA

U

AU

G

UU

G

UU

A

CU

G

CU

A

CU

C

CU

U

AA

G

AA

A

AU

A

AU

C

AU

U

CA

C

CA

U

GG

G

GG

A

GG

C

GG

U

UU

C

UU

U

GA

G

GA

A

GA

C

GA

U

UG

C

UG

U

GC

G

GC

A

GC

C

GC

U

UG

A

UA

G

UA

A

ICU

Dis

trib

uti

on

(W

ild

Ty

pe

)

Ala

nin

e

Cy

ste

ine

Asp

art

ate

Glu

tam

ate

Ph

en

yla

lan

ine

Gly

cin

e

His

tid

ine

Iso

leu

cin

e

Lysi

ne

Leu

cin

e

Me

thio

nin

e

Asp

ara

gin

e

Pro

lin

e

Glu

tam

ine

Arg

inin

e

Se

rin

e

Th

reo

nin

e

Va

lin

e

Try

pto

ph

an

Ty

rosi

ne

Sto

p c

od

on

s

Co

do

n u

sag

e f

req

ue

ncy

0

0.1

0

.2

0.3

0

.4

0.5

0

.6

0.7

0

.8

0.9

1

.0

Codons

UA

C

UA

U

UG

G

GU

G

GU

A

GU

C

GU

U

AC

G

AC

A

AC

C

AC

U

UC

G

UC

A

UC

C

UC

U

AG

C

AG

U

CG

G

CG

A

CG

C

CG

U

AG

G

AG

A

CA

G

CA

A

CC

G

CC

A

CC

C

CC

U

AA

C

AA

U

AU

G

UU

G

UU

A

CU

G

CU

A

CU

C

CU

U

AA

G

AA

A

AU

A

AU

C

AU

U

CA

C

CA

U

GG

G

GG

A

GG

C

GG

U

UU

C

UU

U

GA

G

GA

A

GA

C

GA

U

UG

C

UG

U

GC

G

GC

A

GC

C

GC

U

UG

A

UA

G

UA

A

ICU

Dis

trib

uti

on

(C

VO

)

Ala

nin

e

Cy

ste

ine

Asp

art

ate

Glu

tam

ate

Ph

en

yla

lan

ine

Gly

cin

e

His

tid

ine

Iso

leu

cin

e

Lysi

ne

Leu

cin

e

Me

thio

nin

e

Asp

ara

gin

e

Pro

lin

e

Glu

tam

ine

Arg

inin

e

Se

rin

e

Th

reo

nin

e

Va

lin

e

Try

pto

ph

an

Ty

rosi

ne

Sto

p c

od

on

s

Co

do

n u

sag

e f

req

ue

ncy

0

0.1

0

.2

0.3

0

.4

0.5

0

.6

0.7

0

.8

0.9

1

.0

Codons

UA

C

UA

U

UG

G

GU

G

GU

A

GU

C

GU

U

AC

G

AC

A

AC

C

AC

U

UC

G

UC

A

UC

C

UC

U

AG

C

AG

U

CG

G

CG

A

CG

C

CG

U

AG

G

AG

A

CA

G

CA

A

CC

G

CC

A

CC

C

CC

U

AA

C

AA

U

AU

G

UU

G

UU

A

CU

G

CU

A

CU

C

CU

U

AA

G

AA

A

AU

A

AU

C

AU

U

CA

C

CA

U

GG

G

GG

A

GG

C

GG

U

UU

C

UU

U

GA

G

GA

A

GA

C

GA

U

UG

C

UG

U

GC

G

GC

A

GC

C

GC

U

UG

A

UA

G

UA

A

ICU

Dis

trib

uti

on

(S

SO

)

Ala

nin

e

Cy

ste

ine

Asp

art

ate

Glu

tam

ate

Ph

en

yla

lan

ine

Gly

cin

e

His

tid

ine

Iso

leu

cin

e

Lysi

ne

Leu

cin

e

Me

thio

nin

e

Asp

ara

gin

e

Pro

lin

e

Glu

tam

ine

Arg

inin

e

Se

rin

e

Th

reo

nin

e

Va

lin

e

Try

pto

ph

an

Ty

rosi

ne

Sto

p c

od

on

s

Co

do

n u

sag

e f

req

ue

ncy

0

0.1

0

.2

0.3

0

.4

0.5

0

.6

0.7

0

.8

0.9

1

.0

Codons

UA

C

UA

U

UG

G

GU

G

GU

A

GU

C

GU

U

AC

G

AC

A

AC

C

AC

U

UC

G

UC

A

UC

C

UC

U

AG

C

AG

U

CG

G

CG

A

CG

C

CG

U

AG

G

AG

A

CA

G

CA

A

CC

G

CC

A

CC

C

CC

U

AA

C

AA

U

AU

G

UU

G

UU

A

CU

G

CU

A

CU

C

CU

U

AA

G

AA

A

AU

A

AU

C

AU

U

CA

C

CA

U

GG

G

GG

A

GG

C

GG

U

UU

C

UU

U

GA

G

GA

A

GA

C

GA

U

UG

C

UG

U

GC

G

GC

A

GC

C

GC

U

UG

A

UA

G

UA

A

ICU

Dis

trib

uti

on

(C

CO

)

Ala

nin

e

Cy

ste

ine

Asp

art

ate

Glu

tam

ate

Ph

en

yla

lan

ine

Gly

cin

e

His

tid

ine

Iso

leu

cin

e

Lysi

ne

Leu

cin

e

Me

thio

nin

e

Asp

ara

gin

e

Pro

lin

e

Glu

tam

ine

Arg

inin

e

Se

rin

e

Th

reo

nin

e

Va

lin

e

Try

pto

ph

an

Ty

rosi

ne

Sto

p c

od

on

s

Co

do

n u

sag

e f

req

ue

ncy

0

0.1

0

.2

0.3

0

.4

0.5

0

.6

0.7

0

.8

0.9

1

.0

Codons

UA

C

UA

U

UG

G

GU

G

GU

A

GU

C

GU

U

AC

G

AC

A

AC

C

AC

U

UC

G

UC

A

UC

C

UC

U

AG

C

AG

U

CG

G

CG

A

CG

C

CG

U

AG

G

AG

A

CA

G

CA

A

CC

G

CC

A

CC

C

CC

U

AA

C

AA

U

AU

G

UU

G

UU

A

CU

G

CU

A

CU

C

CU

U

AA

G

AA

A

AU

A

AU

C

AU

U

CA

C

CA

U

GG

G

GG

A

GG

C

GG

U

UU

C

UU

U

GA

G

GA

A

GA

C

GA

U

UG

C

UG

U

GC

G

GC

A

GC

C

GC

U

GCU

GCC

GCA

GCG

UGU

UGC

GAU

GAC

GAA

GAG

UUU

UUC

GGU

GGC

GGA

GGG

CAU

CAC

AUU

AUC

AUA

AAA

AAG

CUU

CUC

CUA

CUG

UUA

UUG

AUG

AAU

AAC

CCU

CCC

CCA

CCG

CAA

CAG

AGA

AGG

CGU

CGC

CGA

CGG

AGU

AGC

UCU

UCC

UCA

UCG

ACU

ACC

ACA

ACG

GUU

GUC

GUA

GUG

UGG

UAU

UAC

UAA

UAG

UGA

Ph

en

yla

lan

ine

Ala

nin

e

Cy

ste

ine

Asp

art

ate

Glu

tam

ate

Gly

cin

e

His

tid

ine

Iso

leu

cin

e

Lysi

ne

Leu

cin

e

Me

thio

nin

e

Asp

ara

gin

e

Pro

lin

e

Glu

tam

ine

Arg

inin

e

Se

rin

e

Th

reo

nin

e

Va

lin

e

Try

pto

ph

an

T

yro

sin

e

Se

con

d c

od

on

First codon

CC

Dis

trib

uti

on

(W

ild

Ty

pe

)

Alanine

Cysteine

Aspartate

Glutamate

Phenylalanine

Glycine

Histidine

Isoleucine

Lysine

Leucine

Methionine Asparagine

Proline

Glutamine

Arginine

Serine

Threonine

Valine

Tryptophan Tyrosine

Stop codon

UA

C

UA

U

UG

G

GU

G

GU

A

GU

C

GU

U

AC

G

AC

A

AC

C

AC

U

UC

G

UC

A

UC

C

UC

U

AG

C

AG

U

CG

G

CG

A

CG

C

CG

U

AG

G

AG

A

CA

G

CA

A

CC

G

CC

A

CC

C

CC

U

AA

C

AA

U

AU

G

UU

G

UU

A

CU

G

CU

A

CU

C

CU

U

AA

G

AA

A

AU

A

AU

C

AU

U

CA

C

CA

U

GG

G

GG

A

GG

C

GG

U

UU

C

UU

U

GA

G

GA

A

GA

C

GA

U

UG

C

UG

U

GC

G

GC

A

GC

C

GC

U

GCU

GCC

GCA

GCG

UGU

UGC

GAU

GAC

GAA

GAG

UUU

UUC

GGU

GGC

GGA

GGG

CAU

CAC

AUU

AUC

AUA

AAA

AAG

CUU

CUC

CUA

CUG

UUA

UUG

AUG

AAU

AAC

CCU

CCC

CCA

CCG

CAA

CAG

AGA

AGG

CGU

CGC

CGA

CGG

AGU

AGC

UCU

UCC

UCA

UCG

ACU

ACC

ACA

ACG

GUU

GUC

GUA

GUG

UGG

UAU

UAC

UAA

UAG

UGA

Ph

en

yla

lan

ine

Ala

nin

e

Cy

ste

ine

Asp

art

ate

Glu

tam

ate

Gly

cin

e

His

tid

ine

Iso

leu

cin

e

Lysi

ne

Leu

cin

e

Me

thio

nin

e

Asp

ara

gin

e

Pro

lin

e

Glu

tam

ine

Arg

inin

e

Se

rin

e

Th

reo

nin

e

Va

lin

e

Try

pto

ph

an

T

yro

sin

e

Se

con

d c

od

on

First codon

CC

Dis

trib

uti

on

(C

VO

)

Alanine

Cysteine

Aspartate

Glutamate

Phenylalanine

Glycine

Histidine

Isoleucine

Lysine

Leucine

Methionine Asparagine

Proline

Glutamine

Arginine

Serine

Threonine

Valine

Tryptophan Tyrosine

Stop codon

UA

C

UA

U

UG

G

GU

G

GU

A

GU

C

GU

U

AC

G

AC

A

AC

C

AC

U

UC

G

UC

A

UC

C

UC

U

AG

C

AG

U

CG

G

CG

A

CG

C

CG

U

AG

G

AG

A

CA

G

CA

A

CC

G

CC

A

CC

C

CC

U

AA

C

AA

U

AU

G

UU

G

UU

A

CU

G

CU

A

CU

C

CU

U

AA

G

AA

A

AU

A

AU

C

AU

U

CA

C

CA

U

GG

G

GG

A

GG

C

GG

U

UU

C

UU

U

GA

G

GA

A

GA

C

GA

U

UG

C

UG

U

GC

G

GC

A

GC

C

GC

U

GCU

GCC

GCA

GCG

UGU

UGC

GAU

GAC

GAA

GAG

UUU

UUC

GGU

GGC

GGA

GGG

CAU

CAC

AUU

AUC

AUA

AAA

AAG

CUU

CUC

CUA

CUG

UUA

UUG

AUG

AAU

AAC

CCU

CCC

CCA

CCG

CAA

CAG

AGA

AGG

CGU

CGC

CGA

CGG

AGU

AGC

UCU

UCC

UCA

UCG

ACU

ACC

ACA

ACG

GUU

GUC

GUA

GUG

UGG

UAU

UAC

UAA

UAG

UGA

Ph

en

yla

lan

ine

Ala

nin

e

Cy

ste

ine

Asp

art

ate

Glu

tam

ate

Gly

cin

e

His

tid

ine

Iso

leu

cin

e

Lysi

ne

Leu

cin

e

Me

thio

nin

e

Asp

ara

gin

e

Pro

lin

e

Glu

tam

ine

Arg

inin

e

Se

rin

e

Th

reo

nin

e

Va

lin

e

Try

pto

ph

an

T

yro

sin

e

Se

con

d c

od

on

First codon

CC

Dis

trib

uti

on

(S

SO

)

Alanine

Cysteine

Aspartate

Glutamate

Phenylalanine

Glycine

Histidine

Isoleucine

Lysine

Leucine

Methionine Asparagine

Proline

Glutamine

Arginine

Serine

Threonine

Valine

Tryptophan Tyrosine

Stop codon

UA

C

UA

U

UG

G

GU

G

GU

A

GU

C

GU

U

AC

G

AC

A

AC

C

AC

U

UC

G

UC

A

UC

C

UC

U

AG

C

AG

U

CG

G

CG

A

CG

C

CG

U

AG

G

AG

A

CA

G

CA

A

CC

G

CC

A

CC

C

CC

U

AA

C

AA

U

AU

G

UU

G

UU

A

CU

G

CU

A

CU

C

CU

U

AA

G

AA

A

AU

A

AU

C

AU

U

CA

C

CA

U

GG

G

GG

A

GG

C

GG

U

UU

C

UU

U

GA

G

GA

A

GA

C

GA

U

UG

C

UG

U

GC

G

GC

A

GC

C

GC

U

GCU

GCC

GCA

GCG

UGU

UGC

GAU

GAC

GAA

GAG

UUU

UUC

GGU

GGC

GGA

GGG

CAU

CAC

AUU

AUC

AUA

AAA

AAG

CUU

CUC

CUA

CUG

UUA

UUG

AUG

AAU

AAC

CCU

CCC

CCA

CCG

CAA

CAG

AGA

AGG

CGU

CGC

CGA

CGG

AGU

AGC

UCU

UCC

UCA

UCG

ACU

ACC

ACA

ACG

GUU

GUC

GUA

GUG

UGG

UAU

UAC

UAA

UAG

UGA

Ph

en

yla

lan

ine

Ala

nin

e

Cy

ste

ine

Asp

art

ate

Glu

tam

ate

Gly

cin

e

His

tid

ine

Iso

leu

cin

e

Lysi

ne

Leu

cin

e

Me

thio

nin

e

Asp

ara

gin

e

Pro

lin

e

Glu

tam

ine

Arg

inin

e

Se

rin

e

Th

reo

nin

e

Va

lin

e

Try

pto

ph

an

T

yro

sin

e

Se

con

d c

od

on

First codon

CC

Dis

trib

uti

on

(C

CO

)

Alanine

Cysteine

Aspartate

Glutamate

Phenylalanine

Glycine

Histidine

Isoleucine

Lysine

Leucine

Methionine Asparagine

Proline

Glutamine

Arginine

Serine

Threonine

Valine

Tryptophan Tyrosine

Stop codon

A

B

0.1

0

.5

1.0

Fre

qu

en

cy S

cale

0.1

0

.5

1.0

Fre

qu

en

cy S

cale

0.1

0

.5

1.0

Fre

qu

en

cy S

cale

0.1

0

.5

1.0

Fre

qu

en

cy S

cale

Page 187: SYNTHETIC GENE DESIGN STRATEGIES FOR IMPROVING

Appendix D

List of Selected Publications

1. HB Pek∗, M Klement∗, KS Ang∗, BKS Chung, DSW Ow and DYLee, Exploring codon context bias for synthetic gene design of a ther-mostable invertase in Escherichia coli, Enzyme and Microbial Tech-nology, 75-76, 57-63, 2015.

2. KS Ang∗, S Kyriakopoulos∗, W Li and DY Lee, Multi-omics datadriven analysis establishes reference codon biases for synthetic genedesign in microbial and mammalian cells, Methods, 102:1, 26-35,2016.

3. J Ahn, MJ Jang, KS Ang, H Lee, ES Choi and DY Lee, Codon op-timization of Saccharomyces cerevisiae mating factor alpha prepro-leader to improve recombinant protein production in Pichia pastoris,Biotechnology Letters, 38(12), 2137-2143, 2016.

4. K Yu, KS Ang and DY Lee, Synthetic Gene Design Using CodonOptimization On-Line (COOL), Methods Mol Biol, 1472, 13-34, 2017.

5. H Hefzi∗, KS Ang∗, M Hanscho∗, et al., A consensus genome-scalereconstruction of CHO cell metabolism for improved biotherapeuticprotein production, accepted.

∗ co-first authors.

174