Genes for Psilocybin's Enzymatic Pathway

aka: an endeavor into a bleak horror of traditional science publishing

Here are the sequences for genes in the enzymatic pathway of psilocybin, codon optimized for S. cerevisiae:

CrTdc —atgggttctattgattctaccaacgtcgctatgtctaattctccagttggtgaatttaagccattggaagccgaagaatttagaaagcaagctcacagaatggttgatttcattgccgattactacaagaacgttgaaacctacccagttttgtctgaagttgaaccaggttacttgagaaagagaataccagaaactgctccatatttgccagaaccattggatgatattatgaaggacatccaaaaggacatcattccaggtatgactaattggatgtctccaaacttttacgctttcttccctgctactgtttcttctgctgcttttttgggtgaaatgttgtctactgctttgaactctgttggtttcacttgggtttcttcaccagctgctactgaattggaaatgatagttatggattggttggcccaaatcttgaagttgccaaagtcttttatgttctctggtactggtggtggtgttattcaaaacactacctccgaatctattttgtgcaccattattgctgctagagaaagagctttggaaaagttgggtccagattccattggtaaattggtttgttacggttctgatcaaacccataccatgtttccaaagacttgtaaattggctggtatctacccaaacaacatcagattgattccaaccactgttgaaaccgatttcggtatttctccacaagttttaagaaagatggtcgaagatgatgttgctgctggttatgttcctttgtttttgtgtgctactttgggtactacttctactactgctacagatccagttgactccttgtctgaaattgctaacgaatttggtatctggattcatgttgatgctgcttacgctggttctgcttgtatttgtcctgaatttagacactacttggacggtatcgaaagagtcgattctttgtctttgtctccacataagtggttgttggcttatttggattgcacttgtttgtgggttaagcaaccacatttgttgttgagagctttgactaccaatccagaatacttgaagaacaagcaatccgatttggataaggtcgttgactttaagaactggcaaattgctactggtagaaagttcagatccttgaaattgtggttgatcttgagatcctacggtgttgttaacttgcaatcccacattagatcagatgttgctatgggtaagatgtttgaagaatgggttagatccgactccagattcgaaatagttgttccaagaaacttctcattggtctgctttagattgaagccagatgtttcctcattgcacgttgaagaagtcaacaaaaagttgttggacatgttgaactctacaggtagagtctacatgactcatacaatagtcggtggtatctatatgttgagattggctgttggttcttcattgaccgaagaacatcatgttagaagagtttgggacttgatccaaaagttgaccgatgacttgttgaaagaagcctga

PcPsiH — atgatcgctgttttgttctctttcgttatcgctggttgtatctactacatcgtttctagaagagttagaagatctagattgccaccaggtccaccaggtatcccaatcccattcatcggtaacatgttcgacatgccagaagaatctccatggttgactttcttgcaatggggtagagactacaacactgacatcttgtacgttgacgctggtggtactgaaatggttatcttgaacactttggaaactatcactgacttgttggaaaagagaggttctatctactctggtagattggaatctactatggttaacgaattgatgggttgggaattcgacttgggtttcatcacttacggtgacagatggagagaagaaagaagaatgttcgctaaggaattctctgaaaagggtatcaagcaattcagacacgctcaagttaaggctgctcaccaattggttcaacaattgactaagactccagacagatgggctcaacacatcagacaccaaatcgctgctatgtctttggacatcggttacggtatcgacttggctgaagacgacccatggttggaagctactcacttggctaacgaaggtttggctatcgcttctgttccaggtaagttctgggttgactctttcccatctttgaagtacttgccagcttggttcccaggtgctgttttcaagagaaaggctaaggtttggagagaagctgctgaccacatggttgacatgccatacgaaactatgagaaagttggctccacaaggtttgactagaccatcttacgcttctgctagattgcaagctatggacttgaacggtgacttggaacaccaagaacacgttatcaagaacactgctgctgaagttaacgttggtggtggtgacactactgtttctgctatgtctgctttcatcttggctatggttaagtacccagaagttcaaagaaaggttcaagctgaattggacgctttgactaacaacggtcaaatcccagactacgacgaagaagacgactctttgccatacttgactgcttgtatcaaggaattgttcagatggaaccaaatcgctccattggctatcccacacaagttgatgaaggacgacgtttacagaggttacttgatcccaaagaacactttggttttcgctaacacttgggctgttttgaacgacccagaagtttacccagacccatctgttttcagaccagaaagatacttgggtccagacggtaagccagacaacactgttagagacccaagaaaggctgctttcggttacggtagaagaaactgtccaggtatccacttggctcaatctactgtttggatcgctggtgctactttgttgtctgctttcaacatcgaaagaccagttgaccaaaacggtaagccaatcgacatcccagctgacttcactactggtttcttcagacacccagttccattccaatgtagattcgttccaagaactgaacaagtttctcaatctgtttctggtccataa

PcCpr — atggcttcttcttcttctgacgttttcgttttgggtttgggtgttgttttggctgctttgtacatcttcagagaccaattgttcgctgcttctaagccaaaggttgctccagtttctactactaagccagctaacggttctgctaacccaagagacttcatcgctaagatgaagcaaggtaagaagagaatcgttatcttctacggttctcaaactggtactgctgaagaatacgctatcagattggctaaggaagctaagcaaaagttcggtttggcttctttggtttgtgacccagaagaatacgacttcgaaaagttggaccaattgccagaagactctatcgctttcttcgttgttgctacttacggtgaaggtgaaccaactgacaacgctgttcaattgttgcaaaacttgcaagacgaatctttcgaattctcttctggtgaaagaaagttgtctggtttgaagtacgttgttttcggtttgggtaacaagacttacgaacactacaacttgatcggtagaactgttgacgctcaattggctaagatgggtgctatcagaatcggtgaaagaggtgaaggtgacgacgacaagtctatggaagaagactacttggaatggaaggacggtatgtgggaagctttcgctactgctatgggtgttgaagaaggtcaaggtggtgactctgctgacttcgttgtttctgaattggaatctcacccaccagaaaaggtttaccaaggtgaattctctgctagagctttgactaagactaagggtatccacgacgctaagaacccattcgctgctccaatcgctgttgctagagaattgttccaatctgttgttgacagaaactgtgttcacgttgaattcaacatcgaaggttctggtatcacttaccaacacggtgaccacgttggtttgtggccattgaacccagacgttgaagttgaaagattgttgtgtgttttgggtttggctgaaaagagagacgctgttatctctatcgaatctttggacccagctttggctaaggttccattcccagttccaactacttacggtgctgttttgagacactacatcgacatctctgctgttgctggtagacaaatcttgggtactttgtctaagttcgctccaactccagaagctgaagctttcttgagaaacttgaacactaacaaggaagaataccacaacgttgttgctaacggttgtttgaagttgggtgaaatcttgcaaatcgctactggtaacgacatcactgttccaccaactactgctaacactactaagtggccaatcccattcgacatcatcgtttctgctatcccaagattgcaaccaagatactactctatctcttcttctccaaagatccacccaaacactatccacgctactgttgttgttttgaagtacgaaaacgttccaactgaaccaatcccaagaaagtgggtttacggtgttggttctaacttcttgttgaacttgaagtacgctgttaacaaggaaccagttccatacatcactcaaaacggtgaacaaagagttggtgttccagaatacttgatcgctggtccaagaggttcttacaagactgaatctttctacaaggctccaatccacgttagaagatctactttcagattgccaactaacccaaagtctccagttatcatgatcggtccaggtactggtgttgctccattcagaggtttcgttcaagaaagagttgctttggctagaagatctatcgaaaagaacggtccagactctttggctgactggggtagaatctctttgttctacggttgtagaagatctgacgaagacttcttgtacaaggacgaatggccacaatacgaagctgaattgaagggtaagttcaagttgcactgtgctttctctagacaaaactacaagccagacggttctaagatctacgttcaagacttgatctgggaagacagagaacacatcgctgacgctatcttgaacggtaagggttacgtttacatctgtggtgaagctaagtctatgtctaagcaagttgaagaagttttggctaagatcttgggtgaagctaagggtggttctggtccagttgaaggtgttgctgaagttaagttgttgaaggaaagatctagattgatgttggacgtttggtcttaa

PcPsiK — atggctttcgacttgaagactgaagacggtttgatcacttacttgactaagcacttgtctttggacgttgacacttctggtgttaagagattgtctggtggtttcgttaacgttacttggagaatcaagttgaacgctccataccaaggtcacacttctatcatcttgaagcacgctcaaccacacatgtctactgacgaagacttcaagatcggtgttgaaagatctgtttacgaataccaagctatcaagttgatgatggctaacagagaagttttgggtggtgttgacggtatcgtttctgttccagaaggtttgaactacgacttggaaaacaacgctttgatcatgcaagacgttggtaagatgaagactttgttggactacgttactgctaagccaccattggctactgacatcgctagattggttggtactgaaatcggtggtttcgttgctagattgcacaacatcggtagagaaagaagagacgacccagaattcaagttcttctctggtaacatcgttggtagaactacttctgaccaattgtaccaaactatcatcccaaacgctgctaagtacggtgttgacgacccattgttgccaactgttgttaaggacttggttgacgacgttatgcactctgaagaaactttggttatggctgacttgtggtctggtaacatcttgttgcaattggaagaaggtaacccatctaagttgcaaaagatctacatcttggactgggaattgtgtaagtacggtccagcttctttggacttgggttacttcttgggtgactgttacttgatctctagattccaagacgaacaagttggtactactatgagacaagcttacttgcaatcttacgctagaacttctaagcactctatcaactacgctaaggttactgctggtatcgctgctcacatcgttatgtggactgacttcatgcaatggggttctgaagaagaaagaatcaacttcgttaagaagggtgttgctgctttccacgacgctagaggtaacaacgacaacggtgaaatcacttctactttgttgaaggaatcttctactgcttaa

PcPsiM — atgcacatcagaaacccatacagaactccaatcgactaccaagctttgtctgaagctttcccaccattgaagccattcgtttctgttaacgctgacggtacttcttctgttgacttgactatcccagaagctcaaagagctttcactgctgctttgttgcacagagacttcggtttgactatgactatcccagaagacagattgtgtccaactgttccaaacagattgaactacgttttgtggatcgaagacatcttcaactacactaacaagactttgggtttgtctgacgacagaccaatcaagggtgttgacatcggtactggtgcttctgctatctacccaatgttggcttgtgctagattcaaggcttggtctatggttggtactgaagttgaaagaaagtgtatcgacactgctagattgaacgttgttgctaacaacttgcaagacagattgtctatcttggaaacttctatcgacggtccaatcttggttccaatcttcgaagctactgaagaatacgaatacgaattcactatgtgtaacccaccattctacgacggtgctgctgacatgcaaacttctgacgctgctaagggtttcggtttcggtgttggtgctccacactctggtactgttatcgaaatgtctactgaaggtggtgaatctgctttcgttgctcaaatggttagagaatctttgaagttgagaactagatgtagatggtacacttctaacttgggtaagttgaagtctttgaaggaaatcgttggtttgttgaaggaattggaaatctctaactacgctatcaacgaatacgttcaaggttctactagaagatacgctgttgcttggtctttcactgacatccaattgccagaagaattgtctagaccatctaacccagaattgtcttctttgttctaa

PcPsiD — ATGCAAGTTATCCCAGCTTGTAACTCTGCTGCTATCAGATCTTTGTGTCCAACTCCAGAATCTTTCAGAAACATGGGTTGGTTGTCTGTTTCTGACGCTGTTTACTCTGAATTCATCGGTGAATTGGCTACTAGAGCTTCTAACAGAAACTACTCTAACGAATTCGGTTTGATGCAACCAATCCAAGAATTCAAGGCTTTCATCGAATCTGACCCAGTTGTTCACCAAGAATTCATCGACATGTTCGAAGGTATCCAAGACTCTCCAAGAAACTACCAAGAATTGTGTAACATGTTCAACGACATCTTCAGAAAGGCTCCAGTTTACGGTGACTTGGGTCCACCAGTTTACATGATCATGGCTAAGTTGATGAACACTAGAGCTGGTTTCTCTGCTTTCACTAGACAAAGATTGAACTTGCACTTCAAGAAGTTGTTCGACACTTGGGGTTTGTTCTTGTCTTCTAAGGACTCTAGAAACGTTTTGGTTGCTGACCAATTCGACGACAGACACTGTGGTTGGTTGAACGAAAGAGCTTTGTCTGCTATGGTTAAGCACTACAACGGTAGAGCTTTCGACGAAGTTTTCTTGTGTGACAAGAACGCTCCATACTACGGTTTCAACTCTTACGACGACTTCTTCAACAGAAGATTCAGAAACAGAGACATCGACAGACCAGTTGTTGGTGGTGTTAACAACACTACTTTGATCTCTGCTGCTTGTGAATCTTTGTCTTACAACGTTTCTTACGACGTTCAATCTTTGGACACTTTGGTTTTCAAGGGTGAAACTTACTCTTTGAAGCACTTGTTGAACAACGACCCATTCACTCCACAATTCGAACACGGTTCTATCTTGCAAGGTTTCTTGAACGTTACTGCTTACCACAGATGGCACGCTCCAGTTAACGGTACTATCGTTAAGATCATCAACGTTCCAGGTACTTACTTCGCTCAAGCTCCATCTACTATCGGTGACCCAATCCCAGACAACGACTACGACCCACCACCATACTTGAAGTCTTTGGTTTACTTCTCTAACATCGCTGCTAGACAAATCATGTTCATCGAAGCTGACAACAAGGAAATCGGTTTGATCTTCTTGGTTTTCATCGGTATGACTGAAATCTCTACTTGTGAAGCTACTGTTTCTGAAGGTCAACACGTTAACAGAGGTGACGACTTGGGTATGTTCCACTTCGGTGGTTCTTCTTTCGCTTTGGGTTTGAGAAAGGACTGTAGAGCTGAAATCGTTGAAAAGTTCACTGAACCAGGTACTGTTATCAGAATCAACGAAGTTGTTGCTGCTTTGAAGGCT

Here is how I made this list:

I begin by foraging this paper, Metabolic engineering of Saccharomyces cerevisiae for the de novo production of psilocybin and related tryptamine derivatives, Milne et al. 2020.

From the green and purple boxes in figure 2, on the right here, I can tell that I need the sequences for these five enzymes:

CrTdc
PcPsiH
PcCpr
PcPsiK
PcPsiM

to go from tryptophan to psilocybin. This bit of writing is not about understanding or explaining what these enzymes do, it is very simply the process of finding the sequences in the scientific literature. This is a treasure hunt, not a description of the treasure.

Despite this paper being extremely about these genes, none of these sequences are obviously given in the paper. This is a classic feature of academic publishing. Supplementary Figure 2 gives the sequence for PcCpr, codon optimized for S. cerevisiae. So we've got one sequence, hooray!

DNA sequence for PcCpr, codon optimized for S. cerevisiae

PcCpr — ATGGCTTCTTCTTCTTCTGACGTTTTCGTTTTGGGTTTGGGTGTTGTTTTGGCTGCTTTGTACATCTTCAGAGACCAATTGTTCGCTGCTTCTAAGCCAAAGGTTGCTCCAGTTTCTACTACTAAGCCAGCTAACGGTTCTGCTAACCCAAGAGACTTCATCGCTAAGATGAAGCAAGGTAAGAAGAGAATCGTTATCTTCTACGGTTCTCAAACTGGTACTGCTGAAGAATACGCTATCAGATTGGCTAAGGAAGCTAAGCAAAAGTTCGGTTTGGCTTCTTTGGTTTGTGACCCAGAAGAATACGACTTCGAAAAGTTGGACCAATTGCCAGAAGACTCTATCGCTTTCTTCGTTGTTGCTACTTACGGTGAAGGTGAACCAACTGACAACGCTGTTCAATTGTTGCAAAACTTGCAAGACGAATCTTTCGAATTCTCTTCTGGTGAAAGAAAGTTGTCTGGTTTGAAGTACGTTGTTTTCGGTTTGGGTAACAAGACTTACGAACACTACAACTTGATCGGTAGAACTGTTGACGCTCAATTGGCTAAGATGGGTGCTATCAGAATCGGTGAAAGAGGTGAAGGTGACGACGACAAGTCTATGGAAGAAGACTACTTGGAATGGAAGGACGGTATGTGGGAAGCTTTCGCTACTGCTATGGGTGTTGAAGAAGGTCAAGGTGGTGACTCTGCTGACTTCGTTGTTTCTGAATTGGAATCTCACCCACCAGAAAAGGTTTACCAAGGTGAATTCTCTGCTAGAGCTTTGACTAAGACTAAGGGTATCCACGACGCTAAGAACCCATTCGCTGCTCCAATCGCTGTTGCTAGAGAATTGTTCCAATCTGTTGTTGACAGAAACTGTGTTCACGTTGAATTCAACATCGAAGGTTCTGGTATCACTTACCAACACGGTGACCACGTTGGTTTGTGGCCATTGAACCCAGACGTTGAAGTTGAAAGATTGTTGTGTGTTTTGGGTTTGGCTGAAAAGAGAGACGCTGTTATCTCTATCGAATCTTTGGACCCAGCTTTGGCTAAGGTTCCATTCCCAGTTCCAACTACTTACGGTGCTGTTTTGAGACACTACATCGACATCTCTGCTGTTGCTGGTAGACAAATCTTGGGTACTTTGTCTAAGTTCGCTCCAACTCCAGAAGCTGAAGCTTTCTTGAGAAACTTGAACACTAACAAGGAAGAATACCACAACGTTGTTGCTAACGGTTGTTTGAAGTTGGGTGAAATCTTGCAAATCGCTACTGGTAACGACATCACTGTTCCACCAACTACTGCTAACACTACTAAGTGGCCAATCCCATTCGACATCATCGTTTCTGCTATCCCAAGATTGCAACCAAGATACTACTCTATCTCTTCTTCTCCAAAGATCCACCCAAACACTATCCACGCTACTGTTGTTGTTTTGAAGTACGAAAACGTTCCAACTGAACCAATCCCAAGAAAGTGGGTTTACGGTGTTGGTTCTAACTTCTTGTTGAACTTGAAGTACGCTGTTAACAAGGAACCAGTTCCATACATCACTCAAAACGGTGAACAAAGAGTTGGTGTTCCAGAATACTTGATCGCTGGTCCAAGAGGTTCTTACAAGACTGAATCTTTCTACAAGGCTCCAATCCACGTTAGAAGATCTACTTTCAGATTGCCAACTAACCCAAAGTCTCCAGTTATCATGATCGGTCCAGGTACTGGTGTTGCTCCATTCAGAGGTTTCGTTCAAGAAAGAGTTGCTTTGGCTAGAAGATCTATCGAAAAGAACGGTCCAGACTCTTTGGCTGACTGGGGTAGAATCTCTTTGTTCTACGGTTGTAGAAGATCTGACGAAGACTTCTTGTACAAGGACGAATGGCCACAATACGAAGCTGAATTGAAGGGTAAGTTCAAGTTGCACTGTGCTTTCTCTAGACAAAACTACAAGCCAGACGGTTCTAAGATCTACGTTCAAGACTTGATCTGGGAAGACAGAGAACACATCGCTGACGCTATCTTGAACGGTAAGGGTTACGTTTACATCTGTGGTGAAGCTAAGTCTATGTCTAAGCAAGTTGAAGAAGTTTTGGCTAAGATCTTGGGTGAAGCTAAGGGTGGTTCTGGTCCAGTTGAAGGTGTTGCTGAAGTTAAGTTGTTGAAGGAAAGATCTAGATTGATGTTGGACGTTTGGTCTTAA

To find the rest, I must dig a little deeper. The Milne paper's introduction states that the

"biosynthetic pathway of psilocybin from the psychedelic mushroom P. cubensis was recently elucidated (Fricke et al., 2017)".

This link, of course, does not redirect to the Fricke paper. With a quick google search, I find that the Fricke et al. 2017 paper is behind the Wiley Online Library's paywall, so I use our beloved Sci Hub to access it, and continue the search.

Of course, the DNA sequences for the enzymatic pathway of psilocybin are not in the paper titled, Enzymatic Synthesis of Psilocybin, but maybe they are in the supplementary information. At this point I have a brief moment of despair because I don't know if Sci Hub enables access to supplements, but fortunately I check if there even is supplementary info, here, and it turns out that the Wiley Online Library did not paywall the supplementary information! This is really great, and I am stoked.

Unfortunately, the sequences are also not obviously given in this supplement either, arhg! However, in Tabel S1 the GenBank numbers are! Woohoo! GenBank is an online, open access database for nucleotide sequences.

It seems there are two GenBank numbers on this chart, one for P. cubensis and one for P. cyanescens. Since the Milne et al paper uses P. cubensis, (and I've already hacked around with P. cyanescens, to be detailed in a later post) I will also focus on P. cubensis. As a reminder, I am looking for these:

CrTdc
PcPsiH — MF000993
PcCpr ✔️
PcPsiK — KY984099
PcPsiM — KY984100

The Milne paper does not use a decarboxylase from from P. cubensis (PsiD), but rather uses a decarboxylase from C. roseus, CrTdc:

"Catharanthus roseus (C. roseus) tryptophan decarboxylase (CrTdc) was used instead of the P. cubensis variant (PsiD), due to its previously confirmed efficacy in S. cerevisiae (Brown et al., 2015)."

I'll come back to Brown et al. 2015, but for now, I decide to also grab the sequence for PsiD. Let's add it to the list:

PcPsiD — KY984101

Okay, GenBank time! I'm grabbing the translation (protein sequence) because maybe there are introns in the DNA sequences (it is mRNA, so there shouldn't be), there are numbers in the formatting of the nucleotide sequence, and I am going to codon optimize it anyways:

Protein Sequences for PcPsiD, PcPsiH, PcPsiK, PcPsiM

PcPsiD — KY984101 MQVIPACNSAAIRSLCPTPESFRNMGWLSVSDAVYSEFIGELATRASNRNYSNEFGLMQPIQEFKAFIESDPVVHQEFIDMFEGIQDSPRNYQELCNMFNDIFRKAPVYGDLGPPVYMIMAKLMNTRAGFSAFTRQRLNLHFKKLFDTWGLFLSSKDSRNVLVADQFDDRHCGWLNERALSAMVKHYNGRAFDEVFLCDKNAPYYGFNSYDDFFNRRFRNRDIDRPVVGGVNNTTLISAACESLSYNVSYDVQSLDTLVFKGETYSLKHLLNNDPFTPQFEHGSILQGFLNVTAYHRWHAPVNGTIVKIINVPGTYFAQAPSTIGDPIPDNDYDPPPYLKSLVYFSNIAARQIMFIEADNKEIGLIFLVFIGMTEISTCEATVSEGQHVNRGDDLGMFHFGGSSFALGLRKDCRAEIVEKFTEPGTVIRINEVVAALKA
PcPsiH — MF000993 MIAVLFSFVIAGCIYYIVSRRVRRSRLPPGPPGIPIPFIGNMFDMPEESPWLTFLQWGRDYNTDILYVDAGGTEMVILNTLETITDLLEKRGSIYSGRLESTMVNELMGWEFDLGFITYGDRWREERRMFAKEFSEKGIKQFRHAQVKAAHQLVQQLTKTPDRWAQHIRHQIAAMSLDIGYGIDLAEDDPWLEATHLANEGLAIASVPGKFWVDSFPSLKYLPAWFPGAVFKRKAKVWREAADHMVDMPYETMRKLAPQGLTRPSYASARLQAMDLNGDLEHQEHVIKNTAAEVNVGGGDTTVSAMSAFILAMVKYPEVQRKVQAELDALTNNGQIPDYDEEDDSLPYLTACIKELFRWNQIAPLAIPHKLMKDDVYRGYLIPKNTLVFANTWAVLNDPEVYPDPSVFRPERYLGPDGKPDNTVRDPRKAAFGYGRRNCPGIHLAQSTVWIAGATLLSAFNIERPVDQNGKPIDIPADFTTGFFRHPVPFQCRFVPRTEQVSQSVSGP
PcPsiK — KY984099 MAFDLKTEDGLITYLTKHLSLDVDTSGVKRLSGGFVNVTWRIKLNAPYQGHTSIILKHAQPHMSTDEDFKIGVERSVYEYQAIKLMMANREVLGGVDGIVSVPEGLNYDLENNALIMQDVGKMKTLLDYVTAKPPLATDIARLVGTEIGGFVARLHNIGRERRDDPEFKFFSGNIVGRTTSDQLYQTIIPNAAKYGVDDPLLPTVVKDLVDDVMHSEETLVMADLWSGNILLQLEEGNPSKLQKIYILDWELCKYGPASLDLGYFLGDCYLISRFQDEQVGTTMRQAYLQSYARTSKHSINYAKVTAGIAAHIVMWTDFMQWGSEEERINFVKKGVAAFHDARGNNDNGEITSTLLKESSTA
PcPsiM — KY984100 MHIRNPYRTPIDYQALSEAFPPLKPFVSVNADGTSSVDLTIPEAQRAFTAALLHRDFGLTMTIPEDRLCPTVPNRLNYVLWIEDIFNYTNKTLGLSDDRPIKGVDIGTGASAIYPMLACARFKAWSMVGTEVERKCIDTARLNVVANNLQDRLSILETSIDGPILVPIFEATEEYEYEFTMCNPPFYDGAADMQTSDAAKGFGFGVGAPHSGTVIEMSTEGGESAFVAQMVRESLKLRTRCRWYTSNLGKLKSLKEIVGLLKELEISNYAINEYVQGSTRRYAVAWSFTDIQLPEELSRPSNPELSSLF

Okay, we have a bunch of protein sequences! Woohoo! Now I have to translate them, and in doing so, codon optimize them for S. cerevisiae. The Milne paper uses JCat's codon optimization tool:

"Heterologous genes were codon-optimized for expression in S. cerevisiae using the JCat algorithm (Grote et al., 2005)"

I really like the JCat logo. JCat has a clear four step process: 1) Paste the protein sequence, 2) Specify it as a "Protein Sequence", 3) Select Saccharomyces cerevisiae, and 4) Consider Additional Options. Most of these additional options look irrelevant to me. However, I don't know if I should avoid any restriction enzyme sites other than Not1 (which is used for genomic integration later) and I don't really understand JCat's UI for selecting Not1, so I choose not to avoid any of those.

The output DNA sequence has a bunch of numbers formatted into it, you can use this wonderful tool to eliminate those.

DNA Sequences for PcPsiD, PcPsiH, PcPsiK, PcPsiM, codon optimized for S. cerevisiae

PcPsiD —ATGCAAGTTATCCCAGCTTGTAACTCTGCTGCTATCAGATCTTTGTGTCCAACTCCAGAATCTTTCAGAAACATGGGTTGGTTGTCTGTTTCTGACGCTGTTTACTCTGAATTCATCGGTGAATTGGCTACTAGAGCTTCTAACAGAAACTACTCTAACGAATTCGGTTTGATGCAACCAATCCAAGAATTCAAGGCTTTCATCGAATCTGACCCAGTTGTTCACCAAGAATTCATCGACATGTTCGAAGGTATCCAAGACTCTCCAAGAAACTACCAAGAATTGTGTAACATGTTCAACGACATCTTCAGAAAGGCTCCAGTTTACGGTGACTTGGGTCCACCAGTTTACATGATCATGGCTAAGTTGATGAACACTAGAGCTGGTTTCTCTGCTTTCACTAGACAAAGATTGAACTTGCACTTCAAGAAGTTGTTCGACACTTGGGGTTTGTTCTTGTCTTCTAAGGACTCTAGAAACGTTTTGGTTGCTGACCAATTCGACGACAGACACTGTGGTTGGTTGAACGAAAGAGCTTTGTCTGCTATGGTTAAGCACTACAACGGTAGAGCTTTCGACGAAGTTTTCTTGTGTGACAAGAACGCTCCATACTACGGTTTCAACTCTTACGACGACTTCTTCAACAGAAGATTCAGAAACAGAGACATCGACAGACCAGTTGTTGGTGGTGTTAACAACACTACTTTGATCTCTGCTGCTTGTGAATCTTTGTCTTACAACGTTTCTTACGACGTTCAATCTTTGGACACTTTGGTTTTCAAGGGTGAAACTTACTCTTTGAAGCACTTGTTGAACAACGACCCATTCACTCCACAATTCGAACACGGTTCTATCTTGCAAGGTTTCTTGAACGTTACTGCTTACCACAGATGGCACGCTCCAGTTAACGGTACTATCGTTAAGATCATCAACGTTCCAGGTACTTACTTCGCTCAAGCTCCATCTACTATCGGTGACCCAATCCCAGACAACGACTACGACCCACCACCATACTTGAAGTCTTTGGTTTACTTCTCTAACATCGCTGCTAGACAAATCATGTTCATCGAAGCTGACAACAAGGAAATCGGTTTGATCTTCTTGGTTTTCATCGGTATGACTGAAATCTCTACTTGTGAAGCTACTGTTTCTGAAGGTCAACACGTTAACAGAGGTGACGACTTGGGTATGTTCCACTTCGGTGGTTCTTCTTTCGCTTTGGGTTTGAGAAAGGACTGTAGAGCTGAAATCGTTGAAAAGTTCACTGAACCAGGTACTGTTATCAGAATCAACGAAGTTGTTGCTGCTTTGAAGGCT

PcPsiH — ATGATCGCTGTTTTGTTCTCTTTCGTTATCGCTGGTTGTATCTACTACATCGTTTCTAGAAGAGTTAGAAGATCTAGATTGCCACCAGGTCCACCAGGTATCCCAATCCCATTCATCGGTAACATGTTCGACATGCCAGAAGAATCTCCATGGTTGACTTTCTTGCAATGGGGTAGAGACTACAACACTGACATCTTGTACGTTGACGCTGGTGGTACTGAAATGGTTATCTTGAACACTTTGGAAACTATCACTGACTTGTTGGAAAAGAGAGGTTCTATCTACTCTGGTAGATTGGAATCTACTATGGTTAACGAATTGATGGGTTGGGAATTCGACTTGGGTTTCATCACTTACGGTGACAGATGGAGAGAAGAAAGAAGAATGTTCGCTAAGGAATTCTCTGAAAAGGGTATCAAGCAATTCAGACACGCTCAAGTTAAGGCTGCTCACCAATTGGTTCAACAATTGACTAAGACTCCAGACAGATGGGCTCAACACATCAGACACCAAATCGCTGCTATGTCTTTGGACATCGGTTACGGTATCGACTTGGCTGAAGACGACCCATGGTTGGAAGCTACTCACTTGGCTAACGAAGGTTTGGCTATCGCTTCTGTTCCAGGTAAGTTCTGGGTTGACTCTTTCCCATCTTTGAAGTACTTGCCAGCTTGGTTCCCAGGTGCTGTTTTCAAGAGAAAGGCTAAGGTTTGGAGAGAAGCTGCTGACCACATGGTTGACATGCCATACGAAACTATGAGAAAGTTGGCTCCACAAGGTTTGACTAGACCATCTTACGCTTCTGCTAGATTGCAAGCTATGGACTTGAACGGTGACTTGGAACACCAAGAACACGTTATCAAGAACACTGCTGCTGAAGTTAACGTTGGTGGTGGTGACACTACTGTTTCTGCTATGTCTGCTTTCATCTTGGCTATGGTTAAGTACCCAGAAGTTCAAAGAAAGGTTCAAGCTGAATTGGACGCTTTGACTAACAACGGTCAAATCCCAGACTACGACGAAGAAGACGACTCTTTGCCATACTTGACTGCTTGTATCAAGGAATTGTTCAGATGGAACCAAATCGCTCCATTGGCTATCCCACACAAGTTGATGAAGGACGACGTTTACAGAGGTTACTTGATCCCAAAGAACACTTTGGTTTTCGCTAACACTTGGGCTGTTTTGAACGACCCAGAAGTTTACCCAGACCCATCTGTTTTCAGACCAGAAAGATACTTGGGTCCAGACGGTAAGCCAGACAACACTGTTAGAGACCCAAGAAAGGCTGCTTTCGGTTACGGTAGAAGAAACTGTCCAGGTATCCACTTGGCTCAATCTACTGTTTGGATCGCTGGTGCTACTTTGTTGTCTGCTTTCAACATCGAAAGACCAGTTGACCAAAACGGTAAGCCAATCGACATCCCAGCTGACTTCACTACTGGTTTCTTCAGACACCCAGTTCCATTCCAATGTAGATTCGTTCCAAGAACTGAACAAGTTTCTCAATCTGTTTCTGGTCCA

PcPsiK — ATGGCTTTCGACTTGAAGACTGAAGACGGTTTGATCACTTACTTGACTAAGCACTTGTCTTTGGACGTTGACACTTCTGGTGTTAAGAGATTGTCTGGTGGTTTCGTTAACGTTACTTGGAGAATCAAGTTGAACGCTCCATACCAAGGTCACACTTCTATCATCTTGAAGCACGCTCAACCACACATGTCTACTGACGAAGACTTCAAGATCGGTGTTGAAAGATCTGTTTACGAATACCAAGCTATCAAGTTGATGATGGCTAACAGAGAAGTTTTGGGTGGTGTTGACGGTATCGTTTCTGTTCCAGAAGGTTTGAACTACGACTTGGAAAACAACGCTTTGATCATGCAAGACGTTGGTAAGATGAAGACTTTGTTGGACTACGTTACTGCTAAGCCACCATTGGCTACTGACATCGCTAGATTGGTTGGTACTGAAATCGGTGGTTTCGTTGCTAGATTGCACAACATCGGTAGAGAAAGAAGAGACGACCCAGAATTCAAGTTCTTCTCTGGTAACATCGTTGGTAGAACTACTTCTGACCAATTGTACCAAACTATCATCCCAAACGCTGCTAAGTACGGTGTTGACGACCCATTGTTGCCAACTGTTGTTAAGGACTTGGTTGACGACGTTATGCACTCTGAAGAAACTTTGGTTATGGCTGACTTGTGGTCTGGTAACATCTTGTTGCAATTGGAAGAAGGTAACCCATCTAAGTTGCAAAAGATCTACATCTTGGACTGGGAATTGTGTAAGTACGGTCCAGCTTCTTTGGACTTGGGTTACTTCTTGGGTGACTGTTACTTGATCTCTAGATTCCAAGACGAACAAGTTGGTACTACTATGAGACAAGCTTACTTGCAATCTTACGCTAGAACTTCTAAGCACTCTATCAACTACGCTAAGGTTACTGCTGGTATCGCTGCTCACATCGTTATGTGGACTGACTTCATGCAATGGGGTTCTGAAGAAGAAAGAATCAACTTCGTTAAGAAGGGTGTTGCTGCTTTCCACGACGCTAGAGGTAACAACGACAACGGTGAAATCACTTCTACTTTGTTGAAGGAATCTTCTACTGCT

PcPsiM — ATGCACATCAGAAACCCATACAGAACTCCAATCGACTACCAAGCTTTGTCTGAAGCTTTCCCACCATTGAAGCCATTCGTTTCTGTTAACGCTGACGGTACTTCTTCTGTTGACTTGACTATCCCAGAAGCTCAAAGAGCTTTCACTGCTGCTTTGTTGCACAGAGACTTCGGTTTGACTATGACTATCCCAGAAGACAGATTGTGTCCAACTGTTCCAAACAGATTGAACTACGTTTTGTGGATCGAAGACATCTTCAACTACACTAACAAGACTTTGGGTTTGTCTGACGACAGACCAATCAAGGGTGTTGACATCGGTACTGGTGCTTCTGCTATCTACCCAATGTTGGCTTGTGCTAGATTCAAGGCTTGGTCTATGGTTGGTACTGAAGTTGAAAGAAAGTGTATCGACACTGCTAGATTGAACGTTGTTGCTAACAACTTGCAAGACAGATTGTCTATCTTGGAAACTTCTATCGACGGTCCAATCTTGGTTCCAATCTTCGAAGCTACTGAAGAATACGAATACGAATTCACTATGTGTAACCCACCATTCTACGACGGTGCTGCTGACATGCAAACTTCTGACGCTGCTAAGGGTTTCGGTTTCGGTGTTGGTGCTCCACACTCTGGTACTGTTATCGAAATGTCTACTGAAGGTGGTGAATCTGCTTTCGTTGCTCAAATGGTTAGAGAATCTTTGAAGTTGAGAACTAGATGTAGATGGTACACTTCTAACTTGGGTAAGTTGAAGTCTTTGAAGGAAATCGTTGGTTTGTTGAAGGAATTGGAAATCTCTAACTACGCTATCAACGAATACGTTCAAGGTTCTACTAGAAGATACGCTGTTGCTTGGTCTTTCACTGACATCCAATTGCCAGAAGAATTGTCTAGACCATCTAACCCAGAATTGTCTTCTTTGTTC

I input these into SnapGene to check for Not1 restriction enzyme sites, and they look clear of those, I also checked the ORFs, and noticed there are no stop codons at the end of each gene. I will keep this in mind for later. Let's look at our list of needed sequences:

CrTdc
PcPsiH ✔️
PcCpr ✔️
PcPsiK ✔️
PcPsiM ✔️
PcPsiD ✔️

I just need to find one more, woohoo! The CrTDC sequence is not immediately obvious in the main text of Brown et al. 2015, from which Milne got the sequence, nor the supplementary. Eventually after several frantic Ctrl+F searches, I find an NCBI ascension number for (Cr)TDC in Table S1 of the supplementary info. NCBI is (a far as I can tell) synonymous with GenBank.

CrTdc — M25151

Protein Sequences for CrTDC

CrTdc M25151—MGSIDSTNVAMSNSPVGEFKPLEAEEFRKQAHRMVDFIADYYKNVETYPVLSEVEPGYLRKRIPETAPYLPEPLDDIMKDIQKDIIPGMTNWMSPNFYAFFPATVSSAAFLGEMLSTALNSVGFTWVSSPAATELEMIVMDWLAQILKLPKSFMFSGTGGGVIQNTTSESILCTIIAARERALEKLGPDSIGKLVCYGSDQTHTMFPKTCKLAGIYPNNIRLIPTTVETDFGISPQVLRKMVEDDVAAGYVPLFLCATLGTTSTTATDPVDSLSEIANEFGIWIHVDAAYAGSACICPEFRHYLDGIERVDSLSLSPHKWLLAYLDCTCLWVKQPHLLLRALTTNPEYLKNKQSDLDKVVDFKNWQIATGRKFRSLKLWLILRSYGVVNLQSHIRSDVAMGKMFEEWVRSDSRFEIVVPRNFSLVCFRLKPDVSSLHVEEVNKKLLDMLNSTGRVYMTHTIVGGIYMLRLAVGSSLTEEHHVRRVWDLIQKLTDDLLKEA

I don't know if this is codon optimized for S. cerevisiae or not (you could dig into the paper to find out), so I throw into JCat.

DNA Sequences for CrTDC, codon optimized for S. cerevisiae

CrTdc —ATGGGTTCTATCGACTCTACTAACGTTGCTATGTCTAACTCTCCAGTTGGTGAATTCAAGCCATTGGAAGCTGAAGAATTCAGAAAGCAAGCTCACAGAATGGTTGACTTCATCGCTGACTACTACAAGAACGTTGAAACTTACCCAGTTTTGTCTGAAGTTGAACCAGGTTACTTGAGAAAGAGAATCCCAGAAACTGCTCCATACTTGCCAGAACCATTGGACGACATCATGAAGGACATCCAAAAGGACATCATCCCAGGTATGACTAACTGGATGTCTCCAAACTTCTACGCTTTCTTCCCAGCTACTGTTTCTTCTGCTGCTTTCTTGGGTGAAATGTTGTCTACTGCTTTGAACTCTGTTGGTTTCACTTGGGTTTCTTCTCCAGCTGCTACTGAATTGGAAATGATCGTTATGGACTGGTTGGCTCAAATCTTGAAGTTGCCAAAGTCTTTCATGTTCTCTGGTACTGGTGGTGGTGTTATCCAAAACACTACTTCTGAATCTATCTTGTGTACTATCATCGCTGCTAGAGAAAGAGCTTTGGAAAAGTTGGGTCCAGACTCTATCGGTAAGTTGGTTTGTTACGGTTCTGACCAAACTCACACTATGTTCCCAAAGACTTGTAAGTTGGCTGGTATCTACCCAAACAACATCAGATTGATCCCAACTACTGTTGAAACTGACTTCGGTATCTCTCCACAAGTTTTGAGAAAGATGGTTGAAGACGACGTTGCTGCTGGTTACGTTCCATTGTTCTTGTGTGCTACTTTGGGTACTACTTCTACTACTGCTACTGACCCAGTTGACTCTTTGTCTGAAATCGCTAACGAATTCGGTATCTGGATCCACGTTGACGCTGCTTACGCTGGTTCTGCTTGTATCTGTCCAGAATTCAGACACTACTTGGACGGTATCGAAAGAGTTGACTCTTTGTCTTTGTCTCCACACAAGTGGTTGTTGGCTTACTTGGACTGTACTTGTTTGTGGGTTAAGCAACCACACTTGTTGTTGAGAGCTTTGACTACTAACCCAGAATACTTGAAGAACAAGCAATCTGACTTGGACAAGGTTGTTGACTTCAAGAACTGGCAAATCGCTACTGGTAGAAAGTTCAGATCTTTGAAGTTGTGGTTGATCTTGAGATCTTACGGTGTTGTTAACTTGCAATCTCACATCAGATCTGACGTTGCTATGGGTAAGATGTTCGAAGAATGGGTTAGATCTGACTCTAGATTCGAAATCGTTGTTCCAAGAAACTTCTCTTTGGTTTGTTTCAGATTGAAGCCAGACGTTTCTTCTTTGCACGTTGAAGAAGTTAACAAGAAGTTGTTGGACATGTTGAACTCTACTGGTAGAGTTTACATGACTCACACTATCGTTGGTGGTATCTACATGTTGAGATTGGCTGTTGGTTCTTCTTTGACTGAAGAACACCACGTTAGAAGAGTTTGGGACTTGATCCAAAAGTTGACTGACGACTTGTTGAAGGAAGCT

This would complete our list:

CrTdc ✔️
PcPsiH ✔️
PcCpr ✔️
PcPsiK ✔️
PcPsiM ✔️
PcPsiD ✔️

However, further down the line of thinking about these sequences, I decided to dive deep into the patent that the Milne group filed, to cross reference these sequences. This was an extremely annoying process, the patent documents are not-searchable PDFs (no ctrl+F!). After downloading Adobe Acrobat, I was able to convert the PDF to a Word file and then upload it as a Google Doc, you can look the, now searchable, patent — YEAST CELLS AND METHODS FOR PRODUCTION OF TRYPTOPHAN DERIVATIVES — here.

I'm frustrated, but not surprised, to see that none of the sequences were actually listed in the 272 pages of this patent doc, but on page 156, I did find a map of which SEQID numbers corresponded to which enzymes. Having participated in the patent writing process before, I know that the inventing scientists and patent lawyers are strongly incentivized to obfuscate information as much as possible in the patent writing process, this practice seems to be bleeding into paper writing practices as well.

After angrily clicking around the PatentScope page, I find a .txt document titled, "Sequence Listing" and feel like I've finally struck gold. I moved this to a Google Doc as well, and made a really nice table of contents for our benefit.

After cross checking the previously listed sequences, PcPsiH, PcPsiK, and PcPsiM are all the same, except that the patent adds a stop codon at the end, I'll update these sequences with that stop codon. PcCpr is also the same. PcPsiD is not in the patent as it is replaced by CrTdc. And finally the sequence for CrTdc from Brown et al, 2015, codon optimized with JCat, is not the same as the CrTdc in this patent. It is also not the same as the non-codon optimized sequence from NCBI. I don't know why is it different, but I am just gonna go with the patent's sequence.

We have our final list of sequences for Psilocybin's enzymatic pathway! Checked twice where possible:

CrTdc ✔️ ✔️
PcPsiH ✔️ ✔️
PcCpr ✔️ ✔️
PcPsiK ✔️ ✔️
PcPsiM ✔️ ✔️
PcPsiD ✔️

DNA Sequences for CrTdc, PcPsiH, PcCpr, PcPsiK, PcPsiM, PcPsiD, codon optimized for S. cerevisiae

CrTdc —atgggttctattgattctaccaacgtcgctatgtctaattctccagttggtgaatttaagccattggaagccgaagaatttagaaagcaagctcacagaatggttgatttcattgccgattactacaagaacgttgaaacctacccagttttgtctgaagttgaaccaggttacttgagaaagagaataccagaaactgctccatatttgccagaaccattggatgatattatgaaggacatccaaaaggacatcattccaggtatgactaattggatgtctccaaacttttacgctttcttccctgctactgtttcttctgctgcttttttgggtgaaatgttgtctactgctttgaactctgttggtttcacttgggtttcttcaccagctgctactgaattggaaatgatagttatggattggttggcccaaatcttgaagttgccaaagtcttttatgttctctggtactggtggtggtgttattcaaaacactacctccgaatctattttgtgcaccattattgctgctagagaaagagctttggaaaagttgggtccagattccattggtaaattggtttgttacggttctgatcaaacccataccatgtttccaaagacttgtaaattggctggtatctacccaaacaacatcagattgattccaaccactgttgaaaccgatttcggtatttctccacaagttttaagaaagatggtcgaagatgatgttgctgctggttatgttcctttgtttttgtgtgctactttgggtactacttctactactgctacagatccagttgactccttgtctgaaattgctaacgaatttggtatctggattcatgttgatgctgcttacgctggttctgcttgtatttgtcctgaatttagacactacttggacggtatcgaaagagtcgattctttgtctttgtctccacataagtggttgttggcttatttggattgcacttgtttgtgggttaagcaaccacatttgttgttgagagctttgactaccaatccagaatacttgaagaacaagcaatccgatttggataaggtcgttgactttaagaactggcaaattgctactggtagaaagttcagatccttgaaattgtggttgatcttgagatcctacggtgttgttaacttgcaatcccacattagatcagatgttgctatgggtaagatgtttgaagaatgggttagatccgactccagattcgaaatagttgttccaagaaacttctcattggtctgctttagattgaagccagatgtttcctcattgcacgttgaagaagtcaacaaaaagttgttggacatgttgaactctacaggtagagtctacatgactcatacaatagtcggtggtatctatatgttgagattggctgttggttcttcattgaccgaagaacatcatgttagaagagtttgggacttgatccaaaagttgaccgatgacttgttgaaagaagcctga

PcPsiH — atgatcgctgttttgttctctttcgttatcgctggttgtatctactacatcgtttctagaagagttagaagatctagattgccaccaggtccaccaggtatcccaatcccattcatcggtaacatgttcgacatgccagaagaatctccatggttgactttcttgcaatggggtagagactacaacactgacatcttgtacgttgacgctggtggtactgaaatggttatcttgaacactttggaaactatcactgacttgttggaaaagagaggttctatctactctggtagattggaatctactatggttaacgaattgatgggttgggaattcgacttgggtttcatcacttacggtgacagatggagagaagaaagaagaatgttcgctaaggaattctctgaaaagggtatcaagcaattcagacacgctcaagttaaggctgctcaccaattggttcaacaattgactaagactccagacagatgggctcaacacatcagacaccaaatcgctgctatgtctttggacatcggttacggtatcgacttggctgaagacgacccatggttggaagctactcacttggctaacgaaggtttggctatcgcttctgttccaggtaagttctgggttgactctttcccatctttgaagtacttgccagcttggttcccaggtgctgttttcaagagaaaggctaaggtttggagagaagctgctgaccacatggttgacatgccatacgaaactatgagaaagttggctccacaaggtttgactagaccatcttacgcttctgctagattgcaagctatggacttgaacggtgacttggaacaccaagaacacgttatcaagaacactgctgctgaagttaacgttggtggtggtgacactactgtttctgctatgtctgctttcatcttggctatggttaagtacccagaagttcaaagaaaggttcaagctgaattggacgctttgactaacaacggtcaaatcccagactacgacgaagaagacgactctttgccatacttgactgcttgtatcaaggaattgttcagatggaaccaaatcgctccattggctatcccacacaagttgatgaaggacgacgtttacagaggttacttgatcccaaagaacactttggttttcgctaacacttgggctgttttgaacgacccagaagtttacccagacccatctgttttcagaccagaaagatacttgggtccagacggtaagccagacaacactgttagagacccaagaaaggctgctttcggttacggtagaagaaactgtccaggtatccacttggctcaatctactgtttggatcgctggtgctactttgttgtctgctttcaacatcgaaagaccagttgaccaaaacggtaagccaatcgacatcccagctgacttcactactggtttcttcagacacccagttccattccaatgtagattcgttccaagaactgaacaagtttctcaatctgtttctggtccataa

PcCpr — atggcttcttcttcttctgacgttttcgttttgggtttgggtgttgttttggctgctttgtacatcttcagagaccaattgttcgctgcttctaagccaaaggttgctccagtttctactactaagccagctaacggttctgctaacccaagagacttcatcgctaagatgaagcaaggtaagaagagaatcgttatcttctacggttctcaaactggtactgctgaagaatacgctatcagattggctaaggaagctaagcaaaagttcggtttggcttctttggtttgtgacccagaagaatacgacttcgaaaagttggaccaattgccagaagactctatcgctttcttcgttgttgctacttacggtgaaggtgaaccaactgacaacgctgttcaattgttgcaaaacttgcaagacgaatctttcgaattctcttctggtgaaagaaagttgtctggtttgaagtacgttgttttcggtttgggtaacaagacttacgaacactacaacttgatcggtagaactgttgacgctcaattggctaagatgggtgctatcagaatcggtgaaagaggtgaaggtgacgacgacaagtctatggaagaagactacttggaatggaaggacggtatgtgggaagctttcgctactgctatgggtgttgaagaaggtcaaggtggtgactctgctgacttcgttgtttctgaattggaatctcacccaccagaaaaggtttaccaaggtgaattctctgctagagctttgactaagactaagggtatccacgacgctaagaacccattcgctgctccaatcgctgttgctagagaattgttccaatctgttgttgacagaaactgtgttcacgttgaattcaacatcgaaggttctggtatcacttaccaacacggtgaccacgttggtttgtggccattgaacccagacgttgaagttgaaagattgttgtgtgttttgggtttggctgaaaagagagacgctgttatctctatcgaatctttggacccagctttggctaaggttccattcccagttccaactacttacggtgctgttttgagacactacatcgacatctctgctgttgctggtagacaaatcttgggtactttgtctaagttcgctccaactccagaagctgaagctttcttgagaaacttgaacactaacaaggaagaataccacaacgttgttgctaacggttgtttgaagttgggtgaaatcttgcaaatcgctactggtaacgacatcactgttccaccaactactgctaacactactaagtggccaatcccattcgacatcatcgtttctgctatcccaagattgcaaccaagatactactctatctcttcttctccaaagatccacccaaacactatccacgctactgttgttgttttgaagtacgaaaacgttccaactgaaccaatcccaagaaagtgggtttacggtgttggttctaacttcttgttgaacttgaagtacgctgttaacaaggaaccagttccatacatcactcaaaacggtgaacaaagagttggtgttccagaatacttgatcgctggtccaagaggttcttacaagactgaatctttctacaaggctccaatccacgttagaagatctactttcagattgccaactaacccaaagtctccagttatcatgatcggtccaggtactggtgttgctccattcagaggtttcgttcaagaaagagttgctttggctagaagatctatcgaaaagaacggtccagactctttggctgactggggtagaatctctttgttctacggttgtagaagatctgacgaagacttcttgtacaaggacgaatggccacaatacgaagctgaattgaagggtaagttcaagttgcactgtgctttctctagacaaaactacaagccagacggttctaagatctacgttcaagacttgatctgggaagacagagaacacatcgctgacgctatcttgaacggtaagggttacgtttacatctgtggtgaagctaagtctatgtctaagcaagttgaagaagttttggctaagatcttgggtgaagctaagggtggttctggtccagttgaaggtgttgctgaagttaagttgttgaaggaaagatctagattgatgttggacgtttggtcttaa

PcPsiK — atggctttcgacttgaagactgaagacggtttgatcacttacttgactaagcacttgtctttggacgttgacacttctggtgttaagagattgtctggtggtttcgttaacgttacttggagaatcaagttgaacgctccataccaaggtcacacttctatcatcttgaagcacgctcaaccacacatgtctactgacgaagacttcaagatcggtgttgaaagatctgtttacgaataccaagctatcaagttgatgatggctaacagagaagttttgggtggtgttgacggtatcgtttctgttccagaaggtttgaactacgacttggaaaacaacgctttgatcatgcaagacgttggtaagatgaagactttgttggactacgttactgctaagccaccattggctactgacatcgctagattggttggtactgaaatcggtggtttcgttgctagattgcacaacatcggtagagaaagaagagacgacccagaattcaagttcttctctggtaacatcgttggtagaactacttctgaccaattgtaccaaactatcatcccaaacgctgctaagtacggtgttgacgacccattgttgccaactgttgttaaggacttggttgacgacgttatgcactctgaagaaactttggttatggctgacttgtggtctggtaacatcttgttgcaattggaagaaggtaacccatctaagttgcaaaagatctacatcttggactgggaattgtgtaagtacggtccagcttctttggacttgggttacttcttgggtgactgttacttgatctctagattccaagacgaacaagttggtactactatgagacaagcttacttgcaatcttacgctagaacttctaagcactctatcaactacgctaaggttactgctggtatcgctgctcacatcgttatgtggactgacttcatgcaatggggttctgaagaagaaagaatcaacttcgttaagaagggtgttgctgctttccacgacgctagaggtaacaacgacaacggtgaaatcacttctactttgttgaaggaatcttctactgcttaa

PcPsiM — atgcacatcagaaacccatacagaactccaatcgactaccaagctttgtctgaagctttcccaccattgaagccattcgtttctgttaacgctgacggtacttcttctgttgacttgactatcccagaagctcaaagagctttcactgctgctttgttgcacagagacttcggtttgactatgactatcccagaagacagattgtgtccaactgttccaaacagattgaactacgttttgtggatcgaagacatcttcaactacactaacaagactttgggtttgtctgacgacagaccaatcaagggtgttgacatcggtactggtgcttctgctatctacccaatgttggcttgtgctagattcaaggcttggtctatggttggtactgaagttgaaagaaagtgtatcgacactgctagattgaacgttgttgctaacaacttgcaagacagattgtctatcttggaaacttctatcgacggtccaatcttggttccaatcttcgaagctactgaagaatacgaatacgaattcactatgtgtaacccaccattctacgacggtgctgctgacatgcaaacttctgacgctgctaagggtttcggtttcggtgttggtgctccacactctggtactgttatcgaaatgtctactgaaggtggtgaatctgctttcgttgctcaaatggttagagaatctttgaagttgagaactagatgtagatggtacacttctaacttgggtaagttgaagtctttgaaggaaatcgttggtttgttgaaggaattggaaatctctaactacgctatcaacgaatacgttcaaggttctactagaagatacgctgttgcttggtctttcactgacatccaattgccagaagaattgtctagaccatctaacccagaattgtcttctttgttctaa

PcPsiD — ATGCAAGTTATCCCAGCTTGTAACTCTGCTGCTATCAGATCTTTGTGTCCAACTCCAGAATCTTTCAGAAACATGGGTTGGTTGTCTGTTTCTGACGCTGTTTACTCTGAATTCATCGGTGAATTGGCTACTAGAGCTTCTAACAGAAACTACTCTAACGAATTCGGTTTGATGCAACCAATCCAAGAATTCAAGGCTTTCATCGAATCTGACCCAGTTGTTCACCAAGAATTCATCGACATGTTCGAAGGTATCCAAGACTCTCCAAGAAACTACCAAGAATTGTGTAACATGTTCAACGACATCTTCAGAAAGGCTCCAGTTTACGGTGACTTGGGTCCACCAGTTTACATGATCATGGCTAAGTTGATGAACACTAGAGCTGGTTTCTCTGCTTTCACTAGACAAAGATTGAACTTGCACTTCAAGAAGTTGTTCGACACTTGGGGTTTGTTCTTGTCTTCTAAGGACTCTAGAAACGTTTTGGTTGCTGACCAATTCGACGACAGACACTGTGGTTGGTTGAACGAAAGAGCTTTGTCTGCTATGGTTAAGCACTACAACGGTAGAGCTTTCGACGAAGTTTTCTTGTGTGACAAGAACGCTCCATACTACGGTTTCAACTCTTACGACGACTTCTTCAACAGAAGATTCAGAAACAGAGACATCGACAGACCAGTTGTTGGTGGTGTTAACAACACTACTTTGATCTCTGCTGCTTGTGAATCTTTGTCTTACAACGTTTCTTACGACGTTCAATCTTTGGACACTTTGGTTTTCAAGGGTGAAACTTACTCTTTGAAGCACTTGTTGAACAACGACCCATTCACTCCACAATTCGAACACGGTTCTATCTTGCAAGGTTTCTTGAACGTTACTGCTTACCACAGATGGCACGCTCCAGTTAACGGTACTATCGTTAAGATCATCAACGTTCCAGGTACTTACTTCGCTCAAGCTCCATCTACTATCGGTGACCCAATCCCAGACAACGACTACGACCCACCACCATACTTGAAGTCTTTGGTTTACTTCTCTAACATCGCTGCTAGACAAATCATGTTCATCGAAGCTGACAACAAGGAAATCGGTTTGATCTTCTTGGTTTTCATCGGTATGACTGAAATCTCTACTTGTGAAGCTACTGTTTCTGAAGGTCAACACGTTAACAGAGGTGACGACTTGGGTATGTTCCACTTCGGTGGTTCTTCTTTCGCTTTGGGTTTGAGAAAGGACTGTAGAGCTGAAATCGTTGAAAAGTTCACTGAACCAGGTACTGTTATCAGAATCAACGAAGTTGTTGCTGCTTTGAAGGCT

Concluding Thoughts about Information Discoverability:

The Milne paper is open access and published under a Creative Commons license. The authors obviously had intent to be open, which is great. Yet, the information necessary for replication, or just continued work, is deeeeeeeeply buried. This is definitely not simply due to the association to (presumably taboo) psychedelia; the majority of molecular biology papers, that I have encountered, are like this. Key genetic elements are sometimes impossible to find. Entire papers are written about a set of promoters, and the sequence of said promoters are undiscoverable. Referring to databases like GenBank, and Addgene does go a long way, but I don't understand why publications can't simply include the exact sequence used in their study, in the main text. My best guess is that it can be difficult to format a long nucleotide sequence into a PDF, but why are we still defaulting to the limits of a PDF?!

Considering the incentives of scientists also sheds some light on this obfuscation of key information in publications:

"Scientists are incentivized to, and often do, withhold as much information as possible about their innovations in their publications to maintain a monopoly over future innovations." - Milan Cvitkovic ³

They "...have cited several systemic and technical blockers that prevent them from sharing their research data. The most common concern lies with the fear of losing intellectual ownership and suffering a lack of attribution for work. Why share the expensive data that I have painstakingly collected for others to publish before I can?" - Kinshuk Kashyap ⁴

and so, "...the only way in which a discovery in science can be attributed to the scientists — and hence become property of the scientist — is by publicly making the finding available... ‘making it yours by giving it away’ ” - How Economics Shapes Science, Paula Stephan ⁵

Scientists are incentivized to claim a research output rather than share it.

It is no coincidence the Milne paper was made available online March 26th, 2020, and the patent, with all the sequence information, was published March 25th, 2021. If the patent was published a day later, this paper could have been used as prior art against their own patent. The authors seemingly maximized the amount of time to publicly release the sequence information (or, maybe they are like me, and just hate paperwork and will always choose to procrastinate on doing it).

I've encountered other scientists that specifically delay publication of their paper to buy time for filing patents. I'd be curious to know if this is common.

Patents were intended to incentivize innovation and allow for cost recovery from the initial research investment. This makes a lot of sense, and I really want inventors to be rewarded for their work. I also don't want to be harsh on the brilliant and earnest scientists who did this work, I am appreciative and in admiration of their work. They executed impressive and novel feats of metabolic engineering, and they freely shared much of this knowledge. However, whether intentional or not, this paper makes for an epitomical example of how central pieces of information are made hidden in publishing practices. I would like for DNA sequences, and data, and information in general to be more discoverable.

If other scientists have better ways of finding nucleotide sequences from papers, and there is no need for this wild goose chase detailed above, please let me know.

List of Links

Metabolic engineering of Saccharomyces cerevisiae for the de novo production of psilocybin and related tryptamine derivatives, Milne et al. 2020

Supplementary Information for Milne et al. 2020

Enzymatic Synthesis of Psilocybin, Fricke et al. 2017

Supplementary Information for Fricke et al. 2017

JCat's codon optimization tool

De novo production of the plant-derived alkaloid strictosidine in yeast, Brown et al. 2015

Yeast Cells and Methods for Production of Tryptophan Derivatives Patent Scope, Borodina. 2021

Yeast Cells and Methods for Production of Tryptophan Derivatives Google Doc, Borodina. 2021

Sequence Listing for Patent Google Doc, Borodina. 2021