No hi ha tanta porqueria al “DNA brossa”: el projecte ENCODE

Encara que ja fa un parell de mesos (6 de setembre) que va sortir la notícia, ara m’he entretingut a mirar una mica més el projecte ENCODE (Encyclopedia Of DNA Elements). Tal com comentava la meva ex-alumna i amiga Andrea al blog de l’Associació de Biotecnòlegs de Catalunya en el seu article “Palabras y ADN”, fou una notícia força esbombada aquells dies als mitjans de comunicació, en el sentit que s’havia descobert que l’anomenat fins ara “DNA brossa” contenia molta informació útil i important, un tresor segons alguns mitjans. Bé doncs, anem a veure què és aquest tresor amagat, o més ben dit, quina és la rellevància d’aquest treball.

La paradoxa de la discordància entre nombre de gens i complexitat

Força abans de disposar dels genomes seqüenciats s’havia fet evident que la quantitat de DNA d’un organisme, i sobretot el nombre de gens, no es correspon amb la seva complexitat. Així, la quantitat de DNA del genoma d’un humà és aproximadament de 3.200 Mb (Mb o megabases, o sigui milions de parells de bases, ja sabeu, de les 4 possibles: A, T, G, C), i aquest DNA humà conté uns 23.000 gens, o sigui, les unitats que codifiquen per a alguna proteïna. Els altres mamífers tenen una quantitat semblant de DNA i de nombre de gens. En canvi, un cuc com Caenorhabditis (un nemàtode d`1 mm de llarg molt utilitzat als laboratoris com a animal model) té un DNA total de 100 Mb, però que conté informació per a 19.000 gens. O sigui, que el nostre nombre de gens és semblant al d’un ratolí, i només un 20% més gran que el d’un cuc. La comparació serviria igual respecte a insectes o plantes, i en alguns casos fins i tot tenen més gens que els humans, com la planta Arabidopsis amb uns 32.000 gens.

O sigui, està clar que la indubtable complexitat dels humans i els mamífers en general, respecte els invertebrats com els cucs, o respecte les plantes, no és deguda a la utilització d’un major nombre de gens. Cal entendre com el mateix nombre de gens és capaç de produir aquesta complexitat.

Aquests 23.000 gens dels humans que codifiquen per a proteïnes (transcrivint el DNA gènic a RNA missatger i traduint aquests a proteïnes als ribosomes) només suposen com a molt uns 150 Mb, o sigui, un 5% dels 3.000 Mb de DNA total. O sigui, que el 95% del genoma humà no codifica per a proteïnes. D’aquí va venir la suposició, ja des dels anys 1970, que tot aquest DNA aparentment no servia per a res, era “DNA brossa” (junk DNA).

De fet aquest terme de brossa ha estat utilitzat en sentit divulgatiu pels mitjans no especialitzats, ja que més correctament els científics sempre l’han anomenat DNA de funció desconeguda o DNA no-codificant, perquè està clar que alguna funció ha de tenir, i més tenint en compte aquesta complexitat dels organismes que tenen més DNA. Les seqüències de DNA no-codificant ja fa temps que se sap que són de diversos tipus, simplificant:

  • RNAs no codificants (que no es tradueixen a proteïnes), com els ribosomals, de transferència, microRNA i altres.
  • Elements reguladors que controlen la transcripció dels gens a RNA.
  • Introns, seccions no codificants internes del gen que són eliminats del RNA missatger.
  • Pseudogens, seqüències relacionades amb gens coneguts que han perdut evolutivament la seva funció.
  • Elements gènics mòbils, els transposons i retrotransposons, dels quals n’hi ha múltiples còpies per tot el genoma. Alguns dels retrotransposons estan relacionats amb elements virals.
  • Telòmers, les regions de DNA repetitiu a les regions finals dels cromosomes, que eviten el deteriorament d’aquests durant la replicació del DNA.

Com veiem, part d’aquest DNA no-codificant ja se sap que té una funció, però per a una gran part encara no està clar el seu paper.

Després del projecte del genoma humà, el projecte ENCODE

Com recordareu, el 2001 fou publicat a Nature (15 feb 2001) el primer esborrany del genoma humà per part del Consorci Internacional, i el 2003 en fou publicat el genoma complet. Aquest codifica el disseny bàsic, però la funció de la majoria dels 3.000 milions de bases segueix sent desconeguda. Un cop feta aquesta tasca del genoma, ja era evident que caldria també adquirir un coneixement enciclopèdic sobre l’organització de la cromatina (Figura 1), o sigui, el DNA enrotllat i replegat juntament amb proteïnes, les histones sobretot, per entendre com funciona i es regula l’expressió dels gens.

Amb aquest objectiu, que va lligat al mateix temps a entendre quines funcions té tot el DNA que no codifica per a proteïnes, va néixer el projecte ENCODE.

 Més enllà de la seqüènciaFigura 1. Més enllà de la seqüència (Ecker at al. 2012)

 

Així doncs, el projecte ENCODE té com a objectiu final aconseguir descriure com la informació dels gens humans es regula i s’expressa en elements funcionals, per tal d’orquestrar el desenvolupament i funcions d’un ser humà. Així, aquest projecte serà una eina poderosa més per lluitar millor contra les malalties.

En concret, el projecte conté dades del grau de metilació del DNA i de modificacions químiques de les histones que poden influir en la taxa de transcripció del DNA a molècules de RNA. També s’hi estudien les interaccions de gran abast de la cromatina, com els bucles, que alteren les proximitats relatives de diferents regions cromosòmiques en 3 dimensions i també afecten la transcripció..A més a més, el projecte descriu l’activitat d’unió al DNA dels factors de transcripció i la localització i seqüència dels elements de DNA reguladors gènics, que inclou les regions promotores properes als gens, però també elements reguladors més distants.

Una altra secció del projecte està dedicada a comprovar l’accessibilitat del genoma a l’acció de les proteïnes DNAsa I. Aquestes regions, anomenades llocs hipersensibles a DNAsa I, serveixen per indicar les seqüències específiques on la unió de factors de transcripció i altres proteïnes reguladores han causat desplaçaments dels nucleosomes (les “perles” d’histones al voltant dels quals està enrotllat el DNA). El projecte ENCODE també cataloga les seqüències i quantitats dels RNA transcrits, tant de les regions codificants com de les no-codificants.

logo EncodeFigura 2. Logo del projecte ENCODE

El consorci del projecte ENCODE

ENCODE és l’acrònim de ENCyclopedia Of DNA Elements, i el consorci públic de recerca que hi treballa fou impulsat pel National Human Genome Research Institute (NHGRI), depenent del NIH dels USA. El NHGRI fou el que impulsà el projecte del Genoma Humà. El projecte començà amb un Projecte Pilot el 2003, i vistos els bons resultats d’aquest gràcies sobretot al desenvolupament de noves tecnologies (per ex. piroseqüenciació) que generen una gran quantitat de dades dels elements funcionals, el 2007 s’augmentà l’escala del projecte ENCODE mitjançant nous finançaments del NHGRI. La inversió total es calcula en uns 185 milions de US$.

En el projecte ha tingut un paper clau la col·laboració entre diferents grups de recerca i la seva coordinació. Hi han participat 32 instituts de recerca de tot el món, si bé la majoria dels USA, amb alguns grups britànics, xinesos, alemanys i dos grups espanyols: el del Dr Roderic Guigó del Centre de Regulació Genòmica de Barcelona, i el Centre Nacional d’Investigació Oncològica de Madrid. Un total de 442 investigadors de tots aquests centres han realitzat un total de 1649 experiments, força d’ells de caràcter bioinformàtic, i durant 5 anys de feina (2007-2012) s’han acumulat 15000 GBytes d’informació en 12000 fitxers analitzats. L’anàlisi de les dades ha estat coordinat pel European Bioinformatics Institute del European Molecular Biology Laboratory, a Hinxton, Regne Unit.

Tots els resultats, un cop analitzats, han estat publicats en les bases de dades d’accès lliure a internet. Les publicacions principals del consorci han estat 30, de les quals 6 articles a Nature (6 septembre 2012), més 18 a Genome Research i 6 a Genome Biology, a banda de moltes altres més específiques (unes 80 fins ara) publicades per altres grups treballant amb les dades obtingudes al projecte.

Nature Encode coverFigure 3. Portada de la revista Nature amb l’anunci del projecte ENCODE, 6 setembre 2012

Mètodes utilitzats a l’ENCODE

El consorci ENCODE ha estudiat les dades corresponents a 1640 genomes, i per a 147 línies cel·lulars diferents. Des del 2007 els mètodes desenvolupats han permès realitzar un nombre ingent d’estudis de seqüenciació per mapejar elements funcionals d’una part del genoma humà, entenent com element funcional a qualsevol fragment genòmic que codifica un producte definit (per ex. una proteïna o un RNA no codificant) o té un paper reproduïble (per ex. la unió d’una proteïna o una estructura específica de la cromatina).

Els elements mapejats i els mètodes corresponents inclouen:

-Regions que transcriuen RNA, que es detecten per diferents tècniques: RNA-seq (o sigui seqüenciació d’alt rendiment dels cDNA obtinguts de RNA total), CAGE (Cap Analysis Gene Expression, o sigui l’anàlisi de les puntes 5’ dels RNAm transcrits mitjançant seqüenciació dels seus cDNA), RNA-PET (Paired-End-Tag, o sigui un mètode de seqüenciació per als mRNA transcrits sencers, ja que captura les dues puntes 5’ i 3’ i aconsegueix els millors resultats d’anotació de gens), i anotació manual de les seqüències.

-Regions que codifiquen proteïnes, detectades per espectrometria de mases.

-Llocs d’unió de factors de transcripció, detectats per ChIP-seq (que combina immunoprecipitació de cromatina, ChIP, amb la seqüenciació massiva en paral·lel de DNA, per identificar els llocs d’unió de les proteïnes associades al DNA), i per DNAsa-seq (que seqüencia les regions susceptibles de ser tallades per DNAses.

-Estructura de la cromatina, analitzada per DNAsa-seq, FAIRE-seq (Formaldehyde-Assisted Isolation of Regulatorry Elements, mètode més sensible que la DNAsa-seq, sobretot per detectar elements reguladors distals), ChIP-seq de les histones, i MNasa-seq (seqüenciació d’àcids nucleics d’una sola cadena tallats amb MNasa, una nucleasa micrococal de Staphylococcus).

-Llocs de metilació del DNA, amb l’assaig RRBS (Reduced Representation Bisulphite Sequencing), que els detecta pel tractament amb bisulfit que converteix les citosines no metilades en uracil.

-Interaccions entre elements genètics. El superenrrotllament del DNA a la cromatina i l’empaquetament dels diversos cromosomes dins del nucli fan que hi hagi interaccions entre diversos elements genètics que influeixen en l’expressió. Per detectar-les s’utilitza el mètode 5C (Chromosome Conformation Capture Carbon Copy), que combina l’entrecreuament d’elements genètics, sintetitzant una biblioteca de fragments de DNA que interactuen, i identificant-los seqüenciació d’alt rendiment.

Finalment, per comparar i integrar els resultats dels diferents laboratoris, en la producció de dades es prioritzaren dos conjunts de línies cel·lulars, anomenats nivells (tier) 1 i 2. Les de nivell 1 d’alta prioritat eren línies molt estudiades: d’eritroleucèmia, cèl·lules mare embrionàries H1, i els B-limfoblastoids. Aquesta darrera també és una de les línies cel·lulars que forma part del projecte 1000 Genomes, que tot just ara se n’han publicat els resultats al Nature. Les línies cel·lulars del nivell (tier) 2 inclouen les del carcinoma cervical HeLa-S3, unes d’hepatoblastoma, i cèl·lules d’endoteli venós umbilical. Per tal de tenir un ample espectre de diversitat biològica del cos humà, els assajos també foren realitzats en la resta de línies cel·lulars fins a 147, agrupades en un nivell 3.

mètodes EncodeFigura 4. Esquema de diverses metodologies utilitzades al projecte ENCODE. Crèdits: Darryl Leja (NHGRI, Bethesda, MD, USA), Ian Dunham (European Bioinformatics Institute, Cambridge).

Manual del genomaFigura 5. Esquema global de les metodologies del projecte ENCODE (Maher, 2012), definit aquí com el “Manual del Genoma”.

Resultats principals

El mapejat sistemàtic al DNA humà de regions transcrites, de llocs d’unió de factors de transcripció, de l’estructura de la cromatina i de les modificacions de les histones dut a terme pel projecte ENCODE han permés assignar funcions bioquímiques a un 80% del genoma, i particularment a fora de les regions codificants per a proteïnes, acabant de descartar la visió que el genoma humà era sobretot DNA brossa. Es demostra que els espais entre els gens estan plens d’elements reguladors i nombroses regions que codifiquen RNAs que no es tradueixen en proteïnes però poden tenir funcions de regulació. Han trobat 400.000 reguladors de gens que augmenten o inhibeixen la seva expressió i 70.000 reguladors que activen altres gens. Tot plegat aporta noves perspectives als mecanismes de regulació gènica.

Els elements nous identificats també mostren una correspondència estadística amb seqüències variants lligades a malalties humanes, i per tant poden facilitar la interpretació d’aquestes variants. En fer estudis de les variants de seqüències genètiques associades amb algunes malalties en diferents individus (estudis GWAS, Genome-Wide Association Study), s’ha vist que els SNPs (single nucleotide polymorphisms, polimorfismes d’un sol nucleòtid) associats amb malalties són majoritaris als elements no codificants per a proteïnes. En molts casos, els fenotips de la malaltia poden ser associats amb un tipus cel·lular específic o un factor de transcripció.

En conjunt, el projecte aporta noves perspectives en l’organització i regulació dels nostres gens i genoma, i és un recurs expansiu d’anotacions funcionals per a la recerca biomèdica. Tanmateix, tot això només és el començament, tal com veiem a la Figura 5, ja que queden molts altres tipus cel·lulars per analitzar, a banda de desxifrar totes les interaccions trobades i desvetllar-ne el seu significat. El principal valor dels recursos del ENCODE no són les publicacions ara presentades, sinó la utilització de les dades per molts científics en els propers temps.

proteïna - DNA

Figura 6. Una proteïna acoblada al DNA (foto de Tom Ellenberger, Washington University School of Medicine in St. Louis, USA).

Bibliografia

PUBLICACIONS DEL ENCODE al Nature, 6 sept. 2012:

  • Explicació del projecte ENCODE: Ecker, J.R., Wendy A. Bickmore, Inês Barroso, Jonathan K. Pritchard, Yoav Gilad, Eran Segal (2012) Genomics: ENCODE explained. Nature 489, 52–55 (06 September 2012)
  • Nature Encode explorer: els 13 fils conductors, els principals temes, lligats als articles
  • Presentació del ENCODE: Skipper, M., R. Dhand, P. Campbell (2012) Presenting ENCODE. Nature 489, 45 (6 september 2012)
  • News Feature al Nature: Maher, B. (2012) ENCODE: The human encyclopaedia. Nature, News Feature 489, 46–48 (06 September 2012)
  • Nature, News & Views: Bickmore, W.A. (2012) 11 years ago: The draft human genome. Nature, News & Views, 489, 54 (06 september 2012)
  • La publicació “d’entrada” a Nature: The ENCODE Project Consortium (2012) An integrated encyclopedia of DNA elements in the human genome. Nature 489, 57-74 (06 september 2012).

VIDEO EXPLICANT EL PROJECTE ENCODE:

WEBS DE TREBALL DEL PROJECTE ENCODE:

ALTRES PROJECTES RELACIONATS:

I LA WIKIPEDIA:

Anuncis

About Albert Bordons

Professor at "Universitat Rovira i Virgili" in Tarragona. Born in Barcelona 1951. Scientific areas: microbiology, biochemistry, biotechnology, oenology. I like: nature, biological sciences, photography, mountains, ... Languages: catalan (first one), spanish, french, english and some italian.

Posted on 11 Novembre 2012, in Genètica i biologia molecular and tagged , , , . Bookmark the permalink. 1 comentari.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s

No sé ni cómo te atreves

Fotografía y esas pequeñas cosas de cada día

Pols d'estels

El bloc d'Enric Marco

Life Secrets

For my students

All you need is Biology

Blog professional sobre Biologia · Blog profesional sobre Biología · A professional blog about Biology

Rambles of a PA student

Caffeinated forays into biological imaginings.

Horitzons llunyans

Mirades distants

#4wine

Los vinos son pequeñas historias dentro de una botella y nosotras queremos contarte las nuestras

Vi·moments·persones

Un maridatge a tres bandes

SciLogs: Artificial, naturalmente

Coses interessants de ciències de la vida i de la natura, i altres no tan "Bios"

microBIO

Coses interessants de ciències de la vida i de la natura, i altres no tan "Bios"

RealClimate

Coses interessants de ciències de la vida i de la natura, i altres no tan "Bios"

Quèquicom

Coses interessants de ciències de la vida i de la natura, i altres no tan "Bios"

Dionís de viatge a Ítaca

Experiències enoturístiques

%d bloggers like this: