Il genoma bicolore del sorgo e la diversificazione delle erbe | natura

Il genoma bicolore del sorgo e la diversificazione delle erbe | natura

Anonim

Astratto

Il sorgo, un'erba africana legata alla canna da zucchero e al mais, viene coltivato per alimenti, mangimi, fibre e carburante. Presentiamo un'analisi iniziale del genoma di Sorghum bicolor (L.) da 730 megabase, collocando ∼ il 98% dei geni nel loro contesto cromosomico usando una sequenza di fucili a tutto genoma validata da informazioni genetiche, fisiche e sintetiche. La ricombinazione genetica è in gran parte limitata a circa un terzo del genoma del sorgo con ordine genetico e densità simili a quelli del riso. L'accumulo di retrotrasposone nell'eterocromatina recombinazionalmente recalcitrante spiega la dimensione del genoma sorg 75% maggiore del sorgo rispetto al riso. Sebbene le distribuzioni di DNA genetico e ripetitivo siano state preservate dalla paleopoploidizzazione ∼ 70 milioni di anni fa, la maggior parte dei gruppi di geni duplicati perse un membro prima della divergenza di sorgo-riso. L'evoluzione concertata fa sembrare che un segmento cromosomico duplicato abbia solo pochi milioni di anni. Circa il 24% dei geni è specifico dell'erba e il 7% è specifico del sorgo. Recenti duplicazioni di geni e microRNA possono contribuire alla tolleranza alla siccità del sorgo.

Principale

Le piante di Saccharinae includono alcuni degli accumulatori di biomassa più efficienti, che forniscono cibo e carburante da amido (sorgo) e zucchero (sorgo e saccharum , canna da zucchero) e possono essere utilizzate come colture di biocarburanti cellulosici (sorgo, canna da zucchero, Miscanthus ). Di singolare importanza per la produttività di Saccharinae è la fotosintesi C 4, che comprende specializzazioni biochimiche e morfologiche che aumentano l'assimilazione netta di carbonio alle alte temperature 1 . Nonostante la loro comune strategia fotosintetica, le Saccharinae mostrano molte variazioni morfologiche e genomiche (Figura 1 complementare).

Il suo piccolo genoma (∼ 730 Mb) rende il sorgo un modello attraente per la genomica funzionale delle saccarine e di altre erbe C 4 . Il riso, il primo genoma di cereali completamente sequenziato, è più rappresentativo delle erbe fotosintetiche C 3 . La tolleranza alla siccità rende il sorgo particolarmente importante nelle regioni aride come l'Africa nord-orientale (il suo centro di diversità) e le pianure meridionali degli Stati Uniti. La variazione genetica nella suddivisione del carbonio in depositi di zucchero rispetto alla massa della parete cellulare e nella perennità e le caratteristiche associate come la conservazione e la conservazione della riserva di gambo 2, rendono il sorgo un sistema attraente per lo studio di tratti importanti nelle colture perenni di biomassa cellulosica. Il suo alto livello di consanguineità lo rende un attraente sistema genetico associativo 3 . Gli approcci transgenici al miglioramento del sorgo sono limitati dall'elevato flusso genico verso i parenti infestanti 4, rendendo ancora più importante la conoscenza del suo potenziale genetico intrinseco.

Ricostruzione di un genoma ricco di ripetizioni dalle sequenze di fucili a pompa

Approcci preferiti al sequenziamento di interi genomi sono attualmente di applicare il sequenziamento del fucile da caccia 5 su un "percorso di piastrellatura" minimo dei cloni genomici o direttamente sul DNA genomico. Quest'ultimo approccio, il sequenziamento del fucile a tutto genoma (WGS), è ampiamente usato per i genomi dei mammiferi, essendo veloce, relativamente economico e riducendo i pregiudizi della clonazione. Tuttavia, la sua applicabilità è stata messa in discussione per i genomi vegetali ripetitivi ricchi di DNA 6 .

Nonostante un contenuto ripetuto del ∼ 61%, una sequenza genomica di alta qualità è stata assemblata dal genotipo di sorgo omozigote BTx623 usando WGS e incorporando quanto segue: (1) ∼ 8, 5 equivalenti del genoma dell'estremità appaiata legge 7 da librerie genomiche che coprono un ∼ 100 -ampia gamma di dimensioni dell'inserto (Tabella supplementare 1), risolvendo molte regioni ripetitive; e (2) lunghezza di lettura di alta qualità in media 723 bp, facilitando il montaggio. Il confronto con 27 cromosomi artificiali batterici (BAC) finiti ha mostrato che il gruppo WGS era> 98, 46% completo e accurato con <1 errore per 10 kb (Nota supplementare 2.5).

Il confronto con una mappa genetica 8 ad alta densità, una mappa fisica basata su 'impronte digitali' (FPC) 9 e la sequenza di riso 6 hanno migliorato l'assemblaggio WGS di sorgo (Note supplementari 1 e 2). Tra le 201 impalcature più grandi (che coprono 678, 9 Mb, 97, 3% dell'assemblea), 28 hanno mostrato discrepanze con due o più di queste linee di evidenza (Nota supplementare 2.6), spesso vicino a elementi ripetitivi. Dopo aver rotto l'assemblaggio nei punti di discrepanza, i risultanti 229 impalcature hanno un N50 (numero di impalcature che coprono collettivamente almeno il 50% dell'insieme) di 35 e L50 (lunghezza dell'impalcatura più corta tra quelle che coprono collettivamente il 50% di l'assemblaggio) di 7, 0 Mb. Un totale di 38 (2%) di 1.869 contigs FPC 9 sono stati ritenuti errati, contenenti> 5 estremità BAC che sono cadute in diversi scaffold di sequenza.

Un totale di 127 scaffold contenenti 625, 7 Mb (89, 7%) di DNA e 1.476 contigs FPC potrebbero essere assegnati a posizioni cromosomiche e orientati. Quindici estremità cromosomiche su venti terminarono con ripetizioni telomeriche. Gli altri 102 scaffold erano generalmente più piccoli (53, 2 Mb, 7, 6%), con 85 (83%) contenente un'abbondanza molto maggiore della media della ripetizione centromerica Cen38 (rif. 10) e con solo 374 geni previsti. Questi 102 scaffold hanno unito solo 193 contigs FPC, presumibilmente a causa della maggiore abbondanza di ripetizioni che sono recalcitranti alla mappatura fisica basata su cloni 9 e che possono essere omesse negli approcci BAC-by-BAC 11 .

Evoluzione delle dimensioni del genoma e sue cause

La maggiore quantità del 75% di DNA nel genoma del sorgo rispetto al riso è principalmente eterocromatina. L'allineamento alle mappe genetiche 8 e citologiche 12 suggerisce che il sorgo e il riso hanno quantità simili di euchromatina (rispettivamente 252 e 309 Mb; Tabella 7 supplementare), che rappresentano il 97-98% di ricombinazione (rispettivamente 1.025, 2 cM e 1.496, 5 cM) e 75, 4 –94, 2% di geni nei rispettivi cereali, con ordine genetico ampiamente collineare 9 . Al contrario, l'eterocromatina di sorgo occupa almeno 460 Mb (62%), molto più che nel riso (63 Mb, 15%). L'espansione del genoma ∼ 3 × nel mais dalla sua divergenza dal sorgo 13 è stata più dispersa: il DNA ricombinogenico è cresciuto di 4, 5 × a 82 1.382 Mb, molto più di quanto possa essere spiegato dalla duplicazione del genoma 14 .

L'espansione della dimensione netta del genoma del sorgo rispetto al riso ha comportato in gran parte retrotrasposoni a ripetizione terminale lunga (LTR). Il genoma del sorgo contiene il 55% di retrotrasposoni, intermedio tra il genoma del mais più grande (79%) e il genoma del riso più piccolo (26%). Il sorgo assomiglia più da vicino al riso per avere un rapporto più elevato di elementi simili a zingari e simili a quelli della copia (da 3, 7 a 1 e da 4, 9 a 1) rispetto al mais (da 1, 6 a 1: tabella supplementare 10).

Sebbene la recente attività di retroelemento sia ampiamente distribuita nel genoma del sorgo, il turnover è rapido (come in altri cereali 15 ) con elementi pericentromerici che persistono più a lungo. I giovani inserimenti di retrotrasposoni LTR (<0, 01 milioni di anni (Myr) fa) appaiono distribuiti casualmente lungo i cromosomi, suggerendo che essi sono preferibilmente eliminati dalle regioni 9 ricche di geni ma si accumulano in regioni povere di geni (Fig. 1; vedere anche la Nota integrativa 3.1) . I tempi di inserimento suggeriscono un'ondata maggiore di retrotrasposizione <1 Myr fa, dopo un'onda più piccola 1–2 Myr fa (Figura 2 complementare).

Image

I grafici ad area quantificano retrotrasposoni (55%), geni (6% esoni, 8% introni), trasposoni di DNA (7%) e ripetizioni centromeriche (2%). Le linee tra i cromosomi 3 e 9 collegano i geni duplicati collineari. Le tracce della mappa di calore descrivono in dettaglio la distribuzione degli elementi selezionati. Le cifre per tutti i cromosomi di sorgo sono nella Nota integrativa 3. Cen38, ripetizione centromerica specifica del sorgo 10 ; RT, retrotrasposoni (classe I); LTR-RT, retrotrasposoni a ripetizione terminale lungo; DNA-TE, trasposoni di DNA (classe II).

Immagine a dimensione intera

  • Scarica la diapositiva di PowerPoint

Gli elementi simili al CACTA, i principali trasposoni di sorgo DNA (4, 7% del genoma), sembrano spostare geni e frammenti di geni, così come i "Pack-MULE" 16 del riso e gli elitroni di mais 17 . Molti elementi di CACTA al sorgo sono derivati ​​di delezione non autonomi in cui i geni del trasposone sono stati sostituiti con DNA non trasposonico inclusi esoni da uno o più geni cellulari come esemplificato per la famiglia G118 (Fig. 2). Tra i 13.775 elementi CACTA identificati (nota complementare 3.4), 200 non codificano per le proteine ​​trasposoni ma contengono almeno un frammento del gene cellulare.

Image

La famiglia CACTA G118 ha un solo elemento "madre" completo e presumibilmente autonomo. Tra i 18 derivati ​​della delezione, sono conservati solo i terminali da 500 a 2.500 bp, con 8 frammenti di geni portanti internamente. Un sottogruppo relativamente omogeneo (106, 111 e 112) è presumibilmente nato di recente, mentre altri derivati ​​sono unici. Le posizioni dei colpi alle proteine ​​note del riso sono indicate come scatole colorate. Le descrizioni dei frammenti di geni estranei sono indicate sotto le caselle. HP, proteina ipotetica.

Immagine a dimensione intera

  • Scarica la diapositiva di PowerPoint

In totale, i trasposoni di DNA costituiscono il 7, 5% del genoma del sorgo, intermedio tra mais (2, 7%) e riso (13, 7%; Tabella supplementare 10). Gli elementi trasponibili in miniatura a ripetizione invertita, l'1, 7% del genoma, sono associati ai geni (Fig. 1; vedi anche Nota Supplementare 3) come in altri cereali 6 . Gli elitroni, ∼ 0, 8% del genoma, mancano quasi tutti di elicasi nel sorgo come nel mais 17, ma contengono meno frammenti genici nel sorgo rispetto al mais (Nota Supplementare 3.5). L'inserimento del DNA organellare ha contribuito solo allo 0, 085% del genoma nucleare del sorgo, molto meno dello 0, 53% di riso (Nota Supplementare 2.7).

Il complemento genico del sorgo

Tra 34.496 modelli genici di sorgo, abbiamo trovato, 6 27.640 geni codificanti per proteine ​​in buona fede combinando metodi di previsione genica basati su omologia e ab initio con sequenze espresse di sorgo, mais e canna da zucchero (Nota supplementare 4). Prove per giunzioni alternative si trovano in 1.491 loci.

Altri 5.197 modelli genetici sono generalmente più corti dei geni in buona fede (spesso <150 aminoacidi); hanno pochi esoni (spesso uno) e nessun supporto di tag di sequenza espressa (EST) (rispetto all'85% per i geni in buona fede); sono più divergenti dai geni del riso; e si trovano spesso in famiglie numerose con annotazioni "ipotetiche", "non caratterizzate" e / o retroelementate, nonostante la ripetizione del mascheramento (Nota integrativa 4). Un'alta concentrazione nelle regioni pericentromeriche in cui i geni in buona fede sono scarsi (Fig. 1) suggerisce che molti di questi modelli genici a bassa confidenza sono derivati ​​dal retroelemento. Abbiamo anche identificato 727 pseudogeni elaborati e 932 modelli contenenti domini noti solo da trasposoni.

Le distribuzioni dimensionali dell'esone di sorgo e geni di riso ortologici concordano strettamente, e la posizione e la fase dell'introne mostrano concordanza> 98% (Nota Supplementare 5). La dimensione degli introni è stata conservata tra sorgo e riso, sebbene sia aumentata nel mais a causa delle trasposizioni 18 .

La maggior parte dei paraloghi nel sorgo sono duplicati prossimalmente, inclusi 5.303 geni in 1.947 famiglie di ≥2 geni (Nota Supplementare 4.3). L'array di geni tandem più lungo è di 15 geni del citocromo P450. Altre espansioni genetiche in tandem specifiche del sorgo includono idrolasi alogenacee delogenasi-simili (PF00702), ripetizioni FNIP (PF05725) e proteine ​​maschili di sterilità (PF03015).

Abbiamo confermato le posizioni genomiche di 67 microRNA di sorgo noti (miRNA) e identificato 82 miRNA aggiuntivi (Nota supplementare 4.4). Cinque cluster situati entro 500 bp l'uno dall'altro rappresentano putativi miRNA policistronici, simili a quelli di Arabidopsis e Oryza . I precursori di miRNA antisenso naturale (nat-miRNA) della famiglia miR444 (rif. 19) sono stati identificati in tre copie.

Inventari genetici comparativi di angiosperme

Il numero e le dimensioni delle famiglie di geni di sorgo sono simili a quelli di Arabidopsis , riso e pioppo (Fig. 3 e Nota supplementare 4.6). Un totale di 9.503 (58%) famiglie di geni di sorgo sono state condivise tra tutte e quattro le specie e 15.225 (93%) con almeno un'altra specie. Quasi il 94% (25.875) di geni di sorgo ad alta confidenza hanno ortologi in riso, arabidopsis e / o pioppo, e insieme questi complementi genetici definiscono 11.502 famiglie di geni dell'angiosperma ancestrale rappresentate in almeno un genoma contemporaneo di erba e roside. Tuttavia, 3.983 (24%) famiglie di geni hanno membri solo nel sorgo e nel riso delle erbe; 1.153 (7%) sembrano essere unici per il sorgo.

Image

Il numero di famiglie di geni (cluster) e il numero totale di geni raggruppati sono indicati per ogni specie e intersezione di specie.

Immagine a dimensione intera

  • Scarica la diapositiva di PowerPoint

I domini Pfam che sono sovrarappresentati, sottorappresentati o addirittura assenti nel sorgo rispetto al riso, al pioppo e all'Arabidopsis , possono riflettere peculiarità biologiche specifiche del lignaggio del sorgo (Tabella supplementare 20). I domini sovrarappresentati nel sorgo sono generalmente presenti negli altri organismi, una notevole eccezione è il dominio α-kafirin che rappresenta la maggior parte delle proteine ​​di conservazione dei semi e corrisponde alle zeine di mais 20 ma che è assente dal riso.

Le proteine ​​associate al sistema immunitario delle piante associate al sistema immunitario sono solo circa la metà delle quali presenti nel sorgo rispetto al riso. Una ricerca con 12 domini NBS da sequenze di geni pubblicati su riso, mais, grano e Arabidopsis ha rivelato 211 geni codificanti NBS-LRR nel sorgo, 410 nel riso e 149 nell'Arabidopsis 21 . I geni di sorgo NBS-LRR codificano principalmente il tipo CC di domini N-terminali. Solo due geni di sorgo (Sb02g005860 e Sb02g036630) contengono il dominio TIR e nessuno dei due contiene un dominio NBS. I geni NBS-LRR sono più abbondanti sul cromosoma 5 di sorgo (62) e sul suo omologo di riso (cromosoma 11, 106). L'arricchimento dei geni NBS-LRR in queste corrispondenti regioni genomiche suggerisce la conservazione della posizione del gene R, in contrasto con una proposta secondo cui il movimento del gene R potrebbe essere vantaggioso 22 .

Evoluzione di percorsi e processi distintivi

L'evoluzione della fotosintesi C 4 nel lignaggio del sorgo ha comportato il reindirizzamento dei geni progenitori C 3, nonché il reclutamento e la divergenza funzionale di duplicati genetici sia antichi che recenti. L'unico sorgo C 4 piruvato ortofosfato dichinasi ( ppdk ) e il gene fosfoenolpiruvato carbossilasi chinasi ( ppck ) e le sue due isoforme (prodotte dall'intera duplicazione del genoma) hanno solo singoli ortologi nel riso. Ulteriori duplicati formati nel mais dopo la divisione del sorgo-mais ( Zmppck 2 e Zmppck 3). Il gene dell'enzima malico C (NADP-dipendente C4) ha un'isoforma adiacente ma ognuno corrisponde a un diverso omologa di mais, suggerendo una duplicazione in tandem prima della divisione del sorgo-mais. Il gene C 4 malato deidrogenasi ( mdh ) e la sua isoforma sono anch'essi adiacenti, ma condividono la somiglianza degli aminoacidi al 97% e corrispondono al singolo gene Mdh noto del mais, suggerendo una duplicazione in tandem nel sorgo dopo la sua scissione con il mais. I geni Rice Me e Mdh sono una copia singola, suggerendo la duplicazione e il reclutamento nel percorso C 4 dopo la divergenza Panicoideae-Oryzoideae (Nota complementare 9).

La sequenza del sorgo rinforza le inferenze precedentemente basate solo sul riso, su come i diversi inventari del gene dell'erba e del dicotiledone si collegano ai rispettivi tipi di pareti cellulari 23, 24 . Nelle erbe, le microfibrille di cellulosa rivestite con legame misto (1 → 3), (1 → 4) -β-d-glucani sono intrecciate con glucuronoarabinoxilani e un vasto complesso di fenilpropanoidi 25 . La sequenza del sorgo conferma ampiamente le differenze tra dicotiledoni e riso nella distribuzione dei geni della biogenesi della parete cellulare (Nota Supplementare 10). Ad esempio, la superfamiglia CesA / Csl e le sintasi callose si sono divergenti per formare nuovi sottogruppi o sottogruppi funzionalmente non essenziali sono stati persi selettivamente, come CslB e CslG persi dalle erbe e CslF e CslH persi da specie con cellule simili a dicotiledoni pareti 26 . Nel sorgo sono presenti i geni CslF e CslH precedentemente unici. Arabidopsis contiene un gene GT31 a singolo gruppo F, mentre sorgo e riso ne contengono rispettivamente sei e dieci.

L'adattamento caratteristico del sorgo alla siccità può essere parzialmente correlato all'espansione di un miRNA e di diverse famiglie geniche. Il miRNA di riso 169g, sovraregolato durante lo stress da siccità 27, ha cinque omologhi di sorgo (sbi-MIR169c, sbi-MIR169d, sbi-MIR169.p2, sbi-MIR169.p6 e sbi-MIR169.p7). L'obiettivo previsto dal punto di vista computazionale della sottofamiglia sbi-MIR169 comprende membri della famiglia del fattore di trascrizione del fattore nucleare Y (NF-Y) B, legata al miglioramento delle prestazioni sotto siccità di Arabidopsis e mais 28 . I geni contenenti domini del citocromo P450, spesso coinvolti nella ricerca di tossine come quelle accumulate in risposta allo stress, sono abbondanti di sorgo con 326 contro 228 nel riso. Espansine, enzimi che rompono i legami idrogeno e sono responsabili di una varietà di risposte di crescita che potrebbero essere legate alla durabilità del sorgo, si verificano in 82 copie in sorgo contro 58 in riso e 40 in Arabidopsis e pioppo.

Duplicazione e diversificazione dei genomi dei cereali

La duplicazione del genoma intero in un antenato comune dei cereali si riflette nei "quartetti" di geni di sorgo e riso (Fig. 4). Un totale di 19.929 (57, 8%) modelli di geni di sorgo erano in blocchi collinear con riso (Nota Supplementare 6). Dopo la duplicazione condivisa del genoma intero, è stata conservata una sola copia per 13.667 (68, 6%) geni collineari con 13.526 (99%) che sono ortologici nel riso-sorgo, indicando che la maggior parte delle perdite genetiche precedono la divergenza del taxon. Sia il sorgo che il riso hanno conservato entrambe le copie di 4.912 (14, 2%) geni, mentre il sorgo ha perso una copia di 1.070 (3, 1%) e il riso ha perso una copia di 634 (1, 8%). È probabile che questi modelli siano predittivi di altri genomi dell'erba, poiché i principali lignaggi dell'erba si discostarono da un antenato comune circa nello stesso momento 29 (vedere anche la nota complementare 7).

Image

I diagrammi a punti mostrano allineamenti intergenomici (oro) e intragenomici (neri). Viene ingrandito un quartetto di sorgo-riso che mostra sia regioni ortodosse che paraloghe (duplicate). La perdita rara di geni (rosso; vedere la legenda) dopo la divergenza di sorgo-riso provoca "casi speciali" in cui vi sono paraloghi ma nessun ortologo. Ogni regione di sorgo corrisponde a due regioni di mais duplicate 39, con la perdita del gene del mais suggerita in cui i loci di sorgo corrispondono solo a una delle due. Poiché i BAC del mais sono per lo più incompiuti, i loci del sorgo sono allineati ai centri. Nota la diversa scala necessaria per la distanza fisica del mais. I grafici a punti più grandi si trovano nella Nota supplementare 6.

Immagine a dimensione intera

  • Scarica la diapositiva di PowerPoint

Sebbene la maggior parte della perdita di geni post-duplicazione sia avvenuta in un comune antenato dei cereali, si verificano alcuni modelli specifici del lignaggio. Un totale di 2 e 10 domini funzionali proteici (Pfam) hanno mostrato un arricchimento per duplicati e singletoni (rispettivamente) nel sorgo ma non nel riso (Nota supplementare 6.1). Poiché si ritiene che la divergenza di sorgo-riso sia avvenuta 20 Myr o più dopo la duplicazione del genoma 29, ciò suggerisce che anche la perdita di geni a lungo termine influisce in modo differenziale sui gruppi funzionali genici.

Una regione genomica è stata soggetta a un livello elevato di evoluzione concordata. In precedenza era stato suggerito che i cromosomi di riso 11 e 12 condividessero una duplicazione segmentale, 3 5–7-Myr 30, 31, 32 . Abbiamo trovato un segmento duplicato nelle regioni corrispondenti dei cromosomi di sorgo 5 e 8 (Fig. 5). I paraloghi di sorgo-sorgo e riso-riso di questa regione mostrano tassi di sostituzione del DNA ( K ) sinonimo di 0, 44 e 0, 22, rispettivamente, coerenti con solo 34 e 17 Myr di divergenza. Tuttavia, il valore di K degli ortologhi sorgo-riso è 0, 63, simile alle rispettive medie su tutto il genoma (0, 81, 0, 87). Ipotizziamo che l'apparente duplicazione segmentale sia effettivamente risultata dalla duplicazione del genoma intero pan-cereale e si sia differenziata dal resto del cromosoma (i) a causa di un'evoluzione concordata che agisce indipendentemente in sorgo, riso e forse altri cereali. La conversione genica e la ricombinazione illegittima sono più frequenti nella regione del riso 11-12 rispetto a qualsiasi altra parte del genoma 33 . Mappe fisiche e genetiche suggeriscono segmenti terminali condivisi dei corrispondenti cromosomi nel grano (4, 5) 34, miglio coda di volpe (VII, VIII) e miglio perlato (gruppi di collegamento 1, 4) 35 .

Image

Sono mostrati quattro cromosomi omologhi di riso e sorgo (11 e 12 nel riso; 5 e 8 nel sorgo), con densità genetica tracciata. 'L' e 'S' mostrano rispettivamente le braccia lunghe e corte. Le linee mostrano K tra coppie geniche omologhe e i colori sono usati per mostrare diverse date degli eventi di conversione.

Immagine a dimensione intera

  • Scarica la diapositiva di PowerPoint

Sintesi e implicazioni

Il confronto tra sorgo, riso e altri genomi chiarisce l'insieme dei geni dell'erba. Coppie di sorgo e geni di riso ortologici combinati con recenti duplicazioni paraloghe definiscono 19.542 famiglie di geni di erba conservata, ognuno dei quali rappresenta un gene nell'antenato comune di sorgo-riso. La conta dei nostri geni di sorgo è simile a quella di un'annotazione di riso (RAP2) 36 curata manualmente, ma questa somiglianza nasconde alcune differenze. Circa 2.054 ortesi sintenici condivisi dalla nostra annotazione di sorgo e dall'annotazione di riso TIGR5 (rif. 37) sono assenti da RAP2. Al contrario, , 000 12.000 annotazioni TIGR5 possono essere elementi trasponibili o pseudogeni, comprendenti famiglie numerose di ipotetici geni sia nel sorgo che nel riso RAP2, spesso con esoni brevi, pochi introni e un supporto EST limitato. Casi filogeneticamente incongruenti di apparente perdita genetica (ad esempio, geni condivisi da Arabidopsis e sorgo ma non dal riso: Fig. 3) possono anche suggerire lacune nella sequenza o misannotazioni.

L'architettura del genoma dell'erba può riflettere gli effetti specifici della eombromatina di ricombinazione e selezione, sovrapposti a processi non adattativi di mutazione e deriva genetica che si applicano a tutte le regioni genomiche 38 . I modelli di organizzazione genetica e ripetitiva del DNA rimangono correlati nei cromosomi omologhi duplicati 70 Myr fa (Fig. 1), nonostante il vasto turnover di specifici elementi ripetitivi. Synteny è la più alta e l'abbondanza di retroelementi più bassa nelle regioni cromosomiche distali. La rimozione più rapida del retroelemento dall'euchromatina ricca di geni che si ricombina frequentemente rispetto all'eterocromatina che raramente si ricombina supporta l'ipotesi che la ricombinazione possa preservare la struttura, l'ordine e / o la spaziatura dei geni esponendo nuovi inserimenti alla selezione 9 . Una minore polarizzazione eucromatina-eterocromatina nel mais, dove la persistenza del retrotrasposone nell'euchromatina sembra più frequente, può riflettere la variazione nell'architettura del genoma dell'erba o forse una conseguenza persistente della più recente duplicazione del genoma 39 .

L'identificazione di sequenze di DNA conservate può aiutarci a comprendere i geni essenziali e i siti di legame che definiscono le erbe. I progressi nel sequenziamento del Brachypodium distachyon 40 pongono le basi per la triangolazione filogenetica panicoide-orizoide-poidea dei cambiamenti genomici, nonché l'associazione di alcuni di questi cambiamenti con fenotipi che vanno dai molecolari (modelli di espressione genica) a morfologici. La divergenza tra sorgo, riso e brachipodio è sufficiente per randomizzare la sequenza non funzionale, facilitando la scoperta della sequenza non codificante (CNS) 41, 42 (Figura 9 supplementare). Confronti più distanti con il dicotiledone Arabidopsis mostrano conservazione dell'esone ma nessun sistema nervoso centrale (Fig. 10 supplementare). Sono necessarie sequenze di genoma cloridoide e arundinoide per campionare i lignaggi rimanenti dell'erba e un gruppo esterno come Ananas (ananas) o Musa (banana) aiuterebbe ulteriormente nell'identificazione di geni e sequenze che definiscono le erbe.

Il fatto che il genoma del sorgo non sia stato duplicato nuovamente in ∼ 70 Myr 29 lo rende un prezioso outgroup per dedurre i destini delle coppie geniche e del sistema nervoso centrale nelle erbe che si sono duplicate. Le singole regioni di sorgo corrispondono a due regioni risultanti dal raddoppio del genoma specifico del mais 39 : il frazionamento genico è evidente (Fig. 4) e la subfunzionalizzazione è probabile (Fig. 10 supplementare). Il sorgo può rivelarsi particolarmente utile per svelare l'evoluzione del genoma nel Saccharum - Miscanthus clade più strettamente correlato: due duplicazioni del genoma dalla sua divergenza dal sorgo 8–9 Myr fa 43 complicano la genetica della canna da zucchero 44 ma i Saccharum BAC mostrano un ordine genico sostanzialmente conservato con sorgo (Supplementare Nota 11).

La conservazione della struttura e dell'ordine dei geni dell'erba facilita lo sviluppo di marcatori del DNA per supportare il miglioramento delle colture. Abbiamo identificato ∼ 71.000 ripetizioni in sequenza semplice (SSR) nel sorgo (Elenco supplementare 1); su un campione di 212, solo 9 (4, 2%) mappano i paraloghi del loro locus di origine. I primer a scansione di introni conservati (Elenco supplementare 2) per 6.760 geni forniscono marcatori di DNA utili in molti monocotiledoni, particolarmente preziosi per i "cereali orfani" 45 .

Come primo genoma vegetale sequenziato di origine africana, il sorgo aggiunge nuove dimensioni alla ricerca etnobotanica. Di particolare interesse sarà l'identificazione degli alleli selezionati durante le prime fasi della coltivazione del sorgo, che sono utili per verificare l'ipotesi che mutazioni convergenti nei geni corrispondenti abbiano contribuito all'addomesticamento indipendente di cereali divergenti 46 . Un rinvigorito miglioramento del sorgo andrebbe a beneficio di regioni come il "Sahel" africano, in cui la tolleranza alla siccità rende il sorgo un alimento base per le popolazioni umane che aumentano del 2, 8% all'anno. Il miglioramento della resa del sorgo è rimasto indietro rispetto a quello di altri cereali, in Africa ha guadagnato solo un totale del 37% (occidentale) al 38% (orientale) dal 1961-1963 al 2005-2007 (Nota integrativa 12).

Riepilogo dei metodi

Sequenziamento del genoma

Il sequenziamento del fucile a due punte ridondante di circa 8, 5 volte è stato eseguito utilizzando metodologie Sanger standard da librerie di plasmidi di inserto piccole (∼ 2–3 kb) e medie (5–8 kb), una libreria di fosmid (inserti ∼ 35 kb) e due BAC librerie (inserire dimensioni 90 e 108 kb). (Nota complementare 1.)

Integrazione del gruppo fucile con mappe genetiche e fisiche

I 201 scaffold più grandi, tutti superiori a 39 kb, esclusi 'N' e che rappresentano collettivamente 678.902.941 bp (97, 3%) di nucleotidi, sono stati controllati per possibili chimere suggerite dalla mappa genetica del sorgo, dalla mappa fisica del sorgo, da bruschi cambiamenti nel gene o densità ripetuta, ordine del gene del riso e copertura da parte dei cloni BAC o fosmid (Nota complementare 2).

Ripeti l'analisi

Le ricerche de novo per i retrotrasposoni LTR hanno usato LTR_STRUC. Il rilevamento de novo dei trasposoni e dei MITE CACTA-DNA ha utilizzato programmi personalizzati (nota complementare 3). Le ripetizioni note sono state identificate da RepeatMasker (Open-3-1-8) (//www.repeatmasker.org) con mips-REdat_6.2_Poaceae, una raccolta di ripetizioni di erba tra cui i retrotrasposoni LTR specifici del sorgo (//mips.gsf.de / proj / pianta / webapp / recat /). L'età di inserzione dei retrotrasposoni LTR a lunghezza intera è stata determinata dalla distanza evolutiva tra 5 'e 3' soloLTR derivata da un allineamento ClustalW dei due soloLTR.

Annotazione genica codificante per proteine

I loci di codifica proteica putativa sono stati identificati in base agli allineamenti BLAST di peptidi di riso e Arabidopsis e EST di sorgo e mais. GenomeScan 47 è stato applicato utilizzando parametri specifici del mais. Le strutture di codifica previste sono state unite ai dati EST del mais e del sorgo usando PASA 48 .

Allineamenti intergenomici e intragenomici

I diagrammi a punti hanno usato ColinearScan 49 e gli multi-allineamenti hanno usato MCScan 50, applicato a RAP2 36 (modelli rappresentativi mappati, 29.389 loci) e il set di annotazioni sbi1.4 (34.496 loci). BLASTP a coppie ( E <1 × 10 -5, primi cinque successi), sia all'interno di ciascun genoma che tra i due genomi, è stato usato per recuperare potenziali ancore. Sono state scaricate sequenze Zea BAC e coordinate di configurazione FPC (//www.maizesequence.org, versione 7 gennaio 2008). I BAC Zea sono stati cercati per potenziali ortologi delle sequenze di codifica del sorgo usando BLAT tradotto con un punteggio minimo di 100.

Informazione supplementare

File PDF

  1. 1.

    Informazione supplementare

    Questo file contiene metodi supplementari, dati supplementari, note supplementari, figure supplementari 1-15 con legende, tabelle supplementari 1-23 e riferimenti supplementari

  2. 2.

    Heatmap supplementare

    Questo file contiene una mappa di calore che mostra il paesaggio genomico per tutti i cromosomi, inclusi i due raffigurati nella figura 1

File zip

  1. 1.

    Elenco supplementare

    Questo file contiene un elenco supplementare di tutte le ripetizioni in tandem trovate nel genoma, inclusi SSR e altri elementi ripetuti in tandem, come indicato nel testo.

  2. 2.

    Informazione supplementare

    Questo file fa riferimento ai primer di scansione intron conservati indicati nel testo

Commenti

Inviando un commento, accetti di rispettare i nostri Termini e le Norme della community. Se trovi qualcosa di offensivo o non conforme ai nostri termini o linee guida, segnalalo come inappropriato.