Decifrare la struttura fine della miscela tribale nella popolazione beduina usando dati genomici | eredità

Decifrare la struttura fine della miscela tribale nella popolazione beduina usando dati genomici | eredità

Anonim

Soggetti

  • Genetica della popolazione

Astratto

La popolazione israeliana beduina è fortemente innata e strutturata con un'altissima prevalenza di malattie recessive. Molti studi negli ultimi due decenni si sono concentrati sull'analisi dei collegamenti in grandi e multipli pedigree consanguinei di questa popolazione. L'avvento delle tecnologie ad alto rendimento ha motivato i ricercatori a cercare rare varianti condivise tra pedigree minori, integrando dati provenienti da casi sporadici clinicamente simili ma apparentemente non correlati. Tuttavia, tali analisi sono impegnative perché, senza dati genealogici, non esiste alcuna conoscenza preliminare relativa alla possibile correlazione tra i casi sporadici. Qui, descriviamo modelli e tecniche per lo studio delle relazioni tra i pedigree e li usiamo per l'inferenza della co-origine tribale, delineando le complesse interazioni sociali tra diverse tribù nei beduini del Negev nel sud di Israele. Attraverso la nostra analisi, distinguiamo tra tribù che condividono molti segmenti genomici ancora piccoli a causa della co-discendenza rispetto a tribù che condividono segmenti più grandi a causa della recente mescolanza. Il modello emergente è ben correlato con la prevalenza di rare mutazioni nelle diverse tribù. Le tribù che non si sposano, principalmente a causa delle restrizioni sociali, hanno mutazioni private, mentre le tribù che si sposano mostrano un flusso genetico di mutazioni tra loro. Pertanto, la struttura sociale all'interno di una comunità innata può essere delineata attraverso dati genomici, con implicazioni per la consulenza genetica e la mappatura genetica.

introduzione

La presenza di una struttura all'interno di una popolazione è una delle principali sfide nella progettazione di studi genetici sulla popolazione (Price et al., 2010; Astle and Balding, 2009; Yu et al., 2005; Sun et al., 2002; Mathieson e McVean, 2012). Mentre sono stati sviluppati metodi efficienti per rilevare le variazioni tra popolazioni grandi e divergenti, i modelli di struttura fine all'interno delle popolazioni sono spesso troppo sottili per essere catturati dagli attuali approcci per la stratificazione (Mathieson e McVean, 2012). Uno dei principali approcci per lo studio di modelli sottili all'interno delle popolazioni è inferendo la relazione (Purcell et al., 2007; Gusev et al., 2009; Bercovici et al., 2010; Browning, 2008). Un gruppo di individui che è più correlato tra loro rispetto agli altri membri della popolazione può potenzialmente avere alleli a rischio comune per tratti sia comuni che rari (Mathieson e McVean, 2012; Peltonen et al., 2000). Tali costellazioni potrebbero essere dovute a vincoli spaziali, alla polarizzazione religiosa e di altro tipo o alle tradizioni legate a eventi storici comuni. Esempi di tali modelli si possono trovare con gli Amish (Strauss e Puffenberger, 2009), i canadesi francesi e le popolazioni beduine (Laberge et al., 2005; Mohammad et al., 2009; Teebi, 1997).

Nel presente studio, abbiamo iniziato a studiare la relazione tra le diverse tribù della popolazione beduina nella regione del Negev, nel sud di Israele. Ci sono due principali motivazioni per questo studio. Il primo è stabilire una metodologia per delineare la correlazione tribale e i modelli di mescolanza, in modo che i fattori di rischio per le malattie genetiche rare possano essere valutati in modo più accurato durante la consulenza genetica e i test sui portatori (cioè, le tribù correlate possono avere alleli di rischio comuni). Un'altra motivazione è quella di utilizzare la correlazione tribale inferita per la mappatura genetica in casi sporadici raccolti da diverse tribù. Al fine di sviluppare una metodologia per mappare la relazione tribale, è istruttivo conoscere la struttura tradizionale delle tribù beduine. I beduini sono nomadi presenti in tutto il Medio Oriente, molti dei quali emigrarono dalla penisola arabica (Mohammad et al., 2009; Hunter-Zinck et al., 2010; Sheffield et al., 1998; Marx, 1967; Cavalli-Sforza et al., 1994). La struttura sociale beduina è organizzata in modo molto gerarchico: diverse unità di base delle famiglie nucleari sono integrate in una tribù (una famiglia allargata di parenti) e la federazione di diverse tribù forma un clan (Marx, 1977; Chatty, 2006). I matrimoni consanguinei all'interno dell'unità tribù sono comuni. I matrimoni tra le diverse tribù in un clan sono meno frequenti. I matrimoni tra clan sono rari e in molti casi vietati (Mohammad et al., 2009; Marx, 1977). Le tribù e i clan possono avere dimensioni sostanzialmente diverse. Secondo i nostri registri per i beduini del Negev, le tribù potrebbero essere piccole fino a 100 individui o fino a 10 000 individui. Inoltre, questa popolazione è dinamica nel senso che le tribù possono convergere o divergere a causa del clima o dei vincoli sociali e politici (Al-Aref, 1934). In particolare notiamo che, sebbene i cognomi indichino generalmente l'origine tribale, non sono sempre indicatori precisi per gli antenati. Le tribù possono adattare nuovi cognomi senza legami di sangue con la tribù o il clan ospitante.

La popolazione beduina del Negev è una piccola popolazione fondatrice di ∼ 200 000 individui, che, secondo i nostri registri dei cognomi, è distribuito in oltre un centinaio di unità tribali. I documenti storici indicano che gli antenati della maggior parte dei beduini del Negev emigrarono dalla penisola arabica nel sud di Israele e Sinai probabilmente prima della diffusione dell'Islam intorno al 700 d.C. (Marx, 1967; Al-Aref, 1934; Abu-Rabia, 1994; Bailey, 1985). Questi antichi beduini formarono diversi clan e stabilirono territori di clan nei deserti del Negev e del Sinai. La regione ha anche conosciuto un flusso costante di piccole tribù sporadiche che emigrarono nel Negev dall'Egitto, dalla Giordania e da Gaza. A queste tribù sporadiche fu permesso di rimanere nella regione stringendo alleanze con i grandi clan. Sebbene le tribù sporadiche fossero generalmente tenute come entità separate, non autorizzate a sposarsi nei clan ospitanti, non c'erano restrizioni riguardo ai matrimoni misti tra le diverse tribù sporadiche. In effetti, nei nostri studi sul campo abbiamo scoperto che piccole tribù che non possiedono parentela con i grandi clan consentono matrimoni intertribali. Una possibile spiegazione di questa struttura sociale è l'uso storico dei lignaggi di parentela come mezzo per controllare il territorio, che è associato all'identità del clan (Marx, 1977).

Considerando la complessa struttura tribale appena descritta, è difficile interpretare la parentela in questa popolazione. In effetti, la mappatura genetica negli ultimi due decenni ha rivelato rare mutazioni comuni a tutte le tribù, la cui presenza potrebbe suggerire origini di fondatori comuni o forse riflettere la recente mescolanza tra le tribù a causa dei matrimoni misti. Scoprire questi diversi scenari attraverso i dati genomici è una delle principali sfide in questo studio.

La correlazione viene spesso studiata deducendo Identical By Descent (IBD) condiviso da segmenti da antenati comuni (Sun et al., 2002; Purcell et al., 2007; Weir et al., 2006; Browning 2008). Si prevede che parenti stretti, separati da poche generazioni, condivideranno un piccolo numero di segmenti molto lunghi ereditati dal loro antenato comune più recente. Parenti lontani, separati da molte generazioni, possono condividere molti brevi segmenti di diversi antenati lontani. Pertanto, la distribuzione di segmenti condivisi tra individui contiene informazioni sui lignaggi univoci a antenati comuni e quindi fornisce input preziosi per l'inferenza della struttura della popolazione (Huff et al., 2011; Lawson et al., 2012). In molti studi, tuttavia, l'inferenza IBD è correlata a un singolo antenato più recente. Questo perché i lignaggi esatti, in particolare quelli di un lontano passato, sono difficili da dedurre, spesso richiedono specifici modelli genetici e demografici e grandi pannelli di popolazione di riferimento (Gasbarra et al., 2007; Pool et al., 2010; Novembre e Ramachandran, 2011 ). Nelle popolazioni isolate e nelle popolazioni con un alto grado di consanguineità, il problema è ancora più impegnativo perché il livello di base della condivisione IBD tra individui non correlati è gonfiato, non permettendo un'efficiente discriminazione tra antenati recenti e condivisione di sfondo (Huff et al., 2011) .

Il nostro approccio all'analisi della struttura fine all'interno della popolazione beduina si basa su una metodologia recentemente suggerita da Lawson et al. (2012). In questo approccio, una matrice di somiglianza viene prima costruita tra tutte le coppie di individui e quindi una procedura di raggruppamento riorganizza l'ordine delle coppie per rivelare vari modelli e gruppi di parentela nei dati. Qui, suggeriamo diverse modifiche al loro metodo che si adattano meglio allo studio di popolazioni isolate strutturate con elevata condivisione di antenati recenti. Affrontiamo il problema dell'inferenza di origine con una modifica al modello esistente di inferenza IBD implementato nel popolare strumento P LINK (Purcell et al., 2007). Introduciamo un algoritmo per la recente inferenza ancestrale che calcola i coefficienti di parentela effettivi per ciascuna coppia nei dati. La parentela effettiva è semplicemente la somma di tutti i segmenti rilevati condivisi da due individui, senza differenziare tra diversi antenati. Suggeriamo anche una metrica, la parentela residua, per il rilevamento della co-discendenza, dato che è presente la progenie recente. La motivazione alla base della discendenza residua è quella di distinguere tra la recente mescolanza di sottopopolazioni (tribù nel nostro caso) e la compartecipazione condivisa che è più antica. Il nostro algoritmo calcola uno stimatore della massima verosimiglianza per i coefficienti di parentela effettivi senza precedenti conoscenze genealogiche. Riorganizziamo quindi la matrice di parentela usando SPIN, un algoritmo progettato per riordinare le matrici di distanza (Tsafrir et al., 2005). La matrice di parentela ordinata viene quindi analizzata per la struttura fine tra le diverse tribù. Applicando questa metodologia ai campioni della popolazione beduina del Negev, siamo stati in grado di ricostruire i grandi clan e scoprire modelli di interazioni tribali che sono coerenti con la storia orale conosciuta. Troviamo anche una correlazione tra i modelli di parentela tribale e rare varianti note per essere comuni nelle tribù correlate. Discutiamo le implicazioni dei nostri risultati per la consulenza genetica e la mappatura IBD nella comunità beduina con esempi specifici.

risultati

Abbiamo analizzato due set di dati di beduini negev: uno dall'HDGP (Jakobsson et al., 2008) e un altro set raccolto nel nostro laboratorio (LAB) con individui sia correlati che non correlati (materiali e metodi e tabella supplementare S1). Abbiamo definito antenati recenti, combinati e residui come segue (vedere il testo supplementare per le definizioni dettagliate). La progenie recente si riferisce a una progenie genetica comune delle più recenti ∼ 1–20 generazioni. La discendenza combinata si riferisce alle ultime ∼ 1–50 generazioni. Gli antenati residui si riferiscono ad un antenato comune corrispondente a ∼ 20–50 generazioni fa. Queste soglie sono state scelte per riflettere il tempo medio di migrazione delle tribù sporadiche e si basano su una soglia per la lunghezza dei segmenti condivisi. Abbiamo definito la matrice di dissomiglianza come la matrice di parentela in scala logaritmica: D = - Log (parentela), e calcolato tre diverse matrici di dissimilarità per ogni set di dati: D recente, D residuo e D combinati . Intuitivamente, ci si aspetta che le tribù che si sono mescolate solo di recente e non hanno origini di clan comuni mostrino un segnale nella recente matrice di dissomiglianza ma non nella matrice residua. Le tribù dello stesso clan dovrebbero mostrare segnali in tutte le matrici, poiché condividono una storia comune e interagiscono nel tempo presente.

Un lavoro precedente, analizzando il campione HDGP, suggerisce già che è presente una struttura fine all'interno della comunità beduina (Lawson et al., 2012; Figura complementare S22). Iniziamo concentrando la nostra analisi sui dati beduini HDGP disponibili al pubblico e approfondendo ulteriormente gli schemi suggeriti. La Figura 1 mostra l'identificazione dei clan di grandi dimensioni nei dati HDGP. La Figura 1-a1 mostra la distribuzione dei valori di dissimilarità a coppie in D combinata . La distribuzione sembra essere bimodale, il che suggerisce che è presente una struttura. Abbiamo intuitivamente ipotizzato che la modalità giusta (valori D alti) corrisponda alla condivisione in background di coppie non correlate nella popolazione e la modalità sinistra (valori D bassi) alla relazione all'interno delle tribù. Distribuzioni bimodali simili sono state trovate per le altre matrici D recenti e D residuali, come illustrato nella Figura supplementare S1. È stato montato un modello di miscela gaussiana (GMM) per generare le linee curve che delineano le due popolazioni (tabella supplementare S5). L'intersezione tra i gaussiani montati è indicata da un punto nero. Questa è la posizione per cui un ingenuo classificatore bayesiano genererebbe pari probabilità per le due popolazioni. In un classificatore bayesiano, una coppia di individui con D al di sotto di questo punto sarebbe classificata come correlata e al di sopra di questo punto come non correlata.

Image

La matrice di dissomiglianza per i dati HGDP. ( A ) I pannelli a1-a3 mostrano la distribuzione dei valori di dissimilarità a coppie calcolati per D combinati, insieme a un modello di miscela gaussiana montato. a2 sottolinea con sfumature di grigio la distribuzione dei valori di dissomiglianza all'interno dei cluster. a3 enfatizza nell'ombreggiatura grigia i valori di dissomiglianza all'esterno dei cluster (la distribuzione di sfondo). B mostra la matrice di dissimilarità permutata. La mappa dei colori per questa figura è anche rappresentata sotto gli istogrammi, a indicare che i colori blu si riferiscono alla modalità sinistra e il giallo alla modalità destra. I cluster identificati sono contrassegnati in B da una linea rossa come b1, b2 e b3.

Immagine a dimensione intera

La Figura 1B mostra la matrice di dissomiglianza permutata D combinata per i dati HDGP. Ogni coppia di individui è rappresentata da un rettangolo colorato. Abbiamo utilizzato i parametri GMM per generare la mappa dei colori consentendo ai colori blu di estendersi all'intero dominio della relativa distribuzione (la modalità a sinistra) seguito da una graduale modifica della tonalità in verde e giallo per la distribuzione di sfondo (la modalità a destra). La Figura 1B mostra chiaramente un cluster grande e due più piccoli. Al fine di mostrare come questi cluster si collegano alla distribuzione bimodale, abbiamo esaminato la distribuzione delle differenze all'interno e tra i cluster. Abbiamo definito manualmente i bordi dei tre cluster (contrassegnati con una linea rossa), etichettandoli come b1, b2 e b3 (Figura 1B). Gli istogrammi di dissomiglianza a coppie all'interno dei cluster sono enfatizzati nella Figura 1-a2 e tra i cluster nella Figura 1-a3, indicando chiaramente che la modalità sinistra corrisponde ai parenti all'interno dei cluster, mentre la modalità destra corrisponde a coppie non correlate. La Figura 1-a2 suggerisce anche che i parenti distanti potrebbero risiedere bene all'interno della distribuzione di sfondo (modalità corretta). Un classificatore bayesiano basato sulla distribuzione bimodale contrassegnerebbe tutti gli individui con D> 1, 5 come non correlati. Tuttavia, analizzando tutte le coppie contemporaneamente e identificando i clan, la relazione tra coppie apparentemente non correlate viene stabilita indirettamente tramite la relazione con gli altri membri del gruppo. Pertanto, la nostra analisi non è solo efficace nella delimitazione dei clan, ma consente anche l'identificazione di parenti molto distanti con una condivisione genomica trascurabile semplicemente a causa della comune discendenza dei clan.

I dati HDGP non contengono alcuna conoscenza genealogica degli individui nel campione e quindi limitano la nostra capacità di studiare ulteriormente le relazioni tra le tribù. Passiamo così ai dati LAB, al fine di correlare i risultati con informazioni genealogiche note. In particolare, volevamo testare la fattibilità della differenziazione tra i grandi clan e le tribù sporadiche che migravano sporadicamente nel Negev. Nella Figura 2, A e B rappresentano la distribuzione dei valori di dissimilarità a coppie e la matrice permutata costruita da D combinata . I parenti noti sono enfatizzati nell'istogramma con un tipico valore D <1. L'esistenza di una distribuzione bimodale è chiara anche in questa figura. La Figura 2C mostra le matrici per gli antenati recenti e residui con alcuni cluster identificati raffigurati su ciascuna matrice. Tutte le matrici vengono visualizzate utilizzando la mappa dei colori generata dai dati HDGP.

Image

La matrice di dissomiglianza per i dati LAB. aeb rappresentano la distribuzione dei valori di dissimilarità a coppie e la matrice permutata costruita da D combinata . I parenti noti sono enfatizzati nell'istogramma e hanno valori D <1 tipici. c mostra le matrici per gli antenati recenti e residui, con alcuni cluster identificati raffigurati su ciascuna matrice. Tutte le matrici vengono visualizzate utilizzando la mappa dei colori generata dai dati HDGP. I numeri di indice nelle matrici si riferiscono alle persone come indicato nella Tabella Supplementare S1.

Immagine a dimensione intera

Due cluster principali sono evidenti e sono indicati nella Figura 2 come A e B. Dalla Figura 2C è evidente che sia gli antenati recenti che quelli antichi contribuiscono ai segnali nei cluster A e B, poiché entrambi i cluster sono chiaramente indicati in D recente e D residuo . Si noti, tuttavia, che il cluster A sembra essere distinto dal resto dei dati, mentre il cluster B mostra segnali di antenati comuni con diverse tribù esterne attorno ad esso. Questo segnale è per lo più assente dalla matrice residua, suggerendo una recente mescolanza tribale. Questi schemi sono più facilmente rappresentati nella Figura 3, che è una versione binaria delle matrici nella Figura 2. Abbiamo generato la Figura 3 usando i punti di intersezione bayesiana come soglie per ciascuna matrice. L'indagine sui cognomi ha identificato il cluster A come uno dei clan più antichi e affermati nel Negev. D'altra parte, il gruppo B è composto da tribù correlate, probabilmente di un comune fondatore, che emigrarono da Gaza al Negev circa 300 anni fa. Quindi, sembra che il clan B, al contrario del clan A, consenta interazioni con tribù esterne al clan. In effetti, l'indagine sul cognome suggerisce che, a parte il clan A, tutte le altre tribù nei nostri dati sono apparentemente sporadiche.

Image

Matrici di dissimilarità recenti e residue dai dati LAB con soglie binarie. Abbiamo generato queste matrici usando i punti di intersezione bayesiana come soglie per ciascuna matrice. Le differenze al di sotto della soglia erano di colore nero, mentre quelle sopra rimasero in bianco. I segnali di antenati recenti che non sono replicati nella matrice degli antenati residui indicano una recente mescolanza. In particolare, gli individui 29 e 14 mostrano origini recenti sostanziali con il clan B (3, 11, 24, 1, 8) ma nessuna discendenza residua.

Immagine a dimensione intera

Altri esempi di interazione tra antenati residui e recenti si manifestano nei cluster D e C. Esiste un chiaro segnale recente di ascendenza tra le due tribù nel cluster C che sembra essere assente dalla matrice degli antenati residuali. Coerentemente con questa scoperta, la nostra indagine genealogica ha rivelato che queste due tribù hanno convissuto fianco a fianco negli ultimi ∼ 200 anni; tuttavia, non vi è alcuna traccia per gli antenati del clan comune, poiché una tribù emigrò dall'Egitto e l'altra dalla Giordania. D'altra parte, il cluster D, che appare nella matrice di origine residua, è solo parzialmente rappresentato nella matrice di origini recenti che si sovrappone ai cluster circostanti C e B. Pensiamo che il cluster D rappresenti un artefatto del rumore. Non conosciamo alcun antenato comune tra le tribù di questo ammasso. Utilizzando i singoli numeri di indice indicati nella Figura 2, le tribù rappresentate dagli individui 13 e 14 emigrarono da due diverse regioni di Gaza; la tribù rappresentata da 17 è associata con origini egizie; e la tribù rappresentata da 7 emigrò dalla Giordania. Come spiegato nelle appendici (testo integrativo), l'interpretazione della matrice residua degli antenati in questo caso è problematica. Non deduciamo direttamente gli antenati antichi e poiché questo cluster non è chiaramente indicato nella recente matrice degli antenati, è molto probabilmente un cluster falso positivo. Infatti, il cluster D non si manifesta nella versione binaria della Figura 3 e non sopravvive a ripetute permutazioni sulla matrice residua usando SPIN.

Al fine di mettere in relazione i nostri risultati con modelli di rare varianti prevalenti nelle diverse tribù, abbiamo elencato nella Tabella 1 diverse mutazioni del fondatore note per essere associate a disturbi mendeliani nella comunità beduina. Ad esempio, le mutazioni del fondatore della sindrome da dismorfismo del ritardo ereditario e dell'insensibilità congenita al dolore e all'anidrosi sono note per essere presenti in molte tribù associate al clan A. In effetti, è stata trovata anche la stessa mutazione del fondatore che provoca dismorfismo del ritardo ereditario nei beduini del Negev in casi dall'Arabia Saudita (Teebi, 1997). Questo fatto ha innescato uno screening globale per la mutazione del fondatore del retaggio ereditario dismorfismo nei beduini di tutte le tribù che chiedevano consulenza genetica. Tuttavia, almeno per le tribù che partecipano a questo studio, non troviamo prove per la mutazione del fondatore al di fuori del clan A (vedi Tabella 2). Come secondo esempio, altre due mutazioni del fondatore, la deficienza del complesso 3 mitocondriale (complesso 3) e l'ipoglicemia iperinsulinemica persistente dell'infanzia, si trovano esclusivamente nel clan B. Tuttavia, almeno una mutazione del fondatore associata alla sordità si trova sia nel clan B che in una delle tribù sporadiche. Mentre vediamo una significativa parentela recente tra il clan B e altre tribù sporadiche, ci aspettiamo di rilevare altre mutazioni così comuni nel prossimo futuro.

Tabella a grandezza naturale

Discussione

I nostri risultati indicano che possiamo identificare i clan beduini come grandi famiglie estese in cui ogni individuo è collegato a molti altri nel gruppo. Abbiamo dimostrato che i clan comprendono antenati comuni recenti e antichi come previsto. Inoltre, la nostra analisi identifica le tribù a cui è stato "permesso" di sposarsi rispetto a quelli il cui miscuglio era socialmente proibito, svelando così relazioni coerenti con il noto background storico dei beduini del Negev.

Precedenti studi sulle tribù beduine erano incentrati principalmente sulle relazioni tra i beduini e le popolazioni circostanti. Ad esempio, Abu-Amero et al. (2008, 2009) hanno utilizzato Y non ricombinante e DNA mitocondriale da campioni di Arabia Saudita per lo studio dei modelli migratori dall'Africa all'Asia nei tempi antichi. Il loro lavoro si è concentrato su modelli migratori su larga scala, come l'introduzione di aplotipi africani nelle popolazioni peninsulari arabe. Mohammad et al. (2009) hanno studiato una storia più recente della struttura della popolazione in Kuwait. Hanno usato sia i marcatori cromosomici autosomici che quelli Y per studiare campioni di sei tribù kuwaitiane. Hanno trovato una notevole corrispondenza tra i nomi delle tribù e la loro composizione genetica, supportando la storia tradizionale attesa e l'isolamento tribale. Più recentemente, Hunter-Zinck et al. (2010) hanno studiato i modelli di mescolanza nella popolazione del Qatar e hanno recuperato tre gruppi di affinità all'interno della popolazione coerenti con i modelli di migrazione nell'area.

Gli studi sopra menzionati hanno recuperato gran parte dell'attesa struttura della popolazione beduina usando metodi che associano le frequenze degli aplotipi agli antenati. L'uso delle frequenze degli aplotipi per studiare la struttura è adatto quando una popolazione mostra modelli di migrazione o di mescolanza drammatici con le popolazioni circostanti, in modo che determinate frequenze degli aplotipi differiscano significativamente tra i diversi gruppi. Nel nostro studio sui beduini del Negev, abbiamo adottato un approccio complementare che ci ha permesso di esaminare segnali più sottili della struttura della popolazione. Poiché il nostro campione proviene interamente da una recente origine araba, l'analisi della miscela classica che utilizza l'analisi dei componenti principali o modelli bayesiani potrebbe non essere adeguata (dati non mostrati) (Falush et al., 2003; Patterson et al., 2006). Le nostre precedenti conoscenze relative alla storia beduina e ai modelli di segregazione delle malattie rare nelle diverse tribù suggeriscono l'analogia tra tribù e famiglie allargate e conducono quindi naturalmente all'analisi IBD. Pertanto, l'analisi IBD sembra completare questi altri studi rivelando una struttura fine all'interno di un campione apparentemente omogeneo di tribù beduine.

Notiamo che le conoscenze acquisite nel nostro studio sono estremamente importanti per la mappatura IBD in casi sporadici. Recentemente, abbiamo mappato un nuovo gene per la sindrome da contrattura congenita letale di tipo 4 (LCCS4) (Markus et al., 2012) nelle tribù N e O (Tabella 1; rappresentata dagli individui 13 e 14 nella Figura 2). Coerentemente con la mancanza di significativi antenati recenti o di co-origini del clan, il locus condiviso risiede in un segmento molto piccolo, circa 1 Mbp di dimensioni, indicando origini relativamente antiche. Altri due casi sporadici che manifestano il fenotipo LCCS e non possiedono nessuna delle mutazioni conosciute sono stati analizzati utilizzando la nostra metodologia. Si è scoperto che questi due casi condividevano origini comuni con il clan B (dati non mostrati). Abbiamo quindi avviato una ricerca per l'ennesima mutazione del fondatore di LCCS che dovrebbe essere presente nei casi del clan B.

Dovrebbero essere indicati diversi inconvenienti di questo approccio. Innanzitutto, non abbiamo provato a raggruppare i campioni in sottogruppi. Il clustering alla fine comporta la perdita di informazioni, mentre l'ispezione visiva delle matrici ordinate lascia ancora molto spazio all'interpretazione. Alla fine, è necessario prendere decisioni in merito al significato dei segnali di parentela. Attualmente, usiamo un approccio conservativo quando testiamo la relazione. Come indicato sopra, utilizziamo il classificatore bayesiano sulla distribuzione dei valori di dissomiglianza per valutare il significato della correlazione a coppie e fare riferimento alle matrici di dissomiglianza ordinate come un complimento visivo. È necessario più lavoro per facilitare le conoscenze incorporate nelle matrici ordinate per la valutazione della relazione oltre i punteggi di parentela a coppie.

In secondo luogo, esiste un limite alla risoluzione di questo approccio. Anche se le soglie degli antenati qui utilizzate sembrano funzionare bene per il raggruppamento di tribù beduine, potrebbero non adattarsi all'analisi della struttura fine in altre popolazioni. Recenti studi sui modelli di migrazione suggeriscono che la distribuzione delle lunghezze dei segmenti genomici condivisi potrebbe essere utilizzata per inferire gli antenati in modo più accurato (Huff et al., 2011; Pool and Nielsen, 2009; Henn et al., 2012). L'adattamento di questi metodi per l'analisi della struttura fine in piccole popolazioni isolate dovrebbe fornire una base più accurata sia per l'inferenza degli antenati sia per le sfide del raggruppamento (Novembre e Ramachandran, 2011).

Nonostante questi avvertimenti, la struttura emergente è ben correlata con modelli di rare varianti a noi note. I recenti progressi tecnologici e la crescente consapevolezza dei disturbi genetici nella comunità beduina stanno avendo un grande impatto sull'identificazione di mutazioni deletere nella popolazione beduina. Attualmente, ci sono> 40 diverse mutazioni a noi note, la maggior parte sono specifiche della tribù. Nella consulenza genetica alla comunità beduina, offriamo ai membri di corrieri di diverse tribù test per diverse mutazioni, in base alla loro prevalenza tribale. L'attuale studio, che delinea le somiglianze genomiche tra le tribù, ci consente di identificare meglio le tribù che condividono mutazioni identiche, migliorando la nostra capacità di suggerire appropriati test sui portatori. Pertanto, i nostri risultati qui sono favorevoli a un programma di screening del corriere più dettagliato e adeguato per i disturbi rari condivisi da varie tribù, con lo scopo di servire questa comunità in modo più efficace.

Archiviazione dei dati

Dati depositati nel repository Dryad: doi: 10.5061 / dryad.1s2j3.

Informazione supplementare

File PDF

  1. 1.

    Testo supplementare

    Informazioni supplementari accompagna questo documento sul sito Web di Heredity (//www.nature.com/hdy)