PLoS ONE: Funksjonell kopitall Endringer i Cancer

Abstract

Forstå det molekylære grunnlaget for kreft krever karakterisering av sine genetiske defekter. DNA microarray teknologi kan gi detaljert rådata om kromosomavvik i tumorprøver. Computational analyse er nødvendig (1) for å utlede fra rå array-data faktiske forsterkning eller sletting hendelser for kromosomfragmenter og (2) for å skille årsakskromosom endringer fra funksjonelt nøytrale. Vi presenterer en omfattende beregnings tilnærming, RAE, designet for å robust kartlegge kromosomale endringer i tumorprøver og vurdere deres funksjonelle betydning i kreft. For å demonstrere metodikk, vi eksperimentelt profil kopi nummer endringer i en klinisk aggressiv subtype av Bløtvevskreft, pleomorphic liposarkom og beregnings utlede et portrett av kandidat onkogene endringer og deres mål gener. Mange berørte gener er kjent for å være involvert i sarcomagenesis; andre er nye, blant annet mediatorer i adipocyttdifferensiering, og kan inneholde verdifulle terapeutiske mål. Til sammen presenterer vi en robust statistisk metode som gjelder for høy oppløsning genomisk data for å vurdere omfanget og funksjon av kopinummer endringer i kreft

Citation. Taylor BS, Barretina J, Socci ND, DeCarolis P, Ladanyi M, Meyerson M, et al. (2008) Funksjonell kopitall Endringer i kreft. PLoS ONE 3 (9): e3179. doi: 10,1371 /journal.pone.0003179

Redaktør: Greg Gibson, The University of Queensland, Australia

mottatt: 7 august 2008; Godkjent: 19 august 2008; Publisert: 11.09.2008

Copyright: © 2008 Taylor et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Dette arbeidet ble støttet delvis av: The bløtvevssarkom Program Project (P01 CA047179, SS, NDS og CS), The sarkom Genome Project, og ved Kristen Ann Carr Fund. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Menneskelig kreft er forårsaket delvis av irreversible strukturelle mutasjoner. Disse kan produsere endringer i DNA kopiere nummer på forskjellige steder i genomet [1]. Avvik av denne type påvirke funksjonen av gener og derved produsere en transformert fenotype. Omfattende karakterisering av disse avvikene er et nødvendig trinn i å forstå sykdom etiologi og fremme utvikling av målrettede terapier [2], [3], [4], [5], [6], [7]. Teknikker basert på microarray teknologi kan samtidig måle tusenvis til millioner av loci i genomet for DNA kopinummerendringer. De omfatter rekke komparativ genomisk hybridisering (matrise CGH) og enkeltnukleotidpolymorfi (SNP) arrays (anmeldt i [8]). Disse stadig mer følsomme teknologi har blitt brukt for å karakterisere ikke bare avvik i cancer, men også for å beskrive kopitall variasjonen i den menneskelige befolkning [9], og den basis av genetiske lidelser (oversikt i [10]).

på grunn av dets evne til å identifisere nye onkogener og tumorsuppressorgener i cancer har to strategier blitt brukt til å analysere kopitallet array-data fra tumorer. Den tradisjonelle tilnærmingen segmenter bråkete probe-nivå data i enkelte svulster (dele genomet inn i regioner med lik kopiantallet) [11], [12], oppdager avvik med en global terskel, og heuristisk definerer grensene for regionene hyppig skifte [13] , [14]. Nyere algoritmiske strategier bruke statistiske modeller for analyse av flere prøver [15], [16], [17]. I den senere tid Beroukhim et al. foreslått en interessant omfattende rammeverk for å vurdere kopitall endring i tumor kohorter [18]. Parallelt med disse beregnings utviklingen pågår arbeidet med å analysere store tumor samlinger i en rekke krefttyper, som for eksempel pilotfasen av The Cancer Genome Atlas [19] [Kreft Genome Atlas (TCGA) Research Network 2008, innsendt]. Disse vil bli samlet inn ved hjelp av ulike kilder og kriterier som sannsynlig resultere i intra-tumor heterogenitet og mellom-tumor variabilitet. Derfor viktige uløste problemer gjenstår. Hvordan bør endringer i enkelte svulster oppdages og kombineres når en samling av prøvene varierer betydelig i sine støyegenskaper? Hvordan skal genomet deles og vurderes til mer naturlig reflektere hvordan endringer oppstår? Hvilke funksjoner av en realistisk bakgrunn modell som gir mulighet for identifisering av statistisk signifikant tilbakevendende og derfor mer sannsynlig funksjonelle endringer?

I denne artikkelen beskriver vi en beregnings rammeverk som løser hver fasett av dette problemet. Vi (i) utvikle distinkte scoring modeller for ulike endringstypene, med parametere tilpasset egenskapene til de enkelte svulster, (ii) bruker segmenteringsbrytningspunkt for å dele genomet for analyse som understreker den fysiske natur kopitall endring, (iii) bygge et tilfeldig avvik modell som tilnærmet den biologiske prosessen som endringer oppstår, og bruke det til (iv) vurdere den statistiske betydningen av observerte endringer. Dette identifiserer genomiske regioner av interesse (ROI) endret oftere enn det som forventes ved en tilfeldighet, og derfor mer sannsynlig å kjøre tumorigenesis (figur 1). Vi bruker vår metode til et stort register av solide svulster for å teste ytelsen. Vi bruker også RAE til en ny høy oppløsning kopiantall datasett generert i våre laboratorier for et sett av pleomorphic liposarkom prøver å illustrere sin kapasitet til å føre til nye oppdagelser

Input er et sett av pasientene.; svulst DNA, (u) matchet ikke-tumor-DNA, og en uavhengig referanse normal kohort. Tumor og ikke-tumorprøver kvantifiseres, normalisert, og gjenstand for kvalitetskontroll. Ved vurderingen fase, blir individuelle prøver segmentert og et multi-komponentmodell er parametrisert for hver; dette gir en detektor for løssalgs gevinst, forsterkning, hemizygous tap, og homozygot delesjon. På tvers av alle svulster, er en enhetlig stoppunkt profil (UBP) avledet fra ensemblet av segmentering stoppunkter, og hver region er scoret for gevinst og tap. En bakgrunn modell av tilfeldige avvik er konstruert med supplerende spalting og permutasjon av genomiske regioner, og p-verdier er tilordnet og korrigert for flere hypotesetesting. I utgangsfasen, RAE bestemmer genomiske grenser for områder av interesse (ROI), kontroller for kimcellelinje og befolkningen kopitall variasjon og rapporter statistisk signifikante endringer.

Resultater

Ytre kilder til variasjon

i den første fasen av RAE, tar vi opp spørsmålet om en pålitelig måte å oppdage kopitall endring i enkelte svulster. Hver tumor, inkludert de fra pasienter med samme type cancer, varierer i sine støyegenskaper. Vi fokuserer her på eksperimentell støy og problemet med inhomogenitet av tumor-DNA. En ekstra kilde til biologisk støy er strukturell variasjon, som vi ta senere. Når det gjelder førstnevnte, fant vi minst fire forskjellige årsaker som kan tilsløre copy-nummeret endres i en svulst, og dette motiverer vår avgang fra globale terskler for å påvise endringer. De omfatter (i) samples lav kvalitet passet ikke-tumor-DNA, (ii) stromal blanding, (iii) tumor heterogenitet, og (iv) usammenhengende tumor-profil, og vi diskutere hver i sin tur.

Variasjon i kvaliteten matchet normale prøver.

Mange grupper, inkludert vår egen, har observert betydelige ikke-diploid kopiantall på noen vanlige prøver (Figur S1). Årsaker kan være kilden vev (i tilfelle av

normalt

vev tilstøtende til tumor), forskjellige behandlingsprotokoller mellom tumor og normale prøver, kjemoterapi på DNA fra normale blodceller, sirkulerende tumorceller, og andre forurensninger av normal DNA. I en

sammen

analyse, vil denne ikke-nøytrale signal dempe eller på annen måte endre svulsten signal. For å unngå dette, erstatte vi en referanse normal datasett med kjent diploid fenotype og analysere svulster i et uparet format (Methods). Denne referansen genereres ved tilfeldig å velge et delsett av ubeslektede individer av HapMap samlingen, og frembringer et konsistent diploid signal for tumor kvantifisering og normalisering (Methods S1, Tabell S1, og fig S2). Vi reduserer ytterligere støy i dette nye intensitetsforholdet ved å segmentere individuelle tumorer [11], [12]. Denne prosessen korrelerer nabo markører for vanlig kopiantall, tildele det aritmetiske gjennomsnitt av sonde-nivå signal på tvers av markører i hvert segment (Methods). Mens vi unngå bruk av tilpasset normal DNA på dette trinnet, bruker vi en høy kvalitet undergruppe for kimcellelinje hendelsen filtrere etter statistisk vurdering (Methods).

stromal blanding.

Den andre kilden av støy er tumor urenhet, en veldokumentert problem [20], [21]. Individuelle tumorer har forskjellige nivåer av ikke-tumorcelle forurensning. Dette reduserer forholdet mellom signal-til-støy innenfor og mellom tumorer. Det svekker også nøyaktig genotyping for samtidig tap-av-heterozygositet (LOH) analyser. Dette truer påvisning av to viktige klasser av endring: copy-nøytral og sletting-assosiert LOH. Forurensning av tumor-DNA av ikke-neoplastisk celle DNA som utøver sin virkning globalt, like undertrykke signal i det hele tatt loci i en tumor. Vår løsning er todelt. Først tar vi en individuell-tumor tilnærming til innstillingen terskler i loggen

2 signal å oppdage avvik, og dermed trekke ut informasjon fra svulster som ellers gir tilstrekkelig signal å oppdage ikke-diploid kopi nummeret endres i forhold til renere tumorprøver. For det andre, standard vi omfanget av endring i alle svulster til rette mellom tumor-sammenlignbarhet, en viktig funksjon når man sammenligner svulster av varierende stromal blanding.

Tumor heterogenitet.

Den tredje kilden til støy er kanskje den mest forvirrende. Vi ser tegn på et mellomliggende kopiantall i flere tumortyper. For eksempel, når verdien av en monosomi (eller ChrX i en mannlig pasient) etablerer med tillit kontinuerlig log

2 verdi tilsvarende diskret heltall kopi tap, er dette signalet ofte en arm-lengde tap som faller midt mellom diploid og loggen

2 verdien av løssalgs tap. Dette kan være allel-spesifikk kopitall eksklusivt til enten den maternal eller fars kromosomet, eller mer sannsynlig indikerer muligheten for at flere adskilte, men beslektede subkloner eksisterer innenfor et enkelt klonal svulst. Når enkelt-kopi tap av en kromosom eksisterer i én av to forskjellige tumorcellepopulasjoner, er det en konvolvering av forandring, noe som reduserer størrelsen av hendelsen når målt fra blandet populasjon (figur S3). Derfor flere mulige tumorcellepopulasjoner forskjellig påvirke signal i en

lokal

måte, på forskjellige regioner i samme svulst. Derfor valgte vi en individuell-tumor alternativ til en global terskel for endring, det førstnevnte er mer følsom for påvisning av denne typen kryptiske signaler.

Uoverensstemmelse av kopinummerprofil.

til slutt, unøyaktighet i kopitall segmentering er den siste ytre kilden til variasjon at det går hendelsesdeteksjon i enkelte svulster. En stor mengde av informasjon er kodet av opprinnelige sonde nivå data for tette rekker som Affymetrix 250 K SNP array. Segmentering er utformet for å redusere den informasjonsinnhold til et minimalt sett med diskrete gevinster, tap og nøytral kopiantall. Den største reduksjonen i informasjonen i prøver å produsere noen segmenter, og minst i prøver av høy segment count (figur S4). Men dette betyr ikke ha en sammenhengende forhold å sondere-nivå støy (Eq. 1, Methods). Følgelig, fordi funksjonene til probe-nivå støy er forskjellige fra de av segmentering, bruker vi bare de sistnevnte i det hele tatt senere stadier av analysen.

Multi-komponent scoring modell for kopitall endring

for å tilpasse seg dette mangfoldet av variasjon mellom individuelle svulster, har vi utviklet en justerbar flerkomponentmodell for å oppdage avvik, den første kjernefunksjonen av RAE. Vi begynner ved å skille segmentert kopitall i fire

komponenter

, hver koder status for en endring type; løssalgs gevinst (A

0), forsterkning (A

1), hemizygous tap (D

0), og homozygot delesjon (D

1). Dette skiller både analyse av samlet gevinst mot tap, men også konkrete og intuitive klasser av hver. Dette er nødvendig fordi hver endring presenterer ulike analytiske utfordringer, ikke bare i det dynamiske området, men også i sine støyegenskaper, som ofte blir oversett. Også, ved å dele total signal inn i disse fire forskjellige klasser, er det mulig at modellen kan hente mer informasjon og produsere høyere nøyaktighet i enkelthendelsessamtaler.

Gain.

I analysen av et sett av tumorer, er det to attributter som beskriver kopitall forsterkning, frekvens og amplitude. På enkeltprøve nivå, tilsvarer dette en «detektor» og en «integrator», den tidligere identifisere eksistensen av en hendelse, og sistnevnte tilordne den en størrelse som er proporsjonal til sin opprinnelige amplitude. Vi antok at koder for deteksjon av en hendelse separat fra dens amplitude vil ha flere fordeler: (i) en detektor opererer på kantene av signal og støy og må være robust til innføring av vill-type signal, (ii) fordi amplitude er unbounded og varierer som en funksjon av stromal forurensning, bør det være standardisert for å lette mellom-tumor sammenlignbarhet, og (iii) i vår statistisk modell som tester hvorvidt en endring overskrider en tilfeldig avvik hastighet, som er i hovedsak basert på tilbakefall på tvers av prøver, vi ønsker å øke vår makt for å oppdage sjeldne, men svært høy amplitude hendelser. Så, dette er separat kodet som løssalgs gevinst (A

0) og forsterkning (A

1).

Loss.

Vi nærmer analyse av genomisk tap litt annerledes, men med en tilsvarende begrepsapparat. Det er flere utfordringer som er unike for allele tap som rettferdiggjør en modifisert tilnærming, og hver av disse har en viktig biologisk konsekvens. Først sletting begrenset i sitt utvalg; bare to eksemplarer av et locus kan gå tapt. Dette er annerledes enn forsterkning. Mangler reell størrelse, er DNA enten «til stede» eller «fraværende», og derfor en identisk scoring ordning ville være upassende. Dette komplette fravær av signal (eller magnitude) tilsvarer homozygot delesjon. Den andre analytiske komplikasjon er negativ skew i fordelingen av segmentering rundt diploid peak (figur S5). Så langt er dette en funksjon som er unik for genomisk tap og kompliserer påvisning av hemizygous tap når sin overgang fra villtype signal vises særpreg. Ikke desto mindre nøyaktig detektere enkelt-kopi tap er viktig. Den biologiske parallell er en klassisk tumor suppressor-modell, en der somatisk mutasjon eller metylering i ett allel er koplet til tap av den andre. Disse tapene er ofte bred, og kan målrette multiple loci, noe som reduserer funksjon av mer enn ett gen. Men dette faller på marginene av detectability på en slik støyende system. For å overvinne denne kompleksiteten, vi også skille sletting i to komponenter. I motsetning til den modell for forsterkning, begge komponentene er «detectors», én for hemizygous tap (D

0), og den andre for homozygot delesjon (D

1) (parameterisering beskrevet i Methods S1).

Soft diskriminering.

Mens det er mange muligheter for å påvise disse endringstypene, en viktig funksjon i vår tilnærming er bruk av

myk

diskriminering. Gir en robust (og binære) verdi for eksistensen av en hendelse i et støyende system er vanskelig. Dette er forverret for løssalgs hendelser på randen av signal og støy. Derfor fant vi ut at selv etter segmentering, et datasett omfattende log

2 terskelen for påvisning av forandring dårlige resultater på en slik støyende system (data ikke vist). Alternativt er det viktig presedens for bruk av myke discriminators i støyende systemer, og vi tilpasse dette prinsippet til å gjenkjenne kopitall endring. For eksempel vurdere endring av et locus i to svulster, begge har tilsvarende amplituder. Den tidligere overstiger en

vanskelig

terskelen av en liten størrelse; den sistnevnte ikke, men igjen med bare en liten størrelse. Det er usannsynlig at dette nominelt lignende locus resulterer i forandrede biologi i det tidligere, men den sistnevnte er en effektiv måte straffes (figur 2A). Så, for å oppnå myk diskriminering av hver endring type, bruker vi en sigmoid funksjon med parametere for plassering (

E

) og helling (

β

) (figur 2B, Methods). Denne funksjonen tilordner kontinuerlig logg

2 forholdstall, teoretisk spenner ± ∞, til en konstant verdi mellom 0 og ± 1 (avhengig av fortegnet til

β

). Ved å variere størrelsen av

β

, vi kan gjøre funksjonen oppføre seg mer eller mindre som en skarp terskel. I tillegg, fordi parametrene (

E

,

β

) blir bestemt fra enkelttumordata og tilpasset hver endring type, kan vi variere funksjonens følsomhet, med plass til de svært forskjellige mønstre av støy som tidligere diskuterte (figur 2C, Methods S1). Dette allsidige parametrisering er også en mekanisme som vi kan trekke ut informasjon fra selv de mest utfordrende kreft profiler. Denne fleksibiliteten delvis eliminerer behovet for subjektiv kvalitet kontroll i eliminering av fundamentalt uninformative prøver. For individuelle tumorer som har en kompleks og /eller usammenhengende mønster av signal (fig S5), produserer parametriseringen konservative verdier av

E

og

β

for hver endring typen, undertrykker en stor brøkdel av den totale signal ved design. Dette er spesielt viktig for analyse av uvanlig tumortyper hvor kildematerialet er på en premie, og eliminering av prøvene en tydelig ulempe. Til slutt, når myke discriminators for løssalgs gevinst og for mono- og biallelic tap kombineres på tvers av alle svulster, de er en proxy for gjentakelse av hver endring type. Dette aggregering over svulster er tema for neste avsnitt

(a) I et støyende system, er en myk discriminator (rød) sammenstilt til en hard terskel (svart).; begge tildele poeng enten kontinuerlig eller binære verdier henholdsvis (parentes) for trygt kopiere nøytrale eller forsterket loci (svart) og for utfordrende saker på margin på signal (grønn). Dette viser fordelen med myk diskriminering. (B) Den funksjonelle form av myke diskriminatoren; en sigmoid funksjon med parametere for plassering (

E

) og helling (

β

). (C) Individuell-tumor tilnærming til å avdekke gevinst og tap; flerkomponentmodellen parametriseres for to svulster (rød og blå) indikerer at kreftspesifikke funksjoner produserer forskjellige discriminators for løssalgs gevinst og tap (fast), forsterkning (stiplet) og homozygot delesjon (stiplet). Parametrisering velger verdier for

E Hotell og

β

slik at deres magnitude (usignerte) beveger seg i den retningen (legende).

aggregere endringer

En enhetlig knekkpunkt profil (UBP).

Vi var interessert i å identifisere den mest realistiske enhet av genomet som endringer sannsynligvis oppstå og som vår flerkomponentmodellen skal vurderes statistisk. Som med godartede varianter, sykdomsfremkallende endringer er segmental, endre ~kilobase til hel-kromosom-sized strekninger av DNA. Hvorfor analysere dataene ved å evaluere et svært tett sett av markører ( 238 000) når kanskje bare 50~20,000 er virkelig uavhengige observasjoner? Fordi lesjoner endre fragmenter av DNA, følte vi RAE skal operere på disse. Derfor tok vi nytte av de svake punktene som produseres av enkelte tumor segmentering. Dette korrelerer eksplisitt nabo sonder på et segment med lignende kopitall og tilnærmet strukturelle endringer i genomet. Vi forene de unike stoppunkt stillinger observert i alle svulster og disse opprette en ny avdeling av genomet (figur 3A, Methods). Disse nylig definerte regioner er kreft-typespesifikk og den endelige analyseenhet. På denne måten unngås både en kunstig lengdeskala og de statistiske kompromisser som er nødvendige når de opererer på individuelle markører, slik som virkningen på flere hypotesetesting når målingene er delvis avhengig (Methods S1).

(a) tettheten av human rekombinasjon hotspots (topp, median avstand mellom hotspots er ~55 kb) spenner segmentering (rød) av probe-nivå data (mørk blå) i en ~ 5 mb regionen 13q14.13-3 i fire pleomorphic liposarcomas. De unike tumor-assosiert brytningspunkt (svarte piler) definerer UBP (regioner r

1-6; nederst), den minste av dem (r

3) spenner over fire gener inkludert tumor suppressor

RB1 ​​

(transkripsjonsretningen er angitt). (B) På kromosom 1p, tetthetsfordelingen av spådd rekombinasjon hotspots (rød) på en bredde lik median avstanden mellom alle p-arm hotspots (56 kb), og fordeling av deres randomisering (blå). Prøvetakingen respekterer formen av den opprinnelige fordeling og derfor sekvensfunksjoner som ligger til grunn for den. (C) Størrelse fordeling av regioner avledet fra segmentering og senere definert av enhetlig knekkpunkt profilen (UBP, grå), og disse hotspot-spaltet regioner i samme permuted under null modell generasjon (som indikert, blå)

kombinere tegn på endring fra forskjellige svulster.

for å rapportere en oppsummering av endringer i disse regionene for en samling av svulster, kombinert vi de oppdagede endringer på tvers av alle pasienter. Måten vi gjør dette gjør at vi kan vurdere betydningen av en hendelse gjennom forhold til en null fordeling av rent tilfeldige avvik. Hver komponent først oppsummeres som gjennomsnitt av prøver i hver region av UBP. Deretter beregner vi en oppsummering poengsum (Eq. 3) for både total gevinst og tap (A «og D» henholdsvis) som kombinerer bevis på de enkelte endringstyper (metoder). Den viktigste fordelen med denne tilnærmingen er fleksibiliteten. En null-modellen (tema for neste avsnitt) kan bli opprettet for å vurdere: en kombinasjon av de opprinnelige fire komponenter, sammendrag score for total gevinst og tap (standard), eller ved å veie en endring typen i forhold til en annen. Som et siste aggregering skritt, vi analytisk utlede usikkerhet i dette sammendraget poengsum for hver region av UBP. Dette er en viktig funksjon i vår tilnærming. Ved å spre den feil av segmenteringen fra alle tumorer som strekker seg over et gitt locus, produserer vi en representasjon av usikkerheten i vår måling av endring i hver locus (Methods S1). Denne usikkerheten er en iboende egenskap ved noen scoring modellen, men er for tiden ikke brukes i eksisterende metoder.

En bakgrunn modell.

Vi utvikler en bakgrunn modell for å vurdere betydningen av tumorspesifikke endringer , den tredje kjerne funksjon av RAE. Egenskapene til en realistisk bakgrunn avvik modell i kreft hos mennesker er komplekse og en uavklart forskningsområde. I en første tilnærming, antar vi en svulst profilen er kombinasjonen av både fører og passasjer endringer. Videre regioner valgt av svulst span gener hvis perturbert funksjon endrer den normale cellulære fenotype. Vi antar at disse er forankret blant uspesifikk Aneuploidy, kanskje et produkt av økende genomisk ustabilitet. Dette løser stokastisk ervervet endringer i løpet av neoplastisk progresjon, men som er fundamentalt nøytrale til tumorbiologi. Dette tyder på en prosess som strekker seg over den ukritiske til desidert ikke-tilfeldig, så vel som et forhold mellom normal genetisk omsetning og kjøp av kopitall endring. Dette innebærer tumorassosierte brytningspunkt identifisert av segmentering er bare en liten brøkdel av den totale stoppunkter i genomet. Så, hypotese vi at en bakgrunn modell bør innlemme deler av denne godartet genetisk bakgrunn. I sammenheng med kopi-nummer avvik, valgte vi spådde menneskelige rekombinasjon hotspots.

Hotspots, en lokal økning i frekvensen av menneskelig rekombinasjon, er en funksjon av allel og ikke-allel ((N) AHR) homolog rekombinasjon. Nahr, i sin tur, er en mekanisme ved hvilken

de novo

strukturelle varianter er løst i genomet. En undergruppe av disse variantene produserer kopitall endring, lite som er sykdomsfremkallende. Faktisk, tidligere studier knytter høy forekomst av Nahr med segment duplikasjoner. Disse sekvensene er derfor utsatt for å brekke og omleiring (oversikt i [22], [23], [24]). Videre er kopitall variasjon tett koblet til Segment duplikasjoner i det menneskelige genom [9], [25]. Derfor bruker vi en tilfeldig prosess som involverer rekombinasjon hotspots som en proxy for denne mekanismen. Disse hotspots er beregnet fra mønstre av koblingsulikevekt (LD) mellom nålevende personer, noe som reflekterer rekombinasjon forekommer gjennom hele deres forfedres avstamning [26]. Vi supplerer tumor stoppunkter på en måte som er forenlig med både denne ordnet struktur av det menneskelige genom og mønstre av genetisk mangfold.

Vi randomisert de genomiske stillinger spådd rekombinasjon hotspots (

n

= 32996 , HapMap fase II [27]) med en avvisning-sampling prosedyre som simulerer fortrinnsrett funksjoner ligger til grunn for fordelingen av menneskelig rekombinasjon (figur 3B). Disse randomiserte stillingene benyttes som kutteseter for de største kreft segmenter før permutasjon (Methods). Supplemental partisjonering av genomet i tillegg til det som tilbys av svulst segmentering før permutasjon også har en operativ fordel. Det øker den permutasjon plass i en svulst når segmentering frembringer en lav segment telling av hvilke en fraksjon er kopi-forandret, og balansen er store i størrelse, men genomisk fundamentalt diploid. Uten ytterligere divisjon, kan det endrede segmentet permuteres inn i et endelig antall posisjoner, å begrense modellen. Fracturing de største kopi nøytrale segmenter, men gir en langt større telling av stillinger der regionen av interesse kan permut.

Etter å ha undersøkt flere permutasjon modeller, valgte vi en null distribusjon avledet fra genom-wide permutasjon (Methods S1). I korte trekk, (i) segmenter i hver tumor er videre inndelt (spaltet) ved posisjonene til randomiserte rekombinasjon hotspots, hvoretter (ii) UBP er avledet igjen på denne modifiserte ensemble av brytningspunkter (figur 3C), (iii) verdien av flerkomponentmodell i hver region av denne UBP (A

0, A

1, D

0, D

1) er permutert sammen til en annen stilling av UBP i hver prøve og re -Kombinert over tumorer (se Methods). Dette er vanligvis gjentatt 10.000 ganger produserer en null distribusjon av . 10

8 scoret regioner

Vurdere betydning og identifisere områder av interesse

For å tildele statistisk signifikans, separat for gevinst og tap vi bruker denne null distribusjon av permut data til å beregne p-verdier basert på hvor ofte tilfeldig permuted poengsum overstiger prøven poengsum (Eq. 3). Vi deretter rette for flere hypotesetesting med Benjamini-Hochberg falske funnrate prosedyre [28] den. Denne korreksjonen er gjort over alle tester, som tilsvarer regioner av UBP. Avhengig av segmentering profilen av prøver i en sykdomstype, resulterer dette i en reduksjon av mellom en og tre størrelsesordener i effektive tester sammenlignet med individuelle markører. Den resulterende q-verdien definerer brøkdel av toler falske positiver over en gitt poengsum som oppstår ved tilfeldig sjanse i vår bakgrunn modell. Regioner deretter filtreres basert på q-verdi med en typisk cutoff på 0,01 (FDR≤1%).

regioner av interesse (ROI).

neste utforske den endelige kjerne funksjon RAE, bestemme grensene for regionene betydelig forsterkning og sletting. Dersom en endring bidrar til onkogenesen, vil vi anta at regionen av genomet er valgt for sin effekt på gen-innhold. Denne hendelsen kan endre et enkelt gen eller flere uavhengige hendelser kan målrette en koordinert program av gener. Disse lesjonene kan også co-utvikle seg med tilfeldige endringer som har liten biologisk effekt. Ikke tilfeldige endringer er statistisk signifikant i forhold til vår null-modellen og derfor er kandidat områder av interesse. Likevel regioner av interesse er ikke strengt definert, men er intuitive og motivert primært av to problemer. For det første er den biologiske forskeren interessert hovedsakelig i håndterbare og tolkbare hendelser, kanskje involverer et enkelt gen. For det andre ser vi visuelt i data regionene focality hvor toppene i endring eksisterer, men er forvirret av bråkete data, inkludert tilstøtende eller nærliggende topper. For å fange begge disse, implementere vi en to-trinns tilnærming til å bestemme ROIs. Den første fasen identifiserer områder av vesentlig endring (q≤0.01). Disse vil være (i) isolerte områder av UBP (enkeltfødte) hvor fokusendring påvirker et enkelt locus, eller (ii) flere fysisk tilstøtende regioner som er fusjonert og tildelt de største genomiske grensene for arrangementet. Den andre fasen er utformet for å avhøre disse brede gevinster og tap for toppene i finere skala og mer betydelig endring. Dette er mer sannsynlig å inneholde onkogener og tumorsuppressorgener, oppfyller de første intuitive kriteriene for ROIs, men kompliseres meste av den andre. Følgelig er det to typer unøyaktigheter som påvirker fastsettelsen av regionene i fokus endring. Romlig unøyaktighet er relatert til den eksperimentelle system, der

true

posisjon for endring er umålt skyldes markør utvalg, sammensetning matrise, og endelig oppløsning. Måling unøyaktighet refererer til feil forplanter seg fra individuelle hendelser i hver prøve og gjenspeiler både støy iboende i forsøket og variabiliteten produsert av prøvestørrelsen. Førstnevnte er fast og vil forbedre som øker rekke tetthet. Den sistnevnte er noe vi innlemme eksplisitt inn i det andre trinn av vår algoritmen, men den er ikke tidligere kjente fremgangsmåter [13], [14], [18], [29]. For en gitt bred region som inkluderer loci stiger en følsomhet terskel, vi oppdager topper i sammendraget score (L

2, Eq. 3). Hvis en topp blir oppdaget, blir det slått sammen med tilstøtende loci i denne større regionen av betydning hvis deres L

2 faller innenfor topp er avstanden til feilen (figur 4, se Methods). I dette grafisk representasjon av data,

RB1 ​​

tumor suppressor, diskutert i mer detalj nedenfor, blir detektert i en topp på tilsvarende fusjonerte regioner som foredler grensene for en ROI fra disse spenner over ~3 MB-sekvens og 20

Legg att eit svar