PLoS ONE: Kopier nummer analyse Identifiserer Novel interaksjoner mellom Genomisk Loci i Ovarian Cancer

Abstract

Eggstokkreft er en heterogen sykdom som viser komplekse genomiske forandringer, og derfor har det vært vanskelig å finne de mest relevante kopiantall endringer med omfanget av studier så langt. Vi fikk genom-wide kopiantall endring (CNA) data fra fire forskjellige SNP array-plattformer, med en endelig datasett av 398 ovarietumorer, for det meste av serøs histologisk subtype. Hyppige CNA avvik målrettet mange tusen gener. Men høyt nivå amplikonene og homozygot slettinger aktivert filtrering av denne listen til den mest relevante. Den store datasett aktivert foredling av minimal regioner og identifisering av sjeldne amplikonene eksempel på 1p34 og 20q11. Vi utførte en roman co-forekomst analyse for å vurdere samarbeid og eksklusivitet CNAs og analysert deres forhold til pasientens utfall. Positive assosiasjoner ble identifisert mellom gevinster på 19 og 20Q, gevinst på 20Q og tap av X, og mellom flere regioner av tap, spesielt VED BETJENING 17Q. Vi fant svake korrelasjoner av CNA på genomisk loci som 19q12 med klinisk utfall. Vi har også vurdert genomiske ustabilitet måler og funnet en korrelasjon av antallet høyere amplitude gevinster med dårligere total overlevelse. Ved å sette sammen den største samlingen av eggstokkreft kopitalldata til dags dato, har vi vært i stand til å identifisere de mest hyppige avvik og deres samspill

Citation. Gorringe KL, George J, Anglesio MS, Ramakrishna M, Etemadmoghadam D, Cowin P, et al. (2010) Kopier nummer analyse Identifiserer Novel interaksjoner mellom Genomisk Loci i eggstokkreft. PLoS ONE 5 (9): e11408. doi: 10,1371 /journal.pone.0011408

Redaktør: I. Kong Jordan, Georgia Institute of Technology, USA

mottatt: 11 februar 2010; Godkjent: 16 april 2010; Publisert: 10.09.2010

Copyright: © 2010 Gorringe et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Dette arbeidet ble støttet av National Health and Medical Research Council of Australia; viktoria Breast Cancer Research Consortium (VBCRC), Australia; og Department of Defense (DOD), USA. JG er støttet av en australsk Postgraduate Award. MR er støttet av en Cancer Council of Victoria Graduate stipend. Denne forskningen ble også støttet av en viktoriansk biovitenskap Computation Initiative (VLSCI) tilskudd på sin Peak Computing Facility ved University of Melbourne og på viktoriansk Partnership for Advanced Computing (VPAC). Australian Ovarian Cancer Study (AOCS) ble støttet av United States Army Medical Research og forsyningskommando i henhold DAMD17-01-1-0729, The Cancer Council Victoria, Queensland Cancer Fund, The Cancer Council of New South Wales, The Cancer Council South Australia, The Cancer Foundation of Western Australia, The Cancer Council Tasmania, og National Health and Medical Research Council of Australia (NHMRC). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

ovarialcancer (EOC) er en av de dødeligste kreftformer, med stor grad av tilbakefall og dårlig overlevelse [1]. De genetiske avvik observert i EOC er svært kompleks, som består hyppig Aneuploidy og formere omorganiseres kromosomer [2], [3]. Den heterogenitet av kopinummer endringer (CNA) observert i EOC har gjort det vanskelig for små studier for å være i stand til å nøyaktig identifisere den sanne frekvens av den mindre vanlige CNAs eller reproduserbart identifisere CNAs som korrelerer med kliniske parametre. En liten utvalgsstørrelse gjør det også vanskelig å identifisere CNAs som co-eksisterer eller er gjensidig utelukkende, noe som er en forutsetning for å identifisere noen felles trasé som kan deregulerte i EOC gjennom endringer i genkopitallet. Paradigmet for gjensidig utelukkende avvik rettet mot samme bane ble satt i tykktarmssvulster for

APC Hotell og

CTNNB1

mutasjoner [4] og utvidet i andre eksempler som eksklusivitet av

BRAF

og

KRAS

mutasjoner [5]. Omvendt er andre genetiske avvik oftere observert i samme svulst enn det som ville ha vært forventet ved en tilfeldighet, noe som tyder på en co-operative effekt, for eksempel signifikant sammenheng med 11q13 og 8p12 amplikonene i brystkreft [6]. I eggstokkreft, har assosiasjoner er funnet mellom

CCNE1 Hotell og 12p forsterkning [7], og mellom

MYC Hotell og 20Q forsterkning [8] av fluorescens

in situ

hybridisering. Få studier har undersøkt co-operativity eller komplementering av CNA på et genom-wide basis. Tap på 4Q og 18q ble funnet å være assosiert i en studie [9], men dette ble ikke kopiert i en fersk analyse [10], som identifiserte 7 CNA foreninger og 6 anti-sammenhenger.

tilstedeværelsen av høy nivå genet amplifikasjoner i ovarian cancer er blitt observert i noen tid, men de fleste studier har blitt underpowered i prøvestørrelse [10] eller genomisk oppløsning [11], [12] for nøyaktig bestemmelse av frekvensen og målet for disse hendelsene. Tilsvarende har noen robuste sammenslutninger av CNA med kliniske parametre som overlevelse er identifisert [13], [14]. Påvisning av disse CNA er relevant ikke bare til identifisering av kreft undergrupper og trasé berørt i svulstene, men også til målretting av molekylære terapier i eggstokkreft. I denne studien har vi samlet et stort kohort av enkeltnukleotidpolymorfi (SNP) kartlegging array-data til robust kommentere CNAs i serøse og endometrioid eggstokkreft for å identifisere gener målrettet av disse genetiske hendelser og hvordan disse relateres til kliniske parametre. I tillegg har vi vurdert samspillet av CNA ved å evaluere deres foreninger og anti-foreninger

Materialer og metoder

Peter MacCallum Cancer Centre (PMCC) datasett:. Vevsprøver og DNA-ekstraksjon

Alle prøver ble samlet inn med pasientens informerte samtykke og studien ble godkjent av alle deltakersykehusmenneskeforskningsetiske komiteer. Pasienter med eggstokkreft ble identifisert gjennom fire primærkilder mellom 1992 og 2006: a) 53 ved sykehusene i Southampton, UK, b) 141 gjennom den australske Ovarian Cancer Study, inkludert 20 fra Westmead Gynekologisk onkologi Tissue Bank, c) 15 gjennom PMCC Tissue Bank (Melbourne, Australia) og d) 41 fra Jikei University (Tokyo, Japan). Patologi anmeldelsen ble gjennomført fra enten formalinfiksert, parafininnebygd vev og /eller fersk frosset seksjoner ved siden av vev som DNA ble ekstrahert (n = 141) eller gjennom undersøkelse av de opprinnelige diagnostisk patologi rapporter (n = 109) (tabell 1 tabell S1).

Alle vevsprøver ble samlet som fersk frosset materiale. En representant haematoxylin og eosin farget delen ble vurdert og prøver med 80% epitelceller ble brukt direkte for DNA-ekstraksjon fra hele vev. Til resten ble det nål eller laser disseksjon utført ved anvendelse av 10 pm seksjoner for å oppnå høy prosentandel tumor epitelial cellekomponent. DNA ble ekstrahert som tidligere beskrevet [14], [15]. Normal DNA ekstrahert fra blod lymfocytter var tilgjengelig for 106 pasienter

The Cancer Genome Atlas (TCGA) datasett. Vevsprøver og DNA-ekstraksjon

Prøver ble samlet inn som Dypfryst materiale fra sykehusene i USA (n = 163). Tumorprøver ble vurdert til å være 80% av epitelceller forut for DNA-ekstraksjon fra hele vev, som beskrevet [16]. Normal DNA ekstrahert fra blod lymfocytter var tilgjengelig for 161 pasienter. Resultatene er publisert her er delvis basert på data generert av The Cancer Genome Atlas pilotprosjekt etablert av NCI og NHGRI. Informasjon om TCGA og etterforskerne og institusjoner som utgjør TCGA forskningsnettet kan bli funnet på https://cancergenome.nih.gov.

Kopier nummer arrays

Prøver ble behandlet som tidligere beskrevet for Affymetrix Kartlegging arrays a) n = 108 50 K

Xba

jeg [14], GSE 13813 b) n = 27 250 K

svinesti

I arrays c) n = 32 500 K arrays (250 K

svinesti

jeg og 250 K

Nsp

jeg, [17]) d) n = 83 SNP6.0 (1,8 M probe sett [15], [18], GSE19539). Når tilgjengelig, matchende normal DNA ble også analysert på samme array plattform og i samme batch. TCGA SNP6.0 CEL filer for 163 prøver ble lastet ned fra Portal (https://tcga-data.nci.nih.gov/tcga/homepage.htm).

Data pre-prosessering og analyse

Alle SNP Kartlegging matriser ble først normalisert ved hjelp av metoder som er tilgjengelige i R pakken «aroma.affymetrix» [19], inkludert teknikker for å fjerne systematiske skjevheter introdusert på grunn av allel krysstale, PCR fragment lengde skjevhet og forskjeller i GC innhold . DNA-kopitallet ble bestemt sonde innstilt messig ved å sammenligne det normaliserte signal fra en tumorprøve til data fra normal lymfocytt-DNA fra den samme pasient, hvis tilgjengelig. På tumorprøver hvor det matchet normalt vev var ikke tilgjengelig, det gjennomsnittlige signal fra alle normaler som genereres i det samme laboratorium ble anvendt som referanse. Kvalitetskontrolltrinn er beskrevet i Methods S1. Bare de inkluderte prøvene er oppsummert i tabell 1.

Den sirkulære binære segmentering metoden ble brukt til å segmentere kopinormaliserte data [20], [21]. Eventuelle probe sett innenfor en CNA som var til stede i 5% av normale prøver ble ekskludert fra svulsten analyse før segmentering for å fjerne vanlig kopitall polymorfismer (CNP). Segmenter med færre enn 10 probe sett (SNP6) eller 5 probe sett (500 K) ble slått sammen med tilstøtende segment av nærmeste kopiantall som tidligere QPCR analyse antydet at avvik representert av noen sonder på disse plattformene ikke kan være pålitelig [17]. I tillegg brukte vi Genomisk Identifisering av vesentlige mål i Cancer (GISTIC), som er en metode som samler data over ulike svulstene å prøve å skille mellom fører- og passasjer avvik, kombinere utbredelsen og amplitude [22]. Denne teknikken ble utført ved hjelp av en web-basert grensesnitt (https://genepattern.broadinstitute.org) med CNA terskler på ± 0,3, minimum 10 markører og en q-verdi terskel på 0,25.

For hierarkisk clustering, alle tumorer ble vurdert med hensyn til nærvær ( «1») eller fravær av ( «0») av hvert GISTIC topp endring (n = 89), hvor en eventuell overlapping ble ansett som tilstedeværelse. Hierarkisk clustering bruker gjennomsnittlig euklidsk gruppering av prøvene (n = 398) ble utført ved hjelp av Partek Genomics Suite v.6.4 (Partek Inc., St. Louis, MO).

Association mellom regioner avvik

Vi foretok analysen av foreningen på TCGA datasett (som vi re-løp GISTIC) og deretter på de resterende prøvene. To forskjellige metoder ble brukt for å beregne sammenhenger mellom regioner i gevinst og tap. GISTIC resultatene ble oppsummert som en matrise X med svulster som rader og regioner avvik som kolonner. For hver tumor (t) og fokale området av avvik (i), er målingen X [t, i] var en hvis avvik var tilstede for at tumoren og 0 på annen måte. En Poisson log-lineær modell ble plass til beredskaps tabellen beskriver aberrasjon status. Statistisk signifikans av foreningen ble beregnet ved hjelp av en poengsum test som gir en standard normal z-statistikk [23]. Dette tilsvarer kvadratroten av den vanlige Pearson testobservator for uavhengighet, signert i henhold til retningen av foreningen. Den Benjamini og Hochberg metoden ble brukt til å korrigere for flere testing [24].

Sammenheng mellom regioner avvik ble også testet ved hjelp av Monte Carlo permutasjon test. Kort fortalt ble hver kolonne i matrisen X permuted uavhengig (opprettholde antall oppføringer i kolonnene til å være den samme). En score for foreningen ble beregnet ved hjelp av permuted matrise som beskrevet for parametrisk test ovenfor. Den gjennomsnittlige rangering oppnådd for hvert par av regioner fra et stort antall permutasjoner ble brukt til å estimere den falske oppdagelse hastighet og antall ganger en test statistikk er høyere enn eller over den opprinnelige teststatistikken ble brukt til å beregne p-verdi. Ved hjelp av en 5% falske funnrate metodene valgte 98% av de samme par av regioner. Vi valgte å bruke den første metoden beskrevet for region utvalg, men begge er rapportert.

Analyse av uttrykk korrelasjoner mellom forbundet kopi antall avvik

Vi hevdet at korrelasjonen mellom regioner av avvik skal resultere i sammenheng mRNA nivåene av genene i regionen. Affymetrix U133A array-data ble oppnådd for alle prøver fra TCGA. For alle tilhørende regioner ovenfor, ble fire Pearson korrelasjonstester utført for genene i regionene: a) korrelasjon av kopiantall mellom Gene X i Region A og Gene Y i Region B, b) sammenheng mellom kopiantall og uttrykk av Gene X i Region A, C) korrelasjon mellom kopiantall og uttrykk av Gene Y i Region B og d) korrelasjon av uttrykk mellom Gene X og Gene Y. Alle fire testene måtte være signifikant på p. 0,05

Overlevelses foreninger

den Cox proporsjonal risikomodell ble brukt til å beregne sammenhengen mellom regioner av avvik oppdages av GISTIC og generelle eller progresjonsfri overlevelse, korrigere for multippel testing med Benjamini-Hochberg metoden. Å beregne overlevelse krets med to og to regioner, ble prøver klassifiseres i fire grupper basert på avvik status av parene av regionene. Tilsvarende for de genomiske tiltak, prøver ble binned inn i en av fire grupper basert på data iler for hvert tiltak. Survival tilknytning gruppene dermed identifisert ble beregnet ved hjelp av Cox proporsjonal risikomodell.

Resultater

Integrering av eksemplar nummer endringer fra 398 ovariekarsinomer

Vi utarbeidet kopiantall høy oppløsning data fra nesten 400 eggstokkreft prøver som representerer to histologiske subtyper, serøs og endometrioid (tabell 1), 270 av dem hadde matchende normale lymfocytter DNA-data. Data ble samlet fra flere kilder: høykvalitets Affymetrix SNP6.0 Kartlegging Array «CEL» filer ble hentet gjennom Kreft Genome Atlas (TCGA, 157 tilfeller) eller ble oppnådd ved Peter MacCallum Cancer Centre (83 tilfeller [18]) SNP Mapping array-data fra lavere oppløsning Affymetrix plattformer, inkludert 108 tilfeller analysert på 50 K

Xba

i arrays [14], 27 tilfeller på 500 K arrays [15] og 23 tilfeller på 250 K

Sty

I arrays hentet fra Japan, ble også inkludert. Omfattende kvalitetskontroll kriterier ble brukt på alle datasett (se Metoder S1). Etter normalisering av hvert datasett, kopiere nummer endringer (CNA) ble oppdaget av sirkulær binær segmentering [21]. Vi evaluerte en rekke muligheter for å kombinere datasettene inkludert kohort-spesifikke terskler (se Metoder S1), men dette gjorde liten forskjell til den endelige CNA mønster og en standard terskel på +/- 0,3 (log

2) ble påført universelt som tidligere beskrevet av oss [17] og andre [10].

Sammenligning mellom de fem datakildene viste en bemerkelsesverdig konsistens på CNA over hele genomet, noe som indikerer en høy grad av ikke-tilfeldighets til CNA og like viktigst, et fravær av vesentlige rekke batch effekter (figur S1). Unntaket var den japanske datasettet, som syntes å vise et redusert antall endringer. Men et genom-wide test ble gjennomført for å identifisere regioner avvikende på ulike frekvenser mellom ulike plattformer, og kunne ikke identifisere noen statistisk signifikante regioner etter gjen testing korreksjon.

Vi vurderte muligheten for molekylære undergrupper innenfor kombinerte gruppen definert ved kopi nummer ved hjelp av hierarkisk clustering (figur S1). Bare en enkelt gruppe av prøvene var gjenkjennelig; disse hadde noen CNAs og tendens til å være lav grad av vareprøver eller de japanske prøver, som klasse informasjon var stort sett ikke tilgjengelig. Det var ingen andre distinkte klynger eller store grupperinger som kan henføres til histologisk subtype eller klasse. Spesielt ble det høy klasse serøs og høy klasse endometrioid jevnt integrert, noe som er i tråd med tidligere observerte likheten av disse subtypene som vurderes ved hjelp av immunhistokjemiske markører [25] og genuttrykk profiler [26].

For å identifisere de mest relevante CNAs vi gjennomført en rekke utfyllende analyser som hver metode som brukes har styrker og svakheter som kan bli supplert med den andre. For det første, GISTIC ble påført på alle 240 SNP6 prøver for å identifisere «knutepunkter» og «brede» topper (som definert i [22]) (figur 1, tabell S2). Imidlertid kan GISTIC ikke lett integrere prøver fra forskjellige plattformer. Vi har derfor valgt å bruke en annen komplementær metode for å GISTIC: en samlet frekvens tilnærming som vil integrere segmentert kopiantall data uavhengig av plattform for å analysere hele 398 prøve kohort. Som forventet, var de mest signifikante regioner av kopiantallet vinning forutsett av både GISTIC og samlet frekvens som ligger på 3q (63% av prøvene med CN gain) og 8q (62% prøver med CN gain) (figur 1). Andre vanlige gevinster ble observert på 20Q (47%) og 12 p (39%). De vanligste områdene av tap som er identifisert i denne studien (kromosomer X, 8p, 22q, 17, 4Q, 19p og 16, 40%) er i samsvar med tidligere studier av oss [15] og andre [10], [27] . For å velge de mest relevante gener, vi først rapportere de i regioner av gevinst og tap med minst 30% frekvens eller i GISTIC topper og deretter identifisert gener som også ble angrepet av høyere amplitudebegivenheter selv om dette var på en lavere frekvens (tabell S2 ). Siden det er ingen bred enighet om hva som utgjør en «high-level» forsterkning, rapporterer vi områder med hyppige gevinster ved pålogging

2 prosenter av 0,6 (i 40 eller flere prøver, 10% +), 0,8 ( 5% +) og 1 (2,5% +). For tap, vurderte vi homozygot slettinger (log

2 prosenter av -1) til stede i minst 4 prøver. Listen av gener ble prioritert å ta hensyn til frekvensen for høy-amplitude CNA og overlappen med GISTIC (tabell 2 og 3). Spesifikke områder av forsterkning er vist i figurene S2, S3, S4, S5, S6 og S7.

Gevinst (A) og tap (D) i 240 eksempler på SNP6 arrays analysert ved GISTIC. Gevinst (B) og tap (C) i 398 prøver på ulike matriseplattformer. Eksempel på segmenter ble overlappet i Partek Genomics Suite v 6.4, og skaper et datapunkt for hvert segment definert av kopitall brytningspunkt, og deretter plottet av prøvenummer.

Ved å bruke denne fleksible tilnærming har vi funnet at noen regioner var bare tydelig identifisert ved den ene eller den andre metoden. Ved å inkludere en rekke høyere amplitude CN terskler og toppene spådd av GISTIC, ble flere regioner identifisert som gevinster på kromosomene 1, 6p, 11q, 19 og tap på 5q, 6q26, 10q23, 13q og 18q22. I tillegg er det på høy oppløsning plattformer som SNP6 array, GISTIC tendens til å identifisere svært små områder, potensielt mangler relevante gener. For eksempel, på 3q26 var det to tett adskilte topper av betydning i GISTIC profil (fig S2). Den høyeste av disse, med en meget smal margin (-log q verdi 93,88

vs

. 93,43), ikke skjærer noen gener, mens den andre toppen lapper med

Mecom plakater (

MDS /EVI1

); Det er god dokumentasjon for dette genet er et onkogen i eggstokkreft [28]. Dermed avhengig GISTIC alene ville kommentere den 3q26 region som å ha noen gener av interesse. I kontrast, med en frekvens tilnærming, terskler maksimal frekvens i det hele tatt kopi nummer Omfatter

Mecom

.

På samme måte var det andre regioner for som ved hjelp av en frekvens tilnærming tapte gener eller ga motstridende data. For eksempel på 19q12, hvert eksemplar nummer terskel identifisert en litt annen region av peak frekvens, vekslet identifisere

CCNE1

,

C19ORF2

eller ingen gen i toppen (Figur S3). I motsetning til dette, evne til GISTIC å integrere amplituden av forsterkningen i alle prøvene klart identifisert

CCNE1

som genet i toppen. Det er god dokumentasjon på at

CCNE1

er riktig samtale siden Cyclin E er en viktig cellesyklus protein og dens forsterkning og over uttrykket har tidligere blitt identifisert som en sentral pådriver for pasientens respons på kjemoterapi i serøs ovarialcancer [14 ]. Store konklusjonene fra vår analyse av enkelt strykninger og amplikonene, inkludert innsikt i potensielle driver gener, er gitt i diskusjonen.

Foreninger mellom CN endringer

Konseptet med samarbeidende og gjensidig utelukkende genetiske endringer har sjelden blitt undersøkt på nivået av CNAs eller på en genom-bred skala. Vi ønsket å vite om det er noen CNAs som samarbeider i eggstokkene tumorigenesis, eller som er funksjonelt overflødig til hverandre, for eksempel hvis de opptrer i samme bane. For å måle denne vi vurdert om det var noen CNAs som var mer eller mindre sannsynlighet for å være forbundet med hverandre, mer enn ved en tilfeldighet, ved hjelp av en statistisk analyse. I korthet, vi telles antall prøver positive for CNA (for eksempel en forsterkning) ved området A alene, region B alene, både regioner og hverken region, og sammenlignet med resultatene til den forventede samtidig forekomst basert på den totale frekvensen av CNA ved A multiplisert med frekvensen av B. for eksempel, for en frekvens på forsterkningen ved 20q11 av 68/183 (37%) og ved 19q12 av 50/183 (33%), vil vi forvente 12% av prøvene for å ha både gevinster. Men ser vi en faktisk frekvens av prøver med både endringer som er vesentlig forskjellig fra dette, dvs. 35/183 (19%, p 0,0001), noe som indikerer en økning i co-forekomst over nivået av tilfeldigheter og dermed muligens samarbeide CNAs. Fremgangsmåten kan også være like brukt til å påvise reduksjon i co-forekomst. Når skattyter metoden genom-wide, søkte vi en multippel testing korreksjon med en FDR av. 5%

Vi foretok denne analysen først ved hjelp av TCGA data, som det er mest homogent for klasse og subtype, og er høy oppløsning. Vi gjentok GISTIC analyse på dette datasettet alene for å oppnå 46 toppene i kopiantallet gevinst og 27 tap (eksklusive områdene i normal kopi nummer variasjon, eller kopi nummer polymorfismer (CNPs)). Prøver ble identifisert til å være positiv eller negativ for hver CNA topp, med gevinst topper scoret som positive for gevinster bare og taps topper scoret som positivt for bare tap, og en analyse av foreningen ble utført som beskrevet i metodene. På en falsk funnrate på 5%, ble 305 par av regioner av aberrasjon positivt korrelert og 18 par ble negativt korrelert (tabell S3, figur 2). Noen samtidig forekommende GISTIC topper ble plassert innenfor det samme brede GISTIC region, og selv om GISTIC analyse indikerte at disse regionene av kopiantallet forandring var tydelig, fordi de er fysisk nært knyttet sammen at de ikke kan være uavhengige av hverandre. Som uavhengighet er nødvendig for foreningen test utført, ble de ikke analysert videre. Vi har også utelatt de foreninger som enten peak var en CNP, forlater 98 par av regioner som er positivt korrelert, alle, men 16 av disse ble plassert på forskjellige kromosomarmer (Tabell 4). 12 par regioner er negativt korrelert.

(A) Prosess for å identifisere tilhørende avvik (mer detalj i Methods S1). (B) Sammendrag av vesentlige foreninger i hvert datasett og de betydelig i begge. Som tabellen utvikler seg, blir visse forbindelser filtreres ut, med tallene resterende de som passerer filteret. For det første er forbundet loci som er innenfor det samme brede GISTIC intra-kromosomale region fjernet, og for det andre områder som overlapper med en CNP fjernes. (C) Circos plot. Ytre ring indikerer kromosom posisjonen til hver aberrasjon (farge barer). De interne lilla linjene viser de betydelige inter-kromosom foreninger (eksklusive de som involverer en CNP) som har blitt validert i andre datasett.

For å validere foreninger identifisert ved hjelp TCGA data, vi gjentok foreningen analyse ved hjelp av den samme «TCGA GISTIC-definerte» områder som over på alle andre høy klasse serøs og endometrioid prøver (n = 183). For dette datasettet, ble 296 regioner positivt korrelert og fem ble negativt korrelert. Overall, 29 positive assosiasjoner og ingen negative var felles mellom de to datasettene (figur 2). Av disse 14 var assosiasjoner mellom to gevinster, hvorav 11 var på samme kromosom, og 14 foreninger var mellom to tap. Ingen av de tap-tap foreninger var intra-kromosom, fordi alle sammenslutninger av denne typen ble ekskludert enten for å være plassert i samme brede GISTIC region eller for å være en CNP; ja, flere av GISTIC peak tapene var CNPs (n = 35) i forhold til de gevinster (n = 15) sannsynligvis på grunn av avsløring effekt tap av heterozygositet har på CNP deteksjon i svulsten [29]. Det var en enkel sammenheng mellom en gevinst og tap, mellom en amplicon på 20q11 og tap av Xq. Den sterkeste positiv sammenheng mellom gevinster på ulike kromosomer var for presiseringer på kromosom 19q12 (mest sannsynlig målretting

CCNE1

) og 20q11 (fem gener). For tap, den sterkeste felles foreningen var mellom kromosom 4. kvartal og kromosom 17. 17q12 tap var den mest promiskuøse Interactor, med 8 vanlige positive assosiasjoner.

Vi identifiserte genene som ligger i eller nær positivt tilhørende topper og brukes genuttrykk data for å evaluere hvorvidt noen av de gener som viste korrelasjon mellom kopiantall og ekspresjonen, og hvis det var korrelasjon på nivået av genekspresjon på tvers av regioner (Tabell S4). Vi fant ut at de sterkeste assosiasjoner på tvers av regioner involvert gener fått på 19q12 eller 19p13.11, og gener fått på 20q11. Andre positive genekspresjon foreninger inkludert

CD47 plakater (fått på 3q13.12) med

UQCRFS1

eller

POP4 plakater (begge tjente på 19q12). CD47 ble først identifisert som en ovarial tumor antigen [30], men det er ingen kjent funksjonell sammenheng med enten 19q12 partner.

Sammenheng med kliniske parametre og utfallet

Vi brukte TCGA kliniske data til vurdere forholdet mellom antall kopier og pasient utfall ved hjelp av en univariat Cox analyse på GISTIC topper (tabell S5). Gevinst ved 3q29 var assosiert med total overlevelse, men denne sammenhengen var ikke signifikant etter flere tester korreksjon. Positive CN sammenslutninger av 17q12 /22q tap og 3q13 /19q12 gevinster ble hver korrelert med total overlevelse, men ikke progresjonsfri overlevelse (tabell S5).

Spesifikke mønstre av kopiantallet endring og genetisk ustabilitet som korrelerer med pasientens resultater inkludert simplex, sagtannet og storm, er beskrevet i brystkreft [31]. Mønstrene av kromosomavvik i eggstokkreft er vanskelig å kategorisere inn i grupper som beskrives av Hicks

et al

. som de fleste er en kombinasjon av sagtannet og storm. Derfor har vi definert en rekke ulike mål på genom ustabilitet og analysert deres korrelasjon med pasientens resultater ved bruk av TCGA datasett (tabell S5). Disse tiltakene følger: antall kopinummeret endres dvs. gevinster, tap, høyere nivå gevinster ( 0,6 log

2 amplitude) og totalt antall segmenter; andelen av genomet målrettet av kopiantall endring (gevinst, tap og høy gain); og en «Hicks indeks» som beskrevet [31] for gevinster, tap og begge deler. Prøvene ble delt inn i kvartiler basert på hver av disse indeksene og testet for assosiasjon med klinisk utfall ved hjelp av en univariat Cox analyse. Av disse tiltakene, kun antall høyere amplitude gevinster (p = 0,019) viste en sammenheng med progresjonsfri overlevelse, men ikke total overlevelse (figur S8). Prosentandelen av genomet omfattet i høyere nivå gevinst var ikke signifikant (p = 0.88), noe som tyder på at det ikke er den andelen av DNA amplifisert men antall forsterknings hendelser som er viktigst.

diskusjon

Aneuploidy og cytogenetiske avvik har lenge vært anerkjent som kreft kjennetegn. I epiteliale kreftformer, har kopi nummer endringer vist seg å være førere av kreft fenotype gjennom forsterkning og over uttrykk for onkogener som

ErbB2 Hotell og tap av tumordempere som

CDKN2A

. Eggstokkreft er både heterogene og cytogenetisk kompleks som gjør det vanskelig å dechiffrere de viktigste genomiske regioner rammet av CNA. Tidligere studier har generelt vært underpowered med hensyn til oppløsning og /eller prøvenummer, på det meste bestående av rundt 100 tilfeller [10], [11], [12]. Denne studien bringer sammen en stor samling av eggstokkene karsinomer profilerte for kopiantall, som vi har analysert ved hjelp av både GISTIC og frekvens tilnærminger for å gi en definitiv annotering av driver endringer. Viktige regioner er oppsummert i Tabellene 2 og 3, mens en mer omfattende katalog, som omfatter forening av begge metoder er gitt i Tabell S2. På grunn av det store antall gener og regioner som er involvert, er det ikke mulig å ta opp alt i detalj, men de regionene som er nevnt nedenfor illustrerer noen av de innsikter som stammer fra arbeid med denne store datasett.

Vi har valgt å bruke utfyllende analytiske tilnærminger som hver teknikk har sine egne styrker og svakheter: en frekvens tilnærming for regioner som 3q26 var bedre i stand til å identifisere den sannsynlige driver genet,

Mecom

, mens for 19q12 evne GISTIC å integrere omfanget av kopi nummer gevinst for hver prøve identifisert

CCNE1

. Ved hjelp av en lagdelt frekvens tilnærming på konsert med GISTIC gitt en større dybde på forståelse i komplekse områder som det ikke er noen klar driver. Tidligere studier har identifisert en forsterkning på kromosom 11 i 18% av eggstokkreft, og har foreslått at målet genet for denne hendelsen er

EMSY product: (

C11ORF30

) [32]. I andre krefttyper, som brystkreft, kan toppen forsterkning i denne regionen være annerledes, målretting

EMSY Hotell og /eller

CCND1 product: [33], [34]. I de data som presenteres her, vil ikke hoved amplicon ikke ut til å være rettet mot

CCND1

, som er 5 Mb utenfor topp-regionen (figur S4). GISTIC identifiserer en topp som omfatter fire gener (

THRSP

,

NDUFC2

,

ALG8 Hotell og

KCTD21

), forsterkning av disse har vært vist i brystkreft å korrelere med over-uttrykk og dårlig overlevelse [35]. Den hyppigst rettet gen av lav-nivå forsterkningen er

GAB2 plakater (30%).

Legg att eit svar