PLoS ONE: Discovery Analyse av TCGA data avslører foreningen mellom kimcellelinje Genotype og overlevelse i Ovarian Cancer Patients

Abstract

Bakgrunn

Eggstokkreft er fortsatt et betydelig folkehelsebyrde, med høyest dødelighet av alle gynekologisk kreft. Dette skyldes sent stadium der de fleste av eggstokkreft er diagnostisert, kombinert med lav og variabel respons av avanserte svulster til standard kjemoterapi. Til dags dato fortsatt mangler klinisk anvendelige prediktorer for behandlingsrespons. Identifisere de genetiske faktorer som bestemmer eggstokkreft overlevelse og behandlingsrespons er avgjørende for utviklingen av prognostiske biomarkører og personlige behandlinger som kan forbedre resultatene for de sene stadier av pasienter som utgjør flertallet av tilfellene.

Metoder

for å identifisere konstitusjonelle genetiske variasjoner som bidrar til eggstokkreft dødelighet, vi systematisk undersøkt assosiasjoner mellom germline polymorfismer og eggstokkreft overlevelse ved hjelp av data fra kreft~~POS=TRUNC Genome Atlas Project (TCGA). Bruke scene-stratifisert Cox regresjon, undersøkte vi 650 000 SNP loci for tilknytning til overlevelse. Vi i tillegg undersøkt om foreningen av betydelige SNPs med overlevelse ble modifisert ved somatiske endringer.

Resultater

kimcellelinje polymorfismer på rs4934282 (AGAP11 /C10orf116) og rs1857623 (DNAH14) var assosiert med scene justert overlevelse (= 1.12e-07 og 1.80e-07, FDR = 1,2E-04 og 2.4E-04, henholdsvis). En tredje SNP, rs4869 (C10orf116), ble i tillegg identifisert som betydelige i exome sekvense data; det er i tilnærmet perfekt LD med rs4934282. Assosiasjonene med overlevelse forble signifikant når somatiske endringer.

Konklusjoner

Disco analyse av TCGA data avslører germline genetiske variasjoner som kan spille en rolle i eggstokkreft overlevelse selv blant sent stadium tilfeller. De betydelige loci ligger i nærheten av gener som tidligere er rapportert å ha en mulig sammenheng med platina og taxol respons. Fordi variant lene på de betydelige loci er vanlige (frekvenser for rs4934282 A /C-alleler = 0,54 /0,46, henholdsvis; rs1857623 A /G-alleler = 0,55 /0,45, henholdsvis) og germline varianter kan analyseres invasivt, våre funn gi potensielle mål for videre leting prognostiske biomarkører og individualisert behandling

Citation. Braun R, Finney R, Yan C, Chen QR, Hu Y, Edmonson M, et al. (2013) Discovery Analyse av TCGA data avslører foreningen mellom kimcellelinje Genotype og overlevelse i eggstokkreft pasienter. PLoS ONE 8 (3): e55037. doi: 10,1371 /journal.pone.0055037

Redaktør: Amanda Ewart Toland, Ohio State University Medical Center, USA

mottatt: 09.11.2011; Godkjent: 21 desember 2012; Publisert: 21 mars 2013

Dette er en åpen-tilgang artikkelen, fri for all opphavsrett, og kan bli fritt reproduseres, distribueres, overføres, endres, bygd på, eller brukes av alle for ethvert lovlig formål. Arbeidet er gjort tilgjengelig under Creative Commons CC0 public domain engasjement

Finansiering:. Forfatterne er støttet av egenutført Research Program av National Cancer Institute, USA National Institutes of Health, Bethesda, MD. Det var ingen eksterne finansieringskilder for denne studien. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

eggstokkreft står for om lag tre prosent av alle krefttilfeller hos kvinner og er den femte største årsaken til kreft dødsfall blant kvinner i USA, med en aldersjustert insidensrate på 12,8 per 100 000 kvinner per år og dødeligheten på 8,6 per 100 000 kvinner per år (2003-2007) [1]. Av de gynekologisk kreft, har eggstokkreft høyest dødelighet, med en samlet fem års overlevelse på 43,7% for hvite kvinner og 34,9% for svarte kvinner [1]. De fattige overlevelse statistikk er knyttet til sent stadium hvor eggstokkreft er diagnostisert på grunn av deres asymptomatisk naturen: mens stadium I svulster har en 92,4% relativ overlevelse, de står bare for 15% av eggstokkreft diagnoser; derimot, scene III og IV kreftformer har overlevelse på henholdsvis 34% og 18%, og sammen står for 65,4% av diagnosene [1]. Response til standard kjemoterapi (platina pluss taxan) er svært variabel [2], [3], og har en tendens til å være dårlig for avanserte tilfeller [2]. Å forstå de genetiske faktorer som bestemmer eggstokkreft overlevelse og respons på behandling kan forbedre disse statistikk, særlig for scene III og IV pasienter som utgjør de fleste tilfeller. Spesielt identifisere variasjoner som forutsier respons på kjemoterapi åpner for muligheten av å administrere alternative terapier som kan bedre resultater.

Tidligere studier har undersøkt rollen av genetisk variasjon i ovarian cancer susceptibility, progresjon, behandlingsrespons, og overlevelse . Det har blitt vist at BRCA1 /2 germline mutasjoner bidra til 10-15% av tilfellene [4], og analyse av data fra Kreft Genome Atlas Project (TCGA [5]) har også vist at det BRCA1 /2 germline mutasjon, somatisk mutasjoner og promoter metylering virkning eggstokkreft overlevelse [5]. I tillegg er kandidat genet studier vist at polymorfismer i MDM2, sammen med TP53 status og SULF1, er forbundet med ovariekreft overlevelse [6] – [8]. Nylig, Huang og medarbeidere rapporterte en genetisk variant er forbundet med karboplatin cytotoksisitet in vitro og in vivo [3], et funn som kan forklare differensial respons til standard platina-baserte ovarian cancer terapi. De samme forfatterne senere viste at de identifiserte locus regulerer mirnas som bidrar til platina følsomhet, noe som tyder på en virkningsmekanisme [9].

Til dags dato, men en klinisk nyttig genomisk markør for eggstokkreft overlevelse fortsatt ukjent. Platina-forbundet SNP forsket av Huang ble ikke funnet å være signifikant assosiert med overlevelse i en validerings kohort [3]. Likeledes, Bolton og medarbeidere lykkes identifisert flere loci forbundet med eggstokkreft følsomhet, men de som de opprinnelig funnet å være assosiert med overlevelse klarte å nå betydning i valideringssettet [10], men det er å håpe at fremtidige studier av denne gruppen vil resultere i etablerte foreninger med klinisk utfall [10]. Mens tumor-genekspresjon signaturer prediktive for behandlingsrespons og tilbakefall er blitt rapportert (f.eks, [11], [12]), deres kliniske nytte er begrenset av kostnaden, invasivitet og variabilitet iboende i å vurdere tumor genekspresjon. Likeledes, somatiske kopitall endringer i enkelte gener har nylig blitt rapportert å påvirke overlevelse [13], men nytten av å måle CNV som en prognostisk test er tilsvarende begrenset.

The Cancer Genome Atlas Project (TCGA [5] ) gir en samling av genomisk og kliniske data der assosiasjoner mellom genetikk og overlevelse kan bli grundig utforsket. Her gjennomfører vi et genom-wide-analyse for å systematisk undersøke assosiasjoner mellom

kimcellelinje

genetisk variasjon og total overlevelse i TCGA pasienter diagnostisert med kreft i eggstokkene (serøs cystadenocarcinoma) [14]. Pasientene hadde en alder og trinn fordeling som er typisk for ovarial cancer, slik som vist i tabell 1. Ved hjelp av den kliniske og Affymetrix SNP6.0 ( «SNP6») genotypen data, identifiserte vi to enkeltnukleotidpolymorfi (SNP) loci ved hvilken kimlinje genotypen er prediktive for total overlevelse i eggstokkreft pasienter. Foreningene er fortsatt betydelig etter justering for scene, og er assosiert med overlevelse selv blant stadium III pasienter. Dette tyder på at grunnlovs genetisk variasjon kan spille en rolle i behandlingsrespons og gir en potensiell avenue for en ikke-invasiv prognostisk biomarkør test.

Resultater

Her rapporterer vi sammenhengen mellom germline SNPs og pasient overlevelse ved hjelp TCGA ovarialcancer data. De filtrerte data består totalt 662,521 SNPs analysert hos 489 klinisk kommenterte eggstokkreft prøver, med scene og aldersfordeling som gitt i tabell 1. Hver av de 662,521 SNPs oppfyller filtreringskriteriene ble testet for tilknytning til overlevelse ved hjelp Cox regresjon justert for scenen ved hjelp av en ikke-additiv modell. To SNPs, rs4934282 (A /C) i genet AGAP11 (tidligere forbundet med C10orf116) og rs1857623 (A /G) oppstrøms DNAH14, viste en statistisk signifikant univariate tilknytning til generelle eggstokkreft overlevelse, som oppsummert i tabell 2. En tomt av-verdiene som oppnås er gitt i figur 1. Vi i tillegg beregnet for hvert enkelt allel fare forhold for disse SNPs ved hjelp av en additiv-modell, å skaffe HR = 0,599 (= 1.28e-08) for allelet ved rs4934282 og HR = 1,425 (= 1.70e-05) for allelet ved rs1857623. Det bør bemerkes at på grunn av den lille prøvestørrelsen, kraften for å detektere en SNP med MAF = 0,45 (da disse er) med = 1e-06 er 32% for HR = 0,6 og 3,5% for HR = 1,4; Det er derfor sannsynlig at andre SNPs med liknende effektstørrelser kan ha vært savnet ved en tilfeldighet i denne analysen.

quantile-quantile tomt for observerte verdiene for sannsynlighet ratio tester av scenen justert Cox-modeller versus forventet fordeling av verdier i henhold uavhengige nullhypotese. Poeng over linjen viser verdier som er mer betydningsfull enn forventet; en stor systematisk avvik fra denne linjen vil være en indikasjon på befolkningen understellet kjøring resultatene. De to SNPs identifisert som betydelige, rs4934282 og rs1857623, ligge godt over linjen og utenfor den lille systematisk avvik.

For å illustrere effekten av rs4934282 (AGAP11 /C10orf116) og rs1857623 (DNAH14 ) kimlinje-genotype på overlevelsen hos pasienter med lignende tumorstadium, Kaplan-Meier plot for det 372 trinn III pasienter er angitt i figurene 2 og 3. Spesielt, CC genotypen ved rs4934282 i AGAP11 /C10orf116 overfører en beskyttende effekt, nesten dobling median overlevelsestid over AA-genotype-gruppen. I tillegg kan pasienter med homozygot CC på rs4934282 har en fem-års overlevelse på 45%, sammenlignet med 34% totalt for Stage III pasienter [1].

Kaplan-Meier overlevelses tomter for teater III pasienter, stratifisert etter kimcellelinje genotype på rs4934282 (AGAP11): AA, svart; AC, blå; CC, red. Konfidensintervall er vist som et skyggelagt område rundt hver Kaplan-Meier kurve. Sensurerte observasjoner er merket med vertikale flått. De stiplede horisontale og vertikale linjene markerer 50% overlevelse og fem år (1825 dager) henholdsvis

Kaplan-Meier overlevelses tomter for teater III pasienter, stratifisert etter kimcellelinje genotype på rs1857623 (DNAH14):. AA, svart; AG, blå; GG, red. Konfidensintervall er vist som et skyggelagt område rundt hver Kaplan-Meier kurve. Sensurerte observasjoner er merket med vertikale flått. De stiplede horisontale og vertikale linjene markerer 50% overlevelse og henholdsvis fem år (1825 dager).

For ytterligere å undersøke variasjon i genomisk regionene rundt disse SNPs, vi undersøkte exome /capture sekvense data (for 375 pasienter med tilgjengelige germline data) på 100 KBP vinduer sentrert om de to SNPs identifisert som betydelige i SNP6 data, spesielt chr10: 88672456-88772455 og chr1: 223081228-223181227. For ti prøver med tilgjengelige hel-genomdata, var vi i stand til å sammenligne intronic rs4934282 og rs1857623 Affymetrix SNP6.0 samtaler til de fra hel-genomsekvensering, bekrefter gyldigheten SNP6 samtaler. Av de 29 exome /fangst SNPs testet (se tabell 3) i de 375 prøvene, bare rs4869 i C10orf116 forble signifikant etter justering for flere hypoteser (FDR = 9.89e-03). rs4869 ligger kp oppstrøms rs4934282 og er i tilnærmet perfekt koblingsulikevekt med rs4934282 (A /C på rs4934282 korrelere med C /T på rs4869, henholdsvis). rs4869 koder for et synonymt mutasjon i C10orf116 (Ile68Ile). Vi har også undersøkt om variantlene på noen av disse 29 loci ført til skadelige nonsynonymous protein endringer; bare fem SNPs hadde mis-sense allele varianter, hvorav ingen ble anslått til å være skadelig (tabell 4).

Til slutt, vi brukte data fra normal-paret tumorprøver for å vurdere om den sterke virkning av kimlinje-genotype på overlevelse var signifikant mediert eller moderert av tumor genekspresjon gevinst eller tap av kopiantall i svulsten, eller ved tap av heterozygositet (se File S1) for å teste hypotesen om at effekten av kimlinje-genotype på eggstokkreft overlevelse kan være påvirket av somatiske hendelser. Vi fant ingen signifikant sammenheng svulst genekspresjon, kopiere nummer variasjon, eller tap av heterozygositet i disse regionene med overlevelse (se Fil S1). Snarere den store effekten av germline genotype ved loci på pasientoverlevelse er uavhengig av disse somatiske endringene, og ser ut til å foreslå at konstitusjonelle genetiske variasjon i disse regionene spiller en rolle i behandlingsrespons.

diskusjon

Nylige studier har vist at vanlige genetiske varianter er forbundet med risiko for kreft i eggstokkene [15], [16]. Imidlertid er det fortsatt vanskelig å forutsi eggstokkreft overlevelse uavhengig av scenen; gjeldende kliniske funn viser at kreftsvulster og ekstrem resistens in vitro er ikke gode prediktorer for eggstokkreft overlevelse [17], [18]. I vår studie har vi omfattende testet SNPs analysert i TCGA SNP6.0 data for tilknytning til overlevelse, og i tillegg analyseres hel-genom og exome /fangst SNPs i genomisk regionene rundt de betydelige SNP6.0 SNPs. Vi identifiserte tre SNPs i to genomiske regioner som hadde en statistisk signifikant sammenheng med overlevelse. Som vist i tabell 2, hazard ratio for homozygot mindre alleler nærmet eller overskredet to ganger i scene-stratifisert Cox proporsjonal hazard modeller, og pr-allelet effekt størrelser for disse SNPs med en scene-lagdelt additiv genotype modellen var HR = 0,599 og HR = 1,425 for rs4934282 og rs1857623 hhv. Interessant nok er ingen av de somatiske variasjonene vi undersøkt (tumor-genekspresjon, kopinummer variasjon, og tap av heterozygositet) var forbundet enten med kimlinje-genotype på følgende loci eller med overlevelse, til tross for en rimelig hypotese at somatiske endringer i tumoren kan ha en effekt på genotype-overlevelse forening. Snarere disse SNPs er sterkt prediktiv overleve uavhengig av somatiske endringer som allerede hadde skjedd i tumor (se Fil S1).

To av overlevelses-forbundet SNPs ligger innenfor et 2200 bp region på kromosom 10 ( rs4934282 på chr10: 88732476 og rs4869 på chr10: 88730312) og er i tilnærmet perfekt LD i disse dataene. Dette genomisk region er assosiert med C10orf116 (chr10: 88727949-88730672) og AGAP11 (chr10: 88730498-88769960), som overlapper; den biologiske betydning av variasjonen probet ved rs4934282 og rs4869 kan være forbundet med enten. AGAP11 er medlem av ankyrin gjenta og GTPase domene Arf GTPase aktivere protein genet familie [19]. C10orf116 (også referert til som APM2) er et protein med ukjent funksjon som er homolog med middels kjedelengde hos pattedyr clathrin-assosiert protein-komplekset og er involvert i vesikulær transport i gjær. Den genomiske region inneholdende rs4934282 og rs4869 er vist i figur 4.

Detaljert beskrivelse av den genomiske regionen av kromosom 10 inneholdende rs4934282 (andre SNP fra høyre) og rs4869 (vist i grønt). Merk overlappingen mellom AGAP11 og C10orf116.

Mens litt før bevis eksisterer knytte AGAP11 til kreft mottakelighet, overlevelse, eller behandlingsrespons, finnes noen bevis for rollen som C10orf116. C10orf116 /APM2 uttrykk har vært innblandet i andre gynekologiske kreftformer; for eksempel, er blitt vist å sterkt skille mellom BRCA1 tilhørende brysttumorunderklasser ESR1-positive og ESR1-negative [20], og er blitt funnet å bli nedregulert i utering kreft i en rekke studier [21]. Mer nylig C10orf116 har vist seg å oppvise differensial ekspresjon i forskjellige patologiske grader av ovarialcancer [22] og i responsen av brystkreft til kjemoterapi [23], [24].

Enda viktigere er det eksisterer fra cellelinjer som peker til C10orf116 som en formidler av cisplatin motstand. Ovarian cancer er blitt behandlet med platinaforbindelser i mange år [25], [26], med cisplatin og karboplatin (som har en mer acceptible toksisitetsprofil) som en standardbehandling for nylig diagnostiserte stadium III eggstokk-kreft [26], [27 ]. Men mens mange pasienter svare på innledende behandling, de fem-års overlevelse forblir fattige (34% totalt for stadium III [1]). APM2 (C10orf1116) er blitt vist å fremme cisplatin motstand når den overuttrykkes i HCT116-cellelinjer som var følsomme for kjemoterapi og stråling [28], som tyder på en mulig mekanisme ved hvilken rs4869 og rs4934282 påvirke overlevelse. Stanse av APM2 av shRNA ble vist å øke den cytotoksiske effekten av cisplatin på tumorxenotransplantater dyrket i CD-1 nakne mus. I tillegg APM2 ble funnet å være overuttrykt i cisplatin-resistente magekreftcellene, men ikke i magekreftceller som er resistente mot 5-FU eller doksorubicin [29]. Flere nylig, ble det funnet at rs1649942, en SNP ligger 5 Mb oppstrøms rs4934282 /rs4869 hadde en beskjeden sammenheng med karboplatin-indusert cytotoksisitet og overlevelse av eggstokkreft pasienter etter karboplatin-basert kjemoterapi [3]. Selv om dette SNP klarte å nå betydning i sin fase 2 validering analyse (og heller ikke signifikant i vår studie), legger det til kroppen av bevis implicating dette genomiske regionen i platina følsomhet.

Den tredje store SNP, rs1857623 , er funnet i en intergenisk region på kromosom 1, 53 Kb oppstrøms DNAH14 og 136 Kb nedstrøms fra CNIH3. DNAH14 tilhører dynein tung kjede familie, en motor protein som festes til mikrotubuli og turer langs cytoskeletal mikrotubuli [30]. Den mekanismen som variasjon i DNAH14 kan påvirke overlevelsen er mindre klar. En mulig vei for fremtidige studier er dens potensielle rolle i sammenheng med taxol terapi: DNAH14 inneholder microtubule bindende stilken av dynein motor (pfam12777 på Sted: 2910-3244 referanse protein NP_001364.1), og det har blitt vist at taxol binder mikrotubuli [28]. DNAH14 har også blitt funnet å være differensielt regulert som respons på taxaner i gastriske cancere [31] og doxorubicin terapi i endometriale celler [32].

Disse funnene antyder at consitutional genetiske variasjoner i disse regionene kan spille en rolle i eggstokkreft overlevelse selv blant sent stadium tilfeller. Imidlertid bør det bemerkes at resultatene som er presentert her utgjør en oppdagelse basert analyse som ikke inkluderer en validering kohort. Som sådan, kan funnene være falske falske positiver, og krever bekreftelse i oppfølgingsstudier. Hvis validert, kan disse SNPs har viktig klinisk potensial som prognostiske biomarkører siden kimcellelinje genotype kan analyseres invasivt og fordi variant lene på de betydelige loci er vanlig (frekvenser for rs4934282 A /C-alleler = 0,54 /0,46 henholdsvis; rs1857623 A /G alleler = 0,55 /0,45, respectvely, både sammenlignes med allel frekvenser for den kaukasiske CEPH befolkningen i HapMap [33]). De betydelige loci er plassert i gener som tidligere er identifisert som å ha en mulig relasjon til kjemoterapeutisk reaksjon, noe som tyder på at deres tilknytning til overlevelse kan være på grunn av deres innvirkning på behandlingsrespons. Vår studie antyder potensielle mål for prognositic tester og individualisert behandling, og gir grunnlag for oppfølgingsundersøkelser.

Materialer og Metoder

Data

Data ble samlet inn av TCGA prosjekt som beskrevet andre steder [14]. Oppfølgings ganger, vital status, tumor stadium, og germline genotype data ble innhentet fra TCGA prosjektet [14] via dataportal på 06/03/2011.

SNP6 genotyper.

genotype samtaler for 906,600 SNP sonder analysert ved hjelp av Affymetrix GenomeWide SNP6.0 plattform og behandlet ved hjelp Tamfuglfôr ble hentet fra TCGA. Prøver som ikke besto TCGA kvalitetskontroll (per TCGA kopi nummer eksempeldata Sivil Format fil) ble fjernet. Totalt 496 eggstokkene serøse cystadenocarcinoma pasientene hadde overlevelsestid og kimcellelinje (enten blod eller tumor ved normal) genotype data. Genotype samtaler ble kodet som 0, 1 eller 2 i henhold til antall variant alleler og filtreres i henhold til en Tamfuglfôr tillit terskel på 0,05.

genotypen data var gjenstand for ekstra kvalitetskontroll filtreringskriterier som følger. SNPs med samtalepriser eller mindre allelfrekvensene ble ekskludert, som var SNPs av Hardy Weinberg likevekt med. Alle prøver med en takst under 80% ble ekskludert. Identitet av staten ble beregnet ved hjelp av R GenABEL pakken, og nært beslektede prøver med IBS ble fjernet. SNP og prøvefiltreringskriteriene ble brukt iterativt inntil alle prøver og SNPs møtte de angitte terskler. I alt ble 489 prøver og 662,521 SNPs passert holdt i analysen.

Tumor scenen.

Stage underkategorier ble coalesced i forbindelse med denne analysen inn sammendrag scene kategorier som ga fire scene klassifikasjoner (dvs. , Stage IA, IB, IC ble behandlet som Stage I, etc.). Antall prøver i hver fase kategori er gitt i tabell 1.

Exome /capture data.

Neste generasjon exome /fangst sekvense data ble også hentet for 375 pasienter med tilgjengelige germline data. Analysen ble begrenset til 100 KBP vinduer sentrert om de to SNPs identifisert som betydelige i SNP6 data, spesielt chr10: 88672456-88772455 og chr1: 223081228-223181227. Grafiske beskrivelser av disse genomiske regioner er gitt i figurene 5 og 6.

bilde fra cgwb.nci.nih.gov av utvalgte spor for genomet bygge NCBI36 (hg18) for den regionen som omgir to germline variasjoner forbundet med overlevelse i eggstokkreft i C10orf116 /AGAP11 region på kromosom 10. sporene er en tilpasset spor som viser SNPs rs4869 og rs4934282, RefSeq genet, mRNA, skjøtes samle såkalte og mapability.

Bilde fra cgwb.nci.nih .gov av utvalgte spor for genomet bygge NCBI36 (hg18) for regionen rundt en germline variasjon forbundet med å overleve i eggstokkreft oppstrøms DNAH14 på kromosom 1. sporene er en tilpasset spor som viser SNP rs1857623, RefSeq genet, mRNA, skjøtes ESTs og mapability.

binær sekvens Alignment /kart (BAM) filer ble lastet ned fra dbGAP, ved hjelp av for hver prøve den største tilgjengelige normal BAM-fil. Den «mpileup» og «bcftools» funksjoner av SAMtools [34] ble brukt til å generere informasjon varianten samtale, med ringer kriterier som følger: dersom dekningen i en gitt prøve for et gitt locus var mindre enn dekning terskel (se neste avsnitt ), ingen samtale ble gjort; Ellers, hvis ikke-referanse allel frekvens var mindre enn 10%, blir anropet var «homozygot referanse,» hvis den ikke-referansefrekvensen var større enn 90%, blir anropet var «homozygot ikke-referanse,« om det var mellom 10% og 90 %, samtalen var «heterozygot.»

Hvis du vil angi dekning terskelen for exome /capture data, sammenlignet vi exome /fangst samtaler til SNP6 germline genotypen samtaler for 41 tag SNPs ligger i disse regionene. Behandle SNP6 kaller som gullstandarden for nøyaktighet, definerer vi «mismatch rate» for å være antall samtaler for exome /fangst og SNP6 data varierer, delt på totalt antall exome /fangst samtaler på at dekningen dybde. Som dekning terskelen økes og exome /capture data blir mer pålitelig, kan mismatch avtar, men færre exome /fangst samtaler gjøres. Vi varierte dekningen terskelen 5-30, velge den laveste dekningen som ga en mismatch hastighet mindre enn 0,05. Den optimale dekningen var ni (med en mismatch rate på 0,045)

Vi vurderte en locus å være informativ (dvs. ha tilstrekkelig variasjon) hvis minst 20 germline prøver hadde en heterozygot samtale på at dekningen terskel.; disse kriteriene gir 29 totalt informative SNPs i 100 KBP regionene rundt rs4934282 og rs1857623, vist i tabell 3, som vi vurdert i analysen.

Survival analyse

Survival analyse ble utført i R [35] med «survival» pakken [36]. For hver SNP representert i dataene, ble Cox regresjon benyttes for å modellere overlevelse som en funksjon av genotype. På grunn av den betydelige sammenslutning av scenen med overlevelse, ble alle modeller stratifisert ved scenen. Genotypen anrop ble behandlet som kategoriske variabler med 0 som referent gruppe for å unngå å pålegge linearitet i antall variant alleler. Hver modell har gitt to hazard ratio per SNP (ett for genotype = 1 med hensyn til genotype = 0 og en annen for genotype = 2 påvirker vare genotype = 0). Betydningen av foreningen ble vurdert ved hjelp av logrank (Score) test [37]. En test av Schoenfeld rester ble brukt til å sjekke om den proporsjonale farer antakelsen ble oppfylt; bare modeller med ble ansett som gyldige. 639,510 SNPs testet møtte proporsjonal farer antakelsen.

På grunn av det store antallet SNPs innebærer et stort antall hypoteser som testes, ble flere test justeringer gjort til verdiene. Dette ble utført på to måter. Vi rapporterer både den falske funnraten [38] () for verdiene oppnådd for de parametriske tester som er beskrevet ovenfor. I tillegg rapporterer vi permutasjon verdier oppnådd ved hjelp av 600.000 uavhengige resamplings av dataene. Permutasjon tester, mens beregningsintensive, er ansett som den sterkeste og mest hensiktsmessige kontroll av type-I-feil priser i genomstudier [39] – [41]

For å undersøke eksistensen og effekten av en befolkning lagdeling. , R pakken GenABEL [42] ble brukt til å undersøke populasjon konstruksjonen. Den genomisk inflasjon faktor ble anslått til å være, noe som indikerer at befolkningen understell, hvis de finnes, bør ikke ha noen merkbar effekt på resultatene. Ved hjelp av en tilfeldig utvalgt sett av 12.000 uavhengige (parvise LD) SNPs med MAF, ble befolkningen understell undersøkt ved hjelp av prinsipal komponent analyse. Parvise plott av de fire første komponentene er gitt i File S2. Vi justerte modellene på to måter: ved hjelp av de fire første PC, og bruke klase oppdrag identifisert fra PCA bruker R pakke mclust [43]. Som forventet basert på, vi observerte ingen nevneverdig endring i Cox modellresultater (data ikke vist). Resultatene som presenteres her er derfor ikke justert for befolkningsunderstellet

Sekvensedataanalyse

Vi sammenlignet SNP6 genotyper på betydelig loci. (Chr10: 88722456 og chr1: 223131228) for de fra grossist genom sekvense data for 10 tilgjengelige prøver; alle 10 matchet SNP6 krever betydelige SNPs, som støtter SNP6 genotypen samtaler.

For de to SNPs som viser signifikant sammenheng med overlevelse i SNP6 data, vi videre undersøkt de omkringliggende genomiske regioner ved hjelp av kombinert hel-genom og exome /fangst sekvensering av data. Vi undersøkte 29 SNPs i de genomiske regioner rundt rs4934282 og rs1857623 vist i tabell 3 og valgt som beskrevet ovenfor. Stage-stratifisert Cox modeller ble deretter konstruert for germline genotypene som beskrevet ovenfor. Det bør bemerkes verken rs4934282 eller rs1857623 ble inkludert på grunn av utilstrekkelige exome /fangstdata (rs4934282 er i en intronic regionen og dermed ikke analysert i exome /fangstdata, rs1857623 hadde ingen samtaler i de fleste prøvene)

Det skal bemerkes at ikke alle de genomiske regioner som bidrar til disse dataene har unike sekvenser. For å vurdere dette, brukte vi «mapability» kriterier som gjennomføres i CGWB [44]: for hvert locus under vurdering, anser vi en glidende 75 basepar vindu med at locus og forsøk på å matche den til andre regioner i genomet; locus er flagget som unikt om, for hver posisjon av skyvevinduet, sekvensen bare tilordnes til plasseringen av vinduet og ingen andre genomiske region. Loci som noen (eller alle) posisjoner av skyvevinduet inneholder sekvenser som tilordnes til flere genomiske regioner er merket med en dolk i tabell 3, betegner at leser bidrar til samtaler på at locus kan være uspesifikke.

Prediksjon av aminosyre-erstatninger

Vi undersøkte SNPs i tabell 3 for mis-sense erstatninger ved hjelp av programmet ANNOVAR [45] og spådde deres funksjonelle innvirkning på proteinsekvenser med logRE og sile. LogRE er det av forholdet mellom HMMER -verdier for tilpasning til en PFAM motiv domene av to aminosyresekvenser som er forskjellige ved en aminosyresubstitusjon. En logRE resultatet hvis absolutte verdi er større enn eller lik 1 indikerer at aminosyren endring er egnet til å påvirke protein [46]. SIFT er en sekvens homologi-basert verktøy som sorterer Intolerant Fra Tolerant aminosyresubstitusjoner og spår skadelige aminosyresubstitusjoner. Sile verdier er anslått til å være skadelig [47]. Av de SNPs vurderes over fem mis-sense SNPs ble identifisert: tre i MMRN2 (rs3750823, rs4934281, rs34587013), en i SNCG (rs9864), og ett i AGAP11 (rs2641563). Men det er ingen bevis for at disse aminosyreendringene har funksjonell innvirkning på proteiner (Tabell 4).

Analyse av somatiske variasjoner

For å teste hypotesen om at somatiske endringer kan ha en additiv eller modererende effekt på sammenhengen mellom kimcellelinje genotype og eggstokkreft overlevelse, brukte vi TCGA data fra sammenkoblede tumorprøver for å vurdere om tumor genekspresjon, gevinst eller tap av kopiantall i svulsten, eller tap av heterozygositet var signifikant assosiert med overlevelse. En fullstendig beskrivelse av metoder og resultater fra denne analysen er gitt i File S1. Ingen av disse ekstra kovariater var betydelig.

Hjelpemiddel Informasjon

Fil S1.

Metoder og resultater fra analyser av somatiske variasjoner.

doi: 10,1371 /journal.pone.0055037.s001 product: (PDF)

Fil S2.

Metoder og resultater av befolkningen understell analyse.

doi: 10,1371 /journal.pone.0055037.s002 product: (PDF)

Legg att eit svar