PLoS ONE: Identifisering og karakterisering av kreft mutasjoner i japansk Lung Adenocarcinoma uten Sekvensering av normalt vev Kolleger

Abstract

Vi analyserte hel-exome sekvense data fra 97 japanske lunge adenokarsinom pasienter og identifisert flere mulige kreftrelaterte gener og stier. Spesielt, observerte vi at kreftrelaterte mutasjonsmønstre var signifikant forskjellig mellom ulike etniske grupper. Som tidligere rapportert, mutasjoner i EGFR-genet var karakteristisk for japansk, mens de i KRAS-genet var hyppigere i kaukasiere. Videre, i løpet av denne analysen, har vi funnet at kreftspesifikke somatiske mutasjoner kan oppdages uten sekvensering av normalt vev motstykker. 64% av germline variantene kan utelukkes ved hjelp av totalt 217 eksterne japanske exome datasett. Vi viser også at en tilsvarende metode kan anvendes for andre tre etniske grupper, selv om den diskriminerende effekt avhenger av etniske grupper. Vi viser at ATM-genet og PAPPA2 genet kunne identifiseres som kreft prognose beslektede gener. Ved å omgå sekvensering av normalt vev kolleger, gir denne tilnærmingen et nyttig middel til ikke bare å redusere tid og kostnader for sekvensering, men også å analysere arkivprøver, som normalt vev kolleger ikke er tilgjengelige.

Citation: Suzuki A, Mimaki S, Yamane Y, Kawase A, Matsushima K, Suzuki M, et al. (2013) Identifisering og karakterisering av kreft mutasjoner i japansk Lung Adenocarcinoma uten Sekvensering av normalt vev kolleger. PLoS ONE 8 (9): e73484. doi: 10,1371 /journal.pone.0073484

Redaktør: H. Sunny Sun, Institute of Molecular Medicine, Taiwan

mottatt: 22 mars 2013; Godkjent: 19 juli 2013; Publisert: 12. september 2013

Copyright: © 2013 Suzuki et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Dette arbeidet ble støttet av JSP KAKENHI Grant nummer 24300345. Dette arbeidet ble også støttet av MEXT KAKENHI Grant Number 221S0002. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Ankomsten sten~~POS=HEADCOMP av neste generasjons sekvenseringsteknologi har i stor grad påvisning og karakterisering av genetisk variasjon i det menneskelige genom. Mest bemerkelsesverdig, har denne type studier drevet 1000 genomer prosjektet [1,2], som har som mål å gi en omfattende kart av menneskelige genetiske varianter på tvers av ulike etniske bakgrunner. Imidlertid, fordi hel-genomsekvensering er fremdeles kostbart, sekvensering av hele ekson-regioner ved bruk av hybridisering fangst metoder (exome sekvense) [3-5] er mye brukt til å screene for gener som er relatert til arvelige sykdommer. Ved å sekvensere exomes fra friske og syke individer og sammenligne dem, har gener som er ansvarlig for mange sykdommer er identifisert [6], inkludert Miller syndrom [7,8] og familiær hyperkalemic hypertensjon [9]. Sammen med den fremgangen som har blitt gjort i exome sekvensering, er volumet av germline enkeltnukleotidpolymorfi (SNP) data som er registrert i dbSNP raskt voksende for ulike befolkningsgrupper [10].

Exome sekvensering gir en kraftig verktøy for studier av kreft i tillegg. Faktisk en rekke artikler er publisert beskriver identifisering og karakterisering av single nucleotide varianter (SNVs) som somatisk oppstår i kreft, og er mistenkt for å være ansvarlig for kreftutvikling og sykdomsutvikling [11]. The International Cancer Genome Consortium (ICGC) har vært å samle exome data for somatiske SNVs som er til stede i mer enn 50 typer kreft som en del av et internasjonalt samarbeid [12-14]. Kreft Genome Atlas (TCGA) har utviklet et stort genomisk datasett, inkludert exomes for høyverdig ovarialcancer, som har blitt brukt til å påvise betydelig muterte gener, inkludert TP53, BRCA1 og BRCA2 [15]. De har også identifisert ulike genomiske avvik og deregulerte trasé som kan fungere som terapeutiske mål.

I de fleste pågående kreft exome studier, har normalt vev kolleger blitt sekvensert parallelt med kreft vev [15-19]. Dette antas å være nødvendig fordi germline varianter må utelukkes fra komplett sett med SNVs å oppdage de somatiske SNVs som er unike for kreft. Imidlertid, sekvensering av normalt vev motstykker øker kostnadene og analysetidspunktet. Også, i noen tilfeller, er det vanskelig å oppnå normale vev motstykker. I tillegg er det fortsatt uklart hvor nøyaktig germline SNVs kan utelukkes ved hjelp av normalt vev exomes. Å konservativt utelukke germline SNVs, kan deres sekvens dybder og nøyaktig må være større enn de som er hentet fra kreft exomes.

I denne studien har vi generert og analysert 97 kreft exomes fra japanske lunge adenokarsinom pasienter. Vi viser også at somatiske SNVs kan anrikes til et nivå som er tilstrekkelig for videre statistiske analyser, selv i fravær av sekvenseringen av normalt vev motstykker. For å skille kimcellelinje fra de somatiske SNVs, vi først sammenvariantmønsteret mellom en kreft exome med de 96 andre pasientenes normale vev exomes. Vi har også forsøkt å gjennomføre en tilsvarende gjensidig sammenligning utelukkende benytte kreft exomes, uten hensyn til exomes av normalt vev kolleger. Det er sant at hvis vi helt utelatt normalt vev sekvensering, ville vi forsøksvis ignorering av somatiske mutasjoner som skjer på nøyaktig samme genomiske stilling i flere kreftformer. Imidlertid har de siste papirene belyst at slike felles SNVs er svært sjeldne [15,20-22]. Videre har mange av disse rekursivt mutasjoner er blitt registrert i kreftsomatiske mutasjoner databaser som Sanger COSMIC [23,24], og de tilbakevendende SNVs kan utvinnes ved oppfølgingsstudier delvis ved hjelp av data fra normalt vev. For å forstå den unike natur hvert kreft, er en statistisk analyse av de forskjellige SNVs antas å være avgjørende i tillegg til analysen av de felles SNVs.

I denne studien viser vi at det er mulig å identifisere første kandidater for kreft-relaterte gener og veier, selv uten sekvensering av et normalt vev motstykke. Vi viser at denne tilnærmingen er nyttig ikke bare for å redusere kostnadene for sekvensering, men også for å forbedre kvaliteten til dataene. Det bør også være nyttig for å analysere gamle arkiv prøver, hvor det normalt vev motstykker ikke alltid er tilgjengelige. Her beskriver vi en praktisk og kostnadseffektiv metode for å påskynde kreft exome sekvensering.

Resultater og Diskusjon

Karakterisering av SNVs bruker 97 exome datasett

Det første vi generert og analysert hel-exome sekvenser fra 97 japanske lunge adenokarsinom pasienter. Exome data ble samlet inn fra både kreft og normal-vev kolleger, atskilt med laser capture mikrodisseksjon. Vi renset exonic DNA (exomes) og genererte 76-basen parvise end leser med Illumina GAIIx plattformen. Omtrent 30 millioner lagte sekvenser ble oppnådd fra hver prøve, og gir 74 x dekning av mål-regioner; 93% av målet regionene hadde 5 × dekning (Figur S1 i File S1). Burrows-Wheeler Aligner (BWA) [25] og Genome Analysis Toolkit (GATK) [26,27] ble brukt til å identifisere SNVs (Figur S2 i File S1). Bare SNVs som ble oppdaget i kreftvevet og viste ingen tegn på variasjon i normalt vev ble valgt ut for videre analyse.

Den oppnådde datasettet ble brukt til å karakterisere kreftspesifikke mutasjonsmønstre (Tabell S3 i File S1). Vi beregnet berikelse av SNVs i bestemte gener, proteindomener, funksjonelle kategorier, og veier. Vi søkte etter gener med somatiske SNVs betydelig anriket på japansk lunge adenokarsinom. Som vist i tabell S4 i File S1, ble flere gener som er identifisert som betydelig mutert. Spesielt vi søkte på domener som er beriket med SNVs og havne kjente kreftrelaterte mutasjoner i COSMIC database. I alt ble 11 gener identifisert (P 0,02, tabell 1). For eksempel ble Dbl homologi (DH) domenet PREX1 genet [28] beriket med SNVs (

P

= 0.00071). Men i PREX2 genet [29], ble Pleckstrin homologi (PH) domene beriket med SNVs (

P

= 0,011) (figur 1A og B). Både PREX1 og PREX2 genene aktivere utveksling av BNP til GTP for Rho familien av GTPases og DH /PH domener er uunnværlig for nucleotide utveksling av GTPases og regulering [30-32]. I tillegg, analyserte vi uttrykk mønstre av disse genene ved hjelp av en kreft genekspresjon database, GeneLogic (figur S3 i File S1). Ekspresjonsnivåene av PREX1 og PREX2 ble ikke forbedret i lunge adenokarsinom, men ble forbedret i mange forskjellige kreftformer, som delvis er angitt i tidligere studier [33]. De SNVs i PREX1 og PREX2 gener, som ble konsentrert ved tyngdesignaleringsdomener, kan forbedre aktivitetene i disse genene, og dermed funksjonelt etterligner den økte uttrykk for dette genet i noen forskjellige typer kreft. Kreftrelatert genet kandidater identifisert fra dette datasettet er oppført i Tabell 1.

Antall SNVs

Gene

Domain

Domain

Gene

P-value

*

EGFR

†IPR001245:Serine-threonine/tyrosine-protein kinase34374.4e-21KRAS

† IPR001806: Ras GTPase678.0e-6TNNIPR003961: Fibronektin, type III455.2e-5TP53

† IPR008967: p53-lignende transkripsjonsfaktor, DNA-binding20239.5e-5PREX1IPR000219: Dbl homologi (DH ) domain450.00071DNAH7IPR004273: dynein tung chain570.0025FSTL5IPR011044: quinoprotein amin dehydrogenase, beta kjede-like770.0043NRXN3IPR008985: Concanavalin A-lignende lektin /glucanase570.0063PREX2IPR001849: Pleckstrin homology370.011FER1L6IPR008973: C2 kalsium /lipid-bindende domene, CaLB360.013COL22AIPR008985: Concanavalin A-lignende lektin /glucanase360.015Table 1. Liste over de identifiserte mulige kreftrelaterte gener

*

P

0,02

† Rapportert i Cancer Gene Census [11]. Legg merke til at genene oppå listen er tidligere rapportert å være assosiert med denne krefttypen, mens de fleste av dem er nye mulige kreftrelaterte gener. CSV Last ned CSV

SNVs i PREX1 (A) og PREX2 (B) gener er representert i boksene. De proteindomener hvor anrikninger av SNVs var statistisk signifikant, er representert i orange bokser (også se Materialer og metode). DH-domene: Dbl homologi (DH) domene; PH: Pleckstrin homologi domene; D: DEP domene; P:. PDZ /DHR /GLGF

Tilsvarende analyser pathway berikelse bruker KEGG databasen [34] også oppdaget flere mulige kreftrelaterte veier. De identifiserte trasé er oppført i tabell 2. Interessant nok var det livmorkreft vei [35] oppdaget i denne berikelse analyse (

P

= 3.1e-15, figur 2A). Denne reaksjonsveien omfatter store kreft-relaterte reaksjonsveier, for eksempel MAPK signalveien og den PI3K /AKT pathway. For denne veien, sammenlignet vi mutasjonsmønsteret mellom våre japanske data og de av den tidligere studie av lunge adenokarsinom i kaukasiere [21]. Vi fant at SNVs i EGFR-genet var fire ganger hyppigere i den japanske befolkningen enn blant kaukasiske populasjoner (figur 2B, venstre panel). EGFR mutasjoner ble hyppig forekommende i ikke-røyker, kvinnelige og asiatiske pasienter på lunge adenokarsinom [36], som er en molekylære mål av anti-kreft narkotika,

gefitinib product: [20,37,38]. Omvendt KRAS mutasjoner, som også er kjente kreftrelaterte mutasjoner [39], var mer enn fire ganger hyppigere blant kaukasiere (figur 2B, senter panel). Men ikke alle mutasjonsmønstre er forskjellige mellom populasjoner. For eksempel, TP53 næret mutasjoner i begge datasett med samme frekvens (figur 2B, panel til høyre).

KEGG ID

Pathway definisjon

Antall krefttilfeller med SNVs

P-verdi

*

hsa05213Endometrial cancer723.1e-15hsa04320Dorso-ventral aksen formation484.4e-15hsa05219Bladder cancer624.9e-14hsa05223Non-småcellet cancer667.1e-12hsa05214Glioma706.5e-11hsa05218Melanoma701.3e-9hsa05212Pancreatic cancer686.9e-9hsa05215Prostate cancer714.3e-7hsa05216Thyroid cancer361.1e -6hsa04520Adherens junction593.7e-6hsa05210Colorectal cancer531.8e-5hsa04012ErbB signale pathway642.6e-5hsa05120Epithelial cellesignalering i

Helicobacter pylori

infection534.8e-5hsa04540Gap junction600.00024hsa04912GnRH signale pathway610.0011hsa05217Basal celle carcinoma410.0020hsa05222Small celle lunge cancer520.0069hsa05220Chronic myeloid leukemia460.010hsa05160Hepatitis C670.012hsa05014Amyotrophic lateral sklerose (ALS) 360.014hsa04977Vitamin fordøyelse og absorption200.015hsa05416Viral myocarditis400.028hsa04512ECM-reseptor interaction470.034hsa02010ABC transporters290.035hsa04510Focal adhesion780.037hsa05412Arrhythmogenic høyre ventrikkel kardiomyopati (ARVC) 400.039Table 2. Liste over de identifiserte mulig kreft relaterte pathways

*

P

0,05 CSV Last ned CSV

(A) Mutasjons mønstre i livmorkreft bane som ble oppdaget i anriking analysen er vist. Størrelsen av sirkelen representerer populasjonen av kreft skjuler de SNVs i det tilsvarende genet (prosentandelen er også vist i margen). SNVs i denne studien og den eksterne datasettet i kaukasiske populasjoner er vist i røde og blå sirkler, henholdsvis. n.a .: mutasjonsfrekvenser var ikke tilgjengelig. (B) Sammenligning av mutasjon forholdet mellom EGFR, KRAS og TP53 gener hos begge datasett. P-verdiene ble beregnet ved to-sample test for likestilling av proporsjoner.

Tvetydighet i SNV identifisering av normale vev kolleger

I nevnte analyse, vi diskriminert germline varianter bruker normale vev kolleger. En rekke SNVs opprinnelig identifisert som somatisk ble også funnet å være tilstede i normalt vev, og dermed var falske positive anrop under validations ved visuell inspeksjon av de kartlagte sekvenser og Sanger-sekvensering. For å undersøke årsaken til dette problemet, inspiserte vi feil i tilfeldig utvalgte 26 kreft og deres normale vev. I gjennomsnitt i hver kreft, ble tjuefem prosent av somatiske SNV kandidater funnet å være falsk positive (figur 3). I disse tilfellene sekvensen dekning og kvaliteten av den normale motstykke ikke var tilstrekkelig. Faktisk sekvensene som støtter hver SNV og disse kvalitetene ble betydelig skilt mellom kreft og normalt vev. Selv om vi økte det totale antall leser i normalt vev, var det vanskelig i praksis å dekke alle de genomiske stillinger (figur S4 i File S1). En oppsummering av germline SNV valideringer er vist i tabell S5 i File S1.

Somatisk SNV kandidater ble identifisert ved hjelp av 26 kreft exomes og hver normal motpart. Riktig somatiske SNVs og falske positiver ble vist i rosa og blå søyler, henholdsvis. De 26 kreftformer som benyttes for analysen ble sortert etter økende antall SNVs (x-aksen).

Men, oppdaget vi at noen ble korrekt identifisert som germline SNVs i eksterne referanse exomes. Tjuefem exomes tillatt oss å utelukke åtte falske positive samtaler i hvert kreft. Dette hevet muligheten for at SNVs fra de andre pasientene kan brukes som surrogater for å øke dybden og kvaliteten på sekvensering.

Eksklusive germline SNVs ved å vurdere gjensidig overlappinger av andre personers exomes

for ytterligere å teste denne mulighet, undersøkte vi hvorvidt kreft exome analyser ville være mulig uten sekvensering av normalt vev motstykke til hver kreft. Først vurderte vi i hvilken grad de germline SNVs kunne diskrimineres ved hjelp av eksterne exomes. For dette formålet, brukte vi 97 sammenkoblede kreft normal exome datasett for validering datasett. Vi fant ut at vi kunne oppdage 54% av germline SNVs ved hjelp av 96 normale vev exomes fra den eksterne referansen (Figur 4A). Vi utvidet ytterligere filtrerings datasett ved hjelp av eksternt tilgjengelige 73 japanske exome data og 48 interne japanske exome datasett. Til sammen var vi i stand til å fjerne 64% av germline SNVs, med en total av 217 japanske exome datasett fra andre personer, uten å sekvensere hver kreft normale motpart (Figur 4A). Ekstrapolering av grafen også at 1350 og 2000 prøvene ville være nødvendig for å fjerne 90% og 95% av kimlinje SNVs, respektivt. Vi forventer at en slik utvalgsstørrelse vil være tilgjengelig i nær fremtid vurderer dagens raske utvidelsen av exome analyse.

(A) Kraften til å oppdage germline SNVs vurderer gjensidig overlapping mellom andre japanske individer. Følsomhet representerer andelen av germline SNVs riktig registrert. Datasettene som brukes til å ekskludere de germline SNVs vises på x-aksen. Den innfelte representerer ekstrapolering av diagrammet. Montering kurve i diagrammet er også vist. (B) diskriminerende krefter tre forskjellige etniske grupper for germline SNVs i 97 japanske kreft. Sensitiviteter for å påvise germline SNVs vises ved følgende farger; green: Kinesisk; lilla: Yoruba; orange. kaukasisk

Vi har evaluert videre hvis den samme filtreringen kan gjøres ved utelukkende å bruke kreft exomes. Vi har innhentet i hovedsak de samme resultatene (figur S5 i File S1). Åpen forbeholdet med denne tilnærmingen er at dette ville se bort fra ca 3% av somatiske SNVs recurrently forekommende (figur S5 i File S1, blå). Men som nevnte, fant vi at de tilbakevendende SNVs var svært sjeldent [15,19] og de fleste av dem ble hentet fra tvilsomme somatiske SNVs, som ble oversett i normalt vev. Vi anser også at de fleste av disse tilbakevendende SNVs, om noen, kan analyseres separat ved å sekvensere et begrenset antall normale vev.

Filtrere ut germline SNVs ved å vurdere gjensidig overlappinger for ulike etniske grupper og for sjeldne SNPs

Vi undersøkte om SNVs i andre etniske bakgrunner kan brukes som eksterne datasett for filtrering. Vi fikk exome data fra individer av ulik etnisk bakgrunn fra 1000 Genome Project. Vi brukte disse exome datasett å ekskludere de germline SNVs som ble identifisert i den japanske kreft. Vi fant ut at den diskriminerende makt var betydelig lavere sammenlignet med exomes fra japanske populasjoner. Derfor er disse datasettene ikke var egnet for dette formål (figur 4B). Vi har også undersøkt og funnet at exomes i hver etnisk gruppe var nyttig å diskriminere de germline SNVs i tilsvarende gruppe (figur S6, S7 og tabell S6 i File S1).

, og deretter undersøkt i hvilken grad mindre kimlinje-varianter kan være dekket med denne framgangsmåten i den japanske populasjon. Vi evaluerte følsomheten av filtreringsprosessen for SNVs i de 97 kreftformer (figur S8 i File S1). Vi fant at 88% av kimlinje SNVs som forekommer i mer enn fem prosent av de 97 exomes kunne påvises ved hjelp av de 73 ytre japanske datasett. For SNVs forekommer i 1% av de 97 kreftformer, kunne 19% utelukkes.

Bruke rå datasettet for å karakterisere kreftrelaterte SNVs og trasé

Tatt sammen, med 217 japanske exomes brukes til filtrering, 36% av kimlinje SNVs forble ufiltrert. Ikke desto mindre betraktes vi at det fortsatt kan være mulig å anvende det urene SNV datasettet som en første tilnærming for å identifisere og analysere kreft-relaterte gener og spredningsveier kandidater. For å validere denne ideen, sammenlignet vi resultatene av analyser anrikning mellom råoljen datasettet og den raffinerte somatiske SNV datasett, som ble samlet fra de sammenkoblede kreft-normal exomes.

De fleste av de antatte kreft-relaterte gener og trasé som ble identifisert fra det raffinerte datasettet var også til stede i det urene datasettet (tabellene S7 og S8 i File S1). Eksemplet på TNN-genet, som ble rapportert som en markør for tumor stroma [40-42], er vist i figur S9 i File S1. I dette tilfelle, selv med kimlinje-SNVs, som var ufiltrert i det urene datasettet (indikert ved sort i fig S9 i File S1), berikelse av somatiske SNVs i dette domenet var statistisk signifikant. Totalt ble ni gener som er identifisert som besitter kreftrelaterte SNVs fra den raffinerte datasettet også påvist i rå datasett. På den annen side ble to gener fra den raffinerte datasettet ikke er representert i det urene datasett. I veien analysen identifiserte vi 26 kreftrelaterte trasé som ble identifisert fra den raffinerte datasettet. I tillegg ble 19 reaksjonsveier også representert i datasettet urene så vel som den raffinerte datasettet. Overlappingen mellom de datasett som er oppsummert i tabell 3. Det bør bemerkes at statistisk berikelse analysene var mulig selv på dagens dekning av filteret datasett. Med utvidet ekstern datasettet, ville det være mer praktisk å utsette kandidatene til resultatene av Sanger-sekvensering valideringer samt å fjerne gjenværende germline SNVs.

Antall identifisert genes/pathways

Crude

*

Refined

Overlap

Genes16119Pathways232619Table 3. Sammenligning av resultatene i berikelse analyserer mellom råolje og raffinerte datasett.

* Identifiserte bruker rå datasett.

† Identifisert ved hjelp av den raffinerte datasett.

‡ Betydelig både råolje og raffinerte datasett. CSV Last ned CSV

Identifikasjon av prognose relaterte gener ved hjelp av rå datasettet

Som en av de viktigste målene for kreft exome studiene undersøkte vi om mutasjoner som påvirker kreftprognoser kan identifiseres ved hjelp av rå datasett ( Tabell S9 og figur S10 i File S1). I Kaplan-Meier analyse, sju pasienter som gjennom SNVs i ATM-genet (figur 5A) viste statistisk signifikante dårlige prognoser (

P

= 9.6e-6, figur 5B). Tre SNVs i ATM-genet ble betydelig anriket på den phosphatidylinositol 3- /4-kinase katalytisk domene (

P

= 0,014). ATM registrerer DNA skade og fosforylerer TP53, som i sin tur, påkaller ulike cellulære responser, som for eksempel DNA-reparasjon, vekst og apoptose, og kollektivt forebygger kreft progresjon (figur S11 i File S1) [43,44].

(A) SNVs i ATM-genet. De SNVs som ble identifisert i den innledende screening og de som blir igjen etter Sanger-sekvensering validering av den normale vev-motstykke er vist i sort og rødt, henholdsvis. TAN: telomere lengde vedlikehold og DNA-skade reparasjon; PI3_PI4 kinase: phosphatidylinositol 3- /4-kinase, katalytisk. (B) Survival analyse av pasienter med og uten ATM SNVs. Datasettene før og etter Sanger-sekvensering valideringen er representert med svarte og røde linjer, henholdsvis. Statistisk signifikans ble beregnet ved hjelp av en log-rank test (

P

0,05). Merk at overlevelses forskjellene for personer med SNVs i den ikke-Sanger-validert datasettet var betydelig før Sanger validering. (C, D) Resultater av en lignende analyse som den som er beskrevet i A og B for den PAPPA2 genet. I dette tilfellet er pasientene med SNVs viste bedre prognose. ConA som sub: Concanavalin A-lignende lectin /glukanase, undergruppe; N: Notch dimain; Peptidase M43. Peptidase M43, graviditet-assosiert plasma-A

Vi har også undersøkt om andre ofte muterte gener var assosiert med bedre eller verre prognoser. Vi fant at pasienter med PAPPA2 mutasjoner viste forlenget overlevelse ganger (

P

= 0,026, figur 5C og D). PAPPA2 proteolyzes IGFBP5 [45,46], som er en inhiberende faktor for IGF [47]. Mutasjoner i PAPPA2-genet kan resultere i akkumulering av IGFBP5, og den resulterende reduksjon av IGF-signalisering kan redusere spredning av kreftceller [48]. Igjen bør det bemerkes at det for både ATM og PAPPA2 gener, den statistiske signifikansen av den prognostiske forskjell faste både før (sort linje) og etter (rød linje) de gjenværende kimlinje-mutasjoner ble fjernet, noe som ble bekreftet av Sanger-sekvensering (figur 5B, D og tabell S10 i File S1).

Konklusjoner

Vi har identifisert og karakterisert de SNVs i lunge adenokarsinom i en japansk befolkning. Ytterligere biologiske evalueringer av de oppdagede SNVs vil bli beskrevet andre steder. Særlig bør informasjon om transkriptom og epigenome være viktig for videre analyser av kreft genomer, som de ville kaste nytt lys på kreft biologi (tabell S1) [49]. I denne studien vi også presentert en nyttig tilnærming for analyse av kreft exomes, uten behov for å sekvensere den normalt vev motstykke. Vi mener at tilnærmingen ikke bare senker barrierene i kostnader, tid og data troskap i exome analyse, men gjør det også mulig exome analyse av arkivprøver, som normalt vev kolleger er ikke alltid tilgjengelig.

Materialer og metoder

Etikk uttalelse

Alle prøvene ble samlet inn ved å følge protokollen (og skriftlig informert samtykke) som ble godkjent av Etisk Komité i National Cancer Center, Japan (Korrespondanse til: Katsuya Tsuchihara; [email protected]).

case utvalg og DNA forberedelse

Alle vev materialer ble hentet fra japanske lunge adenokarsinom pasienter med hensiktsmessig informert samtykke. Kirurgisk resekterte primære lungeadenokarsinom prøver med lengdedimensjoner i overkant av 3 cm ble valgt. Data om de 52 pasienter som hadde tilbakefall og annen klinisk informasjon om de 97 tilfellene er vist i tabell S11 i File S1. Alle 97 kreft og normale vev ble tatt ut fra metanolfikserte prøver med laser capture mikrodisseksjon. DNA-rensing ble utført ved hjelp av en EZ1 Avansert XL Robotic arbeidsstasjon med EZ1 DNA Tissue Kits (Qiagen).

Hel-exome sekvense

Ved hjelp av en mikrogram av isolert DNA, vi forberedt exome-sekvensering biblioteker bruker den atVelg Target Enrichment System (Agilent Technologies) i henhold til produsentens protokoll. Den fanget DNA ble sekvensert ved Illumina Genome Analyzer IIx plattform (Illumina), noe som ga 76-basen parvise end leser.

Somatisk SNV deteksjon

Metodene som ble brukt til å oppdage SNVs, inkludert BWA, SAMtools [50] og GATK, er vist i Figur S2 i File S1. Ved hjelp av data fra NCBI dbSNP bygge 132 og en japansk genom [51], store germline SNVs ble ekskludert. I tillegg ble det sjeldne germline SNVs forkastet bruker 97 exomes fra normalt vev kolleger, 73 japanske exomes gitt fra 1000 genomer prosjekt (fase 1 exome data, 20110521) og 48 in-house japanske exomes. Vi validert også en del av SNV datasett ved Sanger-sekvensering av kreft vev og deres normale kolleger vev (Figur S12 i File S1).

Identifisering av sterkt muterte gener

Vi oppdaget gener som var signifikant beriket med SNVs ved å beregne det forventede antall kreftformer med SNVs i genet. Lengden av totalt CDS regioner ble representert i

N

(ca. 30,8 M baser). Når en pasient næret totalt

m

SNVs, sannsynligheten for at pasienten havner SNVs i genet

t plakater (lengde:

n

) ble beregnet som

P

:

P

m

,

t

,

n

=

1

(

1

m

N

)

n

The Summen av

P

i 97 kreft var representert i forventet antall krefttilfeller med SNVs i genet

t

. P-verdiene av den observerte tall ble beregnet ved Poisson sannsynlighetsfunksjon ved hjelp av R ppois.

Statistiske tilnærming til berikelse analyser

For å undersøke berikelse av mutasjoner i funksjonelle proteindomener, vi kartlagt SNVs til domener med InterProScan [52] og tildelt dem til Katalog av somatiske mutasjoner i Cancer (COSMIC). Vi analyserte berikelse av SNVs i de samme områder som de mutasjonene som ble gitt av den kosmiske. P-verdier for de observerte mutasjoner i disse domenene ble beregnet ved hjelp av sine hypergeometrisk distribusjoner (R phyper). I korthet domener hvor SNVs ble anriket statistisk signifikant enn det forventede antall SNVs i den gitte lengde av domenet ble valgt. For å estimere den forventede antall, ble det totale antallet av SNVs som tilhører genet dividert med genet lengde. For denne analysen brukte vi gener som huser fem eller flere SNVs i koderegionen og tre eller flere SNVs i domenet.

Vi tildelt SNVs til trasé som beskrevet av Kyoto Encyclopedia of gener og genomer (KEGG) og beregnet enrichments av SNVs i trasé. Mutasjonsraten

M

representert forholdet mellom gjennomsnittlig antall muterte gener til det totale antall gener (17,175) som ble brukt i vår studie. Den forventede verdien for antall krefttilfeller med SNVs i vei

t

ble utpekt

λ Hotell og beregnes ut fra mutasjonsraten

M Hotell og antall gener i veien

n

som follows:

λ

t

,

n

=

{

1

(

1

M

)

n

}

×

97

The p-verdi for den observerte antall krefttilfeller med SNVs i vei

t

ble beregnet ved Poisson sannsynlighetsfunksjon ved hjelp av R ppois.

Anslag over diskriminerende makt for utelukkelse av germline SNVs ved å vurdere gjensidig overlapp

Vi estimerte diskriminerende makt for utelukkelse av germline SNVs ved å vurdere de fra andre ikke-kreft exomes. Kimcellelinje SNVs fra 97 sammenkoblede tumor normal exomes ble brukt som referanse datasett. Opp til 217 prøver (96 normale vev exomes fra andre og 121 flere japanske exomes) ble tilfeldig valgt, og ble oppdaget deres følsomhet og spesifisitet for påvisning av germline SNVs ved å ta gjennomsnitt av enten alle kombinasjoner eller et delsett av ca 10.000 kombinasjoner . Vi har også beregnet diskriminerende effekt med data fra 1000 genomer prosjektet for fire etniske grupper (73 JPT, 90 CHS, 81 Yri og 64 CEU) med lignende studier. Hel-exome sekvenser (den FASE1 exome data, 20110521) ble hentet fra FTP-området i 1000 genomer Project.

Kaplan-Meier-kurver

Kaplan-Meier metoden ble brukt til å teste forbindelser av de observerte mutasjoner i overlevelsestid, og beregninger ble utført ved bruk av R-programvarepakken. Endringer i overlevelse som ble korrelert med SNVs ble undersøkt ved hjelp av log-rank test (R survdiff).

datatilgang

Full rå datasett vil bli delt med forskere på forespørsel. Informasjonen av somatiske mutasjoner i de respektive genomiske koordinater er gitt i Tabell S2.

Hjelpemiddel Informasjon

Fil S1.

Tall S1 til S12 og tabeller S3 til S11 er inkludert.

doi: 10,1371 /journal.pone.0073484.s001 product: (PDF)

Tabell S1.

sammenligning av vår datasettet med den andre annen studie. Vi ga sammenligning av våre datasett med genene identifisert i andre annen studie med transkriptom og epigenome data i lungekrefttilfellene

doi:. 10,1371 /journal.pone.0073484.s002 plakater (XLSX)

Tabell S2 .

listen over somatiske mutasjoner identifisert fra den raffinerte datasettet.

Legg att eit svar