PLoS ONE: Identifikasjon av Kandidat vekstfremmende Gener i Eggstokkreft gjennom Integrert Kopier nummer og Expression Analysis

Abstract

Eggstokkreft er en sykdom preget av komplekse genom rearrangementer men flertallet av gener som er målet for disse endringene er fortsatt uidentifisert. Katalogise disse målgener vil gi nyttig innsikt i sykdommen etiologi og kan gi en mulighet til å utvikle nye diagnostiske og terapeutiske intervensjoner. Høy oppløsning genom bredt kopi nummer og matchende uttrykk data fra 68 primær epitelovarialcancer karsinom av ulike histotypes ble integrert for å identifisere gener i regionene hyppigste forsterkning med sterkest sammenheng med uttrykk og kopiere nummer. Regioner på kromosomene 3, 7, 8, og 20 ble hyppigst økt i kopiantall ( 40% av prøvene). Innenfor disse områdene, ble 703/1370 (51%) unik genekspresjon probesets uttrykt forskjellig når prøver med forsterkning ble sammenlignet med prøver uten gevinst. 30% av disse forskjellig uttrykt probesets viste også en sterk positiv korrelasjon (r≥0.6) mellom uttrykk og kopiantall. Vi har også identifisert 21 områder med høy amplitude kopiantall gevinst, der 32 kjente proteinkodende gener viste en sterk positiv sammenheng mellom uttrykk og kopiere nummer. Samlet, validerer vår data som tidligere er kjent eggstokkreft gener, for eksempel

ErbB2

, og også identifisert nye potensielle drivere som

MYNN

,

PUF60 Hotell og

TPX2

Citation. Ramakrishna M, Williams LH, Boyle SE, Bearfoot JL, Sridhar A, Speed ​​TP, et al. (2010) Identifisering av Kandidat vekstfremmende Gener i Eggstokkreft gjennom Integrert Kopier nummer og Expression Analysis. PLoS ONE 5 (4): e9983. doi: 10,1371 /journal.pone.0009983

Redaktør: Patrick Tan, Duke-NUS Graduate Medical School, Singapore

mottatt: 20 januar 2010; Godkjent: 07.03.2010; Publisert: 08.04.2010

Copyright: © 2010 Ramakrishna et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. MR er støttet av Kreft Council Victoria Graduate stipend. Dette arbeidet er finansiert av et stipend fra National Health and Medical Research Council (NHMRC) fra Australia (ID: 566603). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Selv om det er gjort framskritt i å belyse de molekylære hendelser som ligger til grunn for utviklingen av kreft i eggstokkene, identiteten til de fleste av gener som driver utviklingen av denne sykdommen forblir unnvikende. Tallrike genuttrykkstudier har identifisert lister over gener med vesentlig endret uttrykk, men skuffende er det liten enighet mellom studier [1]. Mens genuttrykkstudier er nyttige i å identifisere hovedkategorier av trasé endret i kreft og klinisk viktige undergrupper [2], på egen hånd kan de ikke være i stand til å skille de genetisk endrede sentrale driver gener. En alternativ strategi som brukes til å identifisere sjåføren gener har vært annotering av tilbakevendende kromosomavvik. Tidlige studier ble hemmet fordi teknologi for genome-wide genomisk analyse manglet oppløsningen til tilstrekkelig avgrense kreft forbundet loci [3]. Problemet med oppløsning har blitt overvunnet med utviklingen av ultra-høy oppløsning aCGH og SNP arrays. Nylig har vår gruppe brukt disse siste generasjons SNP arrays for å kommentere selv små områder (så lite som 25 kb) av genomisk endring [4]. Disse dataene viste også at de genetiske hendelser i eggstokkreft er mer tallrike og komplekse enn tidligere mistenkt. Mens noen potensielle driver gener kan være raskt identifisert fra disse dataene på grunn av deres plassering på fokus endringer, de fleste av tilbakevendende endringer er store og omfatter mange gener.

For å fremskynde identifisering av eggstokkreft vekstfremmende genene vi har integrert matchende DNA kopiantall og genuttrykk data fra en kohort av 68 primær epitelial eggstokkreft. Vi har særlig fokusert på gener i regioner av kopiantallet vinning, med forventning om at ekspresjon av et gen som driver innenfor et amplikon vil være mer tett korrelert med genkopitallet enn co-amplifiserte gener hvis ekspresjon er agnostisk til tumorgenese. Integrering av kopiantall og uttrykk har laget en liste over kandidat dominant virkende driver gener, som kan brukes til å underbygge funksjonsanalyse som vil være nødvendig for å validere deres bidrag til eggstokkene tumorigenesis. I tillegg forsterkes og over uttrykte gener har potensial til å tjene som nyttige terapeutiske eller diagnostiske markører for kreft i eggstokkene.

Resultater

Frekvens av kopinummer endringer (CNA) i eggstokkreft

Vurdering av CNA i 72 epiteliale ovarietumorer (Tabell 1, Tabell S1) ga totalt 36,534 segmenter består 20,570 CN gevinster og 15,964 CN tap. Median antall regioner med CN gevinst per svulsten var 208, sto for et gjennomsnitt på 13,6% av genomet per prøve (tabell S2). Median antall regioner med CN tap var 194 som representerer 12,2% av genomet. Disse CNAs skjedde på tvers av genomet, men det var noen svært hyppige tilbakevendende regioner av CNA blant de 72 svulster (figur 1) inkludert gevinster ligger på 1Q, 3Q, 6, 7q, 8q, 19, og 20 og tap på kromosomer 4, 6, 8, 13, 16, 17, 18, 22q og X. Innen ovarialcancer histotypes vi bemerket at mucinous og i mindre grad tydelige celle tilfeller syntes å ha færre CNAs og en mindre andel av genomet var involvert i forhold til de andre subtyper (Figur S1). Men antall prøver i de mindre subtyper var små, noe som gjør det vanskelig å trekke statistisk gyldige slutninger om subtype konkrete endringer. De fleste av prøvene var av serøs eller relaterte høy klasse endometrioid subtype og mange av de regionene i gevinst og tap er primært drevet av disse subtypene.

Antall forekomster av genomisk gevinster (gul) og tap (blå) over genomet, avbildet i kromosom rekkefølge fra 1p til Xq.

Integrering av mRNA uttrykk i regioner av hyppig kopi nummer gevinst

En vanlig mekanisme for aktivering av gen-funksjon i kreftutvikling er gjennom over uttrykk som følge av genamplifikasjon. Selv om mange gener kan være plassert innenfor et bestemt fragment, vil den målsøkte gen (er) bli forventet å vise konsistent forhøyet ekspresjon sammenlignet med tilstøtende bystander gener [5]. Vi har tidligere gjennomført en integrert uttrykk analyse av kandidat tumorsuppressorgener innenfor regioner av tap av heterozygositet på en overlappende svulst kohort [6], og dermed for denne studien valgte vi å fokusere på identifisering av kandidatgener som ligger innenfor amplikonene. En vilkårlig frekvens terskel på minst 40% ble valgt som et filter for å velge viktige områder, noe som resulterer i avgrensningen av flere kromosomale regioner på 3Q, 7q, 8q og 20Q (figur 2). Hvert segment av hyppig CN gevinst var merket av cytoband det tilhørte; hvor regioner med samme cytoband tag ble slått sammen til en større region (Figur S2-A). De regioner som overlapper med kimlinje-kopitall polymorfisme (CNPs, tabell S3) ble ekskludert som beskrevet i figur S2-B. De siste 106 amplikonene varierte i størrelse fra 11 kb til 7 Mb (tabell S4) og 90 av disse regionene til sammen inneholdt 1370 genuttrykk probesets på Affymetrix Gene 1.0ST rekke tilsvarende 938 kjent proteinkodende gener. De andre 16 amplikonene ble ikke er representert ved probesets på de Gene 1.0ST arrays.

Hyppige gevinst forekommer på kromosomer 3, 7, 8 og 20, med hvert punkt som angir frekvensen av gevinst på en CN segment. Den røde linjen i alle panelene angir 40% frekvensnivå.

Expression-analyser ble utført for probesets innenfor hver av de 90 regionene (tabell 2, 3, 4, tabell S5). For hver region grupper av prøver som viste kopiantall gevinst (3 eller flere eksemplarer) ble testet for dette uttrykket mot grupper av prøver som viste normal kopi nummer (~ 2 eksemplarer). På tvers av alle regioner, var det 703 (51%) forskjellig uttrykt probesets tilsvarende 629 gener med unike identifikatorer som en HGNC gen symbol eller Ensembl ID (tabell S5). Bare ett gen,

hCG_16001

, viste en negativ log ganger endring (-0,34, figur S3). I gjennomsnitt (i regioner med minst 5 probesets), ble 50% av probesets funnet å være forskjellig uttrykt som tyder på en generell økning i ekspresjon av gener innenfor CN gevinster. Interessant, observerte vi at

MYC

, et onkogen karakterisert ved kopiantall gevinst i et bredt spekter av tumortyper, var ikke signifikant forskjellig uttrykt mellom forsterket og uforsterket grupper av prøver. En mulighet er at

MYC

uttrykkes på et høyt nivå på tvers av alle svulster uavhengig av kopiantallet status og dermed er ikke forskjellig mellom grupper av svulster som viser en gevinst og de som ikke gjør det. For å teste denne muligheten vi sammenlignet uttrykk for

MYC

i forsterkede eggstokkreft prøver til uttrykk i normal egglederen epitel. Vi fant ikke noen økning i

MYC

uttrykk når man sammenligner svulster i disse prøvene (p = 0,41, Welch korrigert uparet t-test, figur S4).

for ytterligere å avgrense denne listen over 703 eksemplar nummer drevet, forskjellig uttrykt probesets, begrunnet vi at disse genene som viser den sterkeste korrelasjonen av kopiantall og uttrykk kan være de mest sannsynlige gener målrettet av CN gevinst. Dermed har vi beregnet sammenhengen co-effektiv for alle differensielt uttrykte gener med kopi nummer probeset dekning i kandidat amplikonene (tabell S5). Av de 692 probesets testet (11 inneholdt ikke kopi nummer prober), 219 (tilsvarende 206 proteinkodende gener) viste en sterk positiv korrelasjon (r≥0.6) mellom uttrykk og kopiere nummeret.

Gener målrettet av høy CN forsterkning

Vår viktigste tilnærming for å identifisere kreftrelaterte gener var å filtrere for de mest hyppige avvik, men vi bemerket at godt karakteriserte kreft driver gener, for eksempel

CCNE1 Hotell og

erbB2 product: [7], ble ikke identifisert siden de ble amplifisert i løpet av mindre enn 40% av tumorer. Snarere enn å bruke en lavere cut-off som ville risikere inkludert mange områder forandres på grunn av generalisert genomisk instabilitet (for eksempel ~67% av genomet vil bli betraktet som kandidater regioner dersom en cut-off på 10% ble anvendt), vi i stedet filtrert for gener som viser en høy amplitude CN gevinst. Her har vi sett på alle segmentene som hadde en kopi tall større enn eller lik 5 og var til stede i minst 5 prøver, som identifiserte 21 regioner i løpet av 27,2 Mb (tabell 5). Disse regionene tilsvarte 181 genuttrykk probesets på våre Affymetrix Gene 1.0ST matriser, hvorav 39 (22%) hadde en sterk positiv korrelasjon mellom CN og genekspresjon (r 0,6). Disse probesets tilsvarte 32 kjente proteinkodende gener inkludert kjente kreft driver gener som

ErbB2 product: (Tabell S6).

både å prioritere kandidat driver gener

For å prioritere de mest lovende kandidater fra de tidligere analysene, bygde vi et gen liste ved hjelp av følgende kriterier. For det første, valgte vi de kjente gener med en høy frekvens av gevinst ( 40%), som ble forskjellig uttrykt (n = 629). Fra denne listen vi valgt genene sterkest i løpet uttrykt av nivået på loggen ganger endring ( 0,7) mellom prøver med CN gevinst og prøver som var nøytrale i locus (n = 59). Som et annet mål på hvordan genekspresjon ble påvirket av kopitallet, vi også valgt gener som viste en sterk korrelasjon ( 0,7) av kopiantall og ekspresjonen (n = 58). Unionen av disse kriteriene produsert en liste over 110 gener. Fra denne listen har vi identifisert gener på hvert kromosom som var den hyppigst rammet av kopiantall endring; for chr8, dette inkludert gener med en frekvens på ≥60%, for chr3, ≥50% og for chr20 ≥42%. Denne listen består 37 gener (Tabell 6).

For det andre ønsket vi også å omfatte gener som ble svært forsterket. Fra vår liste over høyt forsterkede gener i minst 5 prøver vi valgte de som hadde en sterk positiv korrelasjon mellom antall kopier og uttrykk (r 0,6, n = 32). Noen av de genene som var sterkt forsterkede ble også uttrykt forskjellig basert på uttrykket analyse av ofte fått regioner, slik at vi også inkludert gener med en logg ganger endring større enn 0,6 (n = 17). Tar gener som tilfredsstiller det ene eller det andre av disse kriteriene, tilsatte vi 41 gener til vår høyt prioritert liste (tabell 6).

Når vi kombineres disse to listene gen, det første basert på en «høyfrekvent», og den andre på «høy amplitude», men både med økt uttrykk, det endelige antall unike gener var 70 (tabell 6).

Diskusjoner

genekspresjonsanalyser har vært mye brukt til å identifisere viktige stier og klinisk viktige undergrupper i eggstokkreft, men identifisering av spesifikke driver gener ved hjelp av denne metoden alene har vært hemmet av at uttrykket er ganske plast, og det har vært lite konsensus i genene identifisert mellom slike studier [1], [8]. En årsak til denne mangel på konsistens er at de fleste studier har analysert RNA fra hele tumorprøver uten verifikasjon av den prosentvise kreft epitel og /eller har brukt forskjellige kontroll vev så som hele første eggstokk [9]. I motsetning til genekspresjon, kan genomiske forandringer være en mer stabil og pålitelig indikator på plasseringen av driver gener. Eggstokkreft har lenge vært mistenkt for å være cytogenetisk komplekse [10] og siste fremskritt innen genomteknologi har bekreftet de dype genomiske avvik som kjennetegner de fleste eggstokkreft [4], [11], [12], [13]. Til tross for denne kompleksiteten, publiserte kopitall profiler av eggstokkreft er svært sammenlignbare på et globalt nivå [3], og mange studier har identifisert svært like regioner av hyppig kopiantall endring. Men fremgangen ved å identifisere viktige driver gener har vært treg, med ulike studier ofte identifisere ulike kandidater i samme genomisk region. For eksempel har kromosom 20 amplicon driver vekslet blitt foreslått å være

ADRM1 product: [14],

EYA2 product: [15],

AURKA Hotell og

ZNF217

[16], blant flere andre. Tidlige studier integrere uttrykk og kopi nummer data har enten brukt kreftcellelinjer for å identifisere løpet uttrykte gener [17], [18] og /eller microarray plattformer med begrenset oppløsning og genom-dekning [19], [20]. Hittil få studier har utnyttet en virkelig genom-wide integrert kopiantall og ekspresjonen analyse på matchede prøver for den ikke-skjev identifisering av kandidatgener [21], [22], [23], og det har bare vært en tidligere studie av en mindre kohort av ovarietumorer [12]. I denne studien har vi derfor forsøkt å omgå noen av problemene med å undersøke uttrykk eller kopiere nummer isolert ved å integrere to datasett hentet fra microdissected kreft epitelceller.

Som et første pass av dataene vi fokusert på gevinster forekommer i en svært høy andel av sakene som inkluderte regioner av kromosomer 3, 7, 8 og 20. Identifisering av forskjellig uttrykt gener redusert vår liste over kandidat kreftgener i disse regionene med omtrent halvparten (range 6-89% for områder med minst 5 probesets). Vi har validert flere av genene som er identifisert i Haverty

et al

., For eksempel på 3q26.2 vi bekreftet øket ekspresjon i 7/8 av deres gener. Men vi har også identifisert en rekke ekstra forsterket og over uttrykte gener (tabell 2, 3, 4), mest sannsynlig på grunn av forskjeller i vår metode og større utvalg. Andelen differensielt uttrykte gener i vår undersøkelse er i samsvar med tidligere studier av andre krefttyper [24] støtter konseptet som kopierer nummeret kan ha en sterk innflytelse på genuttrykk. Følgelig, for mange regioner vi var ikke i stand til å identifisere en bestemt driver genet. Det er mulig at det kan virkelig være mange driver gener innenfor hvert fragment, og selv om hver av dem kan individuelt bidrar lite til kreft progresjon, koordinat i forhold til ekspresjon av disse gener i forsterkede områder kan ha en additiv eller synergistisk onkogen virkning. Alternativt kan mange av de differensielt uttrykte gener være passasjerene som i forhold til ekspresjon begaver ingen selektiv fordel eller ulempe for svulsten. Diskriminere mellom passasjerer og sjåfører innen genomisk region kan derfor bare oppnås gjennom store funksjonelle analyser og kombinatoriske metoder undersøke mange gener i konserten.

Til tross for det relativt store antall forsterkede og differensielt uttrykte gener identifisert i denne studien vi fortsatt hypoteser at de genene som viser den sterkeste i løpet av uttrykk, og også de genene som har høyest amplitude kopitall gevinster, kan være mer sannsynlig å være førere av tumorigenesis enn svakt i løpet av uttrykte gener. Derfor prioriteres vi vår genet liste ved hjelp av strenge kriterier uttrykk. For eksempel, en av de genene oftest målrettet av kopi tall som er sterkt i løpet uttrykt er

PUF60 product: (

poly-U bindende spleising faktor 60 kDa

). Dette genet koder for et pre-mRNA spleising faktor antas å være involvert i erkjennelsen av 3 «spleiseseter [25]. Det kan også hemme transkripsjon ved å samhandle med TFIIH helicase, den avgjørende faktoren mutert i kreftutsatte syndrom xeroderma pigmentosum, og dette samspillet er innblandet i riktig regulering av

MYC

transkripsjon [26], [27] .

Myoneurin eller

MYNN

er et gen som ligger i en region av hyppig (60%) kopiere antall gevinst på 3q26.2. Den er uttrykt forskjellig (justert p = 1.51E-05) mellom forsterket og uforsterket grupper, og viser den sterkeste korrelasjon mellom kopiantall og ekspresjonen (r = 0,74, figur 3) blant alle genene i denne regionen. Dette genet ble identifisert som et medlem av Broad komplekse, Tramtrack, Bric en brac (BTB) eller koppe og sink finger (POZ) -ZF dvs. BTB /POZ-ZF familie av transkripsjonsfaktorer [28]. Først oppdaget i

Drosophila

, denne familien består av omtrent 60 humane proteiner, inkludert flere kreftrelaterte proteiner slik som leukemi relatert faktor (LRF /ZBTB7) og B-celle lymfom 6 (BCL6). Mens rollen MYNN i kreft er ennå ikke preget, andre medlemmer av denne familien på samme måte overexpressed i tumorer [29].

A. Frekvens av kopiantall gevinst på kromosom 3 fra p-ter til venstre til q-ter til høyre som indikert av ideogram. B. Gener på Chr3: 169,209 til 172,478 MBP, en region fått i 60% (41/68) av alle prøvene, inkludert gener tidligere assosiert med kreft i eggstokkene (

PRKCI, Mecom

eller

MDS1 /EVI1

) og potensielt nye onkogener (

MYNN

). C. En vulkan tomten presentere resultatene av uttrykk analyser mellom forsterket og unamplified prøver i denne regionen. Genene i øvre høyre hjørne er betydelig overuttrykt i prøver med kopi nummer gevinst (p 0,05, over den røde linjen på -logP 4,32) sammenlignet med prøvene uten kopiantall endring (utvalgte gener er merket). For fullstendig liste over differensielt uttrykte gener se tabell S5. D. Plot sammenligne kopiantall og uttrykk i alle prøvene for genet

MYNN Hotell som viste den høyeste korrelasjon (r = 0,74, Pearsons test) mellom kopiantall og uttrykk for denne regionen på 3q26.2.

i tillegg til å identifisere høy frekvens, differensielt uttrykte gener, inkludert kjente kreftgener som

PIK3CA Hotell og

AURKA

, vi brukte også høye amplitude regioner for å finne ytterligere kjent ( f.eks

ErbB2 Hotell og

CCNE1

) og potensielle onkogener. For eksempel, på kromosom 20, med høy amplitude tilnærming identifisert en liten minimalt område som ikke var tydelig fra lav-amplitude analyse. Denne 421 kb intervall på 20q11.21 omfatter 10 gener, hvorav

TPX2

viste sterkest sammenheng med kopiantall (r = 0,53). Dette genet ble også uttrykt forskjellig mellom prøver med noen

TPX2

gevinst og de med normal

TPX2

kopiere nummer, og hadde den sterkeste fold endring av noe gen på kromosom 20 (log2 ganger endring på 1,03 ). Proteinet kodet for av dette genet virker som en aktivator for Aurora-A med en rolle i spindelenheten [30]. Interessant for eggstokk-kreft, er det blitt vist å interagere med den BRCA1 /BARD1 kompleks (15). Nylig har det blitt identifisert som en potensiell onkogen i bukspyttkjertelkreft [31].

I sammendraget, viser vår studie at å kombinere høy frekvens og høy amplitude analyser og målretting sterkest i løpet av uttrykte gener redusert kandidatlisten til bare 70 gener ut av de mange tusen målrettet av kopiantall endringen alene. Vi har identifisert mange lovende kandidat gener som ikke tidligere er nevnt i eggstokkreft, spesielt gener som

MYNN

,

TPX2 Hotell og

PUF60

. Det bør imidlertid bemerkes, at vår fremgangsmåte for analyse er en av mange som kan anvendes ved identifisering av nye kreftgener, og er ikke sannsynlig å ha identifisert alle mulige kandidater. Eksemplet med

MYC

, ikke sterkt uttrykt i våre data, men tidligere har vist seg å ha en funksjonell virkning i ovarie cancer-cellelinjer [32], indikerer klart at vår tilnærming bør tas i betraktning som er komplementær til andre, for eksempel funksjonelle skjermer og dyp sekvensering av primære kreftprøver. Likevel våre data gir en viktig plattform for å rasjonelt forfølge validering av disse potensielle dominerende førere av eggstokkene tumorigenesis. I tillegg kan denne listen inkluderer gener som er gyldige kandidater for diagnostiske eller terapeutiske formål.

Materialer og metoder

Etikk erklæringen

Alle prøver ble samlet inn med donor skriftlig informert tillatelse. Denne studien ble godkjent av Peter MacCallum Cancer Centre Menneskelig forskningsetiske komité (Protocol nummer 01/38).

Prøvetaking

Tumor biopsier ble oppnådd fra 72 pasienter som var under kirurgi for primær eggstokk kreft (a) på sykehus i Wessex regionen Sørøst-England, Storbritannia og (b) i sykehus i Victoria, Australia (nås gjennom Peter MacCallum Cancer Centre Tissue Bank). Blod ble samlet inn fra de samme pasientene for samsvarende lymfocytter. Egglederen prøver ble samlet gjennom vevet banken fra

BRCA1

eller

BRCA2

mutasjonsbærere som gjennomgår profylaktisk bilateral salpingo-ooforektomi på sykehus rundt Melbourne. Opptjening og bruk av pasientprøver i forbindelse med dette prosjektet ble godkjent av de relevante institusjonelle etikkomiteer. Klinisk og histopatologiske informasjon om prøvene er gitt i tabell 1 og tabell S1.

DNA og RNA ekstraksjon

Frisk frosset vev ble innebygd i Optimal Cutting Temperatur Compound (OCT, Sakura Finetek, Torrance , CA) og kuttet i 10 um seksjoner. Tumor DNA og svulsten og egglederen RNA ble ekstrahert fra identiske regioner etter nål mikro-disseksjon av 80% tumor epitelceller. Seksjoner for RNA ble farget med cresylfiolett og RNA ble ekstrahert ved hjelp av Ambion Mirvana total RNA ekstraksjon protokoll (Applied Biosystems /Ambion, Austin, TX). Vevssnitt som brukes for DNA-ekstraksjon ble farget med hematoksylin og eosin og DNA ble ekstrahert ved hjelp av Qiagen blod og vev Kit (Qiagen, Valencia, CA, USA). DNA fra matchende normale lymfocytter for prøver fra Peter MacCallum Cancer Centre Tissue Bank ble hentet ved hjelp av det samme settet. DNA fra samsvarende normale lymfocytter for prøver fra Southampton ble ekstrahert som tidligere beskrevet [33].

Microarray datagenerering og kvalitetskontroll

500 ng DNA fra hver tumorprøve ble analysert ved anvendelse av Affymetrix Genome -Stort Menneskelig SNP Array 6.0 (SNP6.0) etter produsentens instruksjoner (Affymetrix, Santa Clara, CA). Der det er tilgjengelig (57 tilfeller) DNA fra tilsvarende perifere blodlymfocytter ble analysert på samme plattform og i den samme batchen. For mRNA-ekspresjon, ble 300 ng av total RNA fra de samme tumorprøver analyseres ved hjelp av Menneskelig Affymetrix Gene1.0 ST Array. Analyse av matrise ytelse for SNP6.0 arrays ble utført ved hjelp av genotyping samtalepriser ( 90% takst nødvendig) og også visuell inspeksjon av kopiantall spor å fjerne støyende prøver. 72 prøver passert kvalitetskontroll tiltak og ble brukt i kopien nummer analyse. For uttrykk arrays, profiler av hybridisering kontroller, spike-kontroller og positiv-versus-negative området under kurven (AUC) ble vurdert ved hjelp av Affymetrix Expression Console. I tillegg ble kvaliteten på arrays vurdert basert på relativ Log-likelihood (RLE) og Normalisert Uskalert standardfeil (nBruk) kriterier som genereres ved hjelp av «affyPLM» pakken i R open-source-programvare. Expression arrays som ble merket som tvilsomme ved to av tre tiltak (AUC, RLE, nBruk) ble ekskludert fra uttrykk analyser. 68 tumorprøver (57 med normal DNA) føres for både ekspresjon og kopiantall og ble beholdt i den integrerte uttrykket analysene. Den endelige prøven angitt i den integrerte analyse inkluderte de fire mest sett histologiske subtyper av ovarialcancer – serøs (n = 37), endometrioid (n = 14), mucinous (n = 7) og klar celle (n = 9). En prøve i studien var av ukjent histotype (tabell 1). Begge genuttrykk og kopi nummer data er MIAME kompatibel og har blitt sendt til Nasjonalt senter for bioteknologi Informations (NCBI) Gene Expression Omnibus (GEO) nettsider, serie tiltredelse antall GSE19539.

Kopier nummer analyse

Kopier nummer generasjon og analyser ble utført ved hjelp av Partek

® Genomics Suite ™ versjon 6.03 (Partek Inc., St. Louis, Missouri) og Bioconductor pakker i R-programvare med åpen kildekode rammeverk [34], [35]. SNP 6,0 CEL filer ble importert til Partek bruker standardinnstillingene for bakgrunnskorreksjon og summarisation. Human Genome Build 36.1 (hg18, mars 2006) ble brukt for basepar steder. Probeset kopitallforhold ble beregnet ved å sammenligne hver svulst med sin matchende normal når det er tilgjengelig (n = 57). For prøver som ikke har samsvarende normale data (n = 15), en samle normal basislinje fra alle de andre normale prøver ble anvendt. Rundskriv binær segmentering [36] ble utført ved hjelp av R-basert pakke «DNAcopy» å segmentere dataene inn i forskjellige regioner i endring med standard pakke innstillinger. Denne analysen ga en liste over områder per prøve som ble deretter filtrert for de regionene som viste gevinst (kopiantall ratio 2,5) eller tap (kopi nummer ratio 1,5) over ≥40% (n≥29) av alle prøvene. Disse områdene ble slått sammen til cytobands for enklere datamanipulasjon (Figur S2 for flere detaljer). Det er viktig å merke seg at siden disse regionene har gjennomgått filtrere skritt definert ovenfor, har de ikke inkluderer hele cytoband som de er representert, og dermed den høye oppløsningen på dataene ikke er kompromittert.

For å identifisere potensielle kimcellelinje kopi nummer polymorfismer (CNP) som kan forstyrre nøyaktig identifikasjon av somatiske endringer, kopiere talldata for 57 normale prøver ble generert i forhold til en samlet baseline av alle normale prøver. Regioner som viser gevinst eller tap i 5% av alle prøvene ble kalt som CNPs (tabell S3). Regioner av interesse fra kreftdata ble skannet for disse CNPs og kampene ble fjernet fra nedstrøms analyser (Figur S2-B). CNP-fjernet, cytoband-kollapset regioner ble spørres mot hele kopitall datasett for å generere nøyaktige, regionvise verdier av kopiantall.

Kopier nummer ble hentet på et gen-by-genet grunnlag for å utføre Pearson korrelasjonsanalyse med uttrykk. Siden noen gener var så liten at det ikke var noen kopi nummer probesets kartlegging til dem, ytterligere 10 kb ble lagt inn i alle gen start og stopp posisjoner før utpakking deres kopiantall.

Expression microarray analyse

for hver kandidat region, prøvene ble delt i to grupper, G – som består av samtlige prøver som viste forsterknings ( 3 eksemplarer) på SNP6.0 plattform; og N – bestående av alle prøver som viste normal kopi nummer (1,5-2,5 eksemplarer). En test for dette uttrykket ble utført mellom disse to gruppene med «limma» pakken tilgjengelig på R-open source programvareplattform [34]. Histologisk subtype ble inkludert som en faktor i analysen. Gener ble ansett for å være vesentlig forskjellig uttrykt med en p-verdi på 0,05 etter gjen testing korreksjon [37]. En Pearsons korrelasjonsanalyse mellom kopiantall og ekspresjonen ble også utført. Separate analyser ble utført på en gen-av-genet basis for alle genene i (a) de hyppigst forsterkes regioner (CN≥3; Freq≥40%) og (b) de høyest forsterkede regionene (CN≥5; Freq≥7% ).

Hjelpemiddel Informasjon

Tabell S1.

Eksempel detaljer. Clinicopathological funksjoner og analyseinformasjon for hver prøve. 57 av 72 svulster hadde matchende lymfatisk DNA tilgjengelig for kopiantall microarray analyse

doi:. 10,1371 /journal.pone.0009983.s001 plakater (0,06 MB PDF)

Tabell S2.

Andel genome-wide gevinst og tap ved prøven. I alle disse prøver, legger avvikende genomet opp til 95,4% i gjennomsnitt. Den mangler 4,6% kan tilskrives regionene på kromosom Y, mitokondrie-DNA og repeterende sekvenser rundt centromeric regioner som er enten fjernet fra segmentering analyse eller som ikke omfattes av Affymetrix SNP6.0 rekke

doi:. 10,1371 /journal.pone .0009983.s002 product: (0,06 MB PDF)

tabell S3.

kimlinje kopitallet polymorfismer på Chr 3, 7, 8, 20. Den regioner /segmenter av kopiantallet vinning som inneholdt en eller flere av disse CNPs ble fjernet eller endret som vist i figur S1-B. Den type CNP vises også i kolonnen lengst til høyre

doi:. 10,1371 /journal.pone.0009983.s003 plakater (0,05 MB PDF)

Tabell S4.

Regioner av gevinst til stede i 40% av prøvene. Denne tabellen inneholder genomisk informasjon for de 90 regionene som inngår i uttrykket analyser, dvs. alle de regionene som er kartlagt til 1 eller flere probesets på menneske GeneST1.0 mikromatriser. På denne microarray plattformen, de fleste probesets kartlegge entydig til en protein-kodende gen. Regionen IDer tilsvarer de i tabell 2, 3, 4 og S5

doi:. 10,1371 /journal.pone.0009983.s004 plakater (0,13 MB PDF)

Tabell S5.

All forskjellig uttrykt probesets i hyppige regioner i gevinst.

Legg att eit svar