PLoS ONE: Gene Set baserte integrerte dataanalyse avslører Fenotypiske Forskjeller i et Brain Cancer Model

Abstract

En sentral utfordring i dataanalysen av biologisk high-throughput eksperimenter er å håndtere den ofte lavt antall prøver i eksperimentene sammenlignet med antallet av biomolekyler, som samtidig måles. Kombinere eksperimentelle data ved hjelp av uavhengige teknologier for å belyse de samme biologiske trender, samt utfyller hverandre i et større perspektiv, er en naturlig måte å overvinne denne utfordringen. I dette arbeidet undersøkte vi om å integrere proteomikk og transcriptomics data fra en kreft i hjernen dyremodell ved å bruke gen-sett basert analysemetodikk, kan forbedre den biologiske tolkning av dataene i forhold til mer tradisjonelle analyse av de to datasettene hver for seg. Hjernen kreft modellen er basert på serieaging av transplantert menneskelige hjerne svulst materiale (glioblastom – GBM) gjennom flere generasjoner i rotter. Disse serie transplantasjoner fører over tid til genotypiske og fenotypiske endringer i svulster og representerer en medisinsk relevant modell med en sjelden tilgang til prøver og hvor påfølgende analyser av enkelte datasett har avdekket relativt få signifikante funn på egenhånd. Vi fant ut at den integrerte analysen både gir bedre resultat i form av betydning mål på sine funn i forhold til individuelle analyser, samt gi uavhengig verifikasjon av individuelle resultater. Dermed en bedre sammenheng for generelle biologisk tolkning av dataene kan oppnås

Citation. Petersen K, Rajcevic U, Abdul Rahim SA, Jonassen jeg, Kalland K-H, Jimenez CR, et al. (2013) Gene Sett Basert Integrert dataanalyse avslører Fenotypiske Forskjeller i et Brain Cancer Model. PLoS ONE 8 (7): e68288. doi: 10,1371 /journal.pone.0068288

Redaktør: Ying Xu, University of Georgia, USA

mottatt: 28 februar 2013; Godkjent: 28 mai 2013; Publisert: 09.07.2013

Copyright: © 2013 Petersen et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Dette arbeidet ble støttet av den Norske Kreftforening, norsk forskningsråd, Innovest AS, Helse-Vest, Haukeland universitetssykehus, Bergen Translasjonell Research Program, Senter Recherche de offentlige Santé Luxembourg, EU-kommisjonen sjette rammeprogram kontrakt 504743 og Funksjonell genomforskning (FUGE) program i Norge finansierer nasjonale Bioinformatikk-plattformen. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

den raske fremskritt innen teknologiutvikling for å vurdere informasjon fra flere vinkler om gener, proteiner og metabolitter, har resultert i en økende forventning om et stort potensial for nye funn i forståelsen av mobilnettet molekylære aktiviteter. Individuelle overvåking teknologier har blitt markedsført for å avdekke et helhetlig bilde ved å fange opp informasjon om de fleste enheter av en type, som for eksempel alle transkriberte gener er kodet i genomet eller et stort antall av proteiner tilstede i en preparert prøve. Selvfølgelig, er en naturlig forlengelse av kombinasjonen av flere typer data for å avdekke mer informasjon om biologiske prosesser på molekylært nivå. For å høste fra denne forventede potensial for funn, flere fundamentale utfordringer må bli møtt. Høye gjennomstrømning datasett har av natur en stor ubalanse mellom antall prøvetakinger og antall variabler målt, som fører til utfordringer med hensyn tolking og tillit estimater av analyseresultater. Og tolkningen av flere datasett som vurderer prøver fra forskjellige vinkler i kombinasjon krever en ny teoretisk modell som kan vurdere biologiske spørsmål og betydningen av forutsagte svar. En vellykket integrert modell bør vurdere relevante biologiske spørsmål med høyere sikkerhetsnivå i forutsagt svar sammenlignet med fremgangsmåter for individuelle datasett typer, til tross for den økte kompleksitet av modellen. I dette arbeidet presenterer vi en kombinert analyse tilnærming for å tolke høy gjennomstrømning microarray og proteomikk datasett på to forskjellige tumor-fenotyper som oppnås ved serietransplantasjon menneske GBMS i CNS hos rotter [1], [2].

GBM representerer en heterogen gruppe av maligne hjernetumorer [3], og er en av de mest alvorlige former for kreft hos mennesker. Gjennomsnittlig overlevelse av berørte pasienter har bare bedre fra et gjennomsnitt på 12 måneder til 14,5 måneder etter diagnose i de siste 5 årene på grunn av forbedringer i standardbehandling [4]. For å løse den komplekse på den molekylære bakgrunn av humane GBMS, ble en human GBM-modell som er utviklet i immunsvikt hos rotter [1], [2], [5], som delvis frakobler to store fenotypiske karakteristika og landemerker i denne tumor,

dvs.

invasjon og angiogenese. Disse to egenskapene gjør GBM vanskelig å behandle med tilgjengelig behandling. Modellen er basert på serie xenotransplantasjon av menneskelige GBM kuler inn i hjernen av immunsvikt rotter, der de initierer veksten av primære GBMS. Fenotypen til den første generasjonssvulsten viser et sterkt invasive karakter i rottehjernen, mens ved serieaging i dyrene, utvikler svulsten til en raskere voksende tumor angiogene, med rikelig vaskulaturen, og mindre invasjon. Modellen og hjernevev fenotyper er illustrert i Figur 1.

En skjematisk representasjon av tumormodell og de fenotyper som oppnås etter transplantasjon i nakne rotter. Den første transplantasjon inn i nakne rotter ofte resultert i en invasiv fenotype, mens serie transplantasjon av tumorene resulterte i angiogene fenotype etter flere generasjoner.

Som allerede nevnt, dataanalyse og tolkning av biologisk high-throughput teknologi genererte datasettene ved omfanget av genomer og proteom er generelt en utfordring på grunn av den store ubalanse mellom antall sampler, og antallet molekyler som blir testet. For å identifisere en statistisk signifikant endring i ekspresjonsnivået for et enkelt gen på nivå med forandring som er interessant for biologisk tolkning, er mange uavhengige replikater som kreves i forsøket. Den intrikate natur GBM xenotransplantasjon serie passasje rottemodellen, og naturligvis begrenset tilgjengelighet av tumor materielle givere, har resultert i et begrenset sett med matchede prøve parene med invasiv og angiogenic fenotype å bli skjermet av mikromatriser og proteomikk. I tillegg er en høy grad av individuell variasjon mellom prøvene forventet og har blitt observert når adressering transcriptomics datasett i tidligere arbeid [1], [6]. Molekyl bakgrunn av fenotypen bryteren ble adressert ved nivåene av differensial ekspresjon av RNA [1] og proteiner [7] – [9], hvor omfattende valideringen inkludert et stort antall GBM-pasienter og funksjonsanalyser ført til nye kandidat biomarkører for en spesiell fenotype [7] – [9]. Utfordringen er fortsatt imidlertid å presisere bestemte molekylære stier som reflekteres av anriking av bestemte genet sett, noe som ville føre til en bedre biologisk forståelse av den underliggende patologi.

To generelle strategier for å motvirke veie dimensionality utfordringene i high-throughput data analyse er (i) å analysere sett av

a priori

definerte biologisk beslektede molekyler på tidspunktet stedet for individuelle molekyler og (ii) for å integrere resultatene fra flere uavhengige analyser muligens fra forskjellige high-throughput eksperimenter, både for å finne bevis som støtter de samme biologiske trender og utfyller hverandre for en rikere tolkning. Den felles analysen av Gene Ontologi vilkår overrepresentert i en liste med forskjellig uttrykt gener i forhold til hele datasettet er et tidlig eksempel på strategi (i), mens Gene Set berikelse Analysis – GSEA [10] og det store antall varianter av berikelse baserte metoder [11], [12] representerer senere utviklingen. Flere metoder for meta-analyse av uavhengige eksperimenter på de samme prøvene foreligger, fra enkle Rank produkt basert kombinere resultater individuelle liste [13] til mer komplekse multi-varians analyse basert metoder for å identifisere lignende trender over datasettene som Co-Inertia analyse (CIA) [14], [15]. Multi-varians analyse metoder krever et minimum antall prøver i et datasett, og CIA krever nøyaktig de samme prøver som kan være tilstede på tvers av datasettene, ofte gjør dem uegnet i praksis, slik som i vårt tilfelle GBM. Subramanian et al viste fleksibilitet GSEA som et verktøy for co-analyse av flere uavhengige micorarray eksperimenter på biologisk relatert prøver. Her utvider vi denne linjen tenkt å krysse barrieren mellom ulike høy gjennomstrømning teknologier.

I dette arbeidet vi brukt den Gene Set analyse tilnærming til co-tolke de to datasettene i sammenheng med hverandre. Den annotering av de identifiserte gener og proteiner blir tolket i forhold til invasiv og angiogene fenotyper, og sammenlignet med de vanlige Gene Ontologi analyseresultatene for de enkelte datasett. Denne tilnærmingen fremhever hvordan de støtter og styrker hverandre i vår kombinerte tolkning, samt utfylle hverandre på en bedre detaljert bilde av de fenotypiske forskjeller i hjernekreft modellens invasive og angiogene faser. Resultatene viser en sterk statistisk støtte mellom proteomikk og microarray resultater, noe som også gjenspeiles i den biologiske tolkningen av dataene gjennom et høyt samsvar med de enkelte analyseresultatene. For ytterligere å demonstrere gyldigheten av den foreslåtte tilnærmingen er resultatene i motsetning til Rank Produkt meta-analyse av de samme to datasettene. Vi har også brukt metoden til en tidligere publisert uavhengig par microarray og proteomikk datasett, hell gjenoppdage de viktigste resultatene fra den opprinnelige utgivelsen.

Materialer og metoder

Experiment Design

fem par tilsvarende invasive og angiogene prøver fra xenograft modeller, som stammer fra fem individuelle pasienter, ble brukt totalt i microarray og proteomikk eksperimenter. Fire prøve parene var forberedt på microarray analyse og ble hybridisert til åtte Applied Biosystems Human Genome Survey Mikromatriser v.2.0 (Array Express tiltredelse A-MEXP-503) i en hybridisering løp, som beskrevet i [6]. To eksempler på par var forberedt på proteomikk analyse og behandles i tre iTRAQ eksperimenter som beskrevet i [9]. En prøve par overlappet mellom de to teknologiene

Forbehandling og Normalisering

De microarray data ble importert til dataanalyse suite J-Express 2012 [16] (http:. //jexpress.bioinfo. nei), for preprosessering og normalisering. Den rå signal intensiteter ble trukket ut, kontroller filtrert ut, og dataene quantile normalisert [17]. Ytterligere data ble transformert log2, og hver prøve par ble kombinert til en enkelt log-forholdet kolonne. De proteomikk data ble preprocessed fra rådata til kvantifiseres peptider som er beskrevet i [9], inkludert merknaden om opprinnelsen til peptid fra enten vertsceller, tumorceller eller ukjent opprinnelse, basert på sekvens homologi til rotte og menneskelige databaser. I dette arbeidet bruker vi fulle proteomikk datasett fra 3359 proteinprofiler.

Differensial Expression statistikker

Rank Produkt (RP) statistikk [13] ble brukt både for transcriptomics og proteomikk datasett til rang gener og proteiner i henhold til differensial uttrykk mellom invasive og angiogene prøver. RP ble også anvendt på de reduserte datasettene som inneholder bare de unikt kartlegging transkripsjonene og proteiner som brukes for den integrerte analyse av dataene fra de to teknologier. RP ble implementert i J-Express 2012 analyse suite.

Gene ontologi overrepresentasjon Analyse

J-Express bruker en Fischer eksakte test for å vurdere statistisk overrepresentasjon av gener merket med en gitt Gene ontologi (GO) sikt (www.geneontology.org, [18]) i en mindre liste av interesse i forhold til en referansedatasettet. I dette arbeidet sammenlignet vi øverste lister over RP differensial uttrykket analyse på et gitt signifikansnivå (q-verdi) mot hele datasettet RP analyse ble utført på. Børsnoterte p-verdier for GO vilkårene i resultattabellen er nominelle,

dvs.

Ikke justert for multiple testing, og bør vurderes med tanke på dette. Gene ontologi OBO-fil som brukes var datert 2010 3 desember, filtrert Homo sapiens Gene ontologi tilordningsfilen brukt var datert 2011 29 november. GÅ bare vilkårene er til stede i OBO-filen er inkludert i analysen.

Gene Set Enrichment Analyse

Som et alternativ til GO overrepresentasjon analysen, Gene Set Enrichment Analysis (GSEA) [10] ble også brukt for å vurdere og rangere GO vilkår kommentere de to datasettene. I motsetning til den overrepresentasjon analyse, trenger GSEA og beslektede tilnærminger ikke operere med en fast begrenset liste av interesse å evaluere. I stedet de vurderer fordeling av gener merket med en gitt GO sikt over referansen datasettet. I GSEA fordelingen brukes til å definere en naturlig delsett av kommenterte gener kalles Leading Edge (LE) som bidrar til poengsummen av genet sett (GO sikt i dette tilfellet), og som kan følges opp for en nærmere biologisk tolkning . Analysene ble utført med GSEA implementering i J-Express 2012. Som Rank Produkt beregningen er egentlig uforenlig med standard vektet score ordningen med GSEA, valgte vi en log-fold scoring beregning for å vurdere gen-sett på våre parede prøver. Dette er den mest sammenlign metriske den som brukes ved Rank Produkt metoden når sortering logratios av parede prøver før kombinere dem til en Rank produkt. Andre parametre ble brukt med standardinnstillinger: permutasjon metode: gener, min antall medlemmer: 10, maks antall medlemmer: 500.

Trend Beskrivelser Basert på Gene ontologi

Hver datasett ble analysert uavhengig av Rank Produkt, GO overrepresentasjon analyse og GSEA. Den samme fremgangsmåte ble først utført med fokus på oppregulering i invasive prøve etter angiogene prøver, deretter med fokus på oppregulering i angiogene prøvene enn invasive prøver. Farten Vilkår og genet merknader til de beste listene ble manuelt screenet for løpe funksjonelt relevante for angiogenese og invasjon, og topplisten trender oppsummert fra dette.

Kartlegging av transkripsjon og protein identifikatorer mellom datasett

den menneskelige Entrez Gene ID for målrettede gener på ABI microarray ble benyttet som felles identifikator mellom transcriptomics og proteomikk datasett. Ved hjelp av den elektroniske ID converter service på BioMart Central Portal (https://central.biomart.org) ble identifisert protein SwissProt IDer fra proteomikk datasettet først kartlagt til deres tilsvarende human eller rotte Entrez Gene IDer. Rotta Entrez Gene IDer for proteiner identifisert som vert opprinnelse, ble ytterligere kartlagt til den menneskelige Entrez Gene IDer for sine homologe gener ved hjelp BioMart sin gen henting service, med Ensembl karakterutskrift IDer som linking identifikator.

Etter fullført kartleggingen, var det så mulig å analysere de transkriptene som korresponderer til de beste differensielt uttrykte proteiner som et gen som angitt i transcriptomics data, som illustrert i figur 2B. De blå horisontale linjene representerer protein tilsvarende vitnemål og hvordan de distribuerer i microarray data. Den samme analysen er gjort omvendt for transkripsjon tilsvarende proteiner i proteomikk data

A:. Datasettene ble analysert for differensial uttrykk uavhengig ved hjelp Rank Produkt, Gene ontologi overrepresentasjon (GO ORA) og GSEA. Metodene vurdere ulike fraksjoner av datasettene som biologisk relevant når sortert for differensial uttrykk, som illustrert for transcriptomics datasett (TR). RP og GO ORA i vårt tilfelle bare identifisert toppen ~ 1% av den samlede sorterte genet liste som relevant, både for transcriptomics og proteomikk analyser. GSEA på den annen side er identifisert Leading Edge (LE) undergrupper som spenner over ~ 20% av det totale genet listen. B: GSEA basert tilnærming for å integrere delvis overlapp proteomikk og transcriptomics datasett. Den øverste forskjellig uttrykt enheter fra ett datasett er kartlagt i tilsvarende enheter fra andre datasett og vurderes som et gen satt i GSEA. PR: Proteomikk datasett, TR. Transcriptomics datasett

Offentlig tilgjengelighet av data

De microarray data har blitt kommentert i henhold til MIAME [19] og er avsatt i ArrayExpress (http: //www.ebi.ac.uk/arrayexpress), tiltredelse no E-mtab-1185. Den normaliserte data matrise for kvantitativ proteomikk data er tilgjengelig i File S2.

Rank Produkt Meta-analyse

De matchende undergrupper av proteiner og transkripsjoner fra microarray og proteomikk datasett ble først identifisert. Så ble de rangert individuelt i henhold til differensial uttrykk mellom invasive og angiogenic prøver ved hjelp av Rank Produkt (RP) statistikk [13]. De resulterende rekkene ble deretter brukt som innspill til RP i en annen meta-analyse skritt å identifisere protein-transkripsjon parene høyt rangert i både individuelle analyser.

Uavhengig microarray og proteomikk Datasett Validering Analyse

CIA tilnærming [15] diskuterte deres metode ytelse på publisert mixorarray og proteomikk data tilgjengelig for livssyklusen til

Plasmodium falciparum,

en malaria parazyte [20]. Vi brukte de samme publiserte datasettene, tilgjengelig som Tabeller S1 og S2 i File S1 fra offentliggjøring, og log2 forvandlet de lineære uttrykket verdien for begge datasett før du fortsetter med GSEA analyse. Datasettene inneholder 4 påfølgende aseksuelle lifestages: merozoit, ring, trophozoite og schizout. Vi har gjort en grov definisjon av uttrykte transkripter i en livsstadier som transkriptene har en minste uttrykk verdi på 1000, noe som ga gensettene i størrelsesområdet 97-203, og for proteiner, en minimumsverdi ekspresjon av 50, hvilket ga gensettene i størrelse spekter av 10-77 (gensettene er oppført i File S3). Transkripsjon basert gensettene analysert for berikelse i alle 4 livsstadier i proteomikk data ved hjelp GSEA i J-Express (enkelt klasse, vektet logfold scoring), og proteinbaserte genet setter på samme måte i microarray data.

Resultater

analyse~~POS=TRUNC for individuelle datasett

Tabell 1 oppsummeringer resultatene av den enkelte analysen belyse trendene som finnes i hjernen kreft modell proteomikk og transcriptomics data setter individuelt ved hjelp av tradisjonell analysemetoder i kombinasjon med Gene ontologi (www.geneontology.org, [18]). Figur 2A viser proporsjonene av de totale genet listene som de ulike metodene rapporterer funn fra.

Selv om det er flere GO vilkår /trender funnet overlapping mellom de enkelte proteomikk og transcriptomics resultater, synes de å fremheve noen generelle vilkår for angiogene svulster. For invasiv fenotype det er mer konsistens i GO vilkår overlappende mellom proteomikk og microarray resultater og de uthevede konsensus trender av tabell 1, enn for angiogene type.

Gene Sett Basert Integrert dataanalyse tilnærming

Vi foreslår en ny integrert analyse tilnærming for co-analyse av datasett med bare en delvis sett tilsvarende enheter. Ved å kartlegge transkripsjoner til de tilsvarende proteiner (se M M) kan vi vurdere hvordan de beste forskjellig uttrykt transkripsjoner distribuere som et sett av proteiner i proteomikk data, og hvordan de beste differensielt uttrykte proteiner distribuere som et sett med utskrifter i microarray data. Se figur 2B. Vi først identifisere toppen oppregulert proteiner ved hjelp av RP på settet av kartlagt proteiner på et gitt signifikansnivå, både oppregulert i invasiv (I) og angiogene (A), og skjerme de tilsvarende sett av vitnemål ved hjelp GSEA i full microarray data sett. Tilsvar vi identifisere toppen oppregulert transkripsjoner bruker RP på settet av kartlagt transkripsjoner på et gitt signifikansnivå, både invasive og angiogene prøver, og skjermen de tilsvarende sett av proteiner ved hjelp GSEA i full proteomikk datasettet.

Microarray RP resultater støtte proteomics data i invasive prøver.

Som vist i figur 3A, venstre panel, er det en betydelig berikelse i proteomics data for proteinene som svarer til de differensielt uttrykte transkripter oppregulert i microarray data. Anrikningen i invasive prøvene er i samsvar med opp-regulering av transkripter i invasiv prøver i mikroarray data. Høyre panel viser for sammenligning, at det ikke er slik signifikant trend for proteiner som tilsvarer de transkripsjoner oppregulert i angiogene prøvene

A:. Venstre – avskrift tilsvarende proteiner beriket i invasive prøver, rett – avskrift tilsvar proteiner beriket i angiogene prøver. B: venstre – protein tilsvar transkripsjoner beriket i invasive prøver, rett – protein tilsvarende proteiner beriket i angiogene prøver

Den ledende bestående av 47 avskrift /protein kombinasjoner fra dette genet er satt vises i tabell 2. og representerer utgangspunktet for biologisk tolkning av denne integrerte co-analyse.

Proteomics RP resultater støttemicroarray data i angiogene prøver.

3B, panel høyre, viser betydelig anrikning i microarray data av transkriptene som korresponderer til den differensielt uttrykte proteiner i proteomics dataene. Anrikningen i angiogene prøvene er i samsvar med opp-regulering av proteiner i angiogene prøver i proteomics dataene. Det venstre panelet viser for sammenligning at det ikke er noen signifikant trend for transkripsjoner tilsvarende proteiner oppregulert i invasive prøvene.

Den ledende bestående av 43 transkripsjoner støttet opp av protein data, er oppført i tabell 3, og vanlig inspeksjon av listen avslører mange gener tidligere funnet relatert til angiogenese.

Sammenligning med Standard Metode og uavhengige datavaliderings

En enkel meta-analyse av kreft i hjernen modell microarray og proteomikk datasett avdekket ingen vesentlige tilsvarende transkripsjon og protein parene blir uttrykt forskjellig mellom invasive og angiogene prøver. (Invasive vs angiogene 20 beste parene,

q

= 83,9%, angiogen vs invasive topp 20 par,

q

= 78,1%, se File S4).

GSEA resultatene fra evalueringen av topp uttrykte proteiner i de ulike livsløpsfaser av

Plasmodium falciparum

mot transcriptomics datasett for de samme livsløpsfaser samles og presenteres i File S3. Likeledes er resultatene for de beste uttrykt transkripsjoner analysert mot proteomikk datasett av de ulike stadier. Disse blir kontrastert med resultatene i tabell 2 av originalverket [20].

Diskusjoner

Gene-sett baserte metoder ofte unnvike mer enn grei gen-by-genet differensial uttrykk analyse, og har fått litt fokus i de siste årene. Et annet alternativ for å styrke den statistiske kraften i et eksperiment; sier en microarray eksperiment, gjennom å legge til flere prøver (replikat) for statistisk test for å beregne fra, er å kombinere resultater fra flere uavhengige forsøk, som til sammen viser en trend som betydelig. Noen ganger er referert til som en meta-analyse, avhengig av nivå av abstraksjon fra de opprinnelige data, og noen ganger som en integrert tilnærming. Felles for begge er at det er nødvendig å kartlegge enheter fra forskjellige datasett til hverandre og anvendelse av en egnet statistisk test for å evaluere den kombinerte modellen. Som vist for kreft i hjernen modell datasett, svikter en vanlig Rank Produkt meta-analyse i dette tilfellet å identifisere betydelig støtte mellom datasettene, og alternative måter å forholde datasettene i en integrert tilnærming kalles for.

Som sett i tabell 1, nærmer seg annerledes tradisjonell analyse har problemer med å finne virkelig statistisk signifikante resultater på egenhånd. Trendene oppdaget er meningsfulle i forhold til den generelle forskjellen mellom invasive og angiogene fenotype, men er verken veldig spesifikk eller forbundet med overbevisende tillit nivåer.

Basert på resultatene av manuelle analyser (gjenopptatt i tabell 1) vi kan konkludere med at invasiv type eksperimentelle tumorer er forbundet med Gene Ontologi vilkår som indikerer sett av gener involvert i sentralnervesystemet utvikling, det er prosesser og regulering, som vurderes av GO overrepresentasjon analyse i transcriptomics data og ved GSEA tilnærming i både proteomikk og transcriptomics data. Dette er i samsvar med den fenotypiske utseende og oppførsel av invasive svulster, som ligner en mer umoden stilk-lignende celle, i stand til å infiltrere nabostrukturer, mye som nevrale stamceller gjøre i utviklingen av hjernen. Den angiogene fenotype er imidlertid forbundet med gener relatert til angiogenese som vurderes av RP analyse, GO overrepresentasjon analyse i proteomikk samt GSEA i transcriptomics som også inkluderte representasjon av begreper knyttet til cellesyklus, vekst og spredning.

i motsetning til analyser av de enkelte datasett, viser den integrerte analyse to viktige statistisk signifikante trender: 1) oppregulert transkripter i invasive fenotype undersøkt sammen er funnet som et sett av proteiner signifikant oppregulert sammen i invasive fenotype, 2) oppregulert proteiner i den angiogene fenotype undersøkt sammen er funnet som et sett med transkripter signifikant oppregulert sammen i den angiogene fenotype. Som figur 3 viser, er de ledende kanter av disse settene som strekker seg over omtrent 20% av full bakgrunn listen. Derav vår co-analyse tilnærming identifiserer betydelige gensettene i de samme bakgrunn genet lister all den enkelte analyser i tabell 1 ble evaluering.

En sterk sammenheng mellom de integrerte analyseresultatene i tabell 2 og de svakere individuelle analyseresultatene fra tabell 1 er bekreftet ved enkel inspeksjon av protein navn i tabell 2 og dominans av neuronal utvikling og aktivitet relatert beskrivelser. I tillegg har vi listet opp de mest relevante Gene Ontologi vilkår de 47 proteiner i tabell 2 er merket med, og disse er helt klart å matche omfanget av begrepene som er identifisert av private analyser (spesielt Tabell S9 i File S1). I tilfelle av den invasive fenotype av denne eksperimentelle GBM modellen tumorcellen (human) infiltrering av verten (rotte) hjernevev er så stort at det er praktisk talt umulig å isolere eller kirurgisk fjerne den rene svulsten ved kirurgiske midler, som også er en av de store spørsmålene i de fattige suksess for kirurgisk behandling alene for menneske GBMS. Derfor tumorvevet prøver av denne fenotype er «forurenset» i stor grad av verten (rotte) hjernevev. Proteinene identifisert ved den integrerte analysen så forskjellig uttrykt som et sett, oppregulert i invasiv fenotype, samt resultatene av GSEA av proteomikk (tabell S9 i File S1) og manuelle kryss sammenligninger ved hjelp av oppfinnsomhet Pathway Analysis and Human Protein Atlas bekreftet denne situasjonen på nivået av proteiner. Nesten halvparten (17 av 36 unike proteiner – Tabell 2) er faktisk proteiner knyttet til hjernen cellulær lokalisering (mobil komponent) og er en av neural (Synapse, nevromuskulær veikryss, postsynaptiske tetthet, Synaptic vesikkel, Presynaptisk vesikkel membran, Presynaptisk aktive sonen , nevroncelledød kroppen etc.) eller glial opprinnelse (myelin skjede, Compact myelin, etc.) og for det meste vert proteiner eller deler protein sekvens homologi med verten.

i tillegg både GO overrepresentasjon analyse (tabell S7 i File S1) og GSEA (tabell S11 i File S1) av transcriptomics data er sterkt dominert av hjernerelaterte termer som indikerer vert opprinnelse i stedet for kreftceller.

Tabell 3 viser den oppregulert sett transkripsjoner i det angiogene prøvene som er understøttet av proteomics data, den mest dominerende tendens overlappende med de individuelle analyseresultatene er utviklingsprosess og blodkardannelse. Spesielt nærvær av betongen begrepet angiogenese kommentering av tre gener (vav3, anxa2 og anxa2p2) i tabell 3 er meget interessant. Dette er første gang vi ved molekylærnivå analyser var i stand til å indikere begrepet reflekterer

de facto

angiogenese i slutten generasjon tumorer (figur 1), som er en av de viktigste fenotypiske kjennetegn ved sen generasjon glioma dyr modellen så vel som en av kjennetegnene til høy klasse gliom i pasienten. Videre uttrykk for anxa2 ble grundig validert på nivå med immunhistokjemi i flere vevsprøver av GBM xenograft modeller, samt på store antallet mer enn 200 kliniske glioma prøver av ulike karakterer i form av en vev microarray som vist i vår tidligere forskning . Faktisk vi bekreftet en sterk oppregulering av Anxa2 i angiogene xenografter sammenlignet med invasive, samt en betydelig økning i Anxa2 uttrykk i høy klasse hjernesvulst (klasse III og IV) sammenlignet med lave karakterer (klasse I og II) [9] .

den overrepresentasjon av membran lokaliserte proteiner (plasmamembran, ER, GA og i noen tilfeller Mt) sett i tabell 3, kan forklares med den eksperimentelle oppsettet av proteomikk eksperiment som inkluderte en berikelse trinn for membranproteiner. Derav integrert analyse også vil ha en bias mot utskrifter med genprodukter i disse cellulære avdelinger. Dette kan også forklare det faktum at vi ikke ser støtte for undertegning av cellesyklus, vekst og spredning som ble sett på som en stor trend i de enkelte analysene (tabell S12 i File S1 spesielt). Ved nærmere undersøkelse av cellulær lokalisering av de underliggende transkripsjoner for utviklingen i tabell S12 i File S1, ble et flertall av disse kommentert som ligger i kjernen, og tilsvarende proteiner vil dermed mindre sannsynlig bli plukket opp i membranen målrettet fraksjonen i proteomikk eksperiment.

Individuell analyser peker mot celleadhesjonsprosesser vilkår (Tabell S11 i File S1) støttes av den integrerte tilnærmingen (tabell 3, MSN) og er i samsvar med invasiv fenotype der celle adhesjon ser ut til å være

Legg att eit svar