PLoS ONE: SurvExpress: En Online Biomarker valideringsverktøyet og Database for Cancer genuttrykk data ved hjelp av Survival Analysis

Abstract

Validering av multi-genet biomarkører for kliniske utfall er en av de viktigste sakene for kreft prognose. En viktig kilde til informasjon for virtuelle validering er det høye antallet tilgjengelige kreft datasett. Likevel vurdere prognostiske ytelsen til en genekspresjon signatur sammen datasett er en vanskelig oppgave for biologer og leger og også tidkrevende for statistikere og bioinformatikere. Derfor, for å legge til rette for ytelse sammenligninger og valideringer av overlevelses biomarkører for kreft utfall, har vi utviklet SurvExpress, en kreft-wide genekspresjon database med kliniske resultater og et web-basert verktøy som gir overlevelsesanalyse og risikovurdering av kreft datasett. Hoved input av SurvExpress er bare biomarkør genet listen. Vi ga en kreft database samle mer enn 20.000 prøver og 130 datasett med sensurert klinisk informasjon som dekker svulster over 20 vev. Vi gjennomførte et webgrensesnitt for å utføre biomarkør validering og sammenligninger i denne databasen, hvor en multivariat overlevelsesanalyse kan utføres i omtrent ett minutt. Vi viser nytten og enkelhet SurvExpress i to biomarkør søknader om brystkreft og lungekreft. Sammenlignet med andre verktøy, er SurvExpress den største, mest allsidige og raskest gratis verktøy tilgjengelig. SurvExpress nettet kan nås på https://bioinformatica.mty.itesm.mx/SurvExpress (en tutorial er inkludert). Nettstedet ble implementert i JSP, Javascript, MySQL, og R.

Citation: Aguirre-Gamboa R, Gomez-Rueda H, Martínez-Ledesma E, Martínez-Torteya A, Chacolla-Huaringa R, Rodriguez-Barrientos A, et al. (2013) SurvExpress: En Online Biomarker valideringsverktøyet og Database for Cancer genuttrykk data ved hjelp av Survival Analysis. PLoS ONE 8 (9): e74250. doi: 10,1371 /journal.pone.0074250

Editor: William C. S. Cho, Queen Elizabeth Hospital, Hong Kong

mottatt: 21 april 2013; Godkjent: 31 juli 2013; Publisert: 16.09.2013

Copyright: © 2013 Aguirre-Gamboa et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Forfatterne er takknemlig for støtten fra Catedra de bioinformatikk CAT220 på ITESM (Tecnológico de Monterrey) og CONACyT gir 83929 og 140601. de finansiører hadde noen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet.

konkurrerende interesser:. forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Kreft forårsaker millioner av dødsfall rundt om i verden. For å bedre behandlinger, har flere biomarkører blitt foreslått for risiko prognose og behandlingsrespons. Siste publiserte biomarkører i mange typer kreft inneholder mange gener og er i hovedsak basert på genuttrykk. De har blitt generert ved hjelp av microarray profilering og det siste av RNA-Seq teknologier. Ofte er identifisert biomarkører utvikles til en bestemt kreftvev og subtyper. I brystkreft, for eksempel mer enn 40 biomarkører har vært foreslått som inneholder mellom 3 og 512 gener og som prognostisk eller prediktiv ytelsen avhenger terapi, hormonreseptor status, og antall gener [1], [2]. På den annen side, vurdere resultatene av foreslåtte biomarkører i ulike populasjoner eller vurdere konkurrerende biomarkører er vanskelige oppgaver, selv om hundrevis av offentlige datasett er tilgjengelige. De viktigste begrensningene er tid og ressurser som trengs for å anskaffe, prosessering, normalisering, filtrering, og statistisk modellering av store genuttrykk datasett. Dette er viktig fordi flere av de grunner som er involvert i svikt av biomarkører i kliniske forsøk er relatert til dataanalyse [3]. For analyse av biomarkører, har verktøy som ITTACA, Kmplot, RecurrenceOnline, bc-GeneExMiner, Gobo, og PrognoScan blitt foreslått [1], [4] – [9]. Disse verktøyene har alvorlige begrensninger (tabell 1), noe som kompliserer og begrenser vurderingen av multi-genet biomarkører i kreft. Noen av de viktigste begrensningene omfatte å vurdere bare ett gen på tid eller et bestemt sett av gener; fokuserer på bryst eller ovarial cancer datasett eller til en bestemt Affymetrix genekspresjon plattform; krever opplasting av Affymetrix genuttrykk data (.CEL filer); og ved hjelp av en enkelt kvantum per genet selv om noen microarray plattformer gi flere probesets.

For å løse disse problemene og for å lette ytelses sammenligninger og valideringer av prognostiske og prediktive biomarkører for kreft utfall, har vi utviklet SurvExpress. SurvExpress er en omfattende genuttrykk database og web-basert verktøy som gir overlevelsesanalyse og risikovurdering i kreft datasett ved hjelp av en biomarkør gen liste som input. Verktøyet er tilgjengelig i https://bioinformatica.mty.itesm.mx/SurvExpress. Verktøyet inkluderer en tutorial som beskriver analysen alternativer, tomter, tabeller, sentrale begreper knyttet til overlevelse analyse, og representative metoder for å identifisere biomarkører fra genuttrykk data.

Materialer og metoder

Database Acquisition

datasett ble oppnådd hovedsakelig fra GEO (https://www.ncbi.nlm.nih.gov/geo/) og TCGA (https://tcga-data.nci.nih.gov) når du søker etter søkeord relatert til kreft, overlevelse og genuttrykk teknologier. I tillegg, noen ble hentet fra forfatterens nettsteder og fra ArrayExpress (https://www.ebi.ac.uk/arrayexpress/). Datakilden som brukes er vist i web-grensesnittet. Vi favorisert krefttyper over to forskjellige kohorter og datasett som inneholder overlevelsesdata over 30 prøver hvor sensureindikator og tid til døden, tilbakefall, tilbakefall eller metastase ble gitt. Kliniske data ble levert av datasett forfatterne via personlig e-post når den ikke er tilgjengelig på nettet i tilsvarende repositories. Datasett ble kommentert fra leverandøren filer som fant frem til september 2012, og var quantile-normalisert og log2 forvandlet når det trengs. Fra TCGA, ble alle datasett oppnådd ved genet nivå (nivå 3). RNA-Seq teller data ble log2 forvandlet. I enkelte krefttyper hvor mange datasett ble funnet for det samme genekspresjon plattform, tilbyr vi også en fusjonert meta-basen. I meta-baser, datasett var quantile normalisert; probesets midler ble utlignet bevare standardavviket for hver kohort; og datasett ble fusjonert med probeset id. I det øyeblikk gir vi meta-baser for bryst, lunge, og eggstokk-kreft. Å legge til rette genet søk og konverteringer mellom genet identifikatorer, ble menneskelig gen informasjon brukt og hentet fra NCBI FTP-område (ftp://ftp.ncbi.nih.gov/gene/DATA/GENE_INFO/Mammalia/Homo_sapiens.gene_info.gz). For å forenkle brukergrensesnittet, ble datasett gruppert etter relaterte organ eller vev ved hjelp av sykdoms ontologier [10].

webgrensesnitt Implementering

To enkle og lette HTML brukergrensesnitt basert på Java Server Pages, Javascript , R, Ajax, Apache og MySQL ble gjennomført (figur 1A). I

Input

side, brukere innføre genet liste basert på NCBI kompatibel genet identifikatorer (offisielle symbol, Entrez, Ensembl, HGNC, eller andre) og velg målet datasett. Brukere kan også velge hvordan du behandler gener å ha mer enn en sonde.

Analyse

side trekker datasettet rader knyttet til gener i biomarkør og leverer et webgrensesnitt. Deretter kan brukerne vurdere biomarkør i en rekke måter, inkludert å slå av og på spesifikke gener, stratifisering prøver av tilgjengelige kliniske opplysninger (f.eks scenen, klasse, alder, biokjemiske resultater, og mutasjonsstatus), med angivelse opplæring og testprøver, og veie gener i stedet for å bruke Cox montering. Resultatene vises i vanlige og fleksible publiseringsklare tomter og tabeller i

Analyse

side. En PDF-versjon av resultatene kan også fås.

Panel A viser en prinsippskisse av SurvExpress arbeidsflyten mens Panel B viser bilder av grensesnittene tagging de nødvendige feltene. I den første

Input

nettside, kan brukeren lime listen over gener (merket med nummer 1, som kan være symboler, entrez genet identifikator og andre identifikatorer) og velg datasettet fra rundt 140 tilgjengelige datasett ( tagget med 2 og 3). SurvExpress validerer og søker genene og datasett for å vise

Analyse

nettside hvor brukeren velger sensurert utfallet (tag 4) og synliggjør resultatene (høyre nederst utvidet i figur 2). Hele prosessen kan oppnås på mindre enn ett minutt for en fornuftig antall gener.

Prognostic Index Estimering

prognostisk indeks (PI), også kjent som risikoscore, er vanligvis brukes til å generere risikogrupper. PI er kjent som den lineære del av Cox-modellen [11], PI =

β

1x

1+ β

2x

2 + … + β

px

p

der

x

i

er uttrykk verdi og

β

jeg

kan fås fra Cox montering. Hver

β

Jeg

kan tolkes som en risiko koeffisient. SurvExpress implementerer to prosedyrer for å estimere

β

koeffisienter. Den første prosedyren er den klassiske Cox modell hvor alle genene er inkludert i en unik modell. Beslaget er utført i R (https://cran.r-project.org) ved hjelp av

overlevelse

pakken. I den andre fremgangsmåten, kan brukeren spesifisere en vekt for hvert gen i stedet for ved hjelp av verdiene fra den Cox montering. Slikt er nyttig å foreta sammenligninger med biomarkører beregnet med andre enn Cox matematiske modeller.

Risk Estimering

SurvExpress implementerer to metoder for å generere risikogrupper. Den første metoden (standard) genererer risikogruppene som splitter bestilt PI (høyere verdier for høyere risiko) med antall risikogrupper forlater likt antall prøver i hver gruppe. For to risikogrupper, tilsvarer dette splitte PI av medianen. Den andre metoden for å fremstille risikogrupper anvender en optimaliseringsalgoritme fra den ordnede PI. Kort fortalt, for to grupper, er en log-rank test utført sammen alle verdier av den arrangert PI. Deretter, velger algoritmen delingspunktet hvor p-verdien er minimum. Denne prosedyren er generalisert for mer enn to grupper gjentatte ganger å optimalisere en risikogruppe på den tiden til ingen endringer er observert. Detaljer om denne prosedyren er beskrevet i veiledningen gitt i SurvExpress nettside.

Utganger

Utgangene inkludert tilsvarer vanlige beregninger og tomter som brukes til å vurdere resultatene av overlevelsesdata. Et eksempel på utgangene generert av SurvExpress er vist i figur 2. Panel A viser Kaplan-Meier plott av risikogruppe, log-rank test av forskjeller mellom risikogrupper, fare-ratio estimatet, og konkordans indekser, som anslag sannsynligheten for at individer med en høyere risiko vil oppleve arrangementet etter fag med en lavere risiko [12]. Panel B viser en visuell sammenslutning av tilgjengelige kliniske opplysninger til risikogrupper. Panel C viser et varmekart av genekspresjon verdier. Panel D viser boksplott av genekspresjon verdier på tvers av genet grupper sammen med p-verdien av den tilsvarende forskjell. Panel E viser risikogruppe optimalisering plot. Panel F viser fragmenter av tabellene for beta-koeffisienter inkludert tilsvar Cox p-verdier, prognostisk indeks per prøve, og Cox montering informasjon fra

overlevelse

pakke i R. andre avanserte tomter er også tilgjengelig i opplæringen gitt i SurvExpress. Andre «avanserte tomter» inkluderer SurvivalROC som estimerer tidsavhengige sensitivitet og spesifisitet for overlevelse risikogruppene [13] men trenger et par minutter til å beregne. Andre tomter, detaljer og tolkninger av utgangene er beskrevet i veiledningen gitt i SurvExpress nettstedet.

Denne figuren viser resultatene fra en brystkreft meta-basen inkludert i SurvExpress. Panel A viser Kaplan-Meier kurve for risikogrupper, bibelordbok indeks, og p-verdien til log-rank test likestilling av overlevelseskurver. Panel B viser klinisk informasjon relatert til risikogruppe, prognostisk indeks, og utfallsdata. Panel C viser et varmekart representasjon av genuttrykk verdier. Panel D viser et boksplott på tvers av risikogrupper, inkludert p-verdien testing for forskjellen anvendelse av t-test (eller f-test for mer enn to grupper). Panel E viser forholdet mellom risikogrupper og prognostisk indeks. Panel F viser fragmenter av tabeller med sammendraget av Cox montering og prognostiske indekser. Detaljer er gitt i SurvExpress Tutorial.

Applications

Database

Selv om datainnsamling vil fortsette, til dags dato har vi samlet inn rundt 20.000 kreftprøver

Resultater og distribuert i 140 datasett som dekker mer enn 20 vev (tabell 2). Den største begrensningen for å inkludere flere datasett var at fravær av informasjonssensur i repositories. Likevel SurvExpress samling overgår lignende verktøy i form av vev dekning, antall prøver, multivariate prediktor estimering og funksjonalitet (tabell 1). Fra de 20 krefttyper, den mest representert ved deres antall datasett var bryst, hematologisk, lunge, hjerne, og ovarie, og nådde ca. 70% av databasen samlingen. Det er overraskende at de fleste av de eksisterende verktøy er hovedsakelig konsentrert i brystkreft, selv om et tilsvarende antall datasett er tilgjengelig for andre cancertyper. Følgelig er en av de umiddelbare fordeler med SurvExpress tilgjengeligheten for å utføre kraftig analyse for disse svært undersøkte typer kreft. I tillegg vil SurvExpress tillate validering av biomarkører i kreft typer som ikke har vært vurdert av andre verktøy som nyre, lever, mage, bukspyttkjertel, bein, hode og nakke, og livmor. I web-grensesnitt, vi oppfordrer brukere til å foreslå eller sende data for å øke kreft og datasett dekning

webgrensesnitt

De to web-grensesnitt består av tre deler:.

Input , Analyse Hotell og

Resultater

(figur 1B).

Input

side er lett å betjene skrive eller lime inn en liste av gener og spesifiserer målet datasettet (tallene 1-3 i figur 1B). Det inkluderer også en link til tutorial som beskriver alle alternativer og gir omfattende tolkninger av utgangene. Den påfølgende

Analyse Hotell og

Resultat

side er oppnådd i løpet av få sekunder (ca 1 sekund per genet og 200 prøver). I

Analyse

delen angir brukeren utfallet av det valgte datasettet der analysen vil bli utført (nummer 4 i figur 1B).

Resultater

seksjon (figur 2) oppnås i noen sekunder etter at du sender en analyse. Denne delen omfatter utganger som Kaplan-Meier-kurver for risikogrupper, visuell sammenligning av klinisk informasjon til risikogrupper, et varme kart av genekspresjon verdier, boks plott av genekspresjon pr genet og risikogruppe, en plott av den risiko gruppe optimaliseringsprosess, bordene til Cox koeffisientene, prognostiske indekser, og Cox montering informasjon, og en link for å få R-skript brukes.

Validering og Programmer

på grunn av begrensninger i andre verktøy, multi-genet sammenligninger på tvers av verktøy var ikke mulig. Likevel kan SurvExpress gi lignende resultater med andre verktøy når man gen bare blir brukt. Likevel, for å vurdere funksjonalitet og beregninger av SurvExpress, utførte vi to analyser som evaluerer resultatene av kjente og foreslåtte prognostiske biomarkører. Vi brukte OncotypeDX biomarkør for tilbakefall av brystkreft og to publiserte biomarkører for lungekreft overlevelse.

OncotypeDX biomarkør for brystkreft.

Som et eksempel for å teste en biomarkør i flere datasett, brukte vi de 16 OncotypeDX genene [14]. OncotypeDX anslår en gjentakelse poengsum som i hovedsak tilbys til tidlig stadium, østrogen positive, lymfeknute negativ brystkreft. Genene er inkludert er

AURKA

,

BAG1

,

BCL2

,

BIRC5

,

CCNB1

,

CD68

,

CTSL2

,

ErbB2

,

ESR1

,

GRB7

,

GSTM1

,

MKI67

,

MMP11

,

MYBL2

,

PGR

, og

SCUBE2 product: (

ACTB

,

GAPDH

,

GUSB

,

RPLP0

, og

TFRC

gener som brukes som referanse i RT-PCR-analyse ble ikke brukt her). For å beregne score, bruker OncotypeDX en vekting algoritme som tilsvarer en vekt multiplisert med tilsvarende genuttrykk normalisert ved en referanse [14]. I SurvExpress brukte vi Cox beslaget (som en approksimasjon siden genekspresjon data er ikke normalisert for å referere gener) i fire brystkreft datasett (tabell 3). Andre innstillinger var maksimal rad gjennomsnittet for gener med flere probesets, og to risikogruppene delt på median av prognostisk indeks. For å teste biomarkør i flere forhold, ble datasettene valgt å reflektere pasienter egnet for testen (Wang [27] og Ivshina [26]), pasienter med delvis informasjon i tillegg til annen hendelse (TCGA [25]), og pasienter uten klinisk informasjon (Kao [15]). Resultatene er vist i Figur 3 og i Tabell 4 viser at, generelt, kan Oncotype DX separere betydelig lav- og høyrisikogrupper i de fire datasett som ble testet. Videre ble tilfredsstillende indekser i samsvar og områder under ROC-kurven oppnådd. Disse resultater kan oppnås ved bruk av SurvExpress i noen få minutter. For å demonstrere analytiske funksjoner i SurvExpress, også utførte vi overlevelsen evalueringen stratifisering prøvene ved hjelp av kreft karakterer gitt av forfatterne (AJCC Stage i TCGA datasett og karakter i Ivshina datasettet). Representative resultater for den Ivshina datasettet er vist i figur 4. Figuren viser at utførelsen, gitt av overensstemmelse indeksen og log-rank testen for risikogrupper, reduseres langs karakter. Resultater for TCGA datasettet er vist i Tutorial tilgjengelig i SurvExpress nettstedet.

sensurere prøvene er vist som «+» merkene. Horisontale aksen representerer tid til hendelsen. Datasettet, utfallet hendelse, tidsskala, konkordans indeks (CI), og p-verdien av log-rank test vises. Røde og grønne kurver betegne høy og lav-risikogrupper henholdsvis. De røde og grønne tallene nedenfor horisontale aksen representerer antall individer ikke presentere ved den tilsvarende risikogruppe langs tid. Antall individer, antall sensurert, og CI for hver risikogruppe vises i øverste høyre innfellinger.

Legends som i figur 3.

Sammenligning av to lungekreft biomarkører.

for ikke-småcellet lungekreft (NSCLC), har minst 16 biomarkører blitt foreslått [16]. Her sammenlignet vi to biomarkører foreslått for overlevelse av NSCLC som forsøker å forutsi den samme hendelsen (overlevelse) og bruker en lignende rekke gener; imidlertid kan genene som er forskjellige. . Den første NSCLC biomarkør ble foreslått av Boutros

et al product: [17] og inneholder følgende gener:

STX1A

,

HIF1A

,

CCT3

,

HLA-DPB1

,

RNF5

, og

MAFK

. Den andre NSCLC biomarkør ble foreslått av Chen

et al.

[18] og inneholder genene

DUSP6

,

MMD

,

STAT1

,

ErbB3

, og

LCK

. Derfor er det av klinisk interesse å sammenligne sine resultater. For dette utførte vi en analyse i SurvExpress bruker maksimal rad gjennomsnittet for gener med flere probesets, to risikogrupper prognostisk indeks median, og Cox montering. Vi brukte en spesiell lungemeta basen bygge i vår forskningsgruppe, som består av mer enn 1000 prøver tatt fra seks forfattere (Bild [19], Raponi [20], Zhu [21], Hou [22], NCI [23 ], Okayama [24]), tilsvarende Affymetrix genekspresjon plattform, og som inneholder alle biomarkør gener.

resultatene viser at begge biomarkører er i stand til å skille risikogrupper er kjennetegnet ved forskjeller i deres genekspresjon (se Kaplan-Meier og boksplott henholdsvis i figur 5). Likevel, p-verdien av risikogruppen separasjon, konkordans indeks, og betydningen av koeffisientene var litt bedre i Chen biomarkør. For å analysere biomarkører dypere, testet vi biomarkør per database forfatteren bruker SurvExpress lagdel funksjonalitet (dette kan også oppnås utføre en SurvExpress analyse per forfatter datasettet). Resultatene for de seks forfatterne er oppsummert i Tabell 5. Tre representative eksempler er vist i figur 6. Resultatene viser at den Boutros biomarkør svikter i fire datasett (log rank test av forskjellen i risikogrupper er ikke signifikant), mens Chen biomarkør fungerer bedre i nesten alle datasett. Oppsummert disse resultatene tyder på at resultatene av Chen biomarkør er overlegen.

Kaplan-Meier-kurver som i figur 3. Heat Kartet viser uttrykket av hvert gen (rader) sammen prøver (kolonner) i risikogrupper. Lav uttrykk er representert i grønne karakterer og høyt uttrykk i røde karakterer. Tilsvarende beta-koeffisienter fra Cox montering vises. To stjerner (**) markerer gener som passer p-verdi 0,05, en stjerne (*) for marginale betydelige gener med p-verdi 0,10, og ingen stjerner for gener som p-verdien er 0,1. Boksplott sammenligne forskjellen av genuttrykk mellom risikogrupper ved hjelp av en t-test.

Legends som i figur 3.

Konklusjon

Sammenlignet med andre verktøy, er SurvExpress den største og mest allsidige gratis verktøy for å utføre validering av multi-genet biomarkører for genekspresjon i humane kreftformer. Analysen krever bare en liste av gener og kan utføres i omtrent ett minutt per datasettet. Vanlige programmer for å teste ytelsen av biomarkører inkluderer evaluering av en biomarkør i andre populasjoner eller klinisk status og sammenligning av konkurrerende biomarkører. Vi har vist disse to programmene av SurvExpress sammenligne ytelsen til en brystkreft biomarkør i flere datasett, blant annet kreft karakterer, og bestemme den beste biomarkør ut av to alternative lungekreft biomarkører. Vi konkluderer med at SurvExpress er en verdifull og omfattende web verktøy og kreft database med kliniske resultater som er skreddersydd for raskt å evaluere genekspresjon biomarkører.

Legg att eit svar