PLoS ONE: Cross-Study Inger av Genomisk Biomarkører: En vurdering av kreft Genomics

Abstract

menneskelig sykdom studier med DNA-mikromatriser i både klinisk /observasjonsstudier og eksperimentelle /kontrollerte studier har økende betydning for vår forståelse av kompleksiteten i menneskelige sykdommer. En grunnleggende konseptet er bruk av genuttrykk som en «felles valuta» som knytter resultatene av

in vitro

kontrollerte eksperimenter for å

in vivo

observasjons studier på mennesker. Mange studier – i kreft og andre sykdommer – har vist lovende i å bruke

in vitro

celle manipulasjoner for å bedre forståelsen av

in vivo

biologi, men eksperimenter ofte bare ikke klarer å reflektere den enorme fenotypiske variasjon sett i menneskelige sykdommer. Vi tar dette med et rammeverk og metoder for å dissekere, forbedre og utvide

in vivo

nytten av

in vitro

avledet genekspresjonssignaturer. Fra et eksperimentelt definert genuttrykk signatur bruker vi statistisk faktoranalyse for å generere

flere

kvantitative faktorer i menneskelige kreft genuttrykk data. Disse faktorene beholde sitt forhold til den opprinnelige, endimensjonal

in vitro

signatur men bedre beskrive mangfoldet av

in vivo

biologi. I en brystkreft analyse, viser vi at faktorer kan reflektere fundamentalt ulike biologiske prosesser knyttet til molekylære og kliniske trekk ved kreft hos mennesker, og som i kombinasjon kan de forbedre prediksjon av kliniske utfall

Citation. Lucas JE, Carvalho CM, Chen JL-Y, Chi JT, West M (2009) Cross-Study Inger av genomisk Biomarkører: En vurdering av kreft Genomics. PLoS ONE 4 (2): e4523. doi: 10,1371 /journal.pone.0004523

Redaktør: Sridhar Hannenhalli, University of Pennsylvania School of Medicine, USA

mottatt: 01.09.2008; Godkjent: 31 desember 2008; Publisert: 19 februar 2009

Copyright: © 2009 Lucas et al. . Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering: Forsknings delvis støttet av National Science Foundation (DMS-0342172) og National Institutes of Health (NCI U54-CA-112952). Eventuelle meninger, funn og konklusjoner eller anbefalinger uttrykt i dette arbeidet er de av forfatterne, og reflekterer ikke nødvendigvis synspunktene til NSF eller NIH

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Microarray teknologien tillater fangst av ulike aspekter av genetiske, miljømessige, onkogene og andre faktorer som gjenspeiles i global mRNA uttrykk og åpner muligheten for å tilpasse behandling av sykdom [1], [2 ]. Flere studier har tatt en «top-down» tilnærming til profilering av genuttrykk i kreft hos mennesker, og dette har ført til identifisering av kreft subtyper gjenkjennes tidligere samt gen signaturer forutsi ulike kliniske fenotyper [3] – [7]. Alternativt har andre studier tatt en «bottom-up» tilnærming for å bestemme endring av genuttrykk forårsaket av spesifikke manipulasjoner av dyrkede celler

in vitro

. I disse studiene genekspresjon tjener som en felles fenotype for å gjenkjenne tilsvarende funksjoner i humane kreftformer

in vivo

og for å tilveiebringe en direkte binding mellom den kjente biologiske forstyrrelse og de kliniske sammenhenger [8] -. [12]

Selv om mange slike studier har vist lovende i å bruke

in vitro

celle manipulasjoner å forstå

in vivo

biologi, denne tilnærmingen kan ikke fullt ut reflekterer den enorme fenotypiske variasjon sett i kreft hos mennesker. Fra slike studier kan man utlede

signaturer

. Disse definerer vi være lister over gener som er forskjellig uttrykt sammen med tilhørende nivåer av differensial uttrykk (som vi kaller vekter). Men det er nesten alltid en dårlig kamp mellom disse signaturer og uttrykk mønstre av de samme genene

in vivo

. Derfor er et konseptuelt rammeverk for å ytterligere dissekere, forbedre og utvide

in vivo

nytten av

in vitro

avledet signatur. Her presenterer vi en teknikk for å oppnå dette formålet. Vi foreslår å utlede flere faktorer, basert på menneskelige kreft genuttrykkstudier, fra et eksperimentelt definert signatur. Disse stammer faktorene vil beholde sitt forhold til den opprinnelige signaturen, men representerer ulike biologiske prosesser. Viktigere, viser vi at ulike stammer faktorer kan kombineres for å gi mye bedre prediktive verdier for de kliniske resultater. Ulike faktorer også reflektere ulike biologiske prosesser og er knyttet til ulike aspekter av molekylære og kliniske trekk ved kreft hos mennesker.

Det finnes en rekke mulige tilnærminger til dette problemet. En populær tilnærming har vært å sammenligne identiteten til forskjellig uttrykt sonder til databaser av forhåndsdefinerte veier. Beskrivelser av slike metoder kan finnes i [13] – [15]. Mens disse tilnærmingene er tiltalende for deres interpretability, er de avhengige av riktig forhåndsdefinerte stier i stedet for strukturen av dataene under studien. Alternativt kan man rett og slett definere signaturen aktivitetsnivået for en prøve som det veide gjennomsnittet av

in vivo

uttrykk nivåer (hvor genene enn å beregne vekter og vektene selv er hentet fra den opprinnelige signaturen). Selv om noen studier har vist kraften i dette konseptet, er det klart at man ikke kan håpe å fange heterogenitet av

in vivo

biologi fra endimensjonale kontrollert biologisk respons

in vitro

signatur gjenspeiler.

Den iboende heterogenitet av miljø og celletype i vevsprøver betyr at genene i en signatur kan potensielt medføre mange flere aktiviteter som ikke er tydelig

in vitro

. Videre kan eksperimenter på klonede cellelinjer til en enkelt celletype som dyrkes under strengt kontrollerte betingelser for en fast (og forholdsvis kort) lengden av tid kontrast tydelig med kliniske prøver ekstrahert fra levende organismer som inneholder flere celletyper som har vært i et dynamisk miljø for måneder eller år. Det er ingen tvil «riktig» metode for å ta det som er lært av microarray eksperiment i kulturen og bruke det til å vurdere pathway aktivitet i vevsprøver. Noen gener kan være dårligere representanter for pathway aktivitet

in vivo

fordi de er mer sannsynlig å bli involvert i andre baner, fordi de reagerer på miljøforhold som ikke er tilstede

in vitro

, eller for et mylder av andre grunner. Det er derfor viktig å gi en statistisk og begrepsapparat som kan tillate oss å bruke

in vivo

ekspresjonsdata å ytterligere dissekere, avgrense og forbedre de

in vitro

avledede gen signaturer .

Signatur Factor Profiling Analyse plakater (SFPA), basert på spredte statistiske faktormodeller, [16], [17] er et rammeverk for kartlegging

in vitro

signaturer til en samling av

in vivo

faktorer. Selv om dette høres lik hierarkisk clustering (som har blitt standardmetoden for denne type problem), det er viktige forskjeller. Først, mens hierarkisk clustering kan brukes for å bryte et sett av prøver i grupper, innenfor hvilke uttrykk mønstre ligner på en eller annen måte, betyr det ikke at kvantifisere likhet. For det andre krever hierarkisk clustering at hver observasjon (genet) være medlem av bare en klynge. Dette utelukker tildele klynger til biologiske pathways, fordi mange kombinasjoner av veien aktivitet er mulig. Til slutt, fordi de faktorer som er generert innenfor en statistisk modell, er det mulig å identifisere de aktivitetsnivå i hver av de faktorer på en nylig målt prøve uten å gjøre om den statistiske analysen. Mens det er andre enn hierarkisk clustering teknikker som adresserer noen av disse problemene, for eksempel soft-clustering [18] og k-means [19], adresser vår algoritme dem alle i én sammenhengende statistisk rammeverk. SFPA gir:

Robust statistisk modellering av både eksperimentelle genekspresjon og vevsprøve uttrykk

Identifisering og korrigering av analyse gjenstander, som er kjent for å være et betydelig problem forbundet med bruk av microarray teknologi. .

en kartlegging fra en enkelt signatur, genererte

in vitro

, til en samling av faktorer som beholder de aktuelle egenskapene til signaturen mens bedre reflektere heterogenitet

in vivo

forbundet med biologisk forstyrrelse signaturen representerer.

En modell for imputing verdier av faktorer i nye samlinger av vevsprøver selv om disse prøvene kan stamme fra ulike grupper og til forskjellige tider.

Vi utforsker denne analysen tilnærming i å oversette en samling av gen signaturer reflekterer cellulær respons til fem kjente tumor microenvironmental faktorer, oppdaget

in vitro product: [8], med særlig vekt på signaturen i forbindelse med svar på melkesyreacidose. Vi viser at flere faktorer som oppstår i en brystkreft sammenheng være representative for de individuelle spredningsveier microenvironmental responser fra hvilke de er avledet. Videre disse faktorene skille viktige biologiske fenotyper i brystkreft, er i stand til å forbedre kliniske prediksjoner på tvers av flere kreft datasett, og beholder sin prediktiv evne selv når den brukes til prøver som er tatt på helt forskjellige tider eller ved forskjellige studiesteder.

Resultater

Kontekst, data og analyse strategi

Vi begynner med fem signaturer definert av transkripsjons svarene av dyrkede humane bryst bryst epitelceller til fem microenvironmental forstyrrelser: hypoksi, laktacidose, hypoksi pluss melkesyre acidose, lactosis, og acidose. Hver av disse er sett i humane kreftformer og bærer prognostisk informasjon med hensyn på kliniske resultater [8]. Signaturene er endringen i ekspresjon av gener mellom et sett av styre observasjoner og celler dyrket i nærvær av laktisk acidose (25 mM melkesyre, pH 6,7), hypoksi (2% O2), melkesyre pluss hypoksi, lactosis (25 mM natrium laktat, nøytral pH-verdi), og acidose (pH 6,7 uten laktat). Expression analyser brukes Affymetrix U133 + 2,0 mikromatriser og signaturer som gjenspeiler hver av de microenvironmental faktorer har blitt beskrevet [8]. Som vist i [8], hypoksi, melkesyreacidose og acidose har sterk prognostisk betydning i flere studier av brystkreft. Vårt mål er å utforske de ulike delene av den opprinnelige gen signaturer for å vurdere muligheten for ytterligere å styrke deres prognostiske verdier og dissekere dem inn i forskjellige biologiske pathway-relevante faktorer med klinisk relevans.

Vi bruker bayesiansk Factor regresjon modellering (BFRM) [20] for å definere og estimat faktorer basert på en gitt signatur. Dette begynner med en liten samling av gener som er sterkt responsive til den opprinnelige intervensjon (høyt uttrykt forskjellig mellom kontrollen og eksperimentelle grupper i cellekultur), og deretter iterativt foredler genet satt, basert på ko-ekspresjon i en in vivo-datasett, i sammenheng med en statistisk faktor analyse. Først er vanlige mønstre av uttrykk (faktorer) oppdaget i undergruppe av gener for tiden under vurdering. Deretter sammenhengen mellom disse faktorene og et komplett sett med gener på tabellen tillater oss å identifisere flere gener som skal være med i en revisjon av faktoranalyse. Begrunnelsen for dette er at mens evaluere faktorer som ligger til grunn de innledende valgt signatur gener tillater oss å belyse

in vivo

variasjon som ikke er tilstede

in vitro

, og legger gener utenfra original underskrift kan forbedre karakteriseringen av disse faktorene samtidig som det gir bindinger til andre relevante veier. Kjører SFPA på hver av de fem signaturer uavhengig av hverandre, får vi 11 hypoksi faktorer, 10 melkesyreacidose faktorer, 20 hypoksi pluss melkesyreacidose faktorer, 17 lactosis faktorer og 9 acidose faktorer. SFPA slutter å oppdage faktorer når det meste av variasjonen i den opprinnelige genet sett har blitt forklart.

Signatur-Factor relasjoner

Vi vil fokusere, for nå, på ti melkesyreacidose faktorer. Undersøkelse av genene i hver av de faktorer (figur 1a) viser at alle faktorer som har representanter fra den opprinnelige signatur i tillegg til genene tilsettes under prosessen med montering av faktor modell. Det er viktig å være sikker på at i oppdagelsen av disse ti faktorene, har vi ikke mistet vår opprinnelige signatur. Vi sjekker dette ved tilbakegang de 10 settene med Faktor score på melkesyreacidose signatur score. (Beregning av en signatur poengsum er beskrevet i metodedelen.) Witin en enkelt multivariat regresjonsmodell, finner vi at 7 av 10 er signifikante på 0,01-nivå, og at når vi eliminere de resterende tre faktorer fra den multivariate regresjonen, de sju fortsatt betydelig. Dermed minst sju av de faktorene viser en signifikant sammenheng til den opprinnelige signaturen.

(a) Forbindelser mellom gener og de 10 melkesyreacidose faktorer i den statistiske faktoranalyse av brystkreft data fra [21]. Genene som omfatter de første valgte signaturgener (svart) og dem som er lagt inn i iterativ anrikning analyse (rød), med sort eller rødt som indikerer at et gen (rad) er sterkt forbundet med en faktor (kolonne), og hvite indikerer liten eller ingen assosiasjon. Krysstale mellom mulige spredningsveier relaterte faktorer og gener er tydelig. (B) Laktacidose signatur (vertikal akse) er spådd av en lineær regresjon passer (horisontal akse) på de syv faktorer signifikant assosiert med laktacidose signatur. (C) Bilde av terskel sammenhenger mellom 67 faktorer (vertikale) og 10 melkesyreacidose faktorer (horisontal), med svart indikerer par faktorer som parvis prøve korrelasjon overstiger 0,9 i absolutt verdi.

Figur 1b viser de monterte verdiene fra regresjon av laktisk acidose signatur score på laktisk acidose faktorer fra analysen av tumor prøvedataene 251 settet fra [21]. Den for regresjon er høy (0,74), men det er mulig disse ti faktorene kan være i stand til å forklare mange forskjellige signaturer. For å vise at dette ikke er en falsk forening, tester vi hypotesen om at dette nivået er uavhengig av hvilke gener som er tilordnet som vekter. Vi re-samplet vektene 10.000 ganger, hver gang tilbakegang signaturen poengsum vektor beregnet fra disse vektene på de 10 melkesyreacidose faktorer og beregne en verdi. Av de 10.000 verdiene av så beregnet under nullhypotesen, maksimum var 0,48 sikre at p-verdien «10

-4. Hvis vi omtrentlig fordeling av verdier ved en beta fordeling (beregnet etter metoden for øyeblikk) får vi et veldig nært passform (se figur S1) og beregne p-verdien skal være ≈10

-13. Fordi bare listen over sterkt differensielt uttrykte gener fra melkesyreacidose signatur, og ikke vektene, blir brukt i den faktoren oppdagelse, og fordi vektene er avgjørende for beregningen av melkesyreacidose signatur score, muligheten til å gjenopprette signatur score fra faktorer er sterke bevis for forholdet mellom de to.

de tre faktorene avledet fra laktisk acidose signatur som ikke var viktig i prediksjonen av signatur score kan likevel representere aktivitet relevant for nærvær av melkesyre, men de er ikke sterkt prediktiv av original underskrift. De kan også ganske enkelt representere aktiviteten av biologiske reaksjonsveier som involverer meget stort sett av gener, og er således oppdaget fra mange forskjellige mulige startpunktene. Likevel, de representerer betydelig struktur i uttrykket for den utvidede signatur genet satt i tumor data, og ingen av disse faktorene vil være synlig fra å studere signaturen alene som en fenotype.

Faktorer kan reflektere ulike aspekter av biologisk aktivitet. Figur 1c viser hvilke av de 67 faktorene (alle faktorer oppdaget fra hver av de fem utgangs signaturer) har høy korrelasjon med de 10 laktisk acidose faktorer fra Miller bryst data-analyse [21]. Legg merke til at ingen to av melkesyreacidose faktorene er sterkt korrelert, og dermed disse faktorene ser ut til å beskrive ulike prosesser. Noen av 10 faktorer, slik som laktisk acidose faktor 8 for eksempel, er høyt korrelert med flere andre faktorer, noe som indikerer at disse faktorer har blitt identifisert fra flere innledende signaturer. De fleste er imidlertid, viser lave nivåer av parvis korrelasjon. Blant de 67 faktorene, er 40 hovedkomponenter som kreves for å ta høyde for 95% av den observerte variasjonen (tilleggs figur S2) innebærer at en relativt høy biologisk «dimensjon» ligger til grunn for de 67 faktorene – de reflekterer et mangfoldig sett av biologiske aktiviteter, og antagelig trasé endret på de cellulære responser til melkesyreacidose innenfor menneskelige brystkreft svulster. Figur 1a viser sammenhengen mellom gener og de 10 melkesyreacidose faktorer i analysen. Genene inkluderer de innledende valgte signatur gener og dem som er lagt gjennom iterativ berikelse analyse. De SFPA-avledede faktorer beholde en høy prosentandel av gener som har vist seg å oppvise en endring i ekspresjon når cellene utsettes for tilstedeværelsen av melkesyre

in vitro

, og viser på en annen måte at disse faktorene fortsatt opprettholde sin forbindelse med den opprinnelige signaturen. Den krysstale mellom faktorer, i form av gener som definerer mer enn en faktor, er også tydelig.

Faktorer Tippe Molekylære egenskaper

SFPA-avledet faktorer kan representere ulike aspekter av biologiske prosesser knyttet til kliniske fenotyper. For å vurdere dette, vi utforsket undergruppe regresjonsmodeller å forutsi en rekke kliniske fenotyper i Miller datasettet [21] – fenotypene inkludert ER og PgR status, p53 status og overlevelsestider. De molekylære statusindikatorer ble modellert med binære probit tilnærming regresjoner på de faktorer og overlevelse med standard Weibull levetidsmodeller. Vi utnyttet Shotgun Stochastic Søk (SSS) metoden [22], [23] for å identifisere små undergrupper av de faktorene som viser prediktiv verdi i forhold til hver av disse fenotyper. SSS er et variabelt utvalg modell som tillater bruk av modellen midling (basert på bakre sannsynlighet) for prediksjon. Modellen i snitt har vist seg å gi bedre resultater enn algoritmer som bruker den eneste beste modell for prediksjon (for eksempel AIC eller BIC) fordi det gir en truer estimering av usikkerheten [24]. Denne analysen ble utført på datasettet fra [21], og deretter de resulterende montert /trente regresjonsmodeller ble brukt til å forutsi fenotyper i hver av fem separate og biologisk mangfoldig brystkreft datasett [25] – [28]. Alle datasettene er tilgjengelig fra Gene Expression Omnibus (GEO).

Faktorer forutsi ER status.

Analysen indikerer at svært scorings regresjonsmodeller for prediksjon av ER status utnytte en av faktorene – Acidose 1, Hypoksi 4, melkesyreacidose to eller Lactosis 5. fra figur 2a, kan man se at korrelasjonen mellom to av disse faktorene er høy, så vi vil referere til dem kollektivt som eR faktorer. Figur 3a viser evnen av denne faktoren for å forutsi ER status på treningssettet [21] og 3b viser forutsigelse på en distinkt og fullstendig irrelevant testsett [27]. For å undersøke genet ontologi (GO) sammensetningen av listen av gener involvert i ER faktorer, søkte vi GATHER analyse [29] og finner ut at GO begreper knyttet til cellesyklus, spredning og og mitose er sterkt anriket i disse faktorene (tabell 1), bekreftende velkjent sammenheng mellom celle progresjon og ER. Det forventes også at tilstedeværelsen av melkesyre eller hypoksi handlinger for å slå av cellesyklusen og ER faktor synes å direkte koble de to prosessene.

Hvert punkt i disse tomter representerer en enkelt pasient fra datasettet i [21]. (A) Parvise scatterplots faktorer acidose 1, hypoksi 4, melkesyreacidose to, og Lactosis 5 av seksti-sju faktorer. Hver av disse faktorene er avledet fra et annet utgangs signatur, og de er viktige og kan byttes i den forutsigelse av ER status. Tomtene på de diagonale aksen viser histogrammer av resultatet på de respektive faktorene. (B) Tre er ingen signifikant sammenheng mellom ER og PgR faktorer. (C) ER og p53 faktorer vise noen bevis for et forhold, men har klart ulike strukturer (verdiene som vises, er aktiviteten til de respektive faktorene i data fra [21]).

ER og PgR faktorer forutsi progesteron reseptor status: (a) opplæring datasett [21]; (B) projiseres inn i Wang-data. Utfall er PgR- (blå, obs = 0) og PGR + (rød, obs = 1). ER faktorer (acidose 1, hypoksi 4, melkesyreacidose to, eller Lactosis 5): (c) opplæring sett [21], sterkt assosiert med ER status; (D) projiseres inn i tumoren uttrykk data fra en helt annen studie – Wang datasettet i dette tilfelle 25 – er i stand til å forutsi ER status. Utfall er ER- (blå, obs = 0) og ER + (rød, obs = 1). (E) p53 status prediksjon, med utfall p53 villtype (blues, obs = 0) og mutante (røde, obs = 1) fordelt på trening (mørk blå og rød) og test /validering (lys blå og rosa) prøver.

faktorer forutsi PgR status.

Østrogen og progesteron er kjent for å være antagonister, så det er forventet at eR faktorer kan forutsi progesteron reseptor status. Ved hjelp av SSS finner vi at svært scorings regresjonsmodeller for PGR status involvere ER faktor i tillegg til melkesyreacidose faktor 10 – vi merke dette PGR bestemt faktor. Figur 3c og 3d viser den montert og prediktiv evne av disse to faktorer som brukes i en binær regresjonsmodell skikket til progesteronreseptoren status. Det er ingen signifikant korrelasjon i tumor uttrykk mellom PGR og ER-faktorer (figur 2b). Gene ontologi for genene i PGR bestemt faktor (tabell 2) bære ut noen av de kjente koblinger mellom progesteron og RNA metabolisme i brystkreft [30].

Faktorer forutsi p53 status.

Den tredje binære fenotype, versus villtype mutant p53-genet er til stede i bare datasettet fra [21]. SFPA ble gjen kjørt på en tilfeldig valgt 50% av disse data, og brukt til å predikere den andre 50% (figur 3). Sterkt skåret modeller for p53 innebære ER faktor, PGR spesifikk faktor, og en av enten Hypoksi en eller laktisk acidose 3. Sammenhengen mellom disse to sistnevnte faktorer er 99%, så vi merke dem samlet som p53 bestemt faktor. Gene ontology for denne faktoren er identisk med den for ER faktor med de unntak at «celleproliferasjon» og «DNA-replikasjon initiering» erstattes med «nuclear deling» og «M fase». For alle genet ontologier oppført i toppen åtte for disse to faktorene, de Bayes faktorene er ≥10. På grunn av den høye grad av likhet i genet ontology, er det fristende å forsøke å sette likhetstegn mellom disse to faktorene. Figur 2c viser et spredningsplott av aktiviteten av svulstene i data fra [21] i hver av de to faktorer. P53-faktoren er betydelig bimodal, og den milde korrelasjons man kan se skyldes helt til denne bimodalitet, som tumorprøver med høy ER faktor aktivitet er mer sannsynlig å være i den andre modus av p53 faktor. Vi teori at dette bimodalitet er forbundet med en spesiell undertype av p53 mutasjon. Men det er ingen bevis for multimodalitet i ER faktor, og p53 bestemt faktor spår ER status dårlig. På grunn av disse forskjellene, og fordi celle replikering er en kompleks prosess, er det sannsynlig at disse to faktorene er relatert til forskjellige funksjoner i cellen utvikling.

Vi understreker at dersom vi begrense oss til å vurdere den opprinnelige

in vitro

melkesyreacidose signatur, vi har ingen mulighet til å passe eller forutsi noen av disse biologiske fenotyper (Tabell 3). I tillegg ble disse faktorene generert helt uten hensyn til ER status, status PGR, eller p53 status av prøvene. Dette er i motsetning til en mer typisk konstruksjon i hvilken signaturer assosiert med fenotyper er definert strengt basert på gener med ekspresjons-profiler som svarer til de fenotyper (for eksempel [21]). Denne type design er plaget med problemer som oppstår ved stort antall gener, av de titusener på en rekke, med uttrykk mønstre som passer ethvert vilkårlig fenotype. Med SFPA, søker vi etter gener som er uttrykt sammen uten hensyn til fenotype, og vi er derfor mye mindre sannsynlig å bli plaget av falske funn (som påvist av våre ut av prøven prediktiv nøyaktighet).

faktorer Tippe Kliniske fenotyper

SFPA tilbyr en teknikk for å avhøre en eneste uavhengige tumorprøve mot en rekke biologisk bestemt signaturer, og deretter påfølgende linking av faktorer til fenotyper kan omfatte klinisk relevante utfall som pasientens overlevelse utfall og narkotika respons .

faktorer bedre prediksjon av brystkreft overlevelse.

Delsett av de 67 faktorene ble vurdert i Weibull overlevelse regresjonsmodeller bruker SSS metode for å identifisere og scorer modeller forutsi overlevelse. Hver modell i et resulterende sett av høyt scoring modeller frembringer montert overlevelseskurver og også kan brukes til å forutsi overlevelse for nye prøver. Bayesiansk analyse mandater gjennomsnitt spådommer fra et slikt sett av modeller, og dette ble gjort for å resultere i figur 4a. Dette viser anfall av overlevelseskurver for treningsdatasettet [21], sammen med ut av prøve spådommer i fire av de andre datasettene som informasjon om overlevelse eksisterer. Husk at disse er datasettene fra ganske forskjellige og varierte studier, så vi vurderer en modell tilpasset til ett datasett på fire ganske utfordrende ut av prøve validering datasett. Selv om ikke nærmere beskrevet her, BFRM statistisk modell analyse brukes av SFPA tar også spørsmål om gen-sample-studie spesifikke effekter innenfor analyse og er i stand til å korrigere nok av idiosyncracies og skjevhet som ligger i microarray-analyser for å beholde prediktiv nøyaktighet [19 ], [31]. Resultatene viser at de factorprofiles av disse

in vitro

miljø signaturer kan forbedre overlevelsen signifikant forutsigelse seg over flere testdatasettene. Lignende resultater oppnås for prediksjon av metastase overlevelse.

(a) Forutoverlevelsestider fra et gjennomsnitt på Weibull levetidsmodeller der brukes til å splitte de 251 prøvene fra [21] i henhold til over /under median spådommer og de resulterende empiriske overlevelseskurver (Kaplan Meier kurver) er vist. Den røde /blå stratifisering av pasienter er fra analyse ved hjelp av undergrupper av de 67 faktorene (rød – høy risiko 50%, blå lav risiko 50%); de grå kurvene er fra samme analyse ved hjelp av alle de opprinnelige fem signaturer (dermed er det ingen kompensasjon for over-montering her). P-verdier i hvert av plottene tilsvarer stratifisering av faktoranalyse (topp, svart) og lagdeling ved hjelp av signaturer (bunn, grå). Data fra [21] ble brukt til å identifisere de levetidsmodeller, derfor er dette plottet representerer montert verdier. De fire ekstra plottene representerer prediksjon i de fire forskjellige brysttumorprøver basert på analyse av bare treningsdataene. Den prediktive relevans og betydning, av faktorene er tydelig og konsekvent på tvers av studier, og konsekvent forbedrer på det som oppnås ved bruk av signaturer alene. (B) Den første melkesyreacidose faktor spår overlevelse hos pasienter som ble behandlet med Tamoxifen (venstre halvdel), men viser ingen prediktiv verdi hos pasienter som ikke fikk stoffet (høyre halvdel). I alle disse tallene, p-verdier representerer betydning i en Cox-modell.

Faktorer forutsi Tamoxifen respons.

Fire av brystkreft datasettene har klinisk merknad knyttet til behandling med Tamoxifen. Selv om de 67 faktorene er på ingen måte spesielt rettet mot Tamoxifen, vet vi at de er forbundet med relevante biologiske veier. Fra våre 67 faktorer, fant vi at melkesyreacidose en er prediktiv for Tamoxifen motstand. Det skiller metastase overlevelse hos pasienter som fikk stoffet og viser ingen prediktiv evne hos pasienter som ikke gjorde det (figur 4b, analysen bak denne følges samme prinsipp som for overlevelse omtalt ovenfor). Fordi alle de pasientene som fikk Tamoxifen ble ER-positiv, må medikamentresistens assosiert med denne faktor være uavhengig av den antagonistiske virkningen av medikamentet på østrogenreseptorer. Siden ingen av disse datasettene ble brukt i opplæring av faktormodellen, er evnen av disse faktorene for å skille motstand mot Tamoxifen bemerkelsesverdig og viser at de er robuste på oppsamlings skjevheter ofte sett i microarray eksperimenter. Vi igjen benyttet samles for å studere ontologi av gener som inngår i denne faktoren (tabell 4). Dette forbinder med den kjente krets av Tamoxifen med fosfat transport [32], [33] samt celleadhesjon [34], [35]. Spesielt Cowell et al. rapporterer at p130Cas /BCAR1 er et celleadhesjonsmolekyl som fremmer motstandsdyktighet mot Tamoxifen via en spesiell fosforylering svei. I tillegg til disse forbindelser til de sekundære effektene av Tamoxifen er den velkjente sammenheng mellom overlevelse av pasienter på Tamoxifen og toksisitet forbundet med blodkoagulasjon [36]. Videre studier av genene i denne faktoren kan føre til innsikt i mekanismen bak Tamoxifen motstand i ER positiv brystkreft.

Funn av organspesifikke faktorer fra melkesyreacidose signaturer.

mens de samme biologiske prosesser kan bidra til tumor fenotyper i ulike kreftformer, kan fremgangsmåten ved hvilken dette skjer er helt forskjellig gitt det bestemte cellulære sammenheng, vev-spesifikk genekspresjon og epigenetiske påvirkninger. Siden SFPA kan bruke

in vivo

kreft genuttrykk å dissekere

in vitro

dannede gen signatur, det gir mulighet for å identifisere vev og organspesifikke faktorer forbundet med det samme genet signaturer. Denne applikasjonen har potensial til å skille underveier som er konservert på tvers av mange vevstyper fra de som er organspesifikk. For å illustrere dette poenget, bruker vi den lungekreft datasett publisert i [11] og eggstokkreft datasettet fra [10]. Vi har fått lungekreft data fra GEO og eggstokkreft data fra Duke Integrative Cancer Biology Program (ICBP) nettsted (https://data.cgt.duke.edu/platinum.php).

Legg att eit svar