PLoS ONE: Kvantitative nettverkstiltak som Biomarkører for klassifisering Prostate Cancer sykdomstilstander: A Systems Approach to diagnostiske biomarkers

Abstract

Identifisere diagnostiske biomarkører basert på genomiske funksjoner for en nøyaktig sykdom klassifisering er et problem av stor betydning for begge, grunnleggende medisinsk forskning og klinisk praksis. I denne artikkelen presenterer vi kvantitative nettverkstiltak som

strukturelle biomarkører

og undersøke deres evne til å klassifisere sykdomstilstander utledes fra genuttrykk data fra prostatakreft. Vi demonstrerer nytten av vår tilnærming ved hjelp av egenverdi og entropi-basert grafen invarianter og sammenligne resultatene med en konvensjonell biomarkør analyse av de underliggende genuttrykk data

Citation. Dehmer M, Mueller LAJ, Emmert-Streib F (2013) Kvantitativ nettverkstiltak som Biomarkører for klassifisering Prostate Cancer sykdomstilstander: A Systems Approach to diagnostiske biomarkers. PLoS ONE 8 (11): e77602. doi: 10,1371 /journal.pone.0077602

Redaktør: Francesco Pappalardo, Universitetet i Catania, Italia

mottatt: 03.07.2013; Akseptert: 3. september 2013, Publisert: 13.11.2013

Copyright: © 2013 Dehmer et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Matthias Dehmer takket de østerrikske Science fond for å støtte dette arbeidet (prosjekt P22029-N13). Forfatterne takker også «Zentraler Informatikdienst» av det tekniske universitetet i Wien for å gi dataressurser til å utføre store beregninger på Phoenix Cluster. Også Matthias Dehmer og Laurin Mueller takke Standortagentur Tirol for å støtte dette arbeidet. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

molekylær og klenge biomarkører har blitt undersøkt mye i medisin og relaterte områder [1], [2], [3], [4]. Spesielt har biomarkører blitt brukt for analyse kreft, kreft screening og lagdeling og diagnose [1], [2], [3], [4]. Klassisk, diagnostiske biomarkører representere molekyler slik at deres forekomst eller konsentrasjon i vevsprøver eller blod er representant for en viss kreft tilstand, se [5]. Tallrike studier har blitt utført for å demonstrere nytten og effekten av slike biomarkører i kreftforskning og relaterte felt [1], [2], [3], [4].

De ovennevnte resultater håndtere biomarkør forskning er basert på allment akseptert klassiske synet som differensielt uttrykte gener kan tolkes som markører for sykdommer. Men nyere forskning viser at klassiske single-genet biomarkør er ofte mindre meningsfylt for å analysere sykdommer enn å bruke nettverksbasert biomarkør, se [6], [7], [8], [9]. Her trasé som representerer komplekse nettverk [10], [6], [7] tjene som biomarkører for sykdommer. Vi har nå kort skissere relevant relatert arbeid av såkalte nettverksbaserte biomarkører som følger. For eksempel har en protein-nettverksbasert metode for å identifisere biomarkører subnett utledes fra protein interaksjonsdatabaser er utviklet av Chuang et al. [11]. Denne metoden har vist seg nyttig når klassifisere disse subnett for sykdom signatur diskriminering [11]. Et tilsvarende opplegg på grunn av Chen et al. [12] for å prioritere sykdomsgener og protein interaksjons subnett viste seg å være nyttig også som disse subnett kan diskriminere sykdoms signaturer. Guyon et al. [8] brukes støtte vektor maskin klassifisering slik at metoden tar nettverksinteraksjonene i betraktning i stedet for bare enkeltgener. Jin et al. [9] tolket visse subgraphs, for eksempel trekant grafer, som protein biomarkører og utført en statistisk analyse av disse, se [9]. Endelig Barabási et al. [13] brukes, f.eks, strukturelle egenskaper av grafer ved hjelp sentralitetsnivåer tiltak og grad distribusjoner å finne nettverksbaserte biomarkører via funksjonsvalg.

I denne artikkelen introduserer vi kvantitative nettverkstiltak som strukturelle biomarkører og undersøke deres evne ved klassifisering av sykdomstilstander utledes av prostatakreft (se avsnittet «data»). Problemet med å finne riktige nettverks tiltak som fanger strukturell informasjon unikt, og derfor er problemet med å identifisere egnede kandidater som strukturelle biomarkører intrikate. Dette relaterer seg til åpen problem at det ikke er a priori klart hva slags strukturelle trekk kan være best som det er uendelig mange funksjoner som er graf invarianter [14], [15] for å karakterisere strukturen av trasé (komplekse nettverk), se også [14], [16], [17], [18].

Den store bidrag med denne avhandlingen er som følger. Vi bruker egenverdiene av biologiske nettverk utledes av prostatakreft microarray data som strukturelle biomarkører ved hjelp veiledet læring. Mer presist, viser vi at disse strukturelle biomarkører, som representerer egenverdibasert graf invariantene, kan brukes til å klassifisere prostatakreft menings; i denne sammenhengen får vi rimelige resultater når klassifisere kreft vs. godartet vev, se også [19].

Metoder

Strukturelle Biomarkører

I denne artikkelen vi innføre kvantitative nettverk tiltak som strukturelle biomarkører. Det betyr at ved å starte fra biologiske nettverk utledes fra microarray data (se pkt «Data»), beregner vi kvantitative graf tiltak som representerer nettverks kompleksitet tiltak og ansette veiledet læring. Hvis disse strukturelle trekk kan klassifisere /diskriminere sykdomstilstander, er de omtalt som strukturelle biomarkører. Faktisk, åpner denne nye perspektiver i biomarkør forskning som (i) uendelig mange strukturelle trekk (f.eks graf invarianter) finnes for strukturell nettverk karakterisering og (ii) det finnes flere maskinlæring og statistiske metoder for å bruke avledet strukturelle trekk for klassifisering /diskriminering.

Som strukturelle biomarkører, vi skal bruke eigenvalue- og entropi-basert mengder. Vi starter med å forklare fremgangsmåten for å utlede egenverdibasert graf invarianter. Hvis betegner et nettverk, kan da eigenverdi-baserte tiltak beregnes ved hjelp av en graf-teoretisk matrise [20] utledes fra. Til slutt gir vi. (1)

I denne artikkelen har vi satt og. er naboskapsmatrisen og er avstanden matrisen, henholdsvis [17], [20]. Ved å løse den algebraiske ligningen. (2) vi får de ikke-null egenverdier og. Som og er symmetriske for urettet grafer, holder det. Fra den skisserte beregningen av egenverdiene ved å benytte utledes fra definerer vi de tiltak [17], [21], [22]:

(3) (4) (5) (6) (7), og

(8) (9) (10) (11)

for å beregne de tiltak konkret ved hjelp av R, vi satt. er Laplace av og er dens egenverdier derav [23].

Den andre klassen av grafen tiltakene vi benytter som strukturelle biomarkører representerer entropi tiltak for grafer. Disse tiltakene har blitt grundig undersøkt av Dehmer et al. [24], [25], [26] og opprinnelig av Mowshowitz [27], [28], [29], [30]. Slike tiltak er avhengige av Shannon entropi, og følgelig må en sannsynlighetsfordelinger være tilordnet en graf. Dette problemet er intrikat som, igjen, finnes uendelig mange strukturelle trekk (f.eks vertex grader, hjørner, kanter, avstander, og skillevegger derav) for å definere entropic tiltak på et nettverk.

I utgangspunktet to metoder finnes for å antyde en sannsynlighetsfordeling av en graf ved å ta sine strukturelle trekk i betraktning. Den første metoden er basert på bestemmelse av skilleveggen ved hjelp av en vilkårlig graf invariant og ekvivalens kriterier [31], [27]. Den andre fremgangsmåten er basert på bruk av såkalte informasjons functionals og på å tildele en sannsynlighetsverdi til hver toppunktet. Egenskaper av grafen entropies basert på begge metoder har blitt undersøkt i [24], [25], [26], [16]. Som et resultat av omfattende forskning i dette feltet av de siste tre tiårene, har tallrike graf entropi tiltak blitt utviklet, se f.eks, [31], [32], [24], [27], [33], [34 ]. Det vil gå utover omfanget av papiret for å undersøke alle eksisterende grafen entropi tiltak som kandidater for strukturell biomarkør. Likevel brukte vi følgende entropies fra ulike paradigmer (som et resultat av funksjonen utvelgelsesprosessen, se også avsnittet «Resultater») [31], [24]:

Dehmer entropi ved å bruke informasjonen funksjonell (toppunktet sentralitet), se [24].

Topological informasjon innhold [35].

Graf Vertex Complexity Index [36].

Mean informasjonsinnholdet i distanse-grad likestilling [ ,,,0],31].

Mean informasjonsinnhold på kanten likestilling [31].

Balaban index [37].

Entropic symmetri indeks [38]

Bonchev index [31]

Dehmer-entropi ved å bruke informasjonen funksjonelle (-spheres), se [24].

Bonchev index [31].

de konkrete formler derav og de tekniske detaljene kan finnes i [31], [24].

data~~POS=TRUNC

data~~POS=TRUNC settet~~POS=HEADCOMP vi bruker i denne artikkelen har aldri vært brukt for klassifisering kreft sykdomstilstander. Slik lager du et sett av biologiske nettverk, brukte vi sju offentlig tilgjengelige datasettene (se tabell 1) knyttet til prostatakreft fra NCBI GEO [39] og EBI Arrayexpress [40]. Datasettene er valgt ut i samarbeid med Urologi avdeling ved Medical University Innsbruck til å identifisere transkripsjons endringer i prostata kreft, inkludert tumorer med ERG genet rearrangements, se [19]. Et første resultat ved å bruke disse data er oppnådd ved Massoner et al. [19] som de fant robuste befolknings uavhengig transkripsjons endringer og tegn på ERG rearrangements induserer metabolske endringer i kreftcellene ved å aktivere viktigste metabolismesignalmolekyler som NPY.

Vi reanalysert de offentlig tilgjengelige datasettene (se Tabell 1) og inferred biologiske nettverk ved hjelp av C3NET slutning metoden [41]. Dette resulterte i syv C3NET nettverk vare benign vev (fra kontrollgruppen) og syv nettverk som representerer kreftvev. Her godartede betyr at vi refererer til syke pasienter med en svulst.

For å få et større sett av nettverk, brukte vi databasen genet ontologi (GO) [42] for å trekke subgraphs fra disse nettverkene. For hvert nettverk og hver GO sikt i kategorien «biologisk prosess «, trekke vi en sub-graf som inneholder gener assosiert med denne spesifikke GO sikt resulterer i og 108 nettverk representerer godartet og kreftvev, henholdsvis. Vi bestemte Go-vilkårene ved å bruke Bioconductor Package goProfiles.

De resulterende størrelser av de oppnådde klassene er potensielt annerledes fordi nettverket strukturer og er forskjellige og derfor er ikke alle veier fanget av disse nettverkene. Videre ekskluderer vi et delnettverk når det inneholder mindre at gener assosiert med en bestemt GO sikt. De oppnådde to sett av nettverk kan tolkes som en tilnærming til to populasjoner. En befolkning representerer

godartet

staten og den andre på

kreft

tilstand. Vi merker oss at dette settet av biologiske nettverk har allerede blitt brukt i [43] når demonstrere funksjonaliteten til nylig utviklet R-pakke QuACN

Resultater

Klassifisering:. Prostate Cancer Networks vs. Gene Expression biomarkører

for å evaluere resultatene av de nye strukturelle biomarkører, sammenligner vi klassifiseringen av nettverkene med klassifiseringen av genuttrykk data selv ved å bruke overvåket læring. For å klassifisere de normaliserte genuttrykk data ved hjelp av datasettene som er beskrevet i avsnittet «Data», vi kombinerte prøver av de syv studiene (se tabell 1) ved å bestemme skjæringspunktet mellom de målte gener. Dette resulterer i et trekk vektor som inneholder alle gener som er målt i hver av de syv forskjellige studier. For å velge de viktigste genene, bruker vi en funksjon utvalg mekanisme, basert på

informasjon får

metoden [44]. Da klassifisere vi datasettet ved å bruke de 10 viktigste funksjonene som en funksjon vektor ved hjelp SVM klassifisering [45] med en polynomisk kjerne funksjon. For å utføre klassifisering, vi bruke R-implementering av Libsvm [46] og for å lære de optimale parametrene, utfører vi en 10-fold kryssvalidering.

For å oppnå den beste klassifiseringen ytelsen vi vurdere følgende parameterinnstillinger for klassifisering uttømmende: (12) og Selge

(13) for de tre undersøkte tiltakene, er deres resultater i form av feil tiltak av klassifiseringen oppsummert i tabell 2. for disse tiltak, har vi funnet det optimale parameterinnstillingene som brukes for denne analysen.,, (eigenverdi-baserte tiltak),,, (entropi-baserte tiltak) og,, (genuttrykk data)

fra vår numerisk klassifisering av data, summert i tabell 2, følger det at nettverket tilnærming basert på egenverdiene (andre kolonne) og den biomarkør analyse av genekspresjon data (beskrevet kolonne) gir de beste resultatene. Spesielt er klassifiseringen av genekspresjon biomarkører alltid best, men de egenverdi metoden gir en sammenlignbar ytelse, innenfor en standard feil. På grunn av det faktum at alle feil tiltak er tilfeldige variabler, estimert fra en fold kryssvalidering, synes det fornuftig å vurdere

ytelses intervaller

, gitt ved den midlere og standard feil, i stedet for punkt estimatorer. Dette vil føre til mer robuste uttalelser om de oppnådde ytelsesverdier.

I motsetning til den eigenverdi og genekspresjon biomarkør metode, klassifiseringen metode basert på entropies av nettverk resulterer i den laveste ytelsen for alle feil tiltak, men , fremdeles gi en fornuftig klassifisering resultater indikerer at også denne metoden er i stand til å skille de to biologiske klasser, i det minste i en viss grad.

eigenverdi-baserte strukturell analyse av prostatakreft Networks

i dette avsnittet undersøker vi noen egenskaper ved egenverdiene ved hjelp av prostatakreft nettverk som representerer to klasser (kreft og godartet vev). Første resultatene er oppsummert i figur 1, 2 og figur 3, 4. Vi plottet alle egenverdier for kreft og godartede nettverk ved anvendelse av den tilstøter og avstanden matriks, henholdsvis. Ved å bruke nabomatrisen, egenverdiene til godartet nettverk viser en karakteristisk fordeling hvor nesten alle egenverdier ligger i en horisontal stripe. Faktisk er 64% av disse egenverdier er negative og 36% er positive. Tomten av kreft nettverk ved å bruke den tilstøter ser svært like. Her er forholdet mellom positiv og negativ eigenverdi på samme måte som ved hjelp av godartet nettverk. Det faktum at disse distribusjonene ligne kan også forklares ved å argumentere med de tilsvarende null-frie regioner (for eksempel stripelignende områder der ingen nuller av det karakteristiske polynomet løgn). Som nevnt i avsnitt «Strukturelle Biomarkører», egenverdier er nuller (det betyr at løsningene av ligningen) av den karakteristiske polynom ved hjelp av en graf-teoretisk matrise (her bruker vi og). Deretter ser vi at null-frie regioner av benign vs kreft-nettverk ved hjelp nabomatrisen ser svært like. Men fra dette, kan vi ikke konkludere med at egenverdier er generelt uegnet for å skille de to nettverks klasser som vist i avsnittet «Klassifisering: Prostate Cancer Networks vs Gene Expression biomarkers». Ved å bruke avstanden matrise, gir vi de egenverdi-prosenter 74% negative og 26% positive for godartet; 76% negative og 24% for kreft nettverk. I motsetning til de fordelingene ved hjelp av naboskapsmatrisen, de horisontale strimler og dermed den null-frie områder er forskjellige. Dette kan forstås ved å analysere fordelingen av matriseelementene i den tilstøter og avstanden matrise. Det faktum at de er forskjellige også innebærer at koeffisientene til de resulterende karakteristiske polynomer signifikant forskjellig.

Oppsummert kan vi konkludere med at enkelte egenverdibaserte tiltak fra bruker tilstøter og avstand matrise fange strukturell informasjon annerledes. Her kan dette bety at noen av disse tiltakene ved hjelp av avstanden matrise er mer følsomme overfor små strukturelle endringer i nettverket. Gyldigheten av denne hypotesen kan underbygges ved å evaluere diskriminering makt egenverdibaserte tiltak. Dette gjelder å bestemme hvorvidt måle fanger strukturelle informasjonen entydig, se [47], [16], [14]. For eksempel, hvis nettverksstrukturen er litt forandret, bør målet gjenkjenne denne strukturendring ved å gi skjelnes verdier. I denne artikkelen, måler vi diskriminering makt eller unikhet av mengden, og uttrykker

ikke-skjelnes verdier

av en bestemt egenverdi baserte tiltak. Det er å regne NDV, vi beregne alle tiltak på nett og bestemme antall grafer som ikke kan skilles fra dem. Viktigere, nettverkene må være strukturelt non-ekvivalent (non-isomorphic) for å utføre denne studien menings; understreker vi at kreft nettverk som brukes i denne studien er kontrollert for å være strukturelt non-ekvivalent. Ved å inspisere tabell 3 ser vi først og fremst at mange av de beregnede egenverdibaserte tiltak er helt unik; * Å normalisere verdier, vi ansatt Konstantinova følsomhet tiltaket, se [48], [17]. * Det betyr at de strukturelt skille nettverkene av sine verdier unikt. Det eneste mål som produserer degenererte verdiene er, se ligning 5. Videre har vi observere at er mer unikt enn det kan sees av NDV-verdier. Dermed kan vi konkludere med at avstanden matrise koder strukturell informasjon mer meningsfull enn ved å bruke nabomatrisen ved ansettelse av tiltaket.

Legg merke til at de supplerende filer (File S1, S2, S3) inneholder verdiene av calucated nettverk.

diskusjon og Konklusjon

i løpet av de siste årene er det en betydelig interesse for identifisering av biomarkører innen genomisk datasett. Vanligvis, hvis genuttrykk data brukes fra DNA-mikromatrise eksperimenter, er en biomarkør betraktes som et gen, eller et sett av gener, som genuttrykk data er tilgjengelig. Deretter blir klassifiseringsmetoder basert på genuttrykk data fra disse biomarkører som fører til biologisk tolkbare resultater med hensyn til sine klasse evner, f.eks for diagnostiske formål. I motsetning til i denne artikkelen vi antok

strukturelle biomarkører

, avledet fra gennettverk utledes fra genuttrykk data, og brukt disse til å gjennomføre en klassifisering av sykdomstilstander. Fra vår numerisk analyse fant vi at genekspresjon biomarkører og egenverdibaserte funksjoner utføre på samme måte, selv om de genekspresjon biomarkører utføre litt bedre.

Dette resultatet er interessant fordi det viser for det første en biomarkør trenger ikke å være et gen, men det kan være et abstrakt egenskap av et biologisk system, f.eks egenverdibaserte nettverkstiltak, som i vårt tilfelle. I prinsippet denne ideen er ikke ny. Men det nye er at vi demonstrere dette eksplisitt ved å gi et eksempel for strukturelle biomarkører. Som sådan, gir vi praktiske bevis på dette argumentet som vanligvis er bare diskutert argumentatively i stedet for tallmessig. For det andre, måten våre strukturelle biomarkører er definert tillater ikke lenger tillate å si, for eksempel, «gen A og gen B» er i stand til å skille de biologiske forholdene under vurdering. I stedet, våre funksjoner, henholdsvis biomarkører, tilsvarer funksjonene til

system Hotell og er som sådan gen uavhengig, men gjenspeiler deres kollektive egenskaper, som fanges opp av de antatte gennettverk. Derfor representerer vår tilnærming en praktisk realisering av

systemer medisin

.

For en fremtidig analyse ville det være interessant å bruke protein expression data fremfor genuttrykk data til å gjenta en tilsvarende analyse. En slik analyse vil tillate å få innsikt i hvor robust våre resultater med hensyn til en endring av molekylnivå, som leveres av protein interaksjoner. Spesielt ville det hjelpe å forstå hvis ren [49] eller blandede interaksjonstyper, representert ved gennettverk, er bedre egnet for å konstruere strukturelle biomarkører.

Totalt våre resultater gir lovende bevis for at

ingen -Gene biomarkører

kan være en gunstig måte å klassifisere sykdomstilstander fra genuttrykk data for diagnostiske formål.

Vedlegg

for fullstendighet, i tabellene 4, 5, 6, 7, 8, 9, 10 viser vi de samme resultatene som i tabell 3, men for de enkelte datasettene som er oppført i tabell 1.

Hjelpemiddel Informasjon

fil S1.

R datafil som inneholder beskrivelses verdier

doi:. 10,1371 /journal.pone.0077602.s001 product: (ZIP)

File S2.

Excel-fil containg descriptor verdier ved hjelp av egenverdibaserte tiltak

doi:. 10,1371 /journal.pone.0077602.s002 plakater (CSV)

File S3.

Excel-fil containg descriptor verdier av ikke-eigenverdi-baserte tiltak

doi:. 10,1371 /journal.pone.0077602.s003 plakater (CSV)

Legg att eit svar