PLoS ONE: Forbedre Cancer Klassifisering nøyaktighet ved hjelp av Gene Pairs

Abstract

Nyere studier tyder på at dereguleringen av veier, snarere enn individuelle gener, kan være avgjørende for å utløse kreftutvikling. Den veien Dereguleringen er ofte forårsaket av den samtidige deregulering av mer enn ett gen i reaksjonsveien. Dette tyder på at robuste gen par kombinasjoner kan utnytte de underliggende bio-molekylær reaksjoner som er relevante for veien deregulering og dermed kunne de gi bedre biomarkører for kreft, sammenlignet med enkeltgener. For å validere denne hypotesen, i denne artikkelen, brukte vi gen par kombinasjoner, kalt dubletter, som innspill til kreft klassifiserings algoritmer, i stedet for de opprinnelige uttrykk verdier, og vi viste at klassifiseringen nøyaktighet var konsekvent bedre på tvers av ulike datasett og klassifisering algoritmer. Vi validert den foreslåtte tilnærming ved hjelp av ni kreft datasett og fem klassifiseringsalgoritmer, inkludert Tippe Analyse for Mikromatriser (PAM), C4.5 beslutningstrær (DT), Naive Bayesian (NB), Support Vector Machine (SVM), og k-nærmeste nabo (

k-

NN)

Citation. Chopra P, Lee J, Kang J, Lee S (2010) Bedre Cancer Klassifisering nøyaktighet ved hjelp av Gene Pairs. PLoS ONE 5 (12): e14305. doi: 10,1371 /journal.pone.0014305

Editor: Joel S. Bader, Johns Hopkins University, USA

mottatt: 02.02.2010; Godkjent: 18 november 2010; Publisert: 21.12.2010

Copyright: © 2010 Chopra et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Dette arbeidet ble støttet av Second Brain Korea 21 Prosjekt Grant, en Microsoft Research Asia Grant, en National Foundation Forskning Korea (NRF) finansiert av den koreanske regjeringen (MEST) (2010-0015713, 2009-0086140), og en Korea-naturvitenskapelige Engineering Foundation (KOSEF) finansiert av den koreanske regjeringen (MEST) (R01-2008-000-20564-0). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

bruken av DNA mikromatriser har resultert i identifisering og overvåkning av flere markørgener kreft. Disse genene har vært mye brukt til å skille ikke bare kreft vevsprøver fra friske seg, men også mellom forskjellige undertyper av kreft [1] – [3]. Fra et diagnostisk synspunkt, er det viktig å korrekt identifisere kreftvev, slik at den mest hensiktsmessige behandlingen kan gis så tidlig som mulig.

Mange classifiers har vært foreslått og vurdert for sine komparative nøyaktighet i riktig identifisere kreft tumorer [4] – [7]. Den mest fremtredende av disse klassifikasjonsapparater er PAM [8], SVM [9], [10],

k-

NN [11], DT [12], Top Scoring Pair (TSP) [13], og

k-

toppen scoring Pair (

k-

TSP) [6]. Resultatene fra disse studiene viser at det ikke er enkelt klassifiserer som har den høyeste nøyaktighet for alle microarray uttrykk datasett. I denne artikkelen presenterer vi en ny metode som bruker genet par for å forbedre den generelle nøyaktigheten av eksisterende klassifiseringsmetoder uten å endre de underliggende algoritmer.

Nyere forskning har avdekket at biomolekylære trasé kan være sterkere biomarkører for kreft, som sammenlignet med deregulering av enkeltgener [14]. Dereguleringen av en annen undergruppe av gener assosiert med den samme bane, kan det resultere i at deregulering av veien. Inspeksjon genkombinasjoner kan dermed være mer effektive for kreft klassifisering i forhold til uavhengig kontroll av enkeltgener. Motivert av at bruker den foreslåtte fremgangsmåte den informasjon som utledes fra genet paret kombinasjoner, i stedet for de opprinnelige uttrykk verdier av gener. Vi bruker avledet informasjon som innspill til de eksisterende klassifiseringsmetoder. Vi viser at disse gen par kombinasjoner, kalt dubletter, konsekvent bedre klassifisering nøyaktigheten av eksisterende klassifiseringsalgoritmer.

Betydningen av den foreslåtte metoden er at uten å endre de underliggende klassifiseringsalgoritmer kan vi forbedre ytelsen til algoritmer ved ganske enkelt å konstruere dubletter, og ved å bruke dem som input, i stedet for de rå gene expression verdier. De dubletter kan konstrueres på forskjellige måter. I denne artikkelen, vi eksperimenterte med tre forskjellige typer dubletter:

sumdiff

,

mul Hotell og

signere

dubletter.

sumdiff

dubletter er konstruert ved å ta summen og differansen av alle par av genet ekspresjonsvektorer slik at en dublett blir representert som en vektor summen eller differansen av to genvektorer.

mul

dubletter er tilsvarende konstruert ved å ta multiplikasjon, og

registrerer

dubletter er konstruert ved å ta tegn på forskjellene på de to genet vektorer. Se i «Materialer og metoder» for mer informasjon.

Resultater

LOOCV product: (

La One Out Cross Validation

) ble gjennomført for å måle nøyaktigheten av dublett basert klassifisering. For å teste en prøve, alle prøvene, men den testede en, blir brukt til å beregne av gener, og genene er anordnet i samsvar med de synkende absolutte verdier for resultatet. Formelen som brukes for å beregne dette resultatet er (1) hvor representere klassen betyr; representerer avvikene; og representerer antall sampler for de to klassene og, respektivt.

Vi velger deretter topp 0,2%, 0,4%, 0,6%, 0,8%, 1%, 2%, 4%, 10% av totalt antall gener i datasettet for å lage dubletter. Vi beskjære ytterligere de dubletter, slik at ingen gen vises flere ganger i det siste settet av dubletter. Algoritmen vi bruker til å formulere disse unike dubletter fra den opprinnelige microarray uttrykket datasettet er skissert som følger

Input

. Gene Expression Matrix med gener og prøver, klasse vektor for prøvene og for antall gener som kreves for analyse

Output product::.. Unike dubletter

1. Beregn t-skår for matrisen hjelp klasse vektor

2. Lag en sortert liste over alle genene, i synkende verdien av deres absolutte t-poengsum.

3. Ta de beste genene fra den ordnede listen, og trekke ut sine uttrykk verdier fra. Den nye uttrykket matrise har rader og kolonner.

4. Make dubletter fra å få en ny matrise med rader og kolonner.

5. Beregn t-skår for matrisen hjelp klasse vektor.

6. Lag en sortert liste over alle dubletter i, i synkende verdien av deres absolutte t-poengsum.

7. Initial som en tom liste.

8. forall

dubletter

i

do (i synkende absolutt t-poengsum rekkefølge); Hvis ingen av de genene i dublett er i, og deretter legge dublett for bedriften

9. Gå tilbake

Nøyaktigheten av de opprinnelige algoritmene måles ved hjelp av alle de rå uttrykket verdiene av genene som input. Vi skal vise til nøyaktigheten av den opprinnelige algoritmen, for eksempel for PAM, som PAM, og nøyaktigheten innhentet ved hjelp av

sumdiff /mul /registrer

dubletter som input til PAM som

sumdiff /mul /sign

PAM, henholdsvis. Figur 1 sammenligner nøyaktigheten av standard PAM klassifikator som i

sumdiff /mul /sign-

PAM, oppnås ved å ta de beste% genene for de ni datasettene som er oppført i tabell 1. Det kan ses at selv tar en liten prosentandel av de beste genene og gjøre dubletter kan forbedre ytelsen til PAM.

sumdiff /mul /sign

PAM klassifikator utkonkurrerer standard PAM klassifikator i mange datasett.

For de to datasett, CNS og DLBCL, er betydelig denne gevinsten. For eksempel, med

sign

PAM bruker de øverste 2% gener, nøyaktigheten har økt fra 82,4% til 91,2% for CNS datasett; og for DLBCL datasettet, har nøyaktigheten økt fra 85,5% til 97,4%. Den gjennomsnittlige nøyaktigheten av PAM klassifikator for de ni datasett har økt fra 88,7% til 90,6%, 89,3% og 91,7% med

sumdiff

,

mul Hotell og

sign

PAM med topp 2% gener, henholdsvis.

Vi kan gjøre to observasjoner fra dette resultatet. Bare et lite antall av de gener som er nødvendig for å oppnå forbedringer, og at forbedringene er ganske konsekvent på tvers av datasettene. For å vise hvorvidt disse observasjonene er fortsatt gyldig for andre klassifiseringsmetoder, utførte vi de samme eksperimentene ved hjelp av ulike klassifiseringsmetoder, inkludert DT, NB, SVM og

k-

NN classifiers.

Figur 2 viser sammenligningsresultatene med DT. Nøyaktigheten av DT var konsekvent forbedret over de ni datasett. I noen tilfeller forbedringer var signifikante. For eksempel

sumdiff-

DT forbedret nøyaktigheten av DT fra 64,8% til 77,3% i Pros.2 datasettet ved hjelp av de beste 4% gener; fra 73,6% til 93,1% i Leukemi datasett med kun de beste 0,2% gener; og fra 80,5% til 98,7% i DLBCL datasett med kun de beste 0,2% gener. Tilsvarende

multi

DT forbedret nøyaktigheten av DT fra 64,8% til 84,1% i Pros.2 datasettet ved hjelp av de beste 0,4% gener; fra 84,9% til 100% i Pros.3 datasett med de beste 0,4% gener; og fra 80,5% til 97,4% i DLBCL datasettet med topp 1% gener. Til slutt,

sign

DT forbedret nøyaktigheten av DT fra 84,9% til 97,0% i Pros.3 datasettet ved hjelp av de beste 0,2% gener; fra 73,6% til 95,8% i Leukemi datasett med de beste 0,6% gener; og fra 77,4% til 93,6% i Colon datasett med de beste 0,6% gener. I gjennomsnitt, over de ni datasett, ble nøyaktigheten av DT forbedret fra 78,9% til 85,2%, 84,2% og 89,1% ved bruk av

sumdiff

,

mul Hotell og

signere

dubletter med de beste 0,8% gener, henholdsvis.

på samme måte for NB, nøyaktigheten ble betydelig forbedret med

sumdiff Hotell og

mul

dubletter. Resultatet er vist i figur 3. En interessant observasjon vi har gjort er at for NB

registrerer

dubletter har konsekvent utført verre enn de andre uavhengige av antall de beste genene som brukes for dublett generasjon. Dette er fordi

registrerer

dubletter omforme uttrykket verdiene til binære variabler som indikerer rekkefølgen av ekspresjonsnivået mellom genene i genet parene og de transformerte binære verdier beholder ikke tilstrekkelig informasjon til å beregne klasse sannsynligheten for klassifisering . Dermed blir

registrerer

dubletter er ikke egnet for NB classifiers. Likevel, ytelsesforbedringer med

sumdiff Hotell og

mul

dubletter var betydelig. I Pros.1 datasettet, både

sumdiff /multi

NB forbedret nøyaktighet fra 62,8% til 91,2% med de beste 0,2% gener; i Colon datasettet, ble nøyaktigheten forbedret fra 56,5% til 87,1% og 88,7% med topp 1% gener, henholdsvis. Til slutt, i DLBCL datasettet, ble nøyaktigheten forbedret fra 80,5% til 96,1% og 92,2% med de beste 0,2% gener, henholdsvis. I gjennomsnitt ble nøyaktigheten forbedret fra 81% til 90,7% og 89,5% med

sumdiff Hotell og

mul

dubletter med de beste 0,2% gener, henholdsvis.

SVM er kjent for å være en av de mest robuste classifiers i mange domener. Selv om ytelsen var overbevisende i seg selv, observerte vi at i noen tilfeller vår dublett tilnærming forbedret ytelsen betraktelig. Resultatet er vist i figur 4. I Colon datasettet, den ytelsesgevinst var mest slående. Nøyaktigheten ble forbedret fra 82,3% til 87,1%, 87,1% og 93,6% med

sumdiff /mul /tegn

dubletter med topp 1% gener, henholdsvis. I Pros.2 datasettet, ble den nøyaktighet forbedret fra 76,1% til 80,7%, 84,1% og 85,2% med den øverste 8%, 0,2% og 1% gener, respektivt. I gjennomsnitt ble nøyaktigheten forbedret fra 91,2% til 92%, 91,9% og 89,4% med

sumdiff /mul /registrer

dubletter med de beste 4% gener, henholdsvis.

til slutt, for

k-

NN, det samme ble observert, som er vist i figur 5. for

k-

NN, ytelsen gevinsten var betydelig i nesten alle datasett. For eksempel, i leukemi datasettet, ble nøyaktigheten forbedret fra 84,7% til 98,6%, 98,6% og 100% med

sumdiff /mul /sign

dubletter med de øverste 2%, 0,8% og 0,2% gener hhv. I gjennomsnitt ble nøyaktigheten forbedret fra 84,3% til 91%, 90,1% og 90,7% med

sumdiff /mul /registrer

dubletter med de beste 4% gener, henholdsvis.

andre enn

registrerer

dubletter i NB klassifikator, bruk av tre dubletter ført til forbedret ytelse av grunnlinjen classifiers. Grunnlinjen klassifiserere gjennomsnitts nøyaktighet hastigheter i forhold til de ni datasettene varierte fra 79% til 91% (dvs. DT = 79%, KNN = 84%, NB = 81%, SVM = 91%, og PAM = 89%). På den annen side, deres gjennomsnittlige priser med dubletter ligget på et høyere område, eller fra 89% til 92% (dvs.

sign

DT = 89%,

sumdiff-

KNN = 91 %,

sumdiff-

NB = 89%,

sumdiff-

SVM = 92%, og

multi

PAM = 90%, alle tallene med topp 4% gener ). Grunnlags classifiers viste en betydelig ytelse forskjell mellom dem. Når det gjelder dubletter, ble imidlertid forskjellen minimalisert, og ytelsen ble forbedret. Alle de tre doublet typene nesten like bidratt til forbedring ytelse på tvers av ulike datasett (unntatt

signere

dubletter i NB).

sumdiff /mul /registrer

dubletter med de beste 4% gener merket gjennomsnittlig nøyaktighet i løpet av de fem classifiers av 88,7% (std. 3.4), 88,5% (std. 3.8), og 85,4% (std. 9.9 ), respektivt.

sumdiff

dubletter vist en litt bedre ytelse enn de andre gjorde. Dette resultatet er muligens knyttet til følgende faktum:

sumdiff

dubletter fange begge oppover og nedover relasjoner (dvs. opp-opp, ned og ned, og opp-ned) og av ordre relasjoner i ekspresjons-verdiene for hvert gen par. Tvert imot, den

mul

dubletter fange tidligere alene, og

signere

dubletter fange sistnevnte alene. (Se Materialer seksjon for flere detaljer.)

Diskusjoner

En fersk studie antydet at veien nivå deregulering er mer viktig for kreftutvikling enn dereguleringen av enkeltgener [14]. En reaksjonsvei er vanligvis deregulert ved dereguleringen av mer enn ett gen som er forbundet med den veien. Dette støtter vår motivasjon til å bruke dubletter som har for klassifisering, som dubletter kunne fange opp potensielt mer informasjon om veien nivå deregulering enn de enkelte gener. I denne studien ble imidlertid dubletter ble samlet fra forskjellige reaksjonsveier; nemlig ikke begrenset til de av genet parene som hører til de samme veier. Ved å la alle mulige genkombinasjoner, vi forsøkte å fange ikke bare de direkte intra-pathway interaksjoner, men også noen av de potensielle indirekte inter-pathway foreninger. Vi planlegger å forfølge i vårt videre arbeid, tilfeller der bare intra-pathway dubletter brukes.

En rekke uavhengige studier har bekreftet effektiviteten av å kombinere genet parene. Zhou og hennes kolleger har innført en teknikk som kalles

andre ordens korrelasjonsanalyse

der parvise korrelasjoner av gener benyttes for den funksjonelle klassifisering av gener [15]. Deres tilnærming opererer, som følger: Først beregnes er alle parvise korrelasjoner av gener innenfor hvert datasett (første ordens sammenhenger); da blir korrelasjonsmønstrene analysert over flere datasett (andre ordens korrelasjoner). Utvalget er gjort av genet parene som viser høye korrelasjoner i flere datasett, og de valgte skjema dubletter. En dublett representeres som en vektor slik at dens dimensjon og verdi, henholdsvis svarer til et datasett og til korrelasjonsverdi av genet par i det tilsvarende datasettet. De dubletter blir så gruppert bruker korrelasjon som likheten beregning. De dubletter gruppert sammen anses å dele lignende funksjoner, fordi de er slått av og på kollektivt på tvers av datasett.

Vi har også utviklet microarray data integrasjonsteknikker som utnytter inter-genet relasjoner, for eksempel

korrelasjon signatur product: [16] og

signatur cube product: [17].

korrelasjon signatur

prosjekter heterogene microarray expression data på en sammenhengende informasjon plass der et gen er representert ved vektoren av sine sammenhenger mot en rekke landemerke gener. Dersom det samme settet av landemerker anvendes, heterogene mikroarray datasett, som ikke kunne vært direkte sammen, kan integreres, fordi korrelasjons signaturer av genene som har kompatible dimensjoner.

signatur kube

generaliserer prinsippene i sammenheng signatur ved å tilby en heterogen microarray data mining rammeverk der data er representert i relative termer (dvs. inter-genet relasjoner). Dermed er gruvedrift algoritme sammenhengende aktuelt over hele datasett. Foruten microarray data integrasjon, har vi også brukt prinsippet til gruppering problemet og har innført en ny gruppering rammeverk,

SignatureClust product: [18].

SignatureClust

klynger microarray data etter projisere det inn en signatur plass definert av et sett av landemerke gener valgt av brukeren, slik at biologer for å få ulike perspektiver på de samme underliggende data bare ved å endre landemerket gener.

det har også blitt bevist at den inter-genet informasjonen er nyttig for kreft klassifiseringsøyemed.

k-

TSP utnytter endringer i uttrykket nivåer av genet parene for å forbedre klassifiseringen nøyaktighet [6].

k-

TSP klassifikator bruker genet parene som ligner på våre

signere

dubletter.

k-

TSP klassifikator identifiserer genet parene som uttrykk bestillinger er konsekvent reverseres over klasser; det vil si, hvis i de fleste av kontrollprøvene og i de fleste kreftprøvene, så

k-

TSP klassifiserings gjelder genet paret og som en god indikator av klassene.

k-

TSP klassifikator finner de topp- parene, referert til som TSP (toppen scoring Pairs), og den bruker dem til å bestemme klassene.

k-

TSP klassifikator kombinerer prediksjon av hver TSP hjelp av uvektet flertallsvalg å bestemme den endelige klassen av en prøve. Nylig har

k-

TSP algoritmen har også blitt brukt til å forbedre klassifiseringen nøyaktigheten av SVM klassifikator [19].

Vår metode er forskjellig fra

k-

TSP klassifikator i tre viktige aspekter. Først blir -TSP utviklet for å fungere med bare én type gen sammenkobling (ligner på våre

registrerer

dubletter), mens vår metode er ikke begrenset til bestemte typer sammenkobling. I denne artikkelen har vi definert tre dubletter, dvs.

sumdiff

,

mul Hotell og

signere

, men diverse andre dubletter kan også brukes med den foreslåtte rammene. For det andre bruker vår metode eksisterende veletablert classifiers i stedet for å utvikle nye klassifiseringsmodeller. Dette ble gjort mulig fordi vår metode skiller genet sammenkobling trinn (dvs. funksjonen utvinning trinn) fra klassifiseringsmodell konstruksjon. Til slutt, bruker

k-

TSP klassifikator frekvens som en beregning for å tildele stillingen til sine genet parene, mens vi bruker pålitelig

T-score

. Tabell 2 oppsummerer nøyaktighet resultatene av dubletter og grunnlinjen classifiers, samt nøyaktigheten av TSP og

k-

TSP. TSP refererer til det tilfelle hvor bare den mest innflytelsesrike TSP ble anvendt for klassifisering. TSP og

k-

TSP classifiers rapporterte en robust ytelse og utkonkurrerer de fleste av baseline classifiers. Likevel er de to classifiers bommer for formålet med vår undersøkelse. Denne studien er vesentlig i at det ble demonstrert at en enkel dublett basert funksjon utvinning metoden forbedrer bemerkelsesverdig nøyaktigheten av konvensjonelle klassifiserere helt opp til nivået av spesialiserte klassifiseringsalgoritmer som TSP og

k-

TSP.

de 15 beste dubletter og tilhørende KEGG trasé for CNS datasettet er vist i tabell 3. en mulig forklaring på hvorfor dublett nøyaktighet er høyere enn de av baseline classifiers kan være at trasé forbundet med hvert element i den dublett er noe sammenlåst med hverandre, og dermed danne et mer robust biomarkør i forhold til hver av de veier som er tatt hver for seg. Men en mer robust etterforskning nødvendig før en eventuell hypotese kan valideres. I vårt videre arbeid, vi har tenkt å gjennomføre en systematisk analyse av disse topp dubletter, med tilhørende veier og deres mulige koblinger til kreft.

Vi har vist at å kombinere uttrykket data fra genpar øker nøyaktigheten av classifiers. Vi har også vist at en økning av antall gener for fremstilling av dubletter ikke nødvendigvis resultere i en tilsvarende økning i nøyaktighet. Dette er viktig fordi vi kan få en meget stor nøyaktighet, selv om vi bruke en meget liten del av det totale antall av gener. Således beregningskompleksiteten av databehandlings dubletter, noe som potensielt kan være kvadratisk til det totale antall av gener i datasettet, er ikke kritisk, siden bare en meget liten del av genene som er brukt.

Genene som omfatter den øverste dubletter gir også lett tolkbare resultater, sammenlignet med andre metoder som SVM. Selv om SVM kan gi en høyere nøyaktighet enn andre, er det i hovedsak en svart boks og ingen innsikt kan oppnås om biomarkør gener. Dubletter, på den annen side, er lett å tolke. Dubletter identifisere hvilke gener og hvilke genet parene kan tjene som biomarkører for svulst klassifisering.

I fremtiden planlegger vi å analysere disse dubletter over datasett og krefttyper å velge mer robuste kreft biomarkør genpar. Spesielt vil vi undersøke hvordan de enkelte dubletter kart til reelle gener «relasjoner, slik som undertrykkelse eller stimulering, og hvordan relasjonene funksjon med hensyn til kreftutvikling. Det er videre ment å eksamen effektiviteten av dubletter i klassifisering multi-klasse kreft datasett.

Konklusjon

Bidraget av denne artikkelen er todelt. For det første har det innført dubletter, en ny metode for å kombinere uttrykk data fra genet par. Gene parene er mer robuste biomarkører i forhold til enkelte gener, kanskje gjenspeiler det faktum at gener er i samspill til å utføre en molekylær funksjon og dereguleringen av genene i samspill, snarere enn uavhengige gener, kan være ansvarlig for dereguleringen de kritiske stier. For det andre har vi kombinert dubletter med konvensjonelle classifiers å produsere classifiers hvis nøyaktighet er større enn de opprinnelige. Vi validert rammen ved hjelp av fem kjente classifiers inkludert PAM, DT, NB, SVM, og KNN. Vi viste at dubletter kan enkelt bygges inn i eksisterende classifiers uten å måtte endre de underliggende algoritmer, og at bruk av dubletter konsekvent kan forbedre klassifisering nøyaktigheten av de opprinnelige algoritmer på tvers av ulike datasett.

Materialer og metoder

Gene Dubletter

la det være

N

gener i en vevsprøve, og la det være

M

slike vevsprøver. Kreften datasettet kan så bli representert som matrise av dimensjon. Deretter ville betegne uttrykket verdien av

i

-te genet, i

j

-te prøve,. Genet vektor = ville betegne uttrykket verdien av

i

-te gen på tvers av

M

vevsprøver, og kolonnen vektor = ville representere

j

-te vevsprøve over

N

gener. Klasse etiketter for vevsprøver er representert ved vektor =, hvor mengden av alle klasse etiketter. For vår binære klassifisering problem, hvor betegner kreft og betegner normale vevsprøver.

For hvert par av gener i et datasett, definerer vi en positiv dublett vektor og en negativ dublett vektor som (2) (3)

Derfor, for våre datasett med gener, har vi positive dubletter og negative dubletter, og vår opprinnelige microarray datasett dimensjon er forvandlet til en matrise. Hver rad i denne nye matrisen representerer en dublett (positiv eller negativ). Vi betegner denne matrisen som, med dimensjon der; Dermed blir definert dubletter kjent som

sumdiff

dubletter. I en annen variant av å lage dubletter, definerer vi

mul

dubletter som: (4) og

signere

dubletter som: (5)

sumdiff

dubletter fange opp-opp, ned ned (dvs. positive dubletter) og opp-ned (dvs. negative dubletter) relasjoner av uttrykket verdiene av genet parene. Videre er de negative dubletter fange størrelsesorden uttrykksverdier mellom genene i genet paret. Vennligst bemerkes at de datasett som ble behandlet for å ha en minimumsverdi på 10 og et maksimum på 16.000. Deretter ble verdiene konvertert gjennom. Deretter ble alle prøvene standardisert til null middelverdi og enhet varians.

mul

dubletter ikke bare fange opp-opp, ned-ned og opp-ned forhold genpar, men også forsterke relasjonene gjennom multiplikasjon. Men

mul

dubletter ikke fange uttrykket ordrer mellom gener. På den annen side,

signere

dubletter fange de inter-genekspresjon bestillinger alene.

mikroarray data og klassifiseringsmetoder

microarray data er hentet fra flere studier, som er vist i tabell 1. Dette er de samme datasett som ble brukt i [6] for å sammenligne TSP og

k-

TSP med forskjellige classifiers. De mikromatriser består av uttrykket data for de vev forbundet med tykktarm, blod, lunge, bryst, prostata, og kreft i det sentrale nervesystemet. Antall prøver og antall gener i hver studie er også vist i tabell 1. For baseline classifiers, brukte vi implementasjoner tilgjengelige i Bioconductor (for PAM) [20] og Weka (for DT, NB, SVM og KNN) [21].

Klassifisering nøyaktighet

Vi bruker

LOOCV product: (

La One Out Cross Validation

) metode for å anslå klassifikator nøyaktighet. For hver prøve i datasettet, bruker vi resten av prøvene i datasettet for å forutsi klassen av prøven. Klassifiseringen nøyaktigheten av hver datasettet er forholdet mellom tallet på riktig klassifisert prøvene (sanne positive + Sann negativer) til det totale antall prøver i det datasettet.

Takk

Dette papiret er en betydelig utvidet versjon av vårt forarbeid presentert i 2009 IEEE International Conference on Bioinformatikk og biomedisin [22]. Papiret presenteres på konferansen introduserte de foreløpige funnene begrenset bare til en bestemt klassifisering algoritme, PAM. I denne utvidede papir, generalisert vi funnene ved å vise at den utledede informasjoner fra robuste genet parene kan forbedre nøyaktigheten av kreft klassifisering uavhengig av de underliggende klassifiserings algoritmer. Vi diskuterte også tolkningen av genet parene i de svært indikative dubletter og deres tilknytning til kreft.

Legg att eit svar