PLoS ONE: Forbedret Klassifisering av Lung Cancer Bruke Radial Basis Function Neural Network med Affine Transforms av Voss Representasjon

Abstract

Lungekreft er en av de sykdommene som er ansvarlig for et stort antall kreftrelatert død tilfeller på verdensbasis. Den anbefalte standard for screening og tidlig diagnostisering av lungekreft er den lave dosen computertomografi. Men mange pasienter diagnostisert dør i løpet av ett år, noe som gjør det viktig å finne alternative metoder for screening og tidlig påvisning av lungekreft. Vi presenterer beregningsmetoder som kan implementeres i en funksjonell fler genomisk system for klassifisering, screening og tidlig påvisning av lungekreft ofre. Prøver av topp ti biomarkør gener som tidligere er rapportert å ha den høyeste frekvensen av lungekreft mutasjoner og sekvenser av normale biomarkør gener henholdsvis ble samlet inn fra den kosmiske og NCBI databaser for å validere beregningsmetoder. Eksperimenter ble utført basert på kombinasjoner av Z-kurve og tetraeder affine transformasjoner, til histogram av Oriented Gradient (HOG), multi perceptron og Gaussian Radial Basis Function (RBF) nevrale nettverk skaffe en passende kombinasjon av beregningsmetoder for å oppnå bedre klassifisering av lunge kreft biomarkør gener. Resultatene viser at en kombinasjon av affine transformasjoner av Voss representasjon, HOG genomiske funksjoner og Gaussian RBF nevrale nettverk merkbart bedre klassifisering nøyaktighet, spesifisitet og sensitivitet av lungekreft biomarkør gener samt oppnå lav midlere kvadratfeil

Citation.: Adetiba E, Olugbara OO (2015) Forbedret Klassifisering av Lung Cancer Bruke Radial Basis Function Neural Network med Affine Transforms av Voss Representation. PLoS ONE 10 (12): e0143542. doi: 10,1371 /journal.pone.0143542

Redaktør: Xia Li, Harbin Medical University, Kina

mottatt: 17 august 2015; Godkjent: 05.11.2015; Publisert: 01.12.2015

Copyright: © 2015 Adetiba, Olugbara. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Data Tilgjengelighet: For denne studien den Katalog av somatiske mutasjoner i Cancer (COSMIC) er en database med somatiske mutasjoner i kreft hos mennesker at forfatterne brukt. Topp ti gener med den høyeste frekvensen av mutasjoner i lungen har følgende symboler: TP53, EGFR, KRAS, KMT2C, CDKN2A, NF1, STK11, KMT2D, ZNF521 og SMARCA4. Disse symbolene ble oppnådd fra (HGNC) database HUGO Gene Nomenclature Committee

Finansiering:.. Finansiert av Durban University of Technology Research og Postgraduate Support Direktoratet

Konkurrerende interesser: Forfatterne har erklært at ingen konkurrerende interesser eksisterer.

Innledning

Lungekreft er en ondartet svulst i vevet av menneskelige lungene som er fortsatt en av de mest ledende årsakene til kreftrelaterte dødsfall tilfeller på verdensbasis [1]. Lav dose computertomografi (CT) er den anbefalte standard for screening og tidlig diagnostisering av lungekreft [2]. Imidlertid er overlevelsesraten for lungekreft meget lav og mer enn halvparten av pasientene diagnostisert med sykdommen dør i løpet av ett år [3]. Lungekreft utvikles på grunn av en vedvarende genetisk skade på normale lungeceller av karsinogener fra sigarettrøyk og andre kilder. Mer enn 50 retrospektive studier av røyking og lungekreft ble rapportert å demonstrere en slående avansement i risikoen for lungekreft for røykere eller passive røykere sammenlignet med ikke-røykere [4]. Faktisk har nyere studier [5,6] attestert røyking som udiskutabelt en av de viktigste årsakene til lungekreft, selv om ca 10% av lungekreft tilfellene er knyttet til de kreftfremkallende effekten av radongass, arsen, nikkel, asbest, krom og genetisk disposisjon. Brenning av tobakk i sigaretten resulterer i kjemiske prosesser som for eksempel pyrolyse, oksydasjon, hydrogenering, dekarboksylering og dehydrering av bestanddelene. Derfor er over 3000 kjemikalier produsert ut av hvilke kreftfremkallende ansvarlig for kreft fases inn i partikkel og dampfasene. De kreftfremkallende i det partikkelformige fase omfatter benzo (a) pyren, dibenz (a) antracen, 5-methylchrysene, benzofluoranthenes, nikotin, N-nitrosonornicotene, katekol, nikkel, kadmium og polonium. Tilsvarende har kreftfremkallende i dampfasen er hydrazin, vinylklorid, uretan, formaldehyd, nitrogenoksider og nitrosodiethylamme. Disse Skalaer av kjemikalier er enten kreft initiativtakerne, komplett kreftfremkallende, tumorpromotere eller co-kreftfremkallende. Derfor de kjemisk aktivere onkogener og deaktivere tumorsuppressorgener i normal lungeceller til å produsere mutasjoner som fører til svulster [7,8].

Tilgjengeligheten av store volumer av lungekreft mutasjon data har gjort behandling av sykdommen rask fremmarsj utover de tradisjonelle tilnærminger som kirurgi, strålebehandling og kjemoterapi. For en moderne behandling av sykdommen, til varianter av narkotika fremme «personlig medisin» har blitt utviklet for å målrette de ulike genetiske mutasjoner mot å stoppe kreft vekst før det blir avansert og metastatisk. Disse stoffene har vist seg å være svært effektive med færre bivirkninger sammenlignet med de tradisjonelle kjemoterapier. Eksempler på målrettet terapi er godkjent for behandling av kreft lunge inkluderer gefitinib, erlotinib, bevacizumab, sorafenib og 28-amino-syre peptid (p28). Disse behandlingene målrette mutasjoner i EGFR og TP53 [9-11]. Men behovet for å utvikle genomiske baserte beregningsmetoder for klassifisering, screening og tidlig diagnostisering av lungekreft er svært avgjørende. Dette er fordi den anbefalte lavdose CT er en bildebasert teknologi som ikke kan brukes for mutasjonsdeteksjon [2,4,7,11]. Automatisk genomisk basert klassifisering, screening og tidlig diagnostisering av lungekreft vil gå langs veien for å hjelpe med å anbefale ofre for kjente genetiske mutasjoner i lungene for å dra nytte av de tilgjengelige målrettet terapi eller delta i kliniske studier for nye legemidler.

i [12], DNA metylering markører og nevrale nettverk ble rapportert som potensielt levedyktig verktøy for automatisk klassifisering av lungekreft i småcellet lungekreft (SCLC) og ikke-småcellet lungekreft (NSCLC). Markey et al. [13] utviklet en klassifisering og regresjon treet (CART) trente med 26 funksjoner for å klassifisere 41 kliniske prøver for eksempel sykdom eller ikke-sykdom. Funksjonene ble beregnet fra massespektroskopi av blod serumprøver av lungekreft og ikke-kreft fag ved hjelp av masse-til-charge ratio og topphøyder i proteiner. Ramani og Jacob [14] utviklet en beregningsmetoden ved hjelp av strukturelle og fysiske og kjemiske egenskaper proteinsekvenser. De brukte Bayesiansk nettverk i deres metode for å klassifisere lungekreftsvulster til SCLC, NSCLC og felles klasser. Guan et al. [15] benyttes Support Vector Machine (SVM), før biologisk kunnskap og Tippe Analyse for microarray (PAM) for å klassifisere adenokarsinom lungekreft. De nevnte studiene er nødvendige skritt i riktig retning, men rakne mutasjons innholdet i lungesvulster har ikke blitt fullstendig behandlet i litteraturen. Dette innebærer at løftene av målrettet terapi å raskt kunne arrestere mutasjoner i lungen kan være unnvikende i fravær av relevante metoder for screening og tidlig påvisning av lungekreft mutasjoner. Forskere har antydet at ofte muterte biomarkør gener kan utnyttes ved å utforme sett for screening og tidlig diagnostisering av lungekreft [16]. I tråd med dette forslaget, ble en lungekreft forutsigelse metode utviklet i [17]. Metoden ble validert med datasett av EGFR, KRAS og TP53, som er de tre beste ofte muterte biomarkør gener å forutsi mutasjoner i lungekreft [16]. Ensemble og ikke-ensemble varianter av multi Perceptron (MLP) nettverk og SVM ble sammenlignet for å forutsi seks klasser av biomarkør gener og best prediksjon nøyaktighet på 95,90% ble oppnådd ved bruk av MLP nettverk ensemble [17].

den første overordnede målet med denne studien er å utvide genom dekning av metoden rapportert i [17] til fjorten klasser av de ti beste hyppig mutert lungekreft biomarkør gener. Det ble understreket i litteraturen at ytelsen til klassifisering algoritmer kan påvirkes for et stort antall klasser [18]. Følgelig, det andre målet med denne studien er å finne et sett av affine invariante genomisk funksjoner for forbedret klassifisering av lungekreft biomarkør gener til tross for høyere antall klasser. Dette målet ble oppnådd ved å utforske Z-kurve og tetraeder affine transformasjoner av Voss representasjon samt histogrammet av Oriented Gradient (HOG). Z-kurve og tetraeder affine transformasjoner blir brukt som nukleotider transformasjonsmetoder fordi de egentlig generere form redusert representasjon av Voss transformasjon med mindre beregnings kostnader [19,20]. Videre affine forvandlet nukleotider er analoge til fargebildesignaler, noe som gjør det enkelt å bruke HOG metoden i bildebehandling domene for å trekke ut et sett av genomiske funksjoner for forbedret klassifisering av lungekreft biomarkør gener. Den tredje Målet med denne studien er å få en passende kombinasjon av beregningsmetoder for forbedret klassifisering av lungekreft biomarkør gener. Kombinasjoner av affine transformasjoner av Voss representasjon, HOG metode, MLP nevrale nettverk og Gaussian Radial Basis Function (RBF) nettverk vi eksperimentelt undersøkt for å oppnå dette målet.

Materialer og Metoder

Data Set

Normal (ikke-mutert) nukleotid sekvenser av ti forskjellige biomarkør gener ble hentet fra Nasjonalt Senter for Bioteknologisk Information (NCBI) database. Bakgrunnen for valg av NCBI er at det er en av de mest brukte databaser i Collaborative Consensus kodende sekvensen (CCD) konsortiet. De andre CCD databaser er Ensembl Genome Browser, University of California Santa Cruz Genome Browser og Wellcome Trust Sanger Institute (WTSI) Genome Browser. De CCD databasene gir enkel tilgang til de samme referanse DNA-sekvensen for enhver biomarkør gen, uavhengig av forskjeller i data og metoder som brukes for sekvensering. Den CCD konsortium sporer av høy kvalitet identiske protein merknader på referanse mus og humane genomer med en stabil identifikasjonsnummer kalt CCD-ID. Stabiliteten i CCD ID er fordi konsortiet kontinuerlig arbeider for å sikre at eksisterende CCD er konsekvent oppdatert av ethvert samarbeid medlem [21]. Symbolet, beskrivelse, CCD-ID og antall nukleotider av de beste ti lungekreft biomarkør gener som brukes for denne studien er vist i tabell 1.

Mutasjons data for denne studien ble kjøpt fra Katalog av somatiske mutasjoner i Cancer (COSMIC) database og de utgjør av de ti biomarkør gener i lungekreft. Den COSMIC database utviklet og hostet av WTSI inneholder tilfeller av kuraterte og arkivsomatiske mutasjoner i de sentrale kreft biomarkør gener på tvers av mange kreftprøver [22]. De ti beste biomarkør gener i COSMIC database med høyest frekvens av mutasjoner i lungen som på det tidspunktet denne undersøkelsen ble gjennomført har symboler TP53, EGFR, KRAS, KMT2C, CDKN2A, NF1, STK11, KMT2D, ZNF521 og SMARCA4 [23 ]. Symbolene ble hentet fra databasen HUGO Gene Nomenclature Committee (HGNC) og de fleste av disse biomarkør gener ble spesifikt rapportert som ofte muterte biomarkør gener i lungekreft [24-29]. Totalt hentet vi prøver av 10784 lungekreft mutasjoner og datasettet benyttet for vår eksperimentering inneholder fjorten forskjellige klasser, som er

Normal

,

EGFR Sletting

,

EGFR Innbytte

,

KRAS Bytte

,

TP53 Sletting

,

TP53 Bytte

,

NF1 Bytte

,

KMT2C Bytte

,

CDKN2A Innbytte

,

STK11 Sletting

,

STK11 Bytte

,

KMT2D Bytte

,

ZNF521 Innbytte Hotell og

SMARCA4 Innbytte

.

den samlede statistikken over de kuratert og unike prøver av normale og mutasjoner data er vist i tabell 2. sletting mutasjon data for biomarkør gener som KRAS, NF1, KMT2C, CDKN2A, KMT2D, ZNF521 og SMARCA i COSMIC database er enten ikke-eksisterende eller svært få, som informert om vår beslutning om å utelukke dem fra våre dataprøver.

Transforming Genomisk nukleotider i Color Images

genet som en grunnleggende enhet av arvelighet består av en spesifikk sekvens av deoksyribonukleinsyre (DNA) eller ribonukleinsyre (RNA). En DNA er en polymer som består av små molekyler som kalles nukleotider som kan skilles ved fire baser. Disse basene er adenin (A) = C

5H

5N

5, Cytosine (C) = C

4H

5N

3O, Guanine (G) = C

5H

5N

5O og Tymin (T) = C

5H

6N

2o

2. Følgelig kan et DNA angis i fullstendig form av en sekvens bestående av de fire alfabeter {A, C, G, T}. Det første vesentlige trinn i behandlingen av en DNA-sekvens som krever at dens omdannelse fra en streng av bokstaver i den numeriske ekvivalent [30-32]. Numerisk karakterisering av DNA-sekvenser kan bistå i contriving passende genomiske trekk som fanger essensen av basen sammensetning og fordeling på en kvantitativ måte. Dette kan hjelpe i DNA-sekvensen identifikasjon og sammenligning for å detektere graden av genetisk likhet eller ulikhet. Basen Sammensetningen gir det totale innholdet av hver base i en DNA-sekvens og er lett bestemmes. Imidlertid basen fordeling, som er vanskeligere å fastslå er mer informativ og det gir en bedre diskriminering blant forskjellige gener, selv om basenumrene sammensetning er den samme [31]. Følgelig kan både basesammensetning og fordeling av en DNA-sekvens bli undersøkt for å karakterisere tallmessig genomiske sekvenser.

Den spesielle numerisk kodemetode anvendes, bestemmer i hvilken basen sammensetning og fordeling av en DNA-sekvens som er tatt. Mange numeriske kodingsmetoder er blitt rapportert i litteraturen med hver har sine styrker og svakheter [33]. Voss transformasjonen er en av de mest brukte metoder for numerisk koding av nukleotider [34,35]. Det er en effektiv spektrale detektor av basefordeling og periodisitet egenskaper [33] og det representerer DNA-sekvenser med fire binære indikator sekvenser som: (1) hvor 1 angir nærvær av basen B, ved plassering n, 0 betegner dets fravær i at plassering og N er lengden av DNA-sekvensen som blir kodet. Imidlertid er det Voss representasjon høyt redundante [33]. Noen andre eksisterende metoder slik som Z-kurve og Tetrahedron affine transformasjoner kan brukes til å adressere den redundans i Voss representasjonen [36]. Z-kurve og tetrahedron representasjoner redusere beregnings kostnadene i de senere behandling stadier av DNA-sekvenser.

Z-kurve transformasjon ble utviklet for å kode DNA-sekvenser med flere biologiske semantikk [37]. Den bruker en passende geometrisk representasjon for å redusere antall Voss representasjoner fra fire til tre på en kompakt måte som er symmetrisk til alle de fire basene. Z-kurve inneholder all den informasjon som bæres av de tilsvarende DNA-sekvenser og derfor kan analysen av en DNA-sekvens bli utført ved å studere den tilsvarende Z-kurve [20]. De 3-dimensjonale Z-kurve vektorer er uttrykt som [20,36] 🙁 2)

tetrahedron transformasjon er lik den Z-kurve transformasjon, karakterisert ved at de fire nukleotid-basene blir omdannet til tre-dimensjonale vektorer dette punkt fra sentrum av et tetraeder til sine toppunkter. Disse 3-dimensjonale vektorer er definert som [36-37] 🙁 3) der

r

,

g Hotell og

b

i senket av vektorene er røde, grønne og blå indikatorer. Faktisk har tetrahedron transformasjon blitt referert til i litteraturen som «RGB «transformasjon av en DNA-sekvens [33].

For effektivt å behandle RGB-vektorer (ligningene 2 og 3) for å oppnå den tilsvarende RGB-bilder, et passende antall vinduer som tilsvarer bildehøyden (H), en passende vindusstørrelse som svarer til bildets bredde (W) og overlappingen er valgt for å definere tre HXW dimensjonale matriser. I denne studien ble antall vinduer fastsettes på grunnlag av DNA-sekvensen lengde (N) i biomarkør genet. Størrelsen på 200 og en overlapping på 50 nukleotider ble brukt [38,39]. Matrisene ble normalisert innenfor området 0-255 å skildre hver av dem som et gråtonebilde. Disse tre gråtonebilder gjengis som et fargebilde i RGB fargerom.

Mønster Klassifisering og Feature Extraction

Oppgaven med mønster klassifisering som skal utføres av et mønster klassifikator hovedsak innebærer katalogisering av rådata inn ønskede klasser basert på de iboende mønstre i dataene. Automatisk mønster klassifisering er nøyaktig utført i ulike bruksområder bruk av maskiner [40]. Kompleksiteten i et mønster klassifikator er svært avhengig av dimensjonen av egenskapsvektoren og antall treningsdataprøvene. En kompakt eller lav dimensjonal funksjon representasjon som beholder de beskrivende innholdet i det opprinnelige datasettet er svært ønskelig for effektiv minnekravet, påskynde behandlingstiden og minimere beregningsorientert kompleksitet av et mønster klassifikator. Noen av de eksisterende funksjonen utvinning og dimensjonalitet reduksjon metoder i statistikk er Factor Analysis (FA), Independent Component Analysis (ICA) og Principal Component Analysis (PCA).

I signal- og bildebehandling domene, flere andre metoder har er utviklet for å trekke representative funksjoner i et originalt datasett som resulterer i dimensjon reduksjon. Disse metodene inkluderer Vector Kvantisering (VQ), Scale Invariant Feature Transform (sile), satte fart robuste funksjoner (SURF), Principal Component Analysis SIFT (PCA-SIFT), Lokale Binary Patterns (LBP) og Histogram av Oriented Gradient (HOG) [ ,,,0],41-44]. Svin er spesielt beskrevet i litteraturen som en sterk form, utseende og tekstur ekstraksjonsmetoden [43-45]. Vi har valgt HOG metode for anvendelse i denne studien på grunn av sin attraktive egenskaper som bedre invarians for belysning. Videre har en tidligere studie vist at HOG fremgangsmåten bedre resultater enn LBP fremgangsmåte for utvinning av kompakte genomiske trekk [17]. I den opprinnelige gjennomføring av HOG fremgangsmåten, ble en 3×3 blokk av celler og 9 binger som brukes til å generere en funksjon vektor av 81 elementer fra et gråtonebilde og testet for å være ideell for fotgjenger deteksjon [44]. Men på grunn av de lave dimensjonene av noen genomiske bilder, søkte vi Dimensjonene til 2×2 blokk av celler og 9 binger for å generere en kompakt HOG genomisk trekk vektor av 36 elementer fra et gråtonebilde. Den gråtonebilde ble hentet fra et fargebilde av DNA-sekvensen bruker MATLAB. De hentet HOG genomiske funksjoner ble deretter matet inn i et mønster klassifikator å klassifisere lungekreft biomarkør gener.

I denne studien, to rivaliserende state-of-the-art mønster classifiers utforsket for klassifisering av lungekreft biomarkør gener er den multi Perceptron (MLP) nettverk og Radial Basis Function (RBF) nettverk. De er mye brukt til å løse problemene med mønster klassifisering og funksjon tilnærming [46-58]. Men mønster classifiers har iboende styrker og svakheter på grunn av sine karakteristiske egenskaper. MLP nevrale nettverk har evnen til å implisitt gjenkjenne komplekse ikke-lineære sammenhenger mellom uavhengige og avhengige variabler. Imidlertid krever de større beregningsressurser og er utsatt for problemet med overtilpassing. På den annen side, RBF nevrale nettverk har en sterk fordel av å være enkel å utforme, de har en god evne generalisering, utfører de robust og er tolerant av inngangsstøy [59]. Likevel kan de ikke presterer bedre enn MLP nevrale nettverk i alle situasjoner. Ytelsen til hvert mønster klassifikator vil selvsagt avhenge av problemet blir vurdert. MLP nevrale nettverk kan gi en mer tilpasset utgang krysse valideringsdatasettet enn RBF nevrale nettverk, men RBF nevrale nettverk krever mindre prøvelser og feil enn MLP nevrale nettverk. I tillegg kan hver mønsterklassifiserings utføre forskjellig for forskjellige approksimasjon funksjoner. Siden den underliggende funksjon som tilnærmer våre eksperimentelle data var ukjent på forhånd, fant vi det forsvarlig å eksperimentere med de to mønster classifiers å oppdage en som fungerer godt for klassifisering oppgave i denne studien.

eksperimentelle modeller og Performance Evaluation

Fire eksperimentelle modeller ble vurdert i denne studien å oppdage et sett av affine invariante genomisk funksjoner og til å bestemme en passende kombinasjon av beregningsmetoder for forbedret klassifisering av lungekreft biomarkør gener. Figur 1 viser konstruksjonen av en generell arkitektur for de fire eksperimentelle modeller. De eksperimentelle modeller ble gjennomført ved hjelp av MATLAB R2012a programmeringsmiljø. Basert på eksperimentelle modeller, ble eksperimenter utført på en datamaskin som inneholder en Intel Core i5-3210M CPU, som opererer på 2.50GHz hastighet, 6.00GB RAM, 500 GB harddisk og kjører 64-bits Windows 8 operativsystem. I alle de fire eksperimentelle modeller, ble datasettet partisjonert i 70% trening, 15% testing og validering 15%. I den første forsøksmodellen, ble Z-kurve representasjon anvendes for å oppnå et fargebilde fra Voss representasjon, ble HOG metode som brukes til å generere en genomisk trekk vektor av 36 elementer fra fargebildet og MLP neurale nettverk ble anvendt for å klassifisere den funksjonen vektor. I den andre forsøksmodellen ble tetrahedron representasjon brukt i stedet for Z-kurve representasjon som brukes i den første eksperimentelle modellen. Følgelig endring av kodingsmetoden fra den Z-kurve for å tetrahedron er forskjellen mellom den første og den andre eksperimentelle modeller. I den tredje eksperimentell modell, ble Z-kurve representasjon anvendes for å oppnå et fargebilde fra Voss representasjon, ble HOG metode som brukes til å generere en genomisk trekk vektor av 36 elementer fra fargebildet og Gaussian RBF neurale nettverk ble anvendt for å klassifisere funksjonen vektor. Den fjerde forsøksmodell ble utviklet for å bruke tetrahedron representasjonen i stedet for Z-kurve representasjon, som er den eneste forskjellen mellom dette fjerde forsøksmodellen og den tredje forsøksmodell.

konfigurasjoner av MLP nevrale nettverk for den første og den andre eksperimentelle modeller er de samme. Det er 36 nevroner i inngangslaget fordi HOG genomisk funksjonen vektoren har 36 elementer. Utgangen laget av MLP nettverk inneholder 14 neurons fordi det er 14 klasser i det genomiske datasettet. Det har vært antydet at flere skjulte lag med et høyt antall neuroner vanligvis føre til færre lokale minima [60]. Følgelig ble to skjulte lag behandles og det neurale nettverk ble testet med 100, 200, 300, 400 og 500 neuroner eksperimentelt for å bestemme det passende antall av neuroner for hver av de skjulte lag. MLP nevrale nettverket benytter en lineær aktiveringsfunksjonen i inngangslaget for å overføre de nøyaktige egenskaper uten noen transformasjon. Den hyperbolske tangens-funksjonen ble brukt i nervecellene i det skjulte og utgå lag for å fullt ut dra nytte av deres ulinearitet og deriverbarhet egenskaper. Disse egenskapene er viktige kvaliteter for optimal ytelse av MLP nevrale nettverk [60]. Videre ble MLP nevrale nettverk som er konfigurert med 500 trenings epoker, læring rate på 0,1, maksimal treningstidspunktet 120sec, minimum ytelsen gradient av 1e-6, valideringskontroller på 500 og ytelse mål av 0.

konfigurasjoner av Gaussian RBF nevrale nettverk i tredje og fjerde eksperimentelle modeller er de samme. De Gaussisk RBF nevrale nettverk ble konfigurert til å ha den MSE mål på 0, spres på 0,1, 36 neuroner i inngangslaget og 14 neuroner i utgangslaget. Disse konfigurasjoner er basert på antallet av elementer i hver funksjon vektor og antallet biomarkør gen klasser i datasettet. Imidlertid inneholder en Gaussisk RBF nevralt nettverk normalt ett skjult lag og legger automatisk neuroner til det skjulte laget til det møter den angitte midlere kvadrerte feil mål. Opplæringen av de Gaussian RBF nevrale nettverk ble stoppet når antall skjulte lag nevroner nådd maksimalt standardverdien 534, som er antall forekomster i treningsdatasettet.

Fire forskjellige resultattall som vanligvis brukes i litteraturen for å vurdere ytelsen til et mønster klassifikator ble brukt for å kvantitativt vurdere forestillinger av MLP og Gaussian RBF nevrale nettverk mønster classifiers. Disse resultattall er nøyaktigheten, Mean Square Error (MSE), spesifisitet og sensitivitet. Nøyaktigheten av en mønsterklassifiserings kan beregnes fra den forvirring matrise som prosentandelen av korrekt klassifisert enheter. Dette er ekvivalent med summen av diagonalelementene i forvirring matrise dividert med det totale antall elementer i klassene. MSE er gjennomsnittet av kvadratet av differansen mellom forventet produksjon og den faktiske produksjonen av et mønster klassifikator. Sannsynligheten for at et mønster klassifikator klassifiserer riktig en ikke-positiv eksempel som negative kalles spesifisitet eller sann negativ Rate (TNR). Sannsynligheten for at et mønster klassifikator etiketter forekomster av målet klassen riktig, kalles følsomhet eller sanne positive Rate (TPR). Mottakeren Driftsegenskaper (ROC) er handlingen i følsomhet mot en-spesifisitet til grafisk illustrere forholdet mellom sensitivitet og spesifisitet av et mønster klassifikator [60-62].

Forsøksresultater

komparative resultatene av Z-kurve og tetrahedron transforme er først presentert for å finne ut om de har sett oppnådd med hensyn til de to affine transformasjoner er invariant. Figurene 2 og 3 viser henholdsvis effektspekter plott av Z-kurve og Tetrahedron representasjoner av DNA-sekvenser av biomarkør gener i tabell 1. Hver tilsvarende spektrum form oppnådd ved bruk av Z-kurve representasjon (figur 2) kan sees å være meget lik den som oppnås ved bruk av tetraeder representasjonen (bilde 3). Dette resultat gir en indikasjon på en sterk likhet mellom Z-kurve og Tetrahedron representasjoner. De Z-kurve spektrale former av biomarkør gener er unikt forskjellig fra hverandre (fig 2) og den samme trenden er observert over figurer av biomarkør gener ved bruk av det tetraeder representasjon (fig 3). Det kan observeres fra de to figurene, at de spektrale former av TP53 biomarkør genet har tette spektrale detaljer med spektral-konvolutter med høye amplituder. Motsatt, de spektrale former av EGFR biomarkør genet i de to figurene inneholde tette spektrale detaljer om lave amplituder med to pigger av høye amplituder på K = 1200 og K = 2400. De spektrale former av KRAS biomarkør genet i begge figurene har tynt spektral detaljer som avsluttes før K = 600 uten å vise noen iøynefallende pigg. De spektrale former av KMT2C biomarkør genet har flate spektrale detaljer med høy amplitude pigger på K = 5000 og K = 10000 i begge figurene. I likhet med de spektrale former av KRAS biomarkør genet, de spektrale former av CDKN2A biomarkør genet i begge figurene har tynne spektrale detaljer som avsluttes før K = 500 i motsetning til de spektrale former av KRAS biomarkør genet som avsluttes etter K = 500. Den spektrale figurer av NF1, STK11, KMT2D, ZNF621 og SMARCA4 biomarkør gener alle har to pigger av forskjellige amplituder ved forskjellige verdier av K, som er en indikasjon på det unike ved disse biomarkør gener.

i tillegg har fargebilder oppnås ved hjelp av Z-kurve og Tetrahedron representasjoner av alle biomarkør genene i Tabell 1 er henholdsvis vist i figurene 4 og 5. det er klart observeres gjennom den subjektive visuell inspeksjon at teksturen i de tilsvarende bilder av biomarkør gener som oppnås ved hjelp av de to affine transformasjoner er like. Videre kan det sees at bilder av TP53, KRAS, CDKN2A og STK11 biomarkør gener har tunge teksturer og inneholde iøynefallende svart eller grønne flekker nederst i høyre hjørne av bildene. Teksturer av bilder av EGFR, ZNF521 og SMARCA4 i begge tallene er grove med bare bildet av SMARCA4 å ha svært liten svart eller grønn lapp nederst i høyre hjørne. Men bilder av KMT2C, NF1 og KMT2D biomarkør gener har myke teksturer. Selv om teksturer av de tilsvarende bildene er lik på tvers av hver biomarkør genet, deres farger er forskjellige.

En objektiv vurdering av kvantitativ analyse av bilde teksturer ble utført for å utfylle resultatene av subjektiv vurdering av bilde teksturer av biomarkør gener (figur 4 og 5). Ved å gjøre dette, beregnet vi Haralick andre ordens statistiske verdier for kontrast og homogenitet [63]. Høy kontrast verdier er vanligvis forventet for tunge teksturer og lave verdier for myke teksturer. Homogenitet verdier er den inverse av kontrastverdiene og høyere kontrast, jo lavere er homogeniteten og vice Versal. De Haralick verdier oppnådd for hvert av fargebilder av de ti biomarkør genene som oppnås ved hjelp av Z-kurve og Tetrahedron representasjoner er vist i tabell 3. Tabellen viser at de kontrast verdiene av de Z-kurve transformerte fargebilder rangeres på en lignende måte som de av tetrahedron forvandlet fargebilder (verdi i braketten betegner rangeringen av en biomarkør genet). For Z-kurve forvandlet fargebilder, rangerer KRAS biomarkør genet først med den høyeste kontrasten verdi av 13 099, mens KMT2D biomarkør genet rangerer sist med en kontrast verdi av 6358. I mellomtiden, for de tetrahedron forvandlet fargebilder, rangerer CDKN2A biomarkør genet først med den høyeste kontrasten verdi av 13 495, mens KMT2D biomarkør genet rangerer sist med en kontrast verdi av 6392.

homogenitet verdier av Z-kurve forvandlet fargebilder også rangere på en lignende måte som de i tetraeder forvandlet fargebilder. For Z-kurve forvandlet fargebilder, rangerer KRAS biomarkør genet først med en homogenitet verdi på 0,0342 mens KMT2D biomarkør genet rangerer sist med en homogenitet verdi på 0,0445. Men for de tetrahedron forvandlet fargebilder, rangerer TP53 biomarkør genet først med en homogenitet verdi på 0,0339 mens KMT2D biomarkør genet rangerer sist med en homogenitet verdi på 0,0448. [36].

Legg att eit svar