PLoS ONE: Computer-Aided Diagnosis for tidlig stadium lungekreft Basert på Langsgående og Balansert data

Abstract

Bakgrunn

Lungekreft er en av de vanligste kreftformene som resulterer i over en million dødsfall per år på verdensbasis. Vanligvis kan problemet bli kontaktet ved å utvikle mer diskriminerende diagnosemetoder. I denne utredningen, ble dataassistert diagnose som brukes til å legge til rette for prediksjon av egenskapene til ensomme lunge knuter i CT av lungene for å diagnostisere tidlig stadium lungekreft.

Metoder

Den syntetiske mindretall over- prøvetakingsteknikk (drepte) ble anvendt for å ta hensyn til rådata for å balansere den opprinnelige treningsdatasettet. Curvelet-transformasjon stofflighet funksjoner, sammen med 3 pasientens demografiske kjennetegn, og 9 morfologiske funksjoner ble brukt til å etablere en støtte vektor maskin (SVM) prediksjon modell. Longitudinelle data som testdatasettet ble brukt til å evaluere klassifisering ytelsen til forutsi tidlig stadium lungekreft.

Resultater

Bruke slo som en pre-prosessering prosedyre, den opprinnelige treningsdata var balansert med et forhold på ondartet til godartede tilfeller av 01:01. Nøyaktighet basert på cross-evaluering for den opprinnelige ubalanserte data og balanserte data var 80% og 97%, henholdsvis. Basert på Curvelet-transformasjon tekstur funksjoner og andre funksjoner, SVM prognosemodellen hadde god klassifisering ytelse for tidlig stadium lungekreft, med et areal under kurven av SVMer av 0,949 (P 0,001). Stofflighet funksjon (standardavvik) viste godartede tilfellene hadde en høyere endring i oppfølgingsperioden enn ondartede tilfeller.

Konklusjoner

Med tekstur funksjoner hentet fra en Curvelet transformasjon og andre parametere, en følsom støtte vektor maskin prediksjon modellen kan øke frekvensen av diagnose for tidlig stadium lungekreft. Denne ordningen kan brukes som et hjelpeverktøy for å skille mellom godartede og ondartede tidlig stadium lungekreft i CT-bilder

Citation. Sun T, Zhang R, Wang J, Li X, Guo X (2013) Computer -Aided Diagnose for tidlig stadium lungekreft basert på Langsgående og balanserte data. PLoS ONE 8 (5): e63559. doi: 10,1371 /journal.pone.0063559

Redaktør: Michael Gormley, Thomas Jefferson University, USA

mottatt: 20 november 2012; Godkjent: 03.04.2013; Publisert: May 15, 2013

Copyright: © 2013 Sun et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Dette var støttet av Natural Science Fund of China (serie~~POS=TRUNC: 81172772); Natural Science Fund of Beijing (Serienummer: 4112015); og Program for Academic Human Resources Development i institusjoner for høyere utdanning under jurisdiksjonen til Beijing Kommune (Serienummer: PHR201007112). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Lungekreft er en av de vanligste kreftrelaterte dødsfall, står for 1,1 millioner dødsfall årlig på verdensbasis [1]. Selv om oppmerksomhet har blitt betalt til tidlig stadium spådommer og diagnoser, er fortsatt prognosen svært dårlig, med fem-års overlevelse varierer fra 54% for Stage jeg til 10% for fase III [2]. Dette understreker behovet for en pålitelig tidlig stadium prediksjon prosess som kan forlenge pasientenes liv. Digital computertomografi (CT) er i dag mye brukt for lungekreft i klinisk praksis. Men i CT-bildene, vises lungekreft vanligvis som enslig lunge nodule (SPN), og deler likheter med de av flere godartede sykdommer [3]. Per definisjon, den ensomme lunge nodule (SPN) er et enkelt, sfærisk, godt omskrevet, radiografisk tetthet som måler = 3 cm i diameter og er omgitt fullstendig av den luftede lunge. Det er ingen forbindelse atelektase, hilar utvidelse, eller pleuravæske.

Med utviklingen av vitenskap og teknologi, har dataassistert diagnose (CAD) blir et hjelpeverktøy. Så vidt vi vet, ved hjelp av automatiserte datastyrte metoder, for eksempel bildeteksturanalyse, for å forutsi lungekreft har blitt rapportert allment [4] – [9]. Måte et al. [4] hentet morfologiske, overflate og tekstur egenskaper fra 256 lunge knuter, og etablerte en lineær diskriminant analyse. Et nettverk-baserte dataassistert diagnose metode for lunge nodule diagnose ved å kombinere morfometri og perfusjon egenskaper til å forutsi egenskapene til ensomme lunge knuter ble introdusert av Yeh et al. [5]. I en annen studie McCarville et al. [6] samlet 81 lunge knuter, baser på CT funn avviker godartet og ondartet natur lunge knuter hos barn, mens Wang et al. [7] brukte grå nivå samtidig forekomst matrise og multi-level modell for å forutsi egenskapene til lunge knuter. Lee et al. [8] brukte en to-trinns tilnærming for funksjonsvalg klassifikator ensemble bygging og prediksjon av karakteristikkene av lunge knuter. Zhu et al. [9] presentert en metode for å finne og velge tekstur funksjoner i ensom lunge knuter (SPNer) oppdaget av computertomografi (CT) og evaluere resultatene av støtte vektor maskin (SVM) -baserte classifiers i å skille benign fra ondartede SPNer. Men av disse metodene, er ingen av dem har hatt som mål å forutsi tidlig stadium lungekreft ved hjelp av tekstur-analyse, til tross for det faktum at det er avgjørende for å forlenge livet til lungekreftpasienter etter straks resecting kreft i et tidlig stadium.

i forrige undersøkelse, de bare brukt flere morfologiske funksjoner (for eksempel Mayo Clinic modell og VA-modellen) eller tekstur funksjoner for å forutsi den karakteristiske av knuter. I denne utredningen, ble støttevektormaskiner (SVMer) valgt som en forutsigelse modell, ved hjelp av et omfattende sett av strukturelle egenskaper utvunnet av Curvelets [15] fra CT-bilder, pasient demografiske kjennetegn og morfologiske funksjoner for å forutsi tidlig stadium lungekreft som synes som SPNer. Så vidt vi vet er dette første gang at teksturanalyse ble brukt til å forutsi tidlig stadium lungekreft, og det er en nyttig oppgave.

Material

De data som er vedtatt i denne artikkelen er hentet fra en kohortstudie. Den kohortstudie ble satt opp i 2009 og gjennomføres i 4 sykehus. Avgjørelsen om pasienten inkludering og ekskludering var basert på resultatene av de endelige diagnoser. Informasjonen i CT-bilder ble åpnet av 8 radiologer; i mellomtiden, var konflikter i den endelige tolkningen av CT-bilder vedtatt ved konsensus diskusjon. Et totalt 360 tilfeller ble oppnådd fra denne kohort studien. 317 tilfeller (317/360) hadde bare en tid CT scan, hvor pasienten ble skannes bare én gang, og den endelige diagnose av maligne og benigne tilfeller ble bestemt ved enten en operasjon eller biopsi. 33 saker (33/360) hadde minst to CT-skanning med en oppfølgingsperiode på 1 måned til 2 år (pasienter ble fulgt opp til avsluttende diagnoser var tilgjengelig), og endelig diagnose av ondartede og godartede tilfeller ble bestemt av enten en operasjon eller biopsi. 10 (10/360) tilfeller ble ekskludert på grunn av mangel på en endelig diagnose.

CT-skanning ble oppnådd ved hjelp av en 64-slice spiral CT-skanner (GE /lys hastighet ultra System CT99, USA) med et rør spenning på 120 kV og en strøm på 200 mA. Gjenoppbyggings tykkelse og gjenoppbyggingsintervaller for rutinemessig skanning var 0,625 mm. Data ble rekonstruert med en 512 × 512 matrise. For å fjerne noen andre vev (for eksempel muskler, fartøy og bein), ble alle de SPNer i CT-bilder segmentert manuelt for å oppnå en region av interesse (ROI), og de strukturelle funksjoner ble hentet ROI ved ROI. Regionen vokser [10] algoritme, et populært verktøy for bildesegmentering, ble brukt til å fjerne eventuelle bakgrunns piksler.

Opplæring data inkludert 317 saker som hadde bare en gang CT scan. Totalt 10,108 ROIs ble kjøpt fra 317 pasienter, med 3131 benign ROI fra 106 pasienter (58 menn, 48 kvinner) og 6977 ondartet ROIs fra 211 pasienter (125 menn, 86 kvinner). Detaljene er som følger (se tabell 1). Treningen data ble brukt til å etablere en SVMer prediksjon modell.

Totalt 33 tilfeller tok minst to CT-skanning og datasettet inkluderte ikke SPN bilder av den siste CT scan av hvert enkelt tilfelle. Grunnen til at testdata ekskludert siste CT scan av hver sak er at radiologer ville gjøre kliniske diagnoser basert på siste CT scan uansett riktig eller galt, og at de resterende data for SPNer CT-bilder som var vanskelig å diagnostisere av radiologer ble brukt til å teste ytelsen til en prediksjon modell for tidlig stadium lungekreft. Disse dataene er oppsummert i tabell 2.

Metoder

Et sett med tekstur funksjoner hentet fra Curvelets fra CT Rois, demografisk parameter og morfologiske egenskaper ble brukt som inngangsdata for å etablere en SVMer prediksjon modell. Som et faktum at en pasient har flere ROIs, slik at malignance sats ble anvendt som den variable for å trekke en ROC-kurve. Den malignance hastigheten ble definert som: (1).

Etikk erklæringen

Denne studien ble utført med etikk godkjenning (Ethics Committee of Xuanwu Hospital, Capital Medical University, Godkjenning Dokument nr [2011] 01 ). Skriftlig samtykke ble gitt av pasientene.

Syntetisk Minority Over-sampling teknikk (slo)

De data innhentet fra sykehusene var ubalansert (forholdet mellom ondartet til godartede saker i treningsdata var 02:01). Disse data ved hjelp Klassifiserings forårsaket en skjevhet på opplæring av klassifikasjonsapparater og resulterte i lavere følsomhet under deteksjons i mindretall klassen eksempler [11]. Hvis ubalansert data ble brukt i denne forskningsstudien, ville resultatet ha høy sensitivitet og lav spesifisitet, som er uønskede resultater.

En data forbehandling metode som brukes for å redegjøre for den ubalanserte data består av følgende to kategorier [12 ]: under-prøvetaking flertallet klassen og over-sampling mindretall klassen. Under-sampling metoder brukes for å fjerne noen trenings fleste klasse mønstre for å rebalansere datasett, mens over-sampling metoder brukes for å danne en ny minoritets klasse prøven. Noen forskere foretrekker over-sampling metoder for å under-sampling metoder fordi du bruker under prøvetaking metoder risikerer tap av flertallet klasse informasjon.

Det syntetiske mindretall over-sampling teknikk (slo) [13] er en slik over- utvalgsmetode. Dens Hovedideen er å danne nye minoritets førsteklasses prøvene ved å interpolere mellom flere minoritets førsteklasses eksempler som ligger sammen. I slo, i stedet for bare data orientert duplisere, er den positive klasse oversamplet ved å lage syntetiske forekomster i funksjonen rom som dannes ved den positive tilfeller. For hver minoritet eksempel er det k (som er satt til fem i hugg) nærmeste naboer i samme klasse beregnet, da noen eksempler er tilfeldig valgt fra dem i henhold til oversamplingsfrekvens. Etter det er nye syntetiske eksempler generert langs linjen mellom minoritet eksempel og valgte nærmeste naboer.

Texture Utvinning

Texture er et grunnleggende kjennetegn ved de digitale bildene som det reflekterer vanligvis strukturen de avbildede objekter. Bilde funksjonen utvinning er et viktig skritt i bildebehandlingsteknikker.

Wavelet transformasjon, en stofflighet funksjoner utvinning metoden, gir en multi-oppløsning og ikke-redundante representasjon av signaler med en nøyaktig rekonstruksjon evne, og danner en presis og enhetlig rammeverk for rom-frekvensanalyse. Selv Wavelets utføre svært godt for objekter med punkt singulariteter, de er ikke tilstrekkelig for å representere 1D singularitet [14] – [15]. I 2000 Candes og Donoho [16] utviklet Curvelet, en type av andre generasjons Wavelets. Som en forlengelse av Wavelet Multiscale analyse rammeverket, kan Curvelets effektivt håndtere lineære singulariteter i 2D-signaler [14]. Den Curvelet transformasjon er definert som et effektivt verktøy for å finne kurver på flere oppløsningsnivåer. Flere studier som bruker Curvelet transformasjoner i bildebehandling har vist at Curvelet transformasjoner gi bedre resultater [17] – [19]

Basert på Curvelet transformasjon, ble fjorten CT bilde tekstur funksjoner i lunge knuter hentet. Entropy, Mean , korrelasjon, Energi, homogenitet, standardavvik, maksimum sannsynlighet, Inverse Difference Moment, Cluster Tendens, Inertia, Sum-Mean, Difference-Mean, Sum-Entropy, og Difference-Entropy. Som en pre-prosess for klassifisering, en Curvelet transformasjon produsert en representasjon av lunge knuter av CT-bilder gjennom multi-skala nivå nedbryting. De tre skalaer «Curvelet koeffisienter matriser (den grove lag, detaljene lag, og den fine lag) ble valgt som kandidater. ROI bildene ble delt inn 34 sub-bånd, noe som resulterer i utvinning av 476 tekstur egenskaper fra hver ROI.

Kartlegging av kliniske parametre

Tre demografiske parametere (alder, kjønn og røykevaner) ble hentet fra medisinsk historie. 9 morfologiske funksjoner (inkludert betydelige endringer, tetthet av SPNer, tilstedeværelse av spicules, huler, vakuoler, lobulation, forkalkninger og malt glass i SPNer og område) ble rapportert av erfarne radiologer i henhold til de SPNer.

Tippe Model

Som foreslått av en stor mengde litteratur oppdatert, kan støtte vektor maskiner anses gode algoritmer for klassifisering i noen forskningsfelt [20] – [22]. I en tidligere studie, ble de samme resultatene demonstrert av vår gruppe [23].

støtte vektor maskin (SVM) er beskrevet som en populær klassifikator basert på den strukturelle risikominimering prinsipp. Sammenlignet med andre classifiers, sikter SVM for å finne den hyperplan som maksimerer avstanden fra hyperplan til nærmeste eksemplene i hver klasse. Gitt et sett av trening vektorer (l totalt) tilhører skille klasser, betegner

i

th innspill vektor og er den tilsvarende ønskede effekt. Den maksimale margin klassifikator søker å finne en hyper å skille treningsdata. I de mulige hyperplanes, maksimerer bare en margin (avstanden mellom hyperplan og den nærmeste datapunkt for hver klasse). Støtte vektorer betegne punkter som ligger på marginen grensen. Løsningen på klassifiseringen er gitt ved vedtak funksjon: (2)

Hvor er den positive Lagrange multiplier, er støtte vektorer (totalt), og er funksjonen for konvolusjon av kjernen av vedtaket funksjon.

R 2.14.0 programmet ble brukt til å implementere støttevektor maskiner og slo. Radial basis funksjon kjernen ble brukt som kjernen av SVMer i denne studien.

Resultater

slo for Pre-behandling Ubalansert datasett

Fordelingen av tre demografiske parametere er vist i tabell 3. De opprinnelige treningsdata inkludert bilder av 3131 godartede ROIs og 6977 ondartede Rois, med en ratio på ondartet til godartede tilfeller av 02:01. Bruke slo som en pre-prosessering prosedyre, nye data inkludert tekstur tekstur, demografiske parametere og morfologiske egenskaper ble generert, og de endelige treningsdata inkludert observasjoner av 9393 godartede ROIs og 9393 ondartet Rois.

Tips Resultater

for å teste SVM modell basert på balanserte data om det var følsom for lungekreft, ble to metoder som brukes. 10-fold kryss evaluering og ny testing data evaluering

nøyaktighet basert på 10-fold cross-evaluering for de opprinnelige ubalanserte data og balanserte data var 80% og 97%, henholdsvis. Det ble påvist at den slo algoritmen vil øke ytelsen til prediksjon modell.

33 tilfeller (17 ondartede tilfeller, 16 godartet tilfeller) ble valgt som testdata for å vurdere klassifiseringen ytelse for tidlig stadium lungekreft . Den SVM prediksjon modellen ble opprettet ved hjelp av 488 stofflighet funksjoner. Informasjonen om sakene ble analysert, og malignance rate (Formel 1) ble vedtatt som den uavhengige variabelen for å trekke ROC kurver, med resultatene presentert i Figur 1. Arealet under kurven av SVM var 0,949 (

P

0,001, nøyaktighet var 15/17 for ondartede tilfeller, 14/16 for godartet tilfeller). Dette resultatet er oppsummert i tabell 2. For testdata i denne studien, alle tilfeller hadde en CT diagnose før operasjoner og resultatene er vist i tabell 2. CT diagnoser av 33 tilfeller var alle potensielt maligne indikerer at selv gjennom en periode med føl- tiden er det ganske vanskelig å gjøre en klar klinisk beslutning.

vi gjorde også vurdere endring av strukturelle trekk mellom den første CT scan og den siste CT scan basert på testdatasettet. Vi fant Curvelet stofflighet funksjonen (standardavvik) hadde en stor forskjell mellom godartede og ondartede tilfeller. Figur 2 viser endring i trenden av klanglige funksjon (standardavvik) gjennomsnittsverdi.

Diskusjoner

Foreløpig har forekomsten og dødeligheten av lungekreft rangert først blant ulike svulster . Bruken av CT skanner er vanlig i klinisk praksis å skille mellom godartede SPNer og ondartede svulster. En meta-analyse [24] fant ut at den har en samlet følsomhet på 0,57 (95% konfidensintervall, 0,49 til 0,66) og en samlet spesifisitet på 0,82 (95% konfidensintervall, 0,77 til 0,86) for lungekreft ved hjelp av CT-skanning. Alle de ovennevnte forskere fokusert på lungekreft, og ikke i tidlige stadier av lungekreft. Dermed sensitivitet og spesifisitet for tidlig stadium lungekreft kan være dårligere. Basert på klinisk praksis, en høy andel av pasienter med mistenkelig godartede tilstander som ikke kunne utelukke en mulig malignitet ville kreve ytterligere undersøkelser eller kirurgi, noe som ville øke belastningen på pasientene. Dataassistert diagnose (CAD) teknologi har blitt mer utbredt i å hjelpe radiologer med å lage diagnoser. Så vidt vi vet, forsker på SPN bildeanalyse diskutere prediksjon av karakteristikkene av lungekreft ved hjelp tekstur analyse, ikke tidlig stadium lungekreft som har mer signifikant klinisk verdi. I denne studien ble langsgående data brukt som testdata for å evaluere ytelsen til klassifiseringen sammendragsverdimetrikken prediksjon modell for tidlig stadium lungekreft. Arealet under kurven av SVM var 0,949 (

P

0,001), og modellen har potensial kompetanse til å forutsi tidlig stadium lungekreft. Relatert litteratur har ennå ikke blitt rapportert.

Resultatene fra sykehusene data var ubalansert. Bruke ubalansert data kan føre til en lavere spesifisitet når forutsi godartet tilfeller. I denne studien ble den slo, en over-prøvetakingsmetoden, ble anvendt som pre-prosesseringsprosedyren for å balansere data, og klassifiseringen ytelse (nøyaktigheten) av prediksjon modellen hadde en stor forbedring fra 80% til 97%. Dermed er den slo en nyttig metode å gjøre rede for ubalanserte data og kan forbedre evnen til modellene.

Flere metoder for å trekke de strukturelle trekk ved bildene har blitt utviklet. En av de mest populære metoder er en Wavelet som blir mye brukt i behandlingen av medisinske bilder [14] – [15]. Sammenlignet med Wavelets, kan Curvelet transformasjoner gi stabile, effektive, og nær-optimale representasjoner av glatte gjenstander som har diskontinuiteter langs glatte kurver [14]. Som en grunnleggende karakteristikk av digitale bilder, tekstur funksjoner som vanligvis reflekterer mikrokosmiske struktur av de avbildede objektene, med utsikt over de makroskopiske egenskapene til sakene. I denne utredningen, tekstur funksjoner hentet av Curvelets, i tillegg til 3 pasientkarakteristika og 9 morfologiske trekk som ble brukt for å beskrive makroskopiske egenskapene til vev, ble brukt som input variabler for å etablere en SVMer prediksjon modell. Denne ordningen er følsom for tidlig stadium lungekreft og kan derfor øke nøyaktigheten frekvensen av diagnose.

I denne studien har vi funnet Curvelet stofflighet funksjonen, standardavvik, hadde en stor forskjell mellom godartede og ondartede tilfeller. Selv om alle sakene ikke har samme dato for forrige CT scan, den klanglige funksjon (standardavvik) av godartede tilfellene hadde en klar økning fra første CT scan til siste CT scan i de fleste tilfeller, men det var relativt stabil i ondartede tilfeller. Dette resultatet kan være nyttig som en ledetråd for å finne en biomarkør for lungekreft.

For 33 saker, gjennomsnittlig CT scan per tilfelle var 3,2 ganger. Den gjennomsnitt, median, interkvartilt område og standardavvik på oppfølgingstid var 6,9, 2,0, 8,0 og 11,0 måneder, henholdsvis. Hvis metoden som er involvert i dette papiret kan brukes i klinisk praksis for å hjelpe radiologer for beslutningstaking, vil tiden for diagnoser forkortes med 6,9 måneder og spare kostnadene på 2,2 CT (i Beijing Kina, er om kostnadene på 2,2 CT skanner 1000 RMB). Basert på en meta-analyse [25], direkte økonomiske kostnadene for lungekreftpasienter er forskjellig, alt fra 18,019.4 RMB per person for Stage jeg å 3,2534.0 RMB per person for Stage IV RMB per person i Kina, og det er økende år etter år. Mental belastning for pasienter og indirekte økonomiske kostnader er også viktig. Kina er et av landene med høyest selvmordsraten blant kreftpasienter i verden. Hvis således ordningen innført i denne studien er brukt i klinisk praksis, kan det redusere økonomiske og mental belastning for pasienter og forlenge tiden for lungekreftpasienter. De arkitekturer av SVM og Curvelets er enkle, redressed lett, og er aktuelle for programvaredesign. Det kan brukes i daglige radiologisk praksis på grunn av sin fordel i ikke fjern fremtid.

Det er imidlertid begrensninger som deltok i denne studien. Tidsintervallet mellom den første CT scan og den siste CT scan er forskjellig på tvers av pasienter.

Legg att eit svar