PLoS ONE: Bruk av Multi-SNP tilnærminger Bayesian LASSO og AUC-RF å oppdage viktigste effektene av Inflammatory-genvarianter Associated med blærekreft Risk

Abstract

Forholdet mellom betennelse og kreft er godt etablert i flere tumortyper, inkludert blærekreft. Vi utførte en sammenslutning studie mellom 886 inflammatorisk-genvarianter og blærekreft risiko i 1047 tilfeller og 988 kontroller fra den spanske blærekreft (SBC) /Epicuro Study. En foreløpig undersøkelse med den mye brukte univariate logistisk tilnærming ikke identifisere noen betydelig SNP etter korrigering for multippel testing. Vi videre brukt to mer omfattende metoder for å fange opp kompleksiteten av blærekreft genetisk mottakelighet: Bayesian Threshold LASSO (BTL), en regularized regresjon metode, og AUC-Random Forest, en maskin-læring algoritme. Begge tilnærmingene utforske felles effekten av markører. BTL analyse identifisert en signatur av 37 SNPs i 34 gener som viser en sammenheng med blærekreft. AUC-RF oppdaget en optimal prediktiv undergruppe av 56 SNPs. 13 SNPs ble identifisert ved begge metoder i den totale befolkningen. Bruke ressurser fra Texas blærekreft studie vi var i stand til å gjenskape 30% av SNPs vurdert. Assosiasjonene mellom inflammatoriske SNPs og blærekreft ble reexamined blant ikke-røykere å eliminere effekten av tobakk, en av de sterkeste og mest utbredte miljørisikoen for denne svulsten. En 9 SNP-signaturen ble oppdaget av BTL. Her rapporterer vi, for første gang, et sett med SNP i inflammatoriske gener sammen forbundet med blærekreft risiko. Disse resultatene markere betydningen av den komplekse strukturen av genetisk disposisjon i forbindelse med kreftrisiko

Citation. De Maturana EL, Ye Y, Calle ML, Rothman N, Urrea V, Kogevinas M, et al. (2013) Bruk av Multi-SNP tilnærminger Bayesian LASSO og AUC-RF å oppdage viktigste effektene av Inflammatory-genvarianter Associated med blærekreft Risk. PLoS ONE 8 (12): e83745. doi: 10,1371 /journal.pone.0083745

Redaktør: Chuhsing Kate Hsiao, National Taiwan University, Taiwan

mottatt: 25 juni 2013; Godkjent: 07.11.2013; Publisert: 31.12.2013

Copyright: © 2013 de Maturana et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Arbeidet ble delvis støttet av Fondo de INVESTIGACION Sanitaria, Instituto de Salud Carlos III (G03 /174, 00/0745, PI051436, PI061614, PI09-02102, G03 /174 og Sara Borrell fellesskap til ELM) og departementet for vitenskap og innovasjon (MTM2008 -06747-C02-02 og FPU fellesskap prisen til VU), Spania; AGAUR-Generalitat de Catalunya (Grant 2009SGR-581); Fundacióla Maratóde TV3; Red Tematica de INVESTIGACION Cooperativa en kreft (RTICC); Asociación Española Contra el Cancer (AECC); EU-FP7-201663; og RO1- CA089715 og CA34627; den spanske National Institute for Bioinformatikk (www.inab.org); og ved egenutført Research Program av divisjon for Cancer Epidemiology og genetikk, National Cancer Institute, USA. MD Anderson støtte til dette prosjektet inngår U01 CA 127 615 (XW); R01 CA 74880 (XW); P50 CA 91846 (XW, CPD); Betty B. Marcus Chair fondet i Cancer Prevention (XW); UT Research Trust Fund (XW) og R01 CA 131335 (JG). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Blærekreft (BC) er den femte vanligste svulst i form av forekomst i industrialiserte land står for ca 5-7% og 2-2,5% av de nydiagnostiserte kreftformen hos henholdsvis menn og kvinner,. BC er en av de mest utbredte kreftformer på grunn av dets kroniske natur [1]. Tobakk og yrkesmessig eksponering for aromatiske aminer er de to beste etablerte miljørisikofaktorer [2], [3]. I tillegg har sterke bevis for påvirkning av vanlige genetiske varianter på BC utvikling er ervervet i de siste årene [4], [5]. Genetisk disposisjon for BC har blitt undersøkt i forbindelse med gener som koder for enzymer som er involvert i metabolismen av xenobiotika, apoptose, cellesykluskontroll, angiogenese, betennelse og [4]. Som for sistnevnte prosess, det er dokumentert at betennelsesceller, proinflammatoriske cytokiner og chemokiner bidra til immunsuppresjon, kreft vekst og progresjon [6]. En kobling mellom kronisk betennelse og BC er støttet av de assosiasjoner funnet mellom

Schistosoma haematobium Hotell og plateepitelkarsinom [7], og mindre konsekvent, mellom urothelial cellekreft og andre typer urinveisinfeksjon [8]. I tillegg den beskyttende effekten av langvarig bruk av ikke-steroide antiinflammatoriske legemidler observert i enkelte case-kontroller studier støtter en rolle betennelse i denne kreft [9], [10].

De fleste forening studier har fokusert på deteksjon av hovedeffektene ved hjelp av en allele- eller genotype-basert test for hver enkeltnukleotidpolymorfi (SNP) separat. Det er imidlertid kjent at komplekse egenskaper, inkludert BC, er forklart av flere loci med ganske små individuelle effekter [11]. Dermed vil denne enkle strategien sannsynligvis fange opp bare en liten andel av den totale genetisk variasjon av sykdommen gitt av alle varianter [12]. Derfor strategier for å vurdere på samme tid flere SNPs og deres samspilleffekter er nødvendig. Standard statistiske metoder som logistisk regresjon er ikke godt egnet til dette formål. Dette nivået av genetisk kompleksitet representerer en statistisk utfordring i assosiasjonsstudier på grunn av det høye antallet regresjonskoeffisienter (

p

) i forhold til å prøve størrelse (

n

). Machine læring algoritmer gi alternativer for å utføre multi-SNP-analyse [13]. Disse algoritmene er svært attraktivt siden de er modellspesifikasjonen frie og kan fange opp skjult informasjon. Tilfeldig Forest (RF), en klassifiseringsalgoritme foreslått av Breiman [14] som kan brukes til å identifisere de viktigste variablene knyttet til sykdommen, har også blitt brukt til genom brede data [15]. Nylig har en algoritme for valg variable blitt foreslått (AUC-RF): den identifiserer et sett av variabler som har høyest prediktiv nøyaktighet ved å optimalisere AUC (arealet under ROC-kurven) av en sekvens av tilfeldige skoger [16]. Andre metoder for å håndtere overmettede regresjon problemer [17] som er å få anerkjennelse er ordnet regresjons metoder, for eksempel ryggen regresjon [18], den minst Absolute Svinn og utvelgelse Operator (LASSO) [19], og dens Bayesiansk versjon [20] . Disse metodene blir straffet sannsynlighet prosedyrer hvor passende straff funksjoner er lagt til den negative log-sannsynligheten for å automatisk krympe falske effekter (effekter av redundante kovariater) mot null mens effektivt å estimere relevante seg. Bayesiansk versjon av LASSO gir flere fordeler over mønet regresjon eller den klassiske LASSO. Som andre Bayesianske modeller, gir det tiltak av usikkerhet om estimater og spådommer, og som en konsekvens, gyldige standardfeil, noe som kan være problematisk for frequentist LASSO [21]. I tillegg gir det markør spesifikk krymping av effektestimatene, i motsetning til ridge regresjon, og overvinner den viktigste begrensning av LASSO som innrømmer at de

n

-1 nonzero regresjonskoeffisientene [22].

Frem til stede, hele genomet assosiasjonsstudier (GWAS) individuelt analysert et stort antall SNPs, de fleste av dem ligger i områder som ikke er tilknyttet den egenskap av interesse mens andre i LD med årsaks variant. Denne tilnærmingen er utilfredsstillende for egenskaper som påvirkes av et stort antall varianter /gener [12]. En alternativ strategi er pathway analyse, arbeider med felles vurdering av en undergruppe av SNPs med en potensiell funksjonell effekt på fenotype av interesse.

Hovedmålet med denne studien var å vurdere om SNPs i inflammasjonsrelaterte gener spille en rolle i BC utvikling i en stor kasus-kontrollstudie utført i Spania, og senere, for å identifisere et mønster av disse variantene (signatur) knyttet til BC risikoen ved å bruke to nylig utviklet statistiske metoder, Bayesiansk terskel LASSO (BTL) modell og AUC-RF. For å vurdere robustheten i strategien, ble relevante funn også analysert i en uavhengig studie, Texas blærekreft Study.

Resultater

Sammendrag statistikker

Tabell 1 viser egenskapene av tilfellene og kontroller for hele utvalget og for ikke-røyker undergruppe. Samlet er Studien omfattet 1047 saker og 988 kontroller med genotyping data for 886 SNPs i 194 inflammatoriske gener. Den ikke-røyker undergruppe besto av 424 personer, 147 av dem var BC tilfeller. Median alder for pasientene ved diagnose var 68 og 70 år (varierer 22-80 år) for den totale befolkningen og ikke-røykere, henholdsvis. Totalt sett, sigarettrøyking var mer vanlig i tilfeller enn i kontrollgruppen (86%

vs.

72%) og hos menn enn hos kvinner (87%

vs.

22%). Følgelig er andelen menn var annerledes i begge sett av individer:. 87% og 35% for den totale undersøkelsen og for ikke-røykere, henholdsvis

Hele befolkningen analyse

anvendelse av Bayesiansk Threshold LASSO gir for hver SNP sin bakre sannsynlighet for å bli assosiert med BC. I figur 1 viser vi fordelingen av bakre sannsynligheten for hver SNP, rangert i synkende rekkefølge. SNPs ble ansett for å være knyttet til BC hvis posterior sannsynlighet for å være høyere /lavere enn 0 var 80%. Denne strategien identifisert 37 SNPs i 34 gener som viser en sammenheng med BC. Den høyeste posterior sannsynlighet (dvs. mest relevant foreningen) var 96,07% for

CASP3-

rs3087455, mens den laveste var 51,98% for

TLR2-

rs3804100. Den SNPs med en beskyttende mindre allel var:

CASP3-

rs3087455,

CCR3-

rs3091312,

CASP9-

rs2020902,

IL17A-

rs8193036,

MAP3K7-

rs150126,

IL6R-

rs8192284,

BLNK-

rs3789928,

SCARB1-

rs4765621,

fossile

rs7101,

TBK1-

rs10878176,

BIRC5-

rs744120,

LY96-

rs17226566,

AICDA-

rs11046349,

MAP2K4-

rs4791489,

IL15-

rs17461269,

CD14_IK-r

s2569190,

JAK3-

rs11888 og

TNFRSF10A

-rs4871857. Den bakre OR betyr varierte 0,81 til 0,93 når man sammenligner den mindre de felles homozygote genotyper (tabell 2). De SNPs med mindre allelet assosiert med økt risiko for BC var:

PRF1-

rs10999426,

IL7R-

rs1494555,

ABCA1-

rs2230806,

IFNAR2-

rs2236757,

MASP1-

rs710459,

BLNK-

rs12357751,

MAP3K3-

rs7209435,

BLNK-

rs10882755,

TLR2-

rs3804099,

SOCS6-

rs723279,

IL17C-

rs899729,

TLR4-rs2737191

,

fossile

rs1063169,

ABCC4-

rs3765535,

PARP4-

rs13428,

BIRC3-

rs11602147,

IL21R-

rs8049804,

FADD

-rs7939734 og

ICAM1-

rs5498. Bakre hjelp av ORS varierte 1,10 til 1,20, når man sammenligner den mindreårige med vanlige homozygote genotyper. Alle de detekterte SNP var i Hardy-Weinberg likevekt i kontrollpopulasjonen. Single-SNP logis regresjonsmodeller ga

p-verdier

0,05 for 17 av dem (av totalt 32, se tabell S1) med et minimum

p Anmeldelser –

verdi

av 0,0021, ikke korrigeres ved multippel testing. Den estimerte ELLER svarende til 37 SNPs-signatur var 4,92 (se figur S1 og S2 for mer informasjon). Den 95% intervall for OR når man sammenligner den høyeste risikoen genotype kombinasjon med høyest verne en varierte 31,2 til 629,4. Det store utvalget av troverdigheten intervallet viser den store feilen knyttet til anslaget. Bakre gjennomsnitt, median og modus for den asymmetriske fordelingen var 206,5, 123,5 og 63,8, henholdsvis.

prikk punkt linjen angir skjæringspunktet på 80% over hvilke SNPs ble vurdert.

AUC-RF anses både genetiske og ikke-genetiske variabler og oppdaget en optimal undergruppe av 59 faktorer, blant annet 56 SNPs (Tabell S2). Alle miljø kovariater, med unntak av kjønn, ble rangert først: røykestatus ble rangert som den mest relevante variable, med en gjennomsnittlig reduksjon Gini-indeksen (MDG) på 11.55, etterfulgt av den geografiske region med en relativ viktighet på 35,2%. Alderen på pasienten ble rangert på tredje plass med en relativ viktighet på 19,4%, etterfulgt av SNPs. Tabell 3 viser de 12 viktigste SNP’er som detekteres ved denne fremgangsmåten. Deres relative betydningen varierte fra 20,8% for

JAK3

-rs2286662 til 14,4% for

AKR1C3

-rs1937845.

Tretten SNPs i

CASP3

PRF1

,

IL7R

,

ABCA1

,

IL6R

,

MASP1

,

SCARB1

,

TLR2

,

IL17C

,

MAP2K4

,

CD14_IK

,

FADD

, og

ICAM1

ble identifisert som relevant både BTL og AUC-RF tilnærminger (fet-faced SNPs i tabell 2, se også figur 2a.). Blant dem, 6 SNPs ligger i

CASP3

,

PRF1

,

IL7R

,

ABCA1

,

IL6R Hotell og

CD14_IK

hadde en

p-verdi

0,05 ved logistisk regresjon justert av kovariater (se tabell 2 for mer informasjon). Betydningen av ingen av dem holdt etter Bonferroni korreksjon for multippel testing [23]. Til tross for at ingen signifikant sammenheng ble funnet etter å ha utført den eneste markør analyser, rangeringen av SNPs høyt korrelert med det som oppnås fra bakre sannsynlighet BTL-baserte resultater (Spearmans korrelasjons, rho = 0,78).

(A ) Antall SNPs oppdaget av hver metode i den totale befolkningen. (B) Antall SNP som detekteres av hver metode i den ikke-røyker delsettet. (C) Antall vanlige SNP som detekteres av BTL i den totale populasjonen og ikke-røyker undergruppe, med bakre sannsynligheter på minst 80% og 75% for å ha en virkning forskjellig fra 0. (D) Antall SNP som detekteres av AUC-RF både den totale befolkningen og ikke-røyker undergruppe.

genotyper for 17/37 SNPs med en posterior sannsynlighet høyere enn 80% i discovery fasen var tilgjengelig fra TXBC studien og denne informasjonen ble brukt for replikering formål. I tillegg ble 13 SNPs i høy LD med SNPs oppdages av BTL i oppdagelsen fase med i fase 2 analysene. Tabell S3 viser bakre sannsynlighetene for å være større /mindre enn 0 og bakre gjennomsnittet av ORS oppnådd i replikering settet. To SNPs (

IL6R-

rs4129267 og

TBK1-

rs10878182) i høy LD med

IL6R

-rs8192284 og

TBK1-

rs10878176 oppdaget i oppdagelsen studie av BTL hadde posteriore sannsynlighetene for å ha en ikke-null effekt høyere enn 90%. ELLER-av disse surrogat SNPs var av risiko, mens de som er identifisert i oppdagelsen studien var av beskyttelse. Fem ekstra SNPs (

IL21R-

rs9930086 – i høy LD med

IL21R

-rs8049804, og

MAP3K3-

rs7209435, IL17A-rs8193036, FADD-rs7939734, og TLR2- rs3804099) viste posteriore sannsynlighetene 70%, terskelen anses for replikering. ORS av disse 5 SNPs var av samme størrelse og retning som de som finnes i oppdagelsen studien.

Ikke-røyker undergruppe analyse

Tobakksrøyking er den sterkeste og mest utbredte miljørisikoen for BC og den kan modifisere virkningen av SNP i inflammasjonsrelaterte gener. Derfor utførte vi foreningen analyse blant ikke-røykere å omgå sin virkning. I en slik sammenheng, BTL oppdaget bare to relevante SNPs (

BCL10-

2.647.396 og

NFKBIA-

rs696) forbundet med risiko for BC med en posterior sannsynlighet på minst 80%. De to SNP’er ble også påvist ved AUC-RF (se figur 2b). Når vi utvidet bakre sannsynlighet (≥75%), antallet av SNP som detekteres av begge metoder økes opp til 8 i 8 gener (se tabell 4). OR posterior betyr varierte 1,12 til 1,16 for de SNPs som viser en økt risiko for BC, når man sammenligner de to homozygote genotyper, og 0,89 til 0,91 for de med en beskyttende effekt. Univariat logistisk regresjonsanalyse ga signifikante resultater for de 8 SNPs med minimum

p Anmeldelser –

verdi

av 0,0032, ikke korrigeres ved multippel testing. ELLER-median bakre tetthet svarende til 9 SNP’er-signatur detekteres av BTL var 2,73, med en bakre sannsynlighet på 99% for å være . 1 og et område mellom 1,35 og 6,66 som 95% troverdig intervall (se fig S3)

AUC-RF oppdaget en optimal undergruppe av 93 variabler knyttet til BC, 90 av disse var SNPs (tabell S4). I motsetning til funnene i den totale befolkningen, kjønn var det viktigste kovariat knyttet til BC blant ikke-røykere, og alder og region var på tredje og fjerde plass, henholdsvis.

Vanlige SNPs mellom total og ikke- røyker datasett

tall 2c og 2d viser antall SNPs oppdaget av både BTL og AUC-RF i SBC /Epicuro studie for både hele befolkningen og ikke-røyker individer. Det var ingen vanlige SNPs oppdages av BTL for de befolkningssett med bakre sannsynligheter større enn 80%. Men når posterior sannsynlighet brukt var ≥75%, tre SNPs ble påvist i begge datasett:

MAP2K4-

rs4791489,

PRF1

-rs10999426 og

BCL10

-rs2647396.

Ved å fokusere på AUC-RF resultater, 24 SNPs (

ABCA1-

rs2230806,

AICDA-

rs2580874,

ALOX5-

rs1369214,

BCL10-

rs2647396,

CD2-

rs3136701,

CD4

rs2707210,

FADD-

rs7939734,

FASLG-

rs929087,

H2AFX-

rs640603,

H2AFX-

rs643788,

IKBKB-

rs3747811,

IL15RA-

rs2296135,

IL21R-

rs2189521,

JAK3-

rs2286662,

MAP2K4-

rs4791489,

MASP1-

rs710459,

NFKBIA-

rs696,

OPRD1-

rs204076,

PRF1-

rs10999426,

forhold

rs11820062,

forhold

rs1466462,

SCARB1-

rs4765621,

TBK1

-rs10878178 og

TMED7-

rs2052834) ble identifisert i begge datasett, som representerer 43% og 27% av de utvalgte i totalt og ikke-røyker fag, henholdsvis.

Diskusjoner

Som alle komplekse SNPs sykdommer, er BC ikke en eneste SNP /gen uorden. Snarere kan mange SNPs med små effekter føre til svekkelse av viktige veier som er involvert i deres patofysiologi. Identifiseringen av slike SNP-signaturer representerer en analytisk utfordring som krever bruk av nye omfattende statistiske tilnærminger. Så vidt vi vet, er dette den første studien på BC analysere et stort antall SNPs med BTL som har identifisert en undergruppe av dem i fellesskap bidra til denne fenotype med en relevant omfanget av risiko, mye høyere enn det som følger av røyking (OR = 5 [ ,,,0],2]), den viktigste risikofaktor for BC.

Tretten SNPs i 13 gener ble identifisert av både BTL og AUC-RF, som kan betraktes som en intern validering. SNPs i

CASP3

,

IL6R

,

SCARB1

,

MAP2K4 Hotell og

CD14_IK

viste en beskyttende effekt, mens de i

PRF1

,

IL17R

,

ABCA1

,

MASP1

,

TLR2

,

IL17C

,

FADD Hotell og

ICAM1

var assosiert med en høyere risiko for BC. Hver SNP viste en liten individuell effekt som ikke kunne ha blitt identifisert av logistisk regresjon, felles analytisk tilnærming som brukes i GWAS, etter påføring av konservative Bonferroni korreksjon for multippel testing.

Vi fant tidligere utgitt bevis om foreningen av flere av disse SNPs /gener med kreftrisiko til tross for det faktum at denne informasjonen ikke ble brukt i SNP valg. Blant dem,

SCARB1

koder for scavenger-reseptor klasse B type I-genet, er en celleoverflate-reseptor som bindes til high-density lipoprotein kolesterol (HDL-C) og medierer HDL-C-opptak [24], [ ,,,0],25].

SCARB1

-rs4765621 kart til intron 1 og har vært forbundet med en økt risiko for BC i kombinasjon med

SLC23A2

-rs12479919,

AKR1C3

-rs2275928 og

PLA2G6 –

rs2016755 [26]. Denne SNP er i koblingsulikevekt med

SCARB1

-rs4765623 som har vært forbundet med nyrecellekreft [27].

MAP2K4

koder for et dual spesifisitet Ser /Thr protein kinase. Alleliske ubalanser i dette genet er blitt rapportert i blæretumorer [28]. Videre slettinger og mutasjoner av

MAP2K4

er beskrevet i menneskelig bukspyttkjertelen, lunge, bryst, testikkel, og kolorektal kreft cellelinjer, noe som tyder en tumor suppressor rolle [29].

MAP2K4-

rs4791489 ligger 1226 bp nedstrøms av genet, og dette er den første studien som rapporterer en tilknytning til en fenotype.

IL7R

koder for reseptoren for IL-7, et cytokin som er involvert i T-celle-differensiering og aktivering.

IL7R

variasjon har vært knyttet til kroniske betennelsessykdommer og kreft:

IL7R

-rs1494555 har vært forbundet med en økt risiko for magekreft [30], hematologiske svulster – ved å samhandle med en høy BMI – [31], og ikke-småcellet lungekreft, hvor den ble oppdaget av både logistikk regresjon og tilfeldig skogtester [31]. Denne SNP fører til en Ile

138Val erstatning for der er det ingen funksjonell bevis.

CD14

spiller en stor rolle i patogen-aktivert signaltransduksjonsveier og i produksjon av inflammatoriske cytokiner [32].

CD14_IK-

rs2569190 har vært assosiert med prostatakreft i afrikanske amerikanere [33], og med koronar og cerebrovaskulære sykdommer [34], [35].

PRF1

koder for perforin 1, en av de viktigste toksiske proteiner av cytolytiske granuler og en nøkkel effektor i T-celle- og naturlige dreper-celle-mediert cytolyse. Dens endringer forårsake familiær hemophagocytic lymphohistiocytosis type 2 (HPLH2), en sjelden og dødelig autosomal recessiv lidelse av tidlig barndom.

PRF1

-rs10999426 har blitt gruppert med andre gener assosiert med cytotoksiske T-celler i en kolorektal kreft studie: høyt uttrykk av cytotoksiske klase genene var assosiert med forlenget sykdomsfri overlevelse [36]. Løselig interleukin-6-reseptor-α-subenheten (

IL-6R

) er en potent cytokin som spiller en viktig rolle i immunresponsen. Forandret genekspresjon har vært assosiert med multippelt myelom, autoimmune sykdommer og prostata kreftrisiko [37]. SNP

IL6R

-rs7529229, i koblingsulikevekt med

IL6R

-rs8192284, har også blitt knyttet til risikoen for multippel myelom [37].

Vi videre fokusert på vurdering av ikke-røykere å forkaste den potensielle modifiserende effekt av tobakk på sammenhengen mellom genetiske varianter og blærekreft risiko. Bare to polymorfismer forbundet med BC ble oppdaget av både analytiske metoder:

NFKBIA-rs696 Hotell og

BCL10-rs2647396

.

NFKBI

er involvert i respons til stress, regulerer

COX-2

og proinflammatoriske cytokiner, og er en viktig formidler av onkogenese [38].

NFKBIA-rs696

homozygosity har vært forbundet med dårligere overlevelse i svenske pasienter med kolorektal kreft [39]. Andre studier har knyttet sletting av

NFKBIA

med glioblastom multi [40] og Hodgkins lymfom prøvene [41].

NFKBIA-

rs696 er i koblingsulikevekt med rs8904, en variant som har vært forbundet med smerte alvorlighetsgrad i lungekreftpasienter [42].

BCL10

, assosiert med beskyttelse mot BC i vår studie, spiller en viktig rolle i NF-kappaB og STAT signalveier [40], er det foreslått å delta i bukspyttkjertelen karsinom [43] og

MALT

lymfomer som en del av t (1,4) (p22, Q32) trans [44].

BCL10-rs2647396

er intronic og ingen funksjoner er kjent for denne polymorfisme.

Ved hjelp av en uavhengig befolkning og surrogat SNPs i høy LD med de som er identifisert i oppdagelsen studien, vi replikert foreningen med SNPs i

IL6R Hotell og

TBK1

identifisert av BTL. Det faktum at ORS oppnådd i replikasjonen studien var i motsatt retning til de som detekteres i oppdagelsen studien kan forklares ved bruk av surrogat SNP’er. Greene

et al.

Nylig bevist med simulert data at forskjeller i allelfrekvenser kan også gi en invers allel effekt i et replikasjonsstudie [45]. Når terskelen av bakre sannsynlighet ble senket til 70%, ble foreningen av fem ekstra SNPs også kopieres. Samlet var vi i stand til å gjenskape 30% av de valgte SNPs av BTL tilgjengelig i TXBC studien, et tall som er bemerkelsesverdig når de vurderer at BC er i stor grad forårsaket av miljømessige faktorer, og at begge studiene kommer fra ulike geografiske områder og fra sentre med distinkte pasientens henvisning mønstre (i SBCS- studien fleste sentrene er somatiske sykehus mens TXBC studien ble gjennomført ved MD Anderson Cancer Center). Andre foreslåtte årsaker til manglende replikering er genetisk heterogenitet, miljø interaksjoner, aldersavhengige effekter, utilstrekkelig statistisk styrke, og gen-gen-interaksjoner, sistnevnte forklaring peker til en høyere kompleksitet av den underliggende genetiske arkitektur [45]. Vi gjorde ikke forsøk på å gjenskape SNPs identifisert av AUC-RF fordi denne metoden avhenger i stor grad på de første variablene vurderes. Sørgelig, data fra en rekke av de opprinnelige SNPs vurderes i discovery fasen var ikke tilgjengelig i studien brukes for replikering.

I denne studien har flere store styrker. Viktigere, gjelder det innovative analytiske tilnærminger arbeider med biologisk kompleksitet fenotype. Krets-analyser ble utført ved å anvende en regularized regresjonsmodell (BTL) og en ikke-parametrisk variabelt utvalg metode (AUC-RF), i tillegg til den enkle markør ubetinget logistisk regresjon, brukes i de fleste assosiasjonsstudier. De to første metodene overvinne de viktigste begrensning av sistnevnte, siden de anser all genetisk informasjon i fellesskap. Anvendelsen av enkelte logistisk regresjon er fornuftig under forutsetning av at det bare er noen få gener påvirker genetisk predisposisjon [12], som absolutt ikke er tilfelle for BC. BTL anser, a priori, at mesteparten av SNP er en liten (om noen) effekt på sykdomsutvikling, og utfører en markør spesifikk krymping av effektestimatene [20]. Denne tilnærmingen tillater arbeider med «små

n

stor

problem og hindrer overtilpassing. De los Campos et al [22] foreslått denne metoden som et interessant alternativ til å utføre regresjoner på markører under en additiv modell. Vi betraktet som tilhørende til BC disse SNP’er med en bakre sannsynlighet 0,8 for å ha en effekt som er større (mindre) enn 0, som i [45]. Andre kriterier, som Bayesian LOD poengsum 3.2 [46] eller «arvbarheten av markøren» 0,5% [47], har blitt brukt i tidligere anvendelser av BL. Valget av disse kriteriene er vilkårlig fordi de ikke har blitt formelt forhold ennå. Tvert imot, ikke AUC-RF ikke påta seg noe modell og vurderer alle mulige interaksjoner mellom kovariatene inkludert i analysene. Det er et mål på viktigheten av den variable, selv om den ikke indikere hvorvidt virkningen av denne variable er beskyttende eller risikabelt. Det er også viktig å understreke at de valgte variabler med AUC-RF er nødvendigvis ikke signifikant assosiert med den egenskap; heller, de representerer kombinasjonen av genotyper som best predikerer sykdommen indikator og er dermed verdt ytterligere etterforskning. Vi har prioritert disse SNP’er valgt ved begge metoder selv om SNP’er valgt av bare en av dem skulle ikke kastes, gitt forskjellig art og forutsetninger for hver metode. Ytterligere metodiske styrker ved studien er den store prøven størrelse, høy deltakelse, og den høye kvaliteten på informasjon om eksponeringer og genotyping av SBC /Epicuro Study.

Men noen begrensninger må vurderes når man skal tolke disse resultatene. Det er mulig at potensielt informative resistensmarkører ikke ble valgt for genotyping. I tillegg kan ufullstendig merking av de utvalgte gener har resultert fra bruk av en tidligere HapMap frigivelse for å velge kode SNP’er. Derfor disse gener med SNPs uten relevante resultater i denne studien bør ikke ses bort fra som potensielt assosiert med BC. Som for begrensninger av tilnærminger som brukes, BTL foruts bare en additiv arve og ingen interaksjoner ble vurdert. En felles ulempe ved maskinlæring baserte metoder, så som AUC-RF, er at de vanligvis identifiserer en SNP sett som gir den høyeste klassifisering nøyaktighet, men ikke nødvendigvis tilsvarer en sterk forbindelse med sykdommen. Faktisk, maskinlæringsbaserte tilnærminger har en tendens til å introdusere falske positiver, siden inkludering av mange SNPs øker klassenøyaktig [48].

Den store forskjellen i risikoestimater i henhold til BTL mellom total og ikke-røyker datasett antyder en potensiell modifiserende virkning av tobakk over SNP-signaturen på BC risiko. Mens statistiske underpowered resultatene ikke kan kastes, en stor røyke * SNPs samhandling vurdering vurderer alle SNPs inkludert i studien skal utføres. Denne analysen krever ytterligere metodikk innovasjon og store beregnings infrastruktur.

I konklusjonen, vi rapporterer her felles effekten av flere varianter i inflammatoriske gener sterkt forbundet med BC risiko. Bruk av multi-SNP vurderings tilnærminger for å utforske den skjulte arvbarheten av komplekse sykdommer er svært lovende i foreningen analyse feltet. Mens anvendelsen av disse metodene på et genom-wide nivå er grei, representerer store beregnings etterspørselen viktigste begrensningen og få studier har brukt dem til å genom-wide data i forbindelse [15] eller Innst [49] til stede. Vår er en av de første studiene som gjelder slike metoder for å et stort sett av SNPs i kreftforskning.

Materialer og metoder

Etikk uttalelse

Informert skriftlig samtykke ble innhentet fra deltagerne. Studien ble godkjent av Institutional Review Board of US National Cancer Institute, de etiske komiteer for hver deltakende sykehus, MD Anderson Cancer Center og Baylor College of Medicine.

Study befolkningen

befolkningen vurdert i denne analysen kommer fra det spanske blærekreft /Epicuro Study. Dette er et sykehusbasert case-control studie utført i løpet av 1998-2001 i 18 sykehus i fem områder i Spania (Asturias, Barcelona hovedstadsområdet, Vallès /Bages, Alicante og Tenerife), som beskrevet andre steder [50]. Kvalifiserte tilfeller var i alderen 21-80 år, og nylig diagnostisert av en histologisk bekreftet overgangs karsinom i urinblæren basert på 1998-system av WHO og International Society of Urologisk Pathology [51]. 0,0001.

Legg att eit svar