Un nou model de inteligență artificială, antrenat pe seturi vaste de date medicale, va prezice riscurile de îmbolnăvire pe toată durata vieții unei persoane. De asemenea, prin agregarea datelor, ar putea deveni un reper al autorităților pentru alocarea bugetară pentru sănătate.
Progresia bolilor umane include episoade de sănătate, boli acute și afecțiuni cronice. Acestea apar adesea sub formă de grupuri de comorbidități, diferite de la un pacient la altul. Multimorbiditatea este influențată de stil de viață, de factori ereditari și de statutul socio-economic. Înțelegerea acestor riscuri este crucială pentru decizii medicale și prevenție personalizată. Medicina actuală identifică bolile prin examinare și întrebări detaliate adresate pacientului. Mult mai dificil, dar ideal, ar fi să prezici bolile pe care o persoană ar putea să le dezvolte în viitor, pe tot parcursul vieții. Echipa din spatele unui nou model de inteligență artificială susține că a atins această performanță. Detaliile au fost publicate pe 17 septembrie, în revista Nature, stârnind interes global.
Modelul, numit Delphi-2M, nu este încă pregătit pentru a fi folosit pe scară largă în spitale, dar promite să revoluționeze medicina. Cercetătorii speră că acest model va putea anticipa riscul pentru peste 1.000 de afecțiuni. Printre acestea se numără Alzheimer, cancerul sau infarctul, boli care afectează milioane de oameni anual. În plus, ar putea fi un punct de reper pentru autorități, care ar avea date certe pentru alocarea bugetelor pentru zonele medicale care prezintă cele mai mari riscuri în viitor.
Modelul a fost dezvoltat de cercetători de la EMBL Cambridge și Centrul German de Cercetare a Cancerului. Este inspirat din modelele de limbaj mari, precum GPT-5, capabile să genereze text fluent. Aceste modele identifică tipare în cantități uriașe de informații și aleg probabilități. Echipa Delphi-2M a aplicat aceeași logică pe seturi vaste de date medicale.
Pentru acest tip de predicție, designul modelelor de limbaj era deja foarte potrivit. Totuși, a fost nevoie de o modificare majoră, pentru a ține cont de ideea de trecere a timpului, esențială în cazul istoricului medical. Într-un text evaluat de Chat GPT, cuvintele apar succesiv. Diagnosticele medicale nu au o cronologie atât de simplă. Un test de sarcină urmat de hipertensiune are alt sens dacă trec săptămâni sau ani între ele.
Adaptarea s-a făcut înlocuind mecanismul care codifică poziția unui cuvânt cu cel al vârstei pacientului. În versiune inițială, au apărut erori, iar modelul chiar a prezis, uneori, boli care aveau probabilitate să apară după deces. Ulterior, modelul a fost antrenat pe datele provenite de la 400.000 de pacienți din UK Biobank, o bază vastă. S-a folosit secvența codurilor ICD-10 pentru 1.256 de boli, cuprinzând informații medicale detaliate.
Modelul a fost validat pe încă 100.000 de persoane din aceeași bază, apoi testat pe baze de date daneze. Dosarele medicale din Danemarca, extinse și precise, includ informații din 1978 – pentru 1,9 milioane de oameni. Această combinație a oferit un eșantion mai divers și reprezentativ decât cel din Marea Britanie. Performanța a fost evaluată prin AUC, un indicator standard al acurateței predicției.
Noul model poate primi un istoric medical parțial și poate calcula ratele zilnice. Aceste rate acoperă 1.256 de boli recunoscute, plus evenimentul final, moartea. Pe baza acestor date, modelul poate estima următorul incident și timpul rămas până la el. Repetând procesul, se pot simula traiectorii complete de sănătate pentru un individ. Acest proces oferă estimări privind riscul de boli cu un avans de până la 20 de ani.
Delphi-2M poate antrena modele AI noi, folosind date sintetice, fără expunere la dosare reale. Modelul face predicții și cu privire la comorbiditățile care ar urma să apară. Aceste analize dezvăluie grupuri de boli asociate și consecințele lor asupra stării de sănătate în viitor.
Totodată, AI relevă și biasuri moștenite. În ansamblu, modelele par extrem de potrivite pentru sarcini predictive și generative. Pentru că se pot aplica și la scara populațiilor, oferă perspective asupra dependențelor temporale între boli. Aceste descoperiri pot îmbunătăți înțelegerea riscurilor personalizate și pot sprijini medicina de precizie.
Nu este suficientă analiza diagnosticului individual, ci și contextul general al evoluției comorbidităților. Algoritmii existenți prezic adesea doar boli specifice, precum cancer sau boli cardiovasculare. Totuși, puține modele pot analiza simultan întreg spectrul bolilor recunoscute internațional. Clasificarea ICD-10 include peste 1.000 de diagnostice distincte, la nivel superior.