Transfer learning pentru decizii financiare
Citește lucrarea →Băncile și creditorii trăiesc și mor după cât de bine evaluează riscul. Fiecare nou solicitant, fiecare client existent, fiecare schimbare a pieței este o întrebare proaspătă — cât de probabil este ca lucrurile să meargă prost? — iar răspunsul trebuie să fie deopotrivă precis și continuu, evoluând odată cu clientul și cu instituția. Machine learning a devenit central pentru a răspunde la ea, dar aduce cu sine un cost ascuns: de fiecare dată când întrebarea se schimbă, modelul care răspunde trebuie reantrenat de la zero, un proces lent, costisitor din punct de vedere computațional și care aruncă tot ceea ce instituția învățase deja. Această lucrare se întreabă dacă un model poate în schimb să poarte cunoștințele mai departe — reutilizând ceea ce a învățat pe o problemă financiară pentru a învăța mai rapid următoarea.
Problema
Rețelele neuronale artificiale învață să rezolve probleme noi printr-un proces care este, în cuvintele autorilor, intens computațional și consumator de timp. Sunt totodată printre cei mai performanți clasificatori de date financiare: instituțiile financiare le-au testat față de metode solide statistic și le-au găsit a fi una dintre cele mai robuste modalități de a clasifica date financiare la scară mare. Necazul este că, de obicei, pornesc de la zero de fiecare dată. Un model antrenat să evalueze solicitanții de credite germani nu știe nimic despre solicitanții de credite australieni, deși ambele sarcini sunt, în esență, același tip de judecată.
Soluția evidentă este transfer learning — preluarea cunoștințelor pe care un model le-a dobândit pe o sarcină sursă și reutilizarea lor pe o sarcină țintă. Dar există o problemă care a limitat transfer learning în practică. Cele mai multe metode de transfer presupun că sarcina sursă și cea țintă sunt înrudite; când nu sunt, transferul se poate întoarce împotriva ta, un mod de eșec cunoscut sub numele de transfer negativ, care deteriorează activ capacitatea modelului de a învăța. Într-o instituție reală, cunoștințele valoroase sunt împrăștiate între departamente și chiar între instituții, iar acele sarcini adesea nu sunt în mod evident similare. Întrebarea deschisă pe care o abordează această lucrare este exact aceasta: cum transferi cunoștințe între sarcini financiare diferite, uneori neînrudite — și obții un beneficiu în loc să plătești o penalizare?
Figura 1. Transfer learning: reutilizarea cunoștințelor în loc de a porni de la zero.
Ce am făcut
Abordarea își împrumută intuiția centrală dintr-un loc neașteptat: genetica comportamentală, studiul modului în care trăsăturile sunt moștenite între indivizii dintr-o populație. Lucrarea propune o tehnică nouă de selecție artificială (selective breeding) care extinde cadrul de transfer learning bazat pe genetică comportamentală al lui Kohli, Magoulas și Thomas (2013). Ideea este de a trata fiecare rețea neuronală ca pe un individ dintr-o populație și de a lăsa algoritmii genetici — euristica de căutare a inteligenței artificiale care imită selecția naturală — să evolueze acea populație către rețele care sunt bune nu doar la sarcina curentă, ci și la transferul a ceea ce știu către sarcini noi.
Două idei din genetica comportamentală fac munca grea. Prima este studiile pe gemeni: fiecare populație este împărțită între gemeni monozigoți (identici genetic — în termeni de rețele, hiperparametri identici) și gemeni dizigoți (fraterni — 50% hiperparametri comuni), toți cu ponderi inițiale aleatorii. Amestecarea gemenilor identici și fraterni păstrează suficientă variație în populație pentru a învăța mai multe sarcini neînrudite. A doua este mediul: un filtru este aplicat datelor de antrenare ale fiecărui individ pentru a simula statutul socio-economic — pornind de la cercetări care arată că copiii cu mai puține resurse de învățare obțin rezultate mai slabe — prin eliminarea aleatorie a între 0% și 40% din exemplele de antrenare pentru fiecare rețea.
Ingredientul cu adevărat nou este pasul de selecție artificială. În loc să încrucișeze doar cei mai performanți indivizi — ceea ce ar produce o populație obsedată de acuratețe optimă pe o singură sarcină și inutilă la transfer — metoda împerechează deliberat indivizii cei mai buni (selectați pentru acuratețe) cu indivizii de nivel mediu (selectați pentru a păstra flexibilitatea populației). Această sinergie între rezultate optime și flexibilitate de transfer este cea care atenuează transferul negativ. Mecanismele standard ale algoritmilor genetici se ocupă de restul: crossover într-un singur punct și o rată de mutație de 0,1%. Ca produs secundar util, cadrul evaluează și similaritatea dintre sarcini, măsurată prin diferența medie dintre spațiile de ponderi ale celor mai bune rețele antrenate pe fiecare sarcină — cu cât diferența este mai mică, cu atât sarcinile sunt mai înrudite.
Experimentele au folosit trei seturi reale de date financiare din UC Irvine Machine Learning Repository, dintre care două sunt standarde industriale pentru evaluarea clasificatorilor pe date financiare. Setul Australian (Statlog Australian Credit Approval) conține 690 de cereri de carduri de credit cu 14 atribute mixte; setul German (Statlog German Credit Data) conține 1.000 de înregistrări de credit cu 24 de atribute numerice; iar setul Banknote conține 1.372 de cazuri de bancnote autentice versus falsificate, extrase din imagini reale. Toate trei sunt sarcini de clasificare binară și toate au fost normalizate la o dimensionalitate comună a caracteristicilor și împărțite 60/20/20 în antrenare, validare și testare.
Figura 2. Selecția artificială a rețelelor neuronale, inspirată din genetica comportamentală.
Ce am descoperit
Experimentele au evoluat populații de 1.200 de rețele neuronale, fiecare antrenată timp de 1.000 de epoci, pe parcursul a 20 de generații, folosind eroarea totală de clasificare pe setul de testare drept criteriu de fitness. Pentru fiecare dintre cele trei sarcini financiare, metoda a produs o populație optimizată pentru acea sarcină ca sursă, iar fiecare populație optimizată a fost apoi antrenată și testată pe toate cele trei sarcini ca ținte.
Două rezultate ies în evidență. În primul rând, abordarea a obținut transfer pozitiv pe diverse sarcini financiare — cunoștințele acumulate pe o problemă s-au transferat pentru a ajuta celelalte sarcini, fără o prăbușire bruscă a performanței la trecerea de la o sarcină sursă la o țintă diferită. Pe datele de testare, aceasta s-a tradus în aproximativ 87% acuratețe pe creditul australian, în jur de 75% pe creditul german și circa 98% pe autentificarea bancnotelor (erori de clasificare de aproximativ 13%, 25% și, respectiv, 2%), menținându-se stabilă indiferent de sarcina folosită ca sursă. În al doilea rând, și cel mai direct, lucrarea compară aceasta cu o populație de 1.200 de rețele inițializate aleatoriu — aceleași modele, dar fără cunoștințele evoluate și transferate. Baza de referință aleatorie a făcut mult mai multe greșeli, cu erori de testare de 37,5% pe Australian, 28,7% pe German și 3,01% pe Banknote. Cu alte cuvinte, abordarea de transfer a fost considerabil mai precisă decât pornirea de la rece, iar diferența a fost cea mai mare pe sarcina cea mai dificilă.
Autorii sunt atenți și expliciți cu privire la ceea ce aceasta nu este. În comparație cu metodele specializate din literatură, aceasta nu este abordarea cu cea mai bună performanță pe niciun set de date individual — și asta este intenționat. Acele metode specializate au fost construite fiecare pentru a rezolva una dintre aceste probleme în izolare; cadrul de față rezolvă în schimb toate cele trei împreună și partajează cunoștințe între soluții, dând prioritate unui transfer pozitiv curat în detrimentul stoarcerii ultimului punct de acuratețe pe o singură sarcină. Lucrarea își prezintă rezultatele ca dovezi numerice credibile pentru noua abordare, numind totodată loc clar de îmbunătățire — tehnici de selecție mai sofisticate și construirea de ansambluri din populațiile evoluate — ca direcții de lucru viitoare.
Figura 3. Ce a adus transferul pe sarcinile financiare.
De ce contează
Promisiunea practică este aceea de modele mai rapide, care reutilizează cunoștințele, pentru riscul și deciziile financiare. Un creditor nu se confruntă cu o singură problemă înghețată; se confruntă cu un flux de întrebări înrudite, dar diferite, între produse, segmente de clienți și momente în timp, iar cunoștințele necesare pentru a răspunde la ele sunt împrăștiate între departamente și instituții. Un cadru care poate purta învățarea de la o astfel de sarcină la următoarea — fără penalizarea obișnuită atunci când sarcinile nu sunt în mod evident asemănătoare — indică spre sisteme de decizie care se adaptează rapid în loc să fie reconstruite de la zero și care folosesc cunoștințele acumulate ale unei instituții în loc să le arunce.
Există aici și o idee mai largă, una care străbate activitatea de FinTech și de inteligență de piață a stm.ai: AI care este transferabil și legat de dovezi (evidence-linked), mai degrabă decât fragil și cu un singur scop. Aceleași mecanisme de selecție artificială care măsoară totodată cât de înrudite sunt două sarcini reprezintă, în fapt, un model care știe ceva despre când ar trebui și când nu ar trebui reutilizate cunoștințele sale — un tip util de conștiință de sine în orice sistem de decizie cu miză mare. Trebuie citită pentru ceea ce este: o lucrare metodologică din 2015, demonstrată pe trei seturi de date publice de referință, care prezintă dovezi promițătoare, nu un produs implementat. Dar direcția pe care o indică — modele care acumulează și transferă responsabil cunoștințe între numeroasele decizii înrudite pe care o instituție financiară le ia efectiv — este exact tipul de AI practic și bine fundamentat de care au nevoie deciziile financiare.
C. Stamate, G.D. Magoulas, M.S.C. Thomas — „Transfer learning approach for financial applications”, arXiv:1509.02807 (2015). Citește lucrarea.