Tecniche di Machine Learning Statistico

Tecniche di Machine Learning Statistico

Il machine learning statistico rappresenta un vasto campo interdisciplinare, composto da numerose aree di ricerca differenti. Dopo aver introdotto le basi del machine learning statistico, in questa lezione esploriamo le tecniche di machine learning più rilevanti per la finanza quantitativa e in particolare per il trading algoritmico.

Regressione

La regressione comprende un ampio insieme di tecniche di machine learning supervisionato che offrono capacità predittive e inferenziali. Nella finanza quantitativa utilizziamo frequentemente queste tecniche, perciò risulta fondamentale conoscerle bene. Con la regressione modelliamo la relazione tra una variabile dipendente (risposta) e un insieme di variabili indipendenti (predittori). In particolare, miriamo a comprendere come varia la risposta quando modifichiamo una delle variabili indipendenti, mantenendo costanti le altre.

Tra tutte, la regressione lineare è la tecnica di regressione più conosciuta e presuppone una relazione lineare tra i predittori e la risposta. Con questo modello stimiamo i parametri (solitamente rappresentati dal vettore β) che definiscono la risposta lineare a ciascun predittore. Usiamo una procedura chiamata metodo dei minimi quadrati (OLS) per calcolare questi parametri. La regressione lineare ci permette di svolgere sia previsioni sia inferenze.

Previsioni

Nel primo caso, inseriamo un nuovo valore del predittore (senza conoscere la risposta) per stimare un nuovo valore di risposta. Per esempio, immaginiamo di usare un modello di regressione lineare per prevedere il valore dell’S&P500 del giorno successivo, partendo dai dati di prezzo degli ultimi cinque giorni. 

Alleniamo il modello con OLS sui dati storici, poi, quando riceviamo nuovi dati di mercato per l’S&P500, li introduciamo nel modello (come predittori) e otteniamo una previsione del prezzo del giorno seguente. Questo processo può costituire la base di una strategia di trading.

Inferenza

Nel secondo caso (inferenza), analizziamo la forza della relazione tra la risposta e ciascun predittore per identificare quali predittori influenzano la risposta. Questo approccio risulta utile se vogliamo capire quali fattori provocano variazioni nella risposta, come accade nella ricerca di marketing o nelle sperimentazioni cliniche. 

Tuttavia, nel trading algoritmico di solito privilegiamo la qualità della previsione rispetto alla comprensione del meccanismo sottostante. Detto ciò, evitiamo di affidarci ciecamente a modelli “black-box”, per non incorrere nell’overfitting del rumore nei dati.

Tra le altre tecniche di machine learning statistico troviamo la regressione logistica, utile per prevedere una risposta categorizzata (come “UP”, “DOWN”, “FLAT”) anziché continua (come il prezzo di un’azione). Dal punto di vista tecnico, si tratta di uno strumento di classificazione (vedi sotto), ma solitamente la includiamo nella famiglia delle tecniche di regressione. Per stimare i valori dei parametri di una regressione logistica, impieghiamo una procedura statistica generale nota come stima di massima verosimiglianza (MLE).

Classificazione

Nella classificazione applichiamo tecniche di machine learning supervisionato per assegnare un’osservazione (simile a un predittore) a una delle categorie predefinite, basandoci sulle caratteristiche associate all’osservazione. Possiamo lavorare con categorie non ordinate (ad esempio “rosso”, “giallo”, “blu”) oppure ordinate (come “basso”, “medio”, “alto”). In quest’ultimo caso, definiamo i gruppi come ordinali. Utilizziamo ampiamente i classificatori nella finanza quantitativa, in particolare per prevedere la direzione del mercato, perciò studiamo in profondità questi algoritmi.

Applichiamo i classificatori nel trading algoritmico per stimare se una certa serie temporale genererà rendimenti positivi o negativi nei periodi successivi (non ancora osservati). Questo approccio risulta simile alla regressione, ma invece di prevedere il valore effettivo della serie, ne stimiamo la direzione.

Anche in questo caso utilizziamo predittori continui, come i prezzi di mercato passati, come osservazioni. Studiamo classificatori sia lineari sia non lineari, tra cui la regressione logistica, l’analisi discriminante lineare e quadratica, le macchine SVM (Support Vector Machines) e le reti neurali artificiali (ANN). Ricordiamo che alcuni di questi metodi possono funzionare efficacemente anche per la regressione.

Modelli di Serie Temporali

Nel trading algoritmico, ci concentriamo sull’elaborazione e sulla previsione delle serie temporali finanziarie. Il nostro obiettivo consiste nel prevedere i valori futuri delle serie temporali utilizzando i dati precedenti o fattori esterni. Consideriamo la modellizzazione delle serie temporali come un ambito intermedio tra regressione e classificazione. I modelli di serie temporali si distinguono da quelli non temporali perché sfruttiamo l’ordine temporale dei dati. Per questo motivo, basiamo spesso i predittori su valori passati o attuali, mentre consideriamo le risposte come i valori futuri che vogliamo prevedere.

Abbiamo a disposizione un’ampia letteratura sui modelli di serie temporali. Nel trading algoritmico, ci interessano in particolare due grandi famiglie di modelli di serie temporali. La prima comprende i modelli di autoregressione lineare integrata a media mobile (ARIMA), che utilizziamo per analizzare le variazioni assolute in una serie storica. 

L’altra famiglia include i modelli autoregressivi a eteroschedasticità condizionata (ARCH), che impieghiamo per modellare la varianza, ovvero la volatilità, delle serie temporali nel tempo. Nei modelli ARCH, sfruttiamo i valori precedenti della volatilità per stimare quelli futuri. A differenza loro, i modelli di volatilità stocastica utilizzano più serie temporali stocastiche, ossia più equazioni differenziali stocastiche, per rappresentare la volatilità.

Nel trattare le serie storiche dei prezzi non elaborati, lavoriamo con dati discreti poiché contengono un numero finito di valori. Tuttavia, nella finanza quantitativa, analizziamo spesso modelli di serie temporali continue. Tra i più noti, troviamo il Geometric Brownian Motion, il modello Heston Stochastic Volatility e il modello Ornstein-Uhlenbeck. Questi rappresentano serie temporali continue con caratteristiche stocastiche differenti. Nei prossimi lezioni, applicheremo questi modelli di serie temporali per descrivere il comportamento delle serie finanziarie e sfruttarne le proprietà nella costruzione di strategie di trading efficaci.

Torna in alto