Tecniche di Machine Learning Statistico

Tecniche di Machine Learning Statistico

Il machine learning statistico rappresenta un vasto campo interdisciplinare, composto da numerose aree di ricerca differenti. Dopo aver introdotto le basi del machine learning statistico, in questa lezione esploriamo le tecniche di machine learning più rilevanti per la finanza quantitativa e in particolare per il trading algoritmico.

Nel trading moderno una componente fondamentale è rappresentata dal machine learning statistico quindi deve essere presente nel toolkit di ogni trader quantitativo. Per questo motivo, esploriamo l’argomento partendo dai suoi principi fondamentali.

Nelle lezioni successive descriviamo con precisione come applichiamo questo approccio ai problemi della finanza quantitativa, ad esempio nella progettazione di una strategia di trading algoritmico.

Tecniche di Machine Learning

Prima di affrontare gli aspetti teorici del machine learning statistico, esaminiamo uno scenario di finanza quantitativa dove possiamo applicare efficacemente queste tecniche. Immaginiamo un fondo d’investimento che voglia prevedere l’andamento a lungo termine dell’indice azionario S&P500. 

Questo fondo raccoglie una grande quantità di dati fondamentali relativi alle società che compongono l’indice, come il rapporto prezzo-utili o il valore contabile. E’ possibile sfruttare queste informazioni per fare previsioni sull’indice e costruire uno strumento di trading? Il machine learning statistico offre una risposta concreta.

Dal punto di vista quantitativo, cerchiamo di modellare il comportamento di un risultato o di una risposta a partire da un insieme di predittori o caratteristiche che riteniamo correlati con essa. Nell’esempio precedente, il valore dell’indice azionario rappresenta la risposta, mentre i dati fondamentali delle aziende costituiscono i predittori.

Formalizziamo questa relazione considerando una risposta Y con p diverse caratteristiche x1, x2, …, xp. Se adottiamo la notazione vettoriale, definiamo X = (x1, x2, …, xp), ovvero un vettore di lunghezza p. In questo modo otteniamo il modello:

\(\begin{eqnarray}
Y = f(X) + \epsilon
\end{eqnarray}\)

La funzione f descrive la relazione sconosciuta.

Metodi di stima

L’obiettivo dell’apprendimento automatico con un approccio di stima funzionale è stimare y, indicato con \(\hat{y}\), tentando di trovare una funzione \(\hat{f}\) che approssimi f “nel modo migliore”. Una volta ottenuta questa \(\hat{f}\), è semplice stimare qualsiasi nuovo \(\hat{y}\) dato un nuovo vettore predittore x_test.

In alcuni casi, tuttavia, è più difficile scegliere tra i valori durante la classificazione o la regressione, poiché potrebbe esserci qualche ambiguità nei vettori delle caratteristiche. A tale scopo applichiamo il secondo approccio all’apprendimento automatico, che è la formulazione probabilistica.

Questo approccio riformula il problema come la stima della forma di una distribuzione di probabilità, nota come stima della densità condizionale[51, 71]. Nell’approccio di apprendimento supervisionato, questa distribuzione di probabilità è data come \(p(y \mid x; \theta)\). Si tratta di una distribuzione di probabilità condizionata, che rappresenta la probabilità che y assuma un qualsiasi valore (o categoria) dati i valori delle caratteristiche x, con un modello parametrizzato da \(\theta\).

Si presume implicitamente che esista una forma di modello e che questo modello sia applicato a un insieme finito di dati di caratteristiche, spesso indicato con D. Si noti che, sebbene la formulazione probabilistica sia molto diversa dall’approccio di approssimazione funzionale, cerca di svolgere lo stesso compito. Ovvero, se viene fornito un vettore di caratteristiche x, l’obiettivo è stimare probabilisticamente il valore “migliore” di y. Il vantaggio di utilizzare questo approccio probabilistico è che è possibile assegnare probabilità a diversi valori di y, portando così a un meccanismo più generale per la scelta tra questi valori. In pratica, il valore di y con la probabilità più alta viene solitamente scelto come migliore ipotesi.

Tuttavia, nella finanza quantitativa, le conseguenze di una scelta errata possono essere gravi, in quanto possono generare ingenti perdite. Pertanto, i valori soglia vengono spesso utilizzati per garantire che la probabilità assegnata a un particolare valore sia significativamente elevata e molto maggiore rispetto ad altri valori, a dimostrazione di una forte fiducia nella scelta.

Regressione

La regressione comprende un ampio insieme di tecniche di machine learning supervisionato che offrono capacità predittive e inferenziali. Nella finanza quantitativa utilizziamo frequentemente queste tecniche, perciò risulta fondamentale conoscerle bene. Con la regressione modelliamo la relazione tra una variabile dipendente (risposta) e un insieme di variabili indipendenti (predittori). In particolare, miriamo a comprendere come varia la risposta quando modifichiamo una delle variabili indipendenti, mantenendo costanti le altre.

Tra tutte, la regressione lineare è la tecnica di regressione più conosciuta e presuppone una relazione lineare tra i predittori e la risposta. Con questo modello stimiamo i parametri (solitamente rappresentati dal vettore β) che definiscono la risposta lineare a ciascun predittore. Usiamo una procedura chiamata metodo dei minimi quadrati (OLS) per calcolare questi parametri. La regressione lineare ci permette di svolgere sia previsioni sia inferenze.

Predizione

Quando ci occupiamo di predizione, ci proponiamo di stimare una risposta Y basandoci su un nuovo predittore osservato, X. Una volta identificato un modello di relazione, utilizziamo una stima di f per generare una stima della risposta:

\(\begin{eqnarray}\hat{Y} = \hat{f}(X)\end{eqnarray}\)

Nel contesto predittivo, non ci interessa particolarmente la forma esatta della funzione f(), purché le stime si avvicinino alle risposte reali. Diverse stime di f generano diverse stime di Y. Chiamiamo errore reducible quello che deriva da una stima imprecisa di \(\hat{f}\). Consideriamo inoltre la presenza costante di un errore non reducible, causato dal termine di errore ε incluso nella formulazione iniziale del problema. Questo termine rappresenta fattori non osservabili che influenzano Y. Il nostro obiettivo consiste nel ridurre al minimo l’errore reducible, sapendo che l’errore ε impone un limite superiore all’accuratezza.

Inferenza

Con l’inferenza ci impegniamo a comprendere la relazione tra X e Y, cercando di definire con precisione la funzione f(). Vogliamo identificare i predittori più rilevanti o esplorare il legame tra ciascun predittore e la risposta. Inoltre, possiamo verificare se la relazione sia lineare o non lineare. I modelli lineari risultano più facili da interpretare, ma spesso sacrificano la capacità predittiva. Al contrario, i modelli non lineari offrono maggiore precisione nelle previsioni, a discapito però dell’interpretabilità. Dobbiamo quindi gestire un equilibrio tra accuratezza predittiva e comprensibilità del modello.

Nel trading algoritmico di solito privilegiamo i modelli predittivi, poiché ci interessa soprattutto la capacità del modello di fornire previsioni affidabili, più che comprenderne la struttura interna. Detto ciò, evitiamo di affidarci ciecamente a modelli “black-box”, per non incorrere nell’overfitting del rumore nei dati.

Tra le altre tecniche di machine learning statistico troviamo la regressione logistica, utile per prevedere una risposta categorizzata (come “UP”, “DOWN”, “FLAT”) anziché continua (come il prezzo di un’azione). Dal punto di vista tecnico, si tratta di uno strumento di classificazione (vedi sotto), ma solitamente la includiamo nella famiglia delle tecniche di regressione. Per stimare i valori dei parametri di una regressione logistica, impieghiamo una procedura statistica generale nota come stima di massima verosimiglianza (MLE).

Classificazione

Nella classificazione applichiamo tecniche di machine learning supervisionato per assegnare un’osservazione (simile a un predittore) a una delle categorie predefinite, basandoci sulle caratteristiche associate all’osservazione. Possiamo lavorare con categorie non ordinate (ad esempio “rosso”, “giallo”, “blu”) oppure ordinate (come “basso”, “medio”, “alto”). In quest’ultimo caso, definiamo i gruppi come ordinali.

Applichiamo i classificatori nel trading algoritmico per prevedere la direzione del mercato tramite la stima se una certa serie temporale genererà rendimenti positivi o negativi nei periodi successivi (non ancora osservati). Questo approccio risulta simile alla regressione, ma invece di prevedere il valore effettivo della serie, ne stimiamo la direzione.

Anche in questo caso utilizziamo predittori continui, come i prezzi di mercato passati, come osservazioni. Studiamo classificatori sia lineari sia non lineari, tra cui la regressione logistica, l’analisi discriminante lineare e quadratica, le macchine SVM (Support Vector Machines) e le reti neurali artificiali (ANN).

Training dei Modelli

Ora che abbiamo definito la formulazione probabilistica, dobbiamo discutere come sia possibile “supervisionare” o “addestrare” il modello utilizzando un insieme specifico di dati.

Per addestrare il modello, è necessario definire una funzione di perdita tra il valore reale della risposta \( y \) e la sua stima da parte del modello \( \hat{y} \), indicata come \( L(y, \hat{y}) \).

Nel contesto della classificazione, le funzioni di perdita più comuni includono la perdita 0-1 e l’entropia incrociata.

Errore quadratico medio MSE

Nel contesto della regressione, una funzione di perdita frequentemente utilizzata è l’errore quadratico medio (MSE):

\( \text{MSE} = \frac{1}{N} \sum_{i=1}^{N} (y_i – \hat{y}_i)^2 \)

In questo modo, si afferma che l’errore totale di un modello, dato un determinato insieme di dati, corrisponde alla media delle somme dei quadrati delle differenze tra tutti i valori osservati \( y_i \) e le relative stime \( \hat{y}_i \).

Questa funzione di perdita penalizza in modo piuttosto severo i valori stimati che si discostano dai rispettivi valori reali, poiché le differenze vengono elevate al quadrato. Inoltre, è importante notare che ciò che conta è la distanza quadratica tra i valori, indipendentemente dal fatto che si tratti di deviazioni positive o negative.

L’MSE sarà trattato più approfonditamente nelle prossime lezioni dedicate alla regressione lineare.

Una volta definita la funzione di perdita, è possibile stimare \( \hat{f} \) e quindi \( \hat{y} \), applicando algoritmi di “adattamento” che appartengono a specifiche tecniche di apprendimento automatico. Questi algoritmi cercano di minimizzare il valore della funzione di perdita regolando i parametri \( \theta \) del modello.

Un valore minimo della funzione di perdita indica che gli errori tra i valori reali e quelli stimati non sono troppo gravi. Questo lascia sperare che il modello si comporti in modo simile anche quando viene esposto a dati non utilizzati durante la fase di addestramento.

Modelli di Serie Temporali

I modelli di serie temporali si distinguono da quelli non temporali perché sfruttiamo l’ordine temporale dei dati. Per questo motivo, basiamo spesso i predittori su valori passati o attuali, mentre consideriamo le risposte come i valori futuri che vogliamo prevedere.

Nel trading algoritmico, ci interessano in particolare due grandi famiglie di modelli di serie temporali. La prima comprende i modelli di autoregressione lineare integrata a media mobile (ARIMA), che utilizziamo per analizzare le variazioni assolute in una serie storica.

L’altra famiglia include i modelli autoregressivi a eteroschedasticità condizionata (ARCH), che impieghiamo per modellare la varianza, ovvero la volatilità, delle serie temporali nel tempo. Nei modelli ARCH, sfruttiamo i valori precedenti della volatilità per stimare quelli futuri. A differenza loro, i modelli di volatilità stocastica utilizzano più serie temporali stocastiche, ossia più equazioni differenziali stocastiche, per rappresentare la volatilità.

Nel trattare le serie storiche dei prezzi non elaborati, lavoriamo con dati discreti poiché contengono un numero finito di valori. Tuttavia, nella finanza quantitativa, analizziamo spesso modelli di serie temporali continue. Tra i più noti, troviamo il Geometric Brownian Motion, il modello Heston Stochastic Volatility e il modello Ornstein-Uhlenbeck. Questi rappresentano serie temporali continue con caratteristiche stocastiche differenti.

Conclusione

Il machine learning statistico si rivela uno strumento essenziale per affrontare le sfide della finanza quantitativa moderna. Abbiamo introdotto le tecniche di machine learning e i concetti chiave dell’apprendimento supervisionato, esplorando tecniche di regressione, classificazione e modellizzazione delle serie temporali, con l’obiettivo di fornire previsioni robuste e supportare decisioni operative nel trading algoritmico. 

Comprendere le fondamenta matematiche e statistiche di questi metodi è cruciale per evitare errori comuni come l’overfitting e garantire che i modelli siano non solo performanti ma anche affidabili. Nelle prossime lezioni, approfondiremo l’applicazione pratica di questi strumenti, dimostrando come integrarli in strategie quantitative concrete e operative sui mercati finanziari.

Torna in alto