Machine Learning in Finance: An Explainable Multi-Model Framework for Stock Return Forecasting and Risk-Aware Portfolio Allocation
DOI:
https://doi.org/10.5281/zenodo.20230041Abstract
Abstract
Machine learning is an essential methodology in modern quantitative finance, given its capacity to capture nonlinear relationships, temporal dependencies, and high-dimensional predictor structures that are not easily modeled using traditional econometric techniques. This paper describes an explainable multi-model framework for stock return forecasting and risk-aware portfolio allocation. The framework combines Ordinary Least Squares (OLS), a linear benchmark model, with advanced machine learning models such as Random Forest, Extreme Gradient Boosting (XGBoost), and Long Short-Term Memory (LSTM) networks. Such a combination allows thorough comparisons between linear, nonlinear, and sequential modeling approaches. An empirical analysis is conducted using real-world financial and macro-financial data on daily equity prices, trading activity indicators, the CBOE Volatility Index (VIX), and Fama–French factors, to validate the proposed approach. To enhance interpretability and transparency of results, SHAP (SHapley Additive exPlanations) has been adopted in this framework for global as well as local interpretation of feature contributions toward model outputs. This enables deeper economic insights into predictive mechanisms rather than relying solely on statistical performance. Apart from the standard forecast evaluation, this study establishes a direct link between the predictive outputs and the economic decisions by inserting the forecasts into a dynamic portfolio allocation strategy. A detailed validation framework is introduced here that includes not only predictive accuracy but also directional (sign) accuracy along with risk-adjusted economic performance metrics.
The main contribution of this research is bringing together predictive performance, model explainability, and portfolio-level economic relevance within one empirical framework. It advances the literature by connecting machine learning-based forecasting with its real-world application in asset management to enable AI-assisted financial analytics and decision-making systems.
This study adopts a comparative empirical design combining Ordinary Least Squares (OLS), Random Forest, XGBoost, and Long Short-Term Memory (LSTM) models to forecast stock returns and support risk-aware portfolio allocation. Sample and data: The empirical analysis relies on real-world daily financial and macro-financial data, including adjusted stock prices, trading volume, the CBOE Volatility Index (VIX), and Fama–French factors. Main findings: The proposed explainable multi-model framework improves the evaluation of stock return forecasting by combining predictive accuracy, directional accuracy, SHAP-based interpretability, and portfolio-level risk-adjusted performance. The results suggest that machine learning models, particularly XGBoost and LSTM, can provide economically meaningful signals for dynamic portfolio allocation when combined with appropriate risk constraints.
Keywords: Machine Learning; Finance; Explainable AI; Stock Return Forecasting; XGBoost; LSTM; Portfolio Allocation; Risk Management.
Résumé
Le machine learning constitue aujourd’hui une méthodologie essentielle en finance quantitative moderne, en raison de sa capacité à capturer des relations non linéaires, des dépendances temporelles ainsi que des structures prédictives de grande dimension, difficilement modélisables à l’aide des techniques économétriques traditionnelles. Cet article propose un cadre explicable multi-modèles destiné à la prévision des rendements boursiers et à l’allocation de portefeuille sensible au risque. Le cadre combine les Moindres Carrés Ordinaires (OLS) utilisés comme modèle linéaire de référence — avec des modèles avancés de machine learning tels que Random Forest, Extreme Gradient Boosting (XGBoost) et les réseaux de neurones Long Short-Term Memory (LSTM). Cette combinaison permet d’effectuer des comparaisons approfondies entre des approches de modélisation linéaires, non linéaires et séquentielles.
Une analyse empirique est menée à partir de données financières et macro-financières réelles incluant les prix quotidiens des actions, les indicateurs d’activité de trading, l’indice de volatilité CBOE (VIX) ainsi que les facteurs de Fama–French, afin de valider l’approche proposée. Afin d’améliorer l’interprétabilité et la transparence des résultats, la méthode SHAP (SHapley Additive exPlanations) est intégrée au cadre méthodologique pour fournir des interprétations globales et locales des contributions des variables aux prédictions des modèles. Cela permet d’obtenir des analyses économiques plus approfondies des mécanismes prédictifs, au-delà des seules performances statistiques.
En plus de l’évaluation standard des prévisions, cette étude établit un lien direct entre les résultats prédictifs et les décisions économiques en intégrant les prévisions dans une stratégie dynamique d’allocation de portefeuille. Un cadre détaillé de validation est introduit, incluant non seulement la précision prédictive, mais également la précision directionnelle (du signe) ainsi que des indicateurs de performance économique ajustés au risque. La principale contribution de cette recherche réside dans l’intégration, au sein d’un même cadre empirique, de la performance prédictive, de l’explicabilité des modèles et de la pertinence économique au niveau du portefeuille. Cette étude fait progresser la littérature en reliant les techniques de prévision basées sur le machine learning à leurs applications réelles dans la gestion d’actifs, contribuant ainsi au développement de systèmes analytiques et décisionnels financiers assistés par l’intelligence artificielle.
Cette étude adopte un dispositif empirique comparatif combinant les Moindres Carrés Ordinaires (OLS), Random Forest, XGBoost et les réseaux Long Short-Term Memory (LSTM), afin de prévoir les rendements boursiers et d’appuyer une allocation de portefeuille sensible au risque. Échantillon et données : L’analyse empirique repose sur des données financières et macro-financières quotidiennes réelles, incluant les prix ajustés des actions, le volume de transaction, l’indice de volatilité CBOE (VIX) ainsi que les facteurs de Fama–French. Principaux résultats : Le cadre multi-modèles explicable proposé améliore l’évaluation de la prévision des rendements boursiers en combinant précision prédictive, précision directionnelle, interprétabilité fondée sur SHAP et performance économique ajustée au risque au niveau du portefeuille. Les résultats suggèrent que les modèles de machine Learning, notamment XGBoost et LSTM, peuvent fournir des signaux économiquement significatifs pour une allocation dynamique de portefeuille lorsqu’ils sont associés à des contraintes de risque appropriées.
Mots-clés : Machine Learning ; Finance ; Intelligence Artificielle Explicable ; Prévision des Rendements Boursiers ; XGBoost ; LSTM ; Allocation de Portefeuille ; Gestion des Risques.
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2026 African Scientific Journal

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

















