Limitación a los modelos de toma de decisiones crediticias basados en aprendizaje automatizado

Blog

enero 5, 2023 | Jonathan Pryer

Giampaolo Levorato, Senior Data Scientist, Provenir & Dr. Mark Thackham, Head of Data Science, Provenir

Cómo lograr explicabilidad y transparencia con modelos complejos de aprendizaje automatizado (ML)

Una cantidad cada vez mayor de prestamistas está adoptando modelos de Aprendizaje Automatizado (Machine Learning, ML) para alimentar información al proceso de toma de decisiones crediticias. Los modelos ML (como Random Forest, XGBoost, LightGBM y Neural Networks) tienen una capacidad predictiva y de precisión que supera el estándar de la industria de Regresión logística, ya que permiten capturar relaciones no lineales altamente complejas. No obstante, sin una configuración meticulosa durante la capacitación, tanto la explicabilidad como la generalización del modelo pueden verse afectadas. Este aspecto resulta esencial porque los modelos de toma de decisiones crediticias deben cumplir con un criterio doble de:

Explicabilidad: los impulsores del modelo son transparentes para los usuarios y proporcionan conclusiones ejecutables para los clientes a quienes se les ha denegado crédito.
Generalización: los modelos no sobreajustan los datos de capacitación y se desempeñan correctamente con datos (de producción) nuevos.

Este artículo explica la importancia de aplicar limitaciones tanto monotónicas como de interacción cuando se capacitan los modelos ML a fin de cumplir con estos criterios.

Transparencia y posibilidad de ejecución

Muchas jurisdicciones exigen que los prestamistas expliquen cómo y por qué han denegado una solicitud de crédito, estipulando que los prestamistas proporcionen Códigos de acción adversa que indiquen las razones principales por las que se denegó el crédito. Las explicaciones correctas por las que la predicción de un modelo lleva a un prestamista a denegar una solicitud de crédito convierten a los modelos ML en transparentes (no existe una ambigüedad de “caja negra” relacionada con los impulsores de la predicción del modelo) y ejecutables (el crédito denegado al cliente está acompañado de medidas claras y tangibles que puede tomar el solicitante para mejorar su probabilidad de obtener un crédito). En un ejemplo concreto de explicabilidad, si la característica de un modelo con el impacto más negativo para el solicitante al que se le ha denegado un préstamo es “la cantidad de consultas crediticias realizadas en los últimos seis meses”, el Código de acción adversa podríaser “la cantidad de consultas crediticias de los últimos seis meses es demasiado alta”. Esta cualidad ofrece transparencia con respecto al impulsor principal y una acción clara para los clientes que indica que para mejorar su solvencia, es necesario que reduzcan la cantidad de consultas crediticias. De esta manera, es más sencillo para los solicitantes conocer los factores que evitan que alcancen calificaciones superiores y mejoren su solvencia.

La transparencia además les garantiza a los prestamistas que las decisiones crediticias se basen en motivos posibles de explicar y defender, y no en atributos protegidos tales como género, religión o etnia.

Existen numerosos métodos de explicabilidad que ayudan a interpretar los impulsores de modelos complejos, pero dos de ellos han cobrado popularidad:

Explicaciones de Modelo Agnóstico Local Interpretable (Local Interpretable Model-Agnostic, LIME)
Explicaciones Aditivas de SHapley (SHapley Additive exPlanation, SHAP)

LIME aproxima modelos ML complejos con un modelo local más simple que es más sencillo de explicar. Como LIME utiliza un modelo proxy que se concentra en el impacto local de las características, no puede utilizarse para generar Códigos de acción adversa, los cuales deben obtenerse específicamente usando el modelo ML adoptado para la toma de decisiones crediticias (y no un proxy).

SHAPcuantifica la contribución de cada característica a una predicción que efectúa el modelo ML (las características que tienen mayor incidencia en la predicción del modelo tienen un SHAP mayor), lo cual transparenta las predicciones del modelo. Pero la transparencia basada en el uso de valores SHAP no da lugar directamente a la posibilidad de ejecución que es necesaria para utilizar en Códigos de acción adversa. Para poder usar valores SHAP en la obtención de códigos de acción adversa, se necesitan las siguientes limitaciones de capacitación:

limitaciones de interacción monotónica, y
limitaciones monotónicas de interacción.

¿Por qué son necesarias las limitaciones al modelo?

Para entender el motivo por el cual se requieren tales limitaciones al modelo, resulta útil observar un diagrama de dependencia de SHAP que muestra el efecto que tiene una sola característica en las predicciones que efectúa el modelo (el siguiente gráfico se obtuvo a partir de un árbol de decisión de potenciación del gradiente, el cual se capacitó con un conjunto de datos de riesgo crediticio con el objetivo de estimar la probabilidad de insolvencia de distintos solicitantes de crédito).

Figura 1 – Diagrama de dependencia de SHAP para la Característica1

La primera observación es que el patrón es no monotónico: a medida que los valores de la Caracterísitca1 aumentan, también lo hace la solvencia, hasta el punto previsto de deterioro.

La primera acción que se necesita es imponer las limitaciones monotónicas, las cuales aumentan o reducen monotónicamente las predicciones del modelo con respecto a una característica cuando todas las demás características se mantienen sin cambio. En el ejemplo anterior, los valores más altos de la Característica1 corresponderían a una solvencia superior. Las desviaciones de la monotonicidad (que pueden ocurrir con frecuencia cuando no se aplican las limitaciones monotónicas a la característica) raramente representan un patrón genuino; más bien pueden indicar un sobreajuste de la relación dentro de la muestra, reduciendo así la generalización del modelo.

La aplicación de limitaciones monotónicas no es suficiente para utilizar los valores SHAP para obtener Códigos de acción adversa. De hecho, puede existir una correlación entre las características en cierta medida: cuando las características interactúan unas con otras en un modelo ML, la predicción no puede expresarse como la suma de los efectos de las características, debido a que el efecto de una característica depende del valor de otras.

El siguiente diagrama de dependencia de SHAP muestra la manera en que la Característica1 depende del efecto de la Característica2: la interacción entre la Caracterísitica1 y la Característica2 aparece como un patrón vertical evidente de color.

Figura 2 – El diagrama de dependencia de SHAP muestra la interacción entre la Característica1 y la Característica2

La segunda acción que debe tomarse es imponer las limitaciones de interacción, lo que le permite al modelo aislar el comportamiento de cada características de manera independiente de las demás características, haciendo posible obtener una imagen clara de la forma en que una característica individual predice el riesgo: como resultado, una predicción del modelo se corresponde con la suma de cada efecto individual.

Cuando se aplican ambos tipos de limitaciones, monotónicas y de interacción, los valores SHAP pueden usarse para obtener Códigos de acción adversa (algunos beneficios adicionales incluyen procesos de capacitación más veloces, una mejor generalización del modelo y una mayor facilidad para interpretar los cálculos de importancia de las características). El siguiente diagrama de dependencia de SHAP muestra el efecto de la Característica1 en la predicción del modelo después de que se aplican ambos tipos de limitaciones: puede observarse que existe una relación uno a uno monotónica entre los valores de las características y los valores SHAP.

Figura 3 – Diagrama de dependencia de SHAP de la Característica 1 después de aplicar las limitaciones monotónicas y de interacción.

Cumplimiento con la IA de Provenir

La IA de Provenir adopta un enfoque metódico con respecto al desarrollo de modelos ML al garantizar que se evite el sobreajuste y al crear modelos totalmente transparentes y ejecutables, lo cual favorece el acceso de los clientes al financiamiento y, al mismo tiempo, permite a los prestamistas cumplir con las regulaciones financieras.

Próximo Blog

Más datos, más problemas: Cómo escoger los datos correctos

Volver a Blog Posts

Próximo Blog

Más datos, más problemas: Cómo escoger los datos correctos

Materiales Recientes

Ver todos

abril 8, 2024 Customer Management

Infografía: Integración sin fricciones de principio a fin con gestión de casos

Cómo mejorar la experiencia del cliente y la eficiencia operativa ¿Cómo puedes optimizar de manera sencilla las solicitudes ...

marzo 19, 2024 Decisioning

Atención a la brecha: La necesidad de préstamos rápidos y accesibles para PYMEs

Las pequeñas y medianas empresas (PYMEs) son pilares de la economía, representan el 90% de todas las empresas ...

marzo 15, 2024

Construyendo Puentes Tecnológicos: Cómo Ofrecer Préstamos para PYMES Rápidos, Precisos y Accesibles

Las Pequeñas y Medianas Empresas (PYMES) son el corazón de nuestra economía, constituyendo la mayoría de las empresas ...

Cookie	Duración	Descripción
__cfruid		Cloudflare sets this cookie to identify trusted web traffic.
cookielawinfo-checkbox-advertisement		Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics		Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Analytics" category .
cookielawinfo-checkbox-functional		The cookie is set by the GDPR Cookie Consent plugin to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary		Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Necessary" category .
cookielawinfo-checkbox-others		Set by the GDPR Cookie Consent plugin, this cookie is used to store the user consent for cookies in the category "Others".
cookielawinfo-checkbox-performance		Set by the GDPR Cookie Consent plugin, this cookie is used to store the user consent for cookies in the category "Performance".
CookieLawInfoConsent	1 year	CookieYes sets this cookie to record the default button state of the corresponding category and the status of CCPA. It works only in coordination with the primary cookie.
OptanonConsent		OneTrust sets this cookie to store details about the site's cookie category and check whether visitors have given or withdrawn consent from the use of each category.
viewed_cookie_policy		The cookie is set by the GDPR Cookie Consent plugin to store whether or not the user has consented to the use of cookies. It does not store any personal data.

Cookie	Duración	Descripción
__cf_bm		This cookie, set by Cloudflare, is used to support Cloudflare Bot Management.
bcookie		LinkedIn sets this cookie from LinkedIn share buttons and ad tags to recognize browser ID.
bscookie		LinkedIn sets this cookie to store performed actions on the website.
debug		Cookie used to debug code and website issues.
lang		LinkedIn sets this cookie to remember a user's language setting.
li_gc		Linkedin set this cookie for storing visitor's consent regarding using cookies for non-essential purposes.
lidc		LinkedIn sets the lidc cookie to facilitate data center selection.
loglevel		Maintains settings and outputs when using the Developer Tools Console on current session.
UserMatchHistory		LinkedIn sets this cookie for LinkedIn Ads ID syncing.

Cookie	Duración	Descripción
_calendly_session		Calendly, a Meeting Schedulers, sets this cookie to allow the meeting scheduler to function within the website and to add events into the visitor’s calendar.
_gat		This cookie is installed by Google Universal Analytics to restrain request rate and thus limit the collection of data on high traffic sites.
_uetsid		Bing Ads sets this cookie to engage with a user that has previously visited the website.
_uetvid		Bing Ads sets this cookie to engage with a user that has previously visited the website.
AWSALBTG		AWS Application Load Balancer Cookie. Load Balancing Cookie: Used to encode information about the selected target group.
AWSALBTGCORS		AWS Classic Load Balancer Cookie: Used to map the session to the instance. This cookie is identical to the original ELB cookie except for the attribute &SameSite=None;
zarget_visitor_info	1 year	FreshWorks sets this cookie to identify a user who has already agreed to be part of its customer base.

Cookie	Duración	Descripción
_ga		The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_ga_*	1 year 1 month 4 days	Google Analytics sets this cookie to store and count page views.
_ga_3DY9STJEMW		This cookie is installed by Google Analytics.
_ga_J5QKCECHV7		This cookie is installed by Google Analytics.
_gat_gtag_UA_*	1 minute	Google Analytics sets this cookie to store a unique user ID.
_gat_UA-*	1 minute	Google Analytics sets this cookie for user behaviour tracking.
_gat_UA-67726727-1		A variation of the _gat cookie set by Google Analytics and Google Tag Manager to allow website owners to track visitor behaviour and measure site performance. The pattern element in the name contains the unique identity number of the account or website it relates to.
_gcl_au		Provided by Google Tag Manager to experiment advertisement efficiency of websites using their services.
_gd_session		This cookie is used for collecting information on users visit to the website. It collects data such as total number of visits, average time spent on the website and the pages loaded.
_gd_visitor		This cookie is used for collecting information on the users visit such as number of visits, average time spent on the website and the pages loaded for displaying targeted ads.
_gid		Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
6suuid		Registers user behaviour and navigation on the website, and any interaction with active campaigns. This is used for optimizing advertisement and for efficient retargeting.
ajs_anonymous_id		This cookie is set by Segment to count the number of people who visit a certain site by tracking if they have visited before.
ajs_user_id		This cookie is set by Segment to help track visitor usage, events, target marketing, and also measure application performance and stability.
AnalyticsSyncHistory		Linkedin set this cookie to store information about the time a sync took place with the lms_analytics cookie.
attribution_user_id		This cookie is set by Typeform for usage statistics and is used in context with the website's pop-up questionnaires and messengering.
CONSENT		YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.
ln_or		Registers statistical data on users’ behaviour on the website. Used for internal anyalytics by the website operator.
lpv730213		Pending.
pardot		The pardot cookie is set while the visitor is logged in as a Pardot user. The cookie indicates an active session and is not used for tracking.
rl_anonymous_id		Generates an unique anonymous Id to identify a user and attach to a subsequent event.
rl_user_id		To store a unique user ID for the purpose of Marketing/Tracking.
UID		Scorecard Research sets this cookie for browser behaviour research.
undefined		Wistia sets this cookie to collect data on visitor interaction with the website's video-content, to make the website's video-content more relevant for the visitor.
visitor_id730213		Pardot Website tracking.
visitor_id730213-hash		Pardot Website tracking.
visitor-id		Pardot Website tracking.
zarget_user_id	1 year	Freshmarketer sets this cookie for the support site and offers an anonymous ID to help distinguish between sessions.

Cookie	Duración	Descripción
_an_uid		Presents the user with relevant content and advertisement. The service is provided by third-party advertisement hubs, which facilitate real-time bidding for advertisers.
IDE		Google DoubleClick IDE cookies are used to store information about how the user uses the website to present them with relevant ads and according to the user profile.
li_sugr	3 months	LinkedIn sets this cookie to collect user behaviour data to optimise the website and make advertisements on the website more relevant.
MUID		Bing sets this cookie to recognize unique web browsers visiting Microsoft sites. This cookie is used for advertising, site analytics, and other operations.
NID		NID cookie, set by Google, is used for advertising purposes; to limit the number of times the user sees an ad, to mute unwanted ads, and to measure the effectiveness of ads.
rl_group_id	never	RudderStack sets this cookie to collect user activity on the web.
rl_group_trait	never	Rudderstack sets this cookie, which is used to store performed actions on the website.
rl_page_init_referrer	never	Rudderstack sets this cookie, which is used to store performed actions on the website.
rl_page_init_referring_domain	never	Rudderstack sets this cookie, which is used to store performed actions on the website.
rl_trait	never	Rudderstack sets this cookie, which is used to store performed actions on the website.
test_cookie		The test_cookie is set by doubleclick.net and is used to determine if the user's browser supports cookies.
visitor_id*	1 year 1 month 4 days	Pardot sets this cookie to store a unique user ID.
visitor_id*-hash	1 year 1 month 4 days	Pardot sets this cookie to store a unique user ID.
VISITOR_INFO1_LIVE		A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC		YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices		YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id		YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt.innertube::nextId	never	YouTube sets this cookie to register a unique ID to store data on what videos from YouTube the user has seen.
yt.innertube::requests	never	YouTube sets this cookie to register a unique ID to store data on what videos from YouTube the user has seen.

Cookie	Duración	Descripción
__q_domainTest	session	Description is currently not available.
__q_state_ZD4MhrGzYmLQB2xF	1 year 1 month 4 days	Description is currently not available.
_zm_chtaid		Cookie used by Zoom. Purpose Pending.
_zm_csp_script_nonce		Cookie used by Zoom. Purpose Pending.
_zm_cta		Cookie used by Zoom. Purpose Pending.
_zm_ctaid		Cookie used by Zoom. Purpose Pending.
_zm_currency		Cookie used by Zoom. Purpose Pending.
_zm_mtk_guid		Cookie used by Zoom. Purpose Pending.
_zm_page_auth		Cookie used by Zoom. Purpose Pending.
_zm_sa_si_none		Cookie used by Zoom. Purpose Pending.
_zm_ssid		Cookie used by Zoom. Purpose Pending.
_zm_visitor_guid		Cookie used by Zoom. Purpose Pending.
2dd7b03c-07a0-4751-e2c4-bf8d84065c1d	1 year	Description is currently not available.
cred		Cookie used by Zoom. Purpose Pending.
f		Zoom: Used in order to detect spam and improve the website's security. Does not store visitor specific data.
m		Pending.
referrer		Pending.
test	never	No description available.
tf_respondent_cc		Typeform preference cookie.
VISITOR_PRIVACY_METADATA	5 months 27 days	Description is currently not available.
wULrMv6t		Cookie used by Zoom. Purpose Pending.
zg_visitor_id	1 year	No description available.
zm_aid		Pending.
zm_haid		Pending.
zm_htmaid		Pending.
zm_tmaid		Pending.