Einschränkungen von Kreditentscheidungsmodellen durch maschinelles Lernen

Blog

Januar 5, 2023 | Jonathan Pryer

Giampaolo Levorato, Senior Data Scientist, Provenir & Dr. Mark Thackham, Head of Data Science, Provenir

Wie man Erklärbarkeit und Transparenz bei komplexen ML-Modellen erreicht

Immer mehr Kreditgeber setzen fortschrittliche Machine Learning (ML)-Modelle ein, um Kreditbewertungen und -entscheidungen zu treffen. ML-Modelle (wie Random Forest, XGBoost, LightGBM und Neural Networks) sind prädiktiver und genauer als der Industriestandard Logistische Regression, da sie hochkomplexe, nichtlineare Beziehungen erfassen. Ohne sorgfältige Konfiguration während des Trainings können jedoch sowohl die Erklärbarkeit als auch die Generalisierung des Modells beeinträchtigt werden. Dies ist deshalb so wichtig, weil die Kreditentscheidungsmodelle zwei Kriterien erfüllen müssen:

Erklärbarkeit: Die Modellvariablen sind für die Nutzer transparent und liefern nachvollziehbare Schlussfolgerungen für Kunden, deren Kreditantrag abgelehnt wurde.
Generalisierung: Die Modelle sind nicht überangepasst an die Trainingsdaten und zeigen gute Leistungen bei neuen (Produktions-)Daten.

In diesem Artikel wird erläutert, wie wichtig es ist, beim Training von ML-Modellen sowohl monotone Beschränkungen als auch Interaktionsbeschränkungen (monotonic and interaction constraints) anzuwenden, um diese Kriterien zu erfüllen.

Transparenz und Handlungsfähigkeit

In vielen Ländern müssen die Kreditgeber erklären, wie und warum sie einen Kreditantrag abgelehnt haben.Sie müssen die Hauptgründe für die Ablehnung in Form von „Adverse Action Codes“ angeben. Korrekte Erklärungen, warum die Vorhersage eines Modells einen Kreditgeber dazu veranlasst hat, einen Kredit abzulehnen, machen die ML-Modelle transparent (es gibt keine Unklarheiten („Blackbox“) hinsichtlich der Gründe für die Vorhersage des Modells) und umsetzbar (der Kunde, dessen Kredit abgelehnt wurde, hat klare und greifbare Maßnahmen, die er ergreifen kann, um seine Aussichten auf einen neuen Kredit zu verbessern). Konkretes Beispiel für die Erklärbarkeit: Wenn das Merkmal eines Modells, das sich am negativsten auf einen abgelehnten Kreditantragsteller auswirkt, die „Anzahl der Bonitätsabfragen in den letzten sechs Monaten“ ist, könnte der Adverse Action Code lauten: „Die Anzahl der Bonitätsabfragen in den letzten sechs Monaten ist zu hoch.“ Dadurch wird der Hauptgrund transparent, und dem Kunden wird verdeutlicht, dass er seine Kreditanträge reduzieren muss, um seine Kreditwürdigkeit zu verbessern. Die abgelehnten Antragsteller können sich leichter der Gründe bewusst werden, die eine bessere Bewertung verhindern, und ihre Kreditwürdigkeit verbessern.

Die Transparenz gibt den Kreditgebern die Sicherheit, dass Kreditentscheidungen auf erklärbaren und vertretbaren Merkmalen beruhen und nicht auf geschützten Merkmalen wie Geschlecht, Religion oder ethnischer Herkunft.

Es gibt viele Erklärungsmethoden, die bei der Interpretation von Einflussfaktoren komplexer Modelle helfen, aber zwei davon erfreuen sich zunehmender Beliebtheit:

Local Interpretable Model-Agnostic Explanations (LIME)
SHapley Additive exPlanation (SHAP)

LIME nutzt zur Vereinfachung komplexer ML-Modelle ein leichter zu erklärendes lokales Modell. Da LIME ein Proxy-Modell verwendet, das sich auf die lokalen Auswirkungen der Merkmale konzentriert, kann es nicht für die Generierung von Adverse Action Codes verwendet werden, die speziell mit dem für die Kreditentscheidung verwendeten ML-Modell (und nicht mit einem Proxy) generiert werden müssen.

SHAP quantifiziert den Beitrag jedes Merkmals zu einer von einem ML-Modell getroffenen Vorhersage (Merkmale mit größeren Beiträgen zur Modellvorhersage haben einen größeren SHAP) und macht so Modellvorhersagen transparent. Die Transparenz, die sich aus der Anwendung von SHAP-Werten ergibt, führt jedoch nicht direkt zu der für die Verwendung von Adverse Action Codes erforderlichen Handlungsfähigkeit. Um SHAP-Werte bei der Ableitung von Adverse Action Codes zu verwenden, sind die folgenden Trainingsbedingungen erforderlich:

monotonic interaction constraints
interaction monotonic constraints.

Warum sind Modellbeschränkungen notwendig?

Um zu verstehen, warum solche Beschränkungen des Modells erforderlich sind, ist es nützlich, sich ein SHAP-Abhängigkeitsdiagramm anzuschauen, das die Auswirkungen eines einzelnen Merkmals auf die Vorhersagen des Modells zeigt (das nachstehende Diagramm wurde anhand eines Gradient-Boosting-Entscheidungsbaums erstellt, der auf einem Kreditrisikodatensatz mit dem Ziel trainiert wurde, die Ausfallwahrscheinlichkeit von Kreditantragstellern zu schätzen).

Bild 1 – SHAP-Abhängigkeitsdiagramm für Merkmal1

Die erste Erkenntnis ist, dass das Muster nicht monoton ist: Wenn die Merkmal1-Werte steigen, verbessert sich die Kreditwürdigkeit, bis schließlich eine Verschlechterung vorhergesagt wird.

Die erste Maßnahme, die erforderlich ist, ist die Durchsetzung monotoner Beschränkungen, die die Modellvorhersagen in Bezug auf ein Merkmal monoton ansteigen oder abfallen lassen, während alle anderen Merkmale unverändert bleiben. Im obigen Beispiel würden höhere Werte bei Merkmal1 einer besseren Kreditwürdigkeit entsprechen. Abweichungen von der Monotonie (die häufig auftreten, wenn monotone Merkmalsbeschränkungen nicht angewendet werden) stellen selten ein echtes Muster dar, sondern können auf eine Überanpassung der Beziehung in der Stichprobe hinweisen, wodurch die Modellgeneralisierung verringert wird.

Die Anwendung monotoner Beschränkungen reicht nicht aus, um aus den SHAP-Werten Adverse Action Codes abzuleiten. Tatsächlich können Merkmale bis zu einem gewissen Grad miteinander korreliert sein: Wenn Merkmale in einem ML-Modell miteinander interagieren, kann die Vorhersage nicht als Summe der Merkmalseffekte ausgedrückt werden, da die Wirkung eines Merkmals vom Wert einiger anderer abhängt. Das folgende SHAP-Abhängigkeitsdiagramm zeigt, wie die Wirkung von Merkmal1 abhängig ist von der Wirkung von Merkmal2: Die Interaktion zwischen Merkmal1 und Merkmal2 zeigt sich als ein ausgeprägtes vertikales Muster der Färbung.

Bild 2 – SHAP-Abhängigkeitsdiagramm zeigt die Interaktion zwischen Merkmal1 und Merkmal2

Die zweite Maßnahme, die ergriffen werden muss, ist die Durchsetzung von Interaktionsbeschränkungen, die es ermöglichen, das Verhalten jedes einzelnen Merkmals unabhängig von allen anderen Merkmalen zu isolieren, so dass man sich ein klares Bild davon machen kann, wie ein einzelnes Merkmal ein Risiko vorhersagt: Eine Modellvorhersage entspricht also der Summe aller Einzelwirkungen.

Wenn sowohl monotone Beschränkungen als auch Interaktionsbeschränkungen angewandt werden, können SHAP-Werte verwendet werden, um Adverse Action Codes abzuleiten (zu den weiteren Vorteilen gehören schnellere Trainingsprozesse, bessere Modellgeneralisierung und eine einfacher zu interpretierende Merkmalsgewichtung). Das folgende SHAP-Abhängigkeitsdiagramm zeigt die Auswirkung von Merkmal1 auf die Modellvorhersage, nachdem beide Beschränkungenangewendet wurden: Es ist zu erkennen, dass eine monotone, Eins-zu-eins-Beziehung zwischen den Merkmalswerten und den SHAP-Werten besteht.

Bild 3 – SHAP-Abhängigkeitsdiagramm von Merkmal 1 nach Anwendung von monotonen und Interaktionsbeschränkungen

Mit Provenir KI Compliance gewährleisten

Provenir KI verfolgt einen gezielten Ansatz bei der Entwicklung von ML-Modellen, indem es dafür sorgt, dass Überanpassungen vermieden und vollständig transparente und umsetzbare Modelle bereitgestellt werden. Dies begünstigt den Zugang der Verbraucher zu Finanzierungen und ermöglicht es den Kreditgebern gleichzeitig, die Finanzvorschriften einzuhalten.

Nächste Blog

Mehr Daten, mehr Probleme: Auswahl der richtigen Daten

Zurück zu Blog Posts

Nächste Blog

Mehr Daten, mehr Probleme: Auswahl der richtigen Daten

Neueste Ressourcen

View all

August 22, 2023 Events

Treffen Sie uns auf dem Handelsblatt Bankengipfel!

20-21 September, 2023 | Frankfurt, Deutschland Der Handelsblatt Bankengipfel rückt näher! Mit mehr als 500 Entscheidungsträgern aus den ...

Juli 19, 2023 Fintech, Lending

10 Fintechs revolutionieren die KMU-Kreditvergabe

By combining financial know-how with technology, fintech is reshaping SME lending, approving loans to more businesses and giving ...

April 20, 2023 Decisioning

Mythen vs. Realität bei der Modernisierung Ihrer Kreditentscheidungstechnologie

Powering Up: Wie Banken automatisierte Kreditrisikoentscheidungen für mehr Agilität und Geschwindigkeit nutzen können Finanzinstitute stehen unter Druck und ...

Cookie	Dauer	Beschreibung
__cfruid		Cloudflare sets this cookie to identify trusted web traffic.
cookielawinfo-checkbox-advertisement		Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics		Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Analytics" category .
cookielawinfo-checkbox-functional		The cookie is set by the GDPR Cookie Consent plugin to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary		Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Necessary" category .
cookielawinfo-checkbox-others		Set by the GDPR Cookie Consent plugin, this cookie is used to store the user consent for cookies in the category "Others".
cookielawinfo-checkbox-performance		Set by the GDPR Cookie Consent plugin, this cookie is used to store the user consent for cookies in the category "Performance".
OptanonConsent		OneTrust sets this cookie to store details about the site's cookie category and check whether visitors have given or withdrawn consent from the use of each category.
viewed_cookie_policy		The cookie is set by the GDPR Cookie Consent plugin to store whether or not the user has consented to the use of cookies. It does not store any personal data.

Cookie	Dauer	Beschreibung
__cf_bm		This cookie, set by Cloudflare, is used to support Cloudflare Bot Management.
bcookie		LinkedIn sets this cookie from LinkedIn share buttons and ad tags to recognize browser ID.
bscookie		LinkedIn sets this cookie to store performed actions on the website.
debug		Cookie used to debug code and website issues.
lang		LinkedIn sets this cookie to remember a user's language setting.
li_gc		Linkedin set this cookie for storing visitor's consent regarding using cookies for non-essential purposes.
lidc		LinkedIn sets the lidc cookie to facilitate data center selection.
loglevel		Maintains settings and outputs when using the Developer Tools Console on current session.
UserMatchHistory		LinkedIn sets this cookie for LinkedIn Ads ID syncing.

Cookie	Dauer	Beschreibung
_calendly_session		Calendly, a Meeting Schedulers, sets this cookie to allow the meeting scheduler to function within the website and to add events into the visitor’s calendar.
_gat		This cookie is installed by Google Universal Analytics to restrain request rate and thus limit the collection of data on high traffic sites.
_uetsid		Bing Ads sets this cookie to engage with a user that has previously visited the website.
_uetvid		Bing Ads sets this cookie to engage with a user that has previously visited the website.
AWSALBTG		AWS Application Load Balancer Cookie. Load Balancing Cookie: Used to encode information about the selected target group.
AWSALBTGCORS		AWS Classic Load Balancer Cookie: Used to map the session to the instance. This cookie is identical to the original ELB cookie except for the attribute &SameSite=None;

Cookie	Dauer	Beschreibung
_ga		The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_ga_3DY9STJEMW		This cookie is installed by Google Analytics.
_ga_J5QKCECHV7		This cookie is installed by Google Analytics.
_gat_UA-67726727-1		A variation of the _gat cookie set by Google Analytics and Google Tag Manager to allow website owners to track visitor behaviour and measure site performance. The pattern element in the name contains the unique identity number of the account or website it relates to.
_gcl_au		Provided by Google Tag Manager to experiment advertisement efficiency of websites using their services.
_gd_session		This cookie is used for collecting information on users visit to the website. It collects data such as total number of visits, average time spent on the website and the pages loaded.
_gd_visitor		This cookie is used for collecting information on the users visit such as number of visits, average time spent on the website and the pages loaded for displaying targeted ads.
_gid		Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
6suuid		Registers user behaviour and navigation on the website, and any interaction with active campaigns. This is used for optimizing advertisement and for efficient retargeting.
ajs_anonymous_id		This cookie is set by Segment to count the number of people who visit a certain site by tracking if they have visited before.
ajs_user_id		This cookie is set by Segment to help track visitor usage, events, target marketing, and also measure application performance and stability.
AnalyticsSyncHistory		Linkedin set this cookie to store information about the time a sync took place with the lms_analytics cookie.
attribution_user_id		This cookie is set by Typeform for usage statistics and is used in context with the website's pop-up questionnaires and messengering.
CONSENT		YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.
ln_or		Registers statistical data on users’ behaviour on the website. Used for internal anyalytics by the website operator.
lpv730213		Pending.
pardot		The pardot cookie is set while the visitor is logged in as a Pardot user. The cookie indicates an active session and is not used for tracking.
rl_anonymous_id		Generates an unique anonymous Id to identify a user and attach to a subsequent event.
rl_user_id		To store a unique user ID for the purpose of Marketing/Tracking.
UID		Scorecard Research sets this cookie for browser behaviour research.
undefined		Wistia sets this cookie to collect data on visitor interaction with the website's video-content, to make the website's video-content more relevant for the visitor.
visitor_id730213		Pardot Website tracking.
visitor_id730213-hash		Pardot Website tracking.
visitor-id		Pardot Website tracking.

Cookie	Dauer	Beschreibung
_an_uid		Presents the user with relevant content and advertisement. The service is provided by third-party advertisement hubs, which facilitate real-time bidding for advertisers.
IDE		Google DoubleClick IDE cookies are used to store information about how the user uses the website to present them with relevant ads and according to the user profile.
MUID		Bing sets this cookie to recognize unique web browsers visiting Microsoft sites. This cookie is used for advertising, site analytics, and other operations.
NID		NID cookie, set by Google, is used for advertising purposes; to limit the number of times the user sees an ad, to mute unwanted ads, and to measure the effectiveness of ads.
test_cookie		The test_cookie is set by doubleclick.net and is used to determine if the user's browser supports cookies.
VISITOR_INFO1_LIVE		A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC		YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices		YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id		YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.