Neue Studie: Kann eine transparente Heuristik KI bei der Erkennung von Gründerherkunft übertreffen?

Prof. Dr. David Bendig (l.), Dr. Jonathan Hoke (m.), Leoni Onken (r.)
Wie genau lässt sich die Herkunft einer Person aus großen sozialen Netzwerkdaten ableiten, und welcher rechnergestützte Ansatz funktioniert am besten? Diese im Technological Forecasting & Social Change (VHB JQ3: B; IF: 12,0) erschienene Studie vergleicht drei Ansätze — eine regelbasierte Heuristik, vier supervised Machine-Learning-Modelle und ein Large Language Modell (GPT-4o, Zero-Shot) — über 80 Herkunftsländer hinweg. Auf Basis von 500 expertenkodierten LinkedIn-Profilen legen die Ergebnisse nahe, dass eine transparente, theoretisch fundierte, regelbasierte Heuristik mit einer höheren Genauigkeit (87,2 %) in Verbindung steht als das Large-Language-Modell (82,2 %) und mit den besten Machine-Learning-Modellen in der Stichprobe gleichzieht.
Die zentralen Ergebnisse:
- Eine transparente Heuristik erreicht eine höhere Genauigkeit als GPT-4o: Auf Basis von 500 expertenvalidierten LinkedIn-Profilen aus 80 Herkunftsländern hinweg steht die regelbasierte Heuristik mit einer höheren Gesamtgenauigkeit (87,2 %) in Zusammenhang als GPT-4o im Zero-Shot-Modus (82,2 %) und zieht mit den besten Machine-Learning-Modellen in der Stichprobe gleich. Die Heuristik bietet zudem volle Transparenz und Reproduzierbarkeit. Eigenschaften, die Machine-Learning- und Large Language Modelle in dieser Form nicht aufweisen.
- Das Large-Language-Modell stützt sich oft auf den aktuellen Wohnort statt auf stabile Herkunftssignale: In 26 von 45 Fällen, in denen die Heuristik korrekt klassifizierte und GPT-4o nicht, wählte das Modell das explizit genannte Wohnsitzland statt stabiler biografischer Signale wie Muttersprache und Ausbildung zu gewichten. Die Heuristik priorisiert Signale, die in der frühen Lebensphase erworben werden (Sprache, Ausbildung), gegenüber Indikatoren späterer Mobilität (Arbeitsverlauf, Wohnort), was mit der zugrunde liegenden Informationsstruktur in Verbindung zu stehen scheint.
- Die Kombination mehrerer Profilsignale steht mit deutlich höherer Genauigkeit in Zusammenhang: Vorhersagen auf Basis von fünf Merkmalen (Name, Wohnort, Sprache, Ausbildungsorte, Arbeitsorte) erreichen 96,7 % Genauigkeit, während Vorhersagen auf Basis von nur zwei Merkmalen (Name und Wohnort) bei 66,7 % liegen. Dieser Befund spricht gegen die rein namensbasierte Klassifikation, die einen Großteil der bisherigen Literatur prägt.
- Gründer:innen mit Migrationshintergrund prägen die deutsche IT-Startup-Landschaft stärker als offizielle Zahlen vermuten lassen: Angewendet auf 5.479 Gründer:innen IT-naher Startups in Deutschland zwischen 2014 und 2024 legt die Heuristik nahe, dass 30,3 % nicht-deutscher Herkunft sind verglichen mit 21,1 % in der breiteren deutschen Startup-Population. Dies deutet auf eine deutlich höhere migrantische Beteiligung im Bereich digitales Unternehmertum hin.
Für die Praxis legen die Ergebnisse nahe, dass transparente, theoretisch fundierte Methoden bei gut strukturierten Inferenz-Aufgaben mit Large-Language-Modellen mithalten oder diese übertreffen können. Forschende und Praktiker:innen, die mit digitalen Daten arbeiten, können davon profitieren, mehrere Profilattribute zu integrieren (Sprache, Ausbildungsorte und Arbeitsorte) anstatt sich allein auf namensbasierte Klassifikation zu verlassen. Die Zuverlässigkeit abgeleiteter Herkunfts-Kennzeichnungen hängt stark von der Verfügbarkeit der Merkmale ab, sodass Robustheits-Checks und Konfidenz-Schwellenwerte jede angewandte Nutzung begleiten sollten.
Entscheidungsträger:innen, Acceleratoren, Inkubatoren und digitale Unternehmen, die auf digitale Daten angewiesen sind, aber keinen direkten Zugang zu demografischen Informationen haben, können von der validierten Methodik profitieren. Die Studie „Tracing origins: Comparing a heuristic, machine learning, and a large language model for migrant identification" von Prof. Dr. David Bendig, Dr. Jonathan Hoke und Leoni Onken (alle Universität Münster) ist hier frei zugänglich verfügbar: https://doi.org/10.1016/j.techfore.2026.124666
Kontakt für Rückfragen:
Dr. Jonathan Hoke
Universität Münster
Institut für Entrepreneurship
Leonardo-Campus 9, 48149 Münster
Email: jhoke@uni-muenster.de