PageRank, die Bibel und Ihr Unternehmen

Wie Graph Signal Processsing Ungleichheiten erkennt und korrigiert

  • Veröffentlicht:
  • Autor: Wolfgang Reuter
  • Kategorie: Deep Dive
Inhaltsverzeichnis
    Pagerank, die Bibel und Ihr Unternehmen, hero image, Alexander Thamm [at]
    Alexander Thamm [at] 2026

    Graph Signal Processing (GSP) ist ein vergleichsweise junges Teilgebiet der Data Science. Dabei bietet GSP für Unternehmen viele Anwendungsmöglichkeiten: Neben zahllosen technischen Einsatzfeldern, beispielweise beim Aufspüren fehlerhafter Komponenten in elektrischen Netzen oder bei der Rauschreduktion in Sensordaten, eröffnet GSP auch gesellschaftlich relevante Perspektiven. So lässt sich GSP beispielsweise nutzen, um Geschlechtergerechtigkeit zu messen oder Vergütungsstrukturen für fairere Bezahlung zu identifizieren und entsprechend anzupassen. 

    In diesem Beitrag werden jeweils zwei Beispiele analysiert. Die Ergebnisse zeigen, dass GSP eine aussagekräftigere Analyse von Diskriminierung ermöglicht als klassische statistische Kennzahlen wie Mittelwerte, Mediane oder andere aggregierte Maße (vorausgesetzt die Algorithmen sind sorgfältig auf die jeweilige Fragestellung abgestimmt). Darüber hinaus skizziert die Analyse, wie sich GSP nicht nur zur Diagnose, sondern auch zur Korrektur diskriminierender Muster in sozialen oder organisationalen Netzwerken einsetzen lässt.

    Dieser Artikel veranschaulicht, wie sich Graph Signal Processing einsetzen lässt, um diskriminierende Strukturen in Netzwerken und Organisationen zu erkennen, insbesondere mit Blick auf Geschlechterverhältnisse. Zwei Fallbeispiele werden ausführlicher betrachtet: das Beziehungsnetz biblischer Figuren sowie ein vereinfachter Organisationsgraph eines Unternehmens.

    Der Graph Biblischer Figuren

    Um zu veranschaulichen, wie unterschiedliche GSP-Verfahren bei der Analyse diskriminierender Strukturen in Netzwerken wirken, wurden zwei Beispielgraphen erzeugt, die in Abbildung 1 dargestellt sind. Das Vorgehen der Erstellung wird im Folgenden beschrieben.

    Der Bibelgraph wurde aus dem Datensatz Alamo Polyglot extrahiert, der über Kaggle heruntergeladen wurde [1]. Der Bibeltext wurde dabei zunächst in einzelne Wörter heruntergebrochen und in Tokens umgewandelt. Mehrfach vorkommende Namen (z.B. Maria) wurden mithilfe eines Wörterbuchs durch eindeutige Bezeichner wie Mary_1, Mary_2 usw. ersetzt. Dieses Wörterbuch ordnet biblische Namen konkreten Textstellen zu (zum Beispiel Adam_1: GEN 5:6, also Genesis, Kapitel 5, Vers 6) und ist ebenfalls Bestandteil der Alamo-Polyglot-Daten.

    Dies erwies sich jedoch als teilweise fehlerhaft und unvollständig. Von insgesamt 19.334 Namensvorkommen konnten daher nur 17.647 korrekt zugeordnet werden. Die verbliebenen 1.687 Einträge (8,7 Prozent) wurden ausgeschlossen. Der finale Graph basiert auf 2.559 eindeutigen Namensbezeichnern, die als Knoten fungieren. Eine Kante wird zwischen zwei Knoten gezogen, wenn ihre Namen im Text in einem Abstand von höchstens 776 Wörtern voneinander erscheinen, einschließlich Stoppwörtern. Der Schwellenwert von 776 wurde als kleinste Distanz gewählt, bei der der Graph vollständig zusammenhängend ist.

    Abbildung 1: Visualisierung des Bibelgraphen mit 2.559 Knoten und 346.676 Kanten (links) sowie des Unternehmensgraphen mit 50 Knoten und 96 Kanten (rechts).

    Analyse des Bibel Graphen 

    Die Analyse des Bibelgraphen konzentriert sich vor allem auf einen Vergleich zwischen Googles PageRank-Algorithmus und Verfahren aus dem Graph Signal Processing (GSP). Denn streng genommen handelt es sich bei PageRank nicht um einen GSP-Algorithmus, sondern um ein iteratives Graphverfahren auf Basis der Eigenvektor-Zentralität, das die Bedeutung von Knoten bestimmt. Zwar arbeitet PageRank nicht ausdrücklich mit Graphsignalen, jedoch lässt sich die Anzahl eingehender Kanten zu einem Knoten als eine Art Ersatzsignal interpretieren.¹

    Page Rank 

    Die Anwendung von PageRank² liefert ein auf den ersten Blick ein überraschendes Ergebnis, wenn man die zentrale Rolle Jesu in der Bibel bedenkt. Die im Christentum wohl bedeutendste Figur landet lediglich auf Rang 10, wie Tabelle I zeigt. Weniger überraschend wirkt dieses Resultat, wenn man biblische Figuren nach der Anzahl ihrer eingehenden Kanten ordnet: In dieser Perspektive erscheint Jesus erst auf Platz 250 mit 268 eingehenden Verbindungen. Seine Mutter Maria liegt mit nur 70 eingehenden Kanten auf Rang 1561 und erreicht im PageRank-Score Platz 382. Das deckt sich mit anderen Untersuchungen [2], die zeigen, dass Jesus in den verschiedenen Evangelien je nach Zentralitätsmaß unterschiedliche Werte annimmt. Um mögliche geschlechtsspezifische Verzerrungen in der Bibel zu untersuchen, wurden die PageRank-Werte männlicher und weiblicher Figuren getrennt aufsummiert und gemittelt³. Die Ergebnisse sind in Tabelle II zusammengefasst.

    Tabelle I: Vergleich der 10 wichtigsten Figuren der Bibel nach der PageRank und GSP-Analyse.

    Die Auswertung zeigt, dass die biblische Gesellschaft patriarchal geprägt war. Die einflussreichste Frau, Zeruja_1, erreicht lediglich Rang 32, und die aufsummierten Bedeutungswerte der weiblichen Figuren machen nur etwas mehr als 4 Prozent der Gesamtwerte aus, obwohl unter den 2.559 biblischen Figuren 138 Frauen sind, also 5,39 Prozent. Dieses Ungleichgewicht spiegelt sich auch im Durchschnittswert wider: Mit 0,000297 liegt er für Frauen bei knapp 76 Prozent des Gesamtmittelwerts von 0,0003901. Anders gesagt sind Frauen im biblischen Beziehungsgeflecht im Schnitt rund ein Viertel schlechter vernetzt als Männer.

    Tabelle II: Summe und Durchschnittswerte für männliche und weibliche biblische Figuren nach der PageRank und GSP-Analyse.

    GSP-Analyse 

    Wie bereits erwähnt, verwendet PageRank die Zahl der eingehenden Kanten als eine Art Ersatzsignal für die Vernetzung und bestimmt darauf aufbauend in einem iterativen Verfahren die Eigenvektor-Zentralität jedes Knotens. Die dabei wiederholt angewandte Gleichung lautet:

    r(t+1)=αWr(t)+(1−α)v

    Dabei gilt:

    • r(t) bezeichnet den PageRank-Vektor in Iteration t,
    • W ist die spaltennormalisierte Adjazenzmatrix,
    • v steht für den Teleportationsvektor (häufig gleichverteilt, also v=(1/n)1), der verhindert, dass der Algorithmus in stark miteinander verbundenen Teilkomponenten „stecken bleibt“,
    • α ist der Dämpfungsfaktor und wird auf 0,85 gesetzt. 

    Anders als bei Webseiten (dem ursprünglichen Einsatzgebiet von PageRank) sind in vielen Graphen zusätzliche Knoteneigenschaften vorhanden, die ebenfalls etwas über deren Bedeutung aussagen. Im Fall der biblischen Gesellschaft wurde die Anzahl der Erwähnungen einer Person als Signal herangezogen. Abbildung 2 zeigt, dass die Konnektivität der Knoten, also die Zahl der eingehenden Kanten, mit diesem Signal gar nicht oder nur sehr schwach korreliert. Der Pearson-Korrelationskoeffizient beträgt 0,40877. 

    Abbildung 2: Signalstärke (Anzahl der Erwähnungen) biblischer Figuren im Vergleich zu ihrer Konnektivität.

    Jesus weist trotz der bereits erwähnten geringen Zahl an Verbindungen (268, Rang 250) das zweitstärkste Signal auf: 977 Erwähnungen, übertroffen nur von David mit 1064 Nennungen. Intuitiv sollte die Multiplikation der zeilennormalisierten Adjazenzmatrix W mit dem Signalvektor s aller biblischen Figuren, also

    scores=Ws

    zu einem präziseren Maß für die Bedeutung der einzelnen Knoten führen und entsprechend zu einem höheren Wert für Jesus. Das ist allerdings nicht der Fall, wie Tabelle I zeigt. Jesus taucht nicht unter den zehn wichtigsten Figuren auf, sondern liegt lediglich auf Rang 2114. Maria hingegen verbessert sich von Rang 1561 (nach PageRank) auf Rang 1103. Die aufsummierten Werte der weiblichen Figuren fallen in dieser Auswertung etwas höher aus als in der PageRank-Analyse, bleiben aber in ähnlicher Größenordnung; der durchschnittliche Wert der Frauen liegt sogar über dem der Männer. Auch eine iterative Anwendung des beschriebenen Verfahrens macht die Resultate nicht aussagekräftiger: Der Algorithmus glättet die Signale schließlich so stark, dass sie sich einander angleichen.

    Fazit: Diese sehr einfache GSP-Analyse eignet sich nicht, um die Bedeutung biblischer Figuren zu bestimmen, und offenbar wirkt sich die Verwendung des Signals als Bedeutungsmaß hier eher kontraproduktiv aus. Woran liegt das? Um dem nachzugehen, wird in Abbildung 3 der Signalverlust in Relation zur Signalstärke und zur Konnektivität dargestellt. Es zeigt sich eine sehr starke lineare Korrelation (Pearson-Koeffizient: 0,989163) zwischen dem ursprünglichen Signal und dem Signalverlust, während der Zusammenhang mit der Konnektivität deutlich schwächer ist. Mathematisch lässt sich diese hohe Korrelation folgendermaßen erklären: 

    Sei s ∈ ℝⁿ der ursprüngliche Signalvektor auf den Knoten eines Graphen und W ∈ ℝⁿˣⁿ die zeilennormalisierte Adjazenzmatrix. Das nach einem Diffusionsschritt resultierende Signal ergibt sich zu

    s′=Ws

    Die Signaländerung, beziehungsweise der Signalverlust nach einem solchen Schritt ist dann

    Δs=s−s′=s−Ws=(I−W)s

    Die Matrix (I−W) wirkt hier als linearer Operator, der das Signal eines Knotens mit dem durchschnittlichen Signal seiner Nachbarn vergleicht.

    Unter typischen Bedingungen wie

    • einer spärlich besetzten Graphstruktur,
    • einem Signalvektor s mit starken Unterschieden zwischen den Knoten,
    • und der Anwendung nur eines einzigen Diffusionsschritts 

     nähert sich jede Zeile von (I−W) einer skalierten Einheitsmatrix an – insbesondere bei Knoten, deren Nachbarn durchweg niedrigere (oder höhere) Signalwerte aufweisen. Daraus folgt näherungsweise

    Δs≈αs

     

    für einen Skalierungsfaktor α∈(0,1), was die starke lineare Korrelation zwischen dem ursprünglichen Signal s und dem Signalverlust Δs erklärt. 

    Dennoch bestehen konzeptionelle Unterschiede zu PageRank. Erstens ist W in der skizzierten GSP-Analyse zeilennormalisiert und nicht spaltennormalisiert. Und zweitens fehlt das Teleportationsverfahren. Doch selbst wenn man entweder eine spaltennormalisierte Adjazenzmatrix verwendet oder die Teleportation exakt wie bei PageRank einführt – oder beide Änderungen kombiniert –, variiert der Rang Jesu zwar, steigt jedoch nicht über Platz 305. Dasselbe gilt, wenn das Verfahren so lange iterativ wiederholt wird, bis die Summe der Signalunterschiede zwischen zwei aufeinanderfolgenden Iterationen unter einen Schwellenwert (1e-7) fällt. Es stellt sich also die Frage, wie sich die Signale, die intuitiv ein sinnvolles Maß für Bedeutung darstellen, nutzen lassen, um die reine PageRank-Analyse sinnvoll zu erweitern.

    Hybrid PageRank-GSP Verfahren 

    Eine Möglichkeit besteht darin, PageRank weiterhin anzuwenden, jedoch anstelle eines gleichverteilten Teleportationsvektors den Signalvektor zu verwenden. Die iterative Gleichung lautet dann:

    r(t+1)=αWr(t)+(1−α)s

    Dabei gilt:

    • r(t) ist der PageRank-Vektor in Iteration t,
    • W bezeichnet die spaltennormalisierte Adjazenzmatrix,
    • s ist der Signalvektor, der jedem Knoten die Zahl seiner Erwähnungen zuweist,
    • α ist der Dämpfungsfaktor und wird – wie in der ursprünglichen PageRank-Analyse – auf 0,85 gesetzt.

    Auf diese Weise ergibt sich ein plausibles Bild der Bedeutung biblischer Figuren, wie Tabelle III verdeutlicht. Jesus liegt nun auf Rang 2, was seinem hohen Signal entspricht, also der zweithöchsten Zahl an Erwähnungen (977 vor der Normalisierung). Seine Mutter Maria erscheint auf Rang 96. 

    Tabelle III: Vergleich der 10 wichtigsten biblischen Figuren entsprechend ihrer Signale und Ranking der hybriden PageRank-GSP Analyse.

    Ein Blick auf Tabelle III legt nahe, dass das Ergebnis dem ursprünglichen Signal sehr ähnlich ist. Das trifft jedoch nur auf die Figuren an der Spitze der Rangliste zu. Bei genauerer Betrachtung zeigt sich, dass sich für 2553 der insgesamt 2559 Figuren die Platzierung verändert hat. Schobab_2 etwa verbessert sich vom Signalrang 2404 auf Rang 304, was die größte Verschiebung in der gesamten Auswertung darstellt. Doch auch viele andere Figuren werden neu eingeordnet, wie Abbildung 3 zeigt.

    Abbildung 3: Histogramm der absoluten Rangänderungen nach Anwendung des hybriden PageRank-GSP-Ansatzes im Vergleich zum ursprünglichen Signal.

    Zusätzlich haben sich die Werte für männliche und weibliche Figuren verschoben. Die Dominanz männlicher Bedeutung fällt im Vergleich zur reinen PageRank-Analyse etwas geringer aus, obwohl weibliche Figuren im Durchschnitt nicht nur weniger stark vernetzt sind (92,2 gegenüber 137,9 Kanten), sondern auch ein schwächeres durchschnittliches Signal aufweisen (5,01 gegenüber 6,72). Auf den ersten Blick wirkt das widersprüchlich, könnte jedoch verschiedene Ursachen haben, wie etwa die Nähe mehrerer Frauen zu Männern mit hohem Signal oder die Funktion einzelner Frauen als Verbindungsknoten zwischen Gruppen signalstarker Männer. Diese Aspekte wurden hier nicht weiter vertieft. Die entsprechenden Ergebnisse sind in Tabelle IV dargestellt. Die erste Frau erscheint nun auf Rang 47.

    Tabelle IV: Summe und Durchschnittswerte für männliche und weibliche biblische Figuren entsprechend der PageRank und GSP-Analyse.

    In der oben beschriebenen hybriden Auswertung wurde der Signalvektor in den PageRank-Ansatz integriert: Der anfängliche PageRank-Vektor r ist ein normierter, gleichverteilter Vektor aus Einsen, und die Adjazenzmatrix wird spaltenweise normalisiert. Eine alternative Möglichkeit, den Signalvektor einzubeziehen, besteht darin, in der im vorangegangenen Abschnitt skizzierten GSP-Analyse ein Teleportationsverfahren zu ergänzen. In diesem Fall ist der erste Vektor, der iterativ mit der zeilennormalisierten Adjazenzmatrix multipliziert wird, der Signalvektor. Es wurde bereits gezeigt, dass dieser Ansatz mit einem gleichverteilten Teleportationsvektor nicht funktioniert.

    Ersetzt man den uniformen Teleportationsvektor jedoch durch den Signalvektor, ergeben sich ähnliche Resultate. Mit dieser leicht modifizierten Methode liegt Jesus ebenfalls auf Rang zwei der Bedeutungsskala, während Maria auf Platz 131 erscheint. Auch die Verzerrung zugunsten männlicher Figuren fällt geringer aus als bei reinem PageRank – und die erste Frau taucht bereits auf Rang 20 auf.

    Die Ergebnisse werden hier nicht im Detail aufgeführt. Jedoch lässt sich beobachten: Im ersten Ansatz (Signal als Teleportationsvektor im PageRank) misst Bedeutung vor allem den Einfluss anderer biblischer Figuren auf eine Person, also eingehende Verbindungen. Der zweite Ansatz (GSP-Analyse mit signalbasierter Teleportation) bildet hingegen die Diffusion des Signals zu ausgehenden Knoten ab, also wie stark eine Figur ihrerseits andere beeinflusst. Letzteres dürfte besonders dann aussagekräftig sein, wenn Organisationen oder Unternehmen analysiert werden.

    Beispiel-Graph einer fiktiven Firma 

    Unser Beispielunternehmen umfasst 50 Beschäftigte auf vier Hierarchieebenen: 3 Mitglieder der Geschäftsleitung, 7 Führungskräfte im mittleren Management, 37 Mitarbeitende sowie 3 Auszubildende (Ebenen 1 bis 4). Den Beschäftigten wurden zufällig Geschlechter (männlich oder weiblich) und Gehälter aus vier Spannen zugewiesen:

    • Geschäftsleitung: 100.000–200.000 US-Dollar
    • Management: 80.000–120.000 US-Dollar
    • Mitarbeitende: 50.000–90.000 US-Dollar
    • Auszubildende: 20.000–35.000 US-Dollar

    Zur Abbildung der Berichtswege wurden Kanten eingefügt, die die jeweiligen Vorgesetztenverhältnisse darstellen. 

    Analyse eines fiktiven Firmen-Graphen

    Da keine realen HR-Daten zur Verfügung standen, wurde der Unternehmensgraph synthetisch und zufällig erzeugt. Eine Zusammenfassung der Daten findet sich in Tabelle V. 

    Tabelle V: Zusammenfassung der synthetischen Firmenwerte.

    Ziel war es zunächst zu prüfen, ob sich in den Ranglisten Geschlechtergleichheit abbildet, selbst in einem kleinen Graphen mit nur 50 Knoten, wenn männliche und weibliche Beschäftigte zufällig den Rollen zugeordnet werden und die Gehälter innerhalb vorgegebener Spannen pro Position ebenfalls zufällig verteilt sind. Wie Tabelle VI zeigt, ist das der Fall. Dabei wurde folgender Ansatz gewählt:

    Tabelle VI: Summe und Durchschnittswerte für männliche und weibliche Angestellte entsprechend ihrer Signal-Ränge und der hybriden GSP-Analyse mit Teleportation.

    s(t+1)=αWs(t)+(1−α)sinitial

    Dabei gilt:

    s(t) ist der Signalvektor in Iteration t,

    W bezeichnet die zeilennormalisierte Adjazenzmatrix,

    α ist der Dämpfungsfaktor und wird auf 0,85 gesetzt,

    sinitial ist der anfängliche Signalvektor, in diesem Fall die Gehälter. 

    Sowohl der Signalvektor s(t) als auch  s initial sind normalisiert.⁵ Der Einfluss der Frauen fällt leicht höher aus, was auf ihre stärkere Vernetzung zurückzuführen ist: Männliche Beschäftigte sind mit 81 anderen Mitarbeitenden verbunden, weibliche hingegen mit 111. Auf einer abstrakten Ebene lassen sich die resultierenden Werte als neu berechnete Gehälter interpretieren. Damit wird deutlich, dass GSP-basierte Verfahren nicht nur für die Analyse von Netzwerken geeignet sind, sondern auch für betriebliche Fragestellungen, etwa zur Überprüfung von Vergütungsgerechtigkeit, zur Modellierung von Informationsflüssen oder zur Simulation der Diffusion von Innovationen oder Einfluss innerhalb einer Organisation.

    Ein Gehaltssystem basierend auf GSP-Prinzipien

    Im Folgenden wird veranschaulicht, wie sich Gehälter verändern könnten, wenn sie an den Einfluss der einzelnen Beschäftigten im Unternehmen angepasst würden, berechnet mithilfe einer GSP-basierten Analyse mit signalbasiertem Teleportationsvektor. Die entsprechenden Ergebnisse sind in Abbildung 4 dargestellt. 

    Abbildung 4: Gehaltsänderungen gemäß dem hybriden GSP mit signalbasierter Teleportation.

    Auffällig ist, dass der hier verwendete GSP-Ansatz dazu neigt, Gehaltsunterschiede zu glätten. Sämtliche Mitglieder der Geschäftsleitung und des Managements würden in einem solchen Modell Einbußen hinnehmen müssen, während alle Auszubildenden ein höheres Gehalt erhielten. Dieses Ergebnis ist jedoch rein illustrativ – ein Beispiel dafür, wie Gehälter in einem Unternehmenskontext berechnet werden könnten. Faktoren wie Qualifikationsniveau, Berufserfahrung oder die Marktnachfrage nach bestimmten Kompetenzen bleiben dabei unberücksichtigt. Solche Aspekte ließen sich allerdings über eine sinnvolle, domänenspezifische Gestaltung des Signals einbeziehen. Auf diese Weise entstünde ein realistischeres und stärker auf das jeweilige Unternehmen zugeschnittenes Modell zur Gehaltsprognose.

    Zur Veranschaulichung wird daher ein einfaches Senioritätskonzept eingeführt. Das Ausgangssignal wird mit dem Faktor 5 × Senioritätsstufe multipliziert, sodass für Führungskräfte ein größerer Anteil des Signals erhalten bleibt (die Senioritätsstufen reichen von 1 für die Geschäftsleitung bis 4 für Auszubildende). Die Auswirkungen dieser Anpassung sind in Abbildung 5 dargestellt; zu beachten ist dabei die veränderte Skalierung der y-Achse.

    Abbildung 5: Gehaltsänderungen gemäß der hybriden GSP-Analyse mit signal- und senioritätsbasierter Teleportation.

    Unter Berücksichtigung der Seniorität erhält die bestbezahlte Führungskraft (Knoten 19) nun ein Signal, das einem fair berechneten Gehalt von 134.070 entspricht, statt wie zuvor 103.398. Von den sieben Managerinnen und Managern müssten in diesem Modell nur noch vier Gehaltseinbußen hinnehmen, während es im vorherigen Ansatz alle sieben betroffen hätte.

    Zugleich ist zu bedenken, dass Gehaltskürzungen für bestehende Beschäftigte in der Praxis meist kaum realistisch sind. Der hier vorgestellte Ansatz ließe sich jedoch sinnvoll einsetzen, um für neu geschaffene Stellen oder künftige Einstellungen angemessene Gehaltsniveaus zu bestimmen. Er bietet damit eine datengestützte und einflussorientierte Ergänzung zu herkömmlichen Vergütungsmodellen.

    Anpassung von diskriminierenden Strukturen mit GSP

    Unser Unternehmensgraph wurde zufällig erzeugt und weist daher keine inhärenten diskriminierenden Strukturen auf. Um zu zeigen, wie sich solche Strukturen korrigieren ließen, wird dem Graphen nun gezielt eine synthetische Verzerrung hinzugefügt. Dies geschieht nach folgendem Vorgehen: 

    1. Das Geschlechtsattribut der drei männlichen Beschäftigten mit den höchsten Scores wird auf weiblich geändert.
    2. Das Geschlechtsattribut der drei weiblichen Beschäftigten mit den niedrigsten Scores wird auf männlich geändert. 

    Auch wenn dieser Eingriff zunächst geringfügig wirkt, hat er spürbare Auswirkungen. Der Einfluss weiblicher Beschäftigter im Netzwerk nimmt deutlich zu, wie in Tabelle VII dargestellt.

    Tabelle VII: Durchschnittgehälter und -Scores für männliche und weibliche Angestellte entsprechend der hybriden GSP-Analyse mit signalbasierter Teleportation, für sowohl den biased als auch den unbiased Graphen.

    Obwohl die Gesamtzahl männlicher und weiblicher Beschäftigter unverändert bleibt (jeweils 25), sinkt das durchschnittliche Gehalt der Männer um mehr als 10.000 Einheiten, während das durchschnittliche Gehalt der Frauen in ähnlicher Größenordnung steigt. Um diese künstlich erzeugte Verzerrung auszugleichen, lassen sich verschiedene GSP-basierte Korrekturverfahren einsetzen. Ein möglicher Ansatz besteht darin, die GSP-Analyse mit signalbasierter Teleportation erneut durchzuführen, diesmal jedoch unter Einbezug eines Korrekturfaktors c, definiert als

    corr_ratio=(1−ymale/yfemale)/2

    wobei y male und y female die durchschnittlichen Gehälter männlicher beziehungsweise weiblicher Beschäftigter bezeichnen. Die Gehälter werden anschließend wie folgt angepasst:

    • die Gehälter der Frauen werden mit 1 − corr_ratio multipliziert,
    • die Gehälter der Männer mit 1 + corr_ratio

     und anschließend so skaliert, dass die Gesamtsumme wieder der ursprünglichen (verzerrten) Gehaltssumme entspricht. Diese korrigierten Gehälter bilden einen neuen Signalvektor s_corr, der sowohl als Teleportationsvektor als auch als Ausgangssignal im iterativen Verfahren verwendet wird:

      s(t+1)=αWs(t)+(1−α)scorr

    Dabei gilt:

    • s(t) ist der Signalvektor in Iteration t,
    • W bezeichnet die zeilennormalisierte Adjazenzmatrix,
    • α ist der Dämpfungsfaktor und wird auf 0,85 gesetzt.

    Durch dieses Korrekturverfahren ergibt sich für Männer wieder ein durchschnittliches Signal von 0,019620 und für Frauen von 0,020380 – die eingeführte Verzerrung wird damit effektiv neutralisiert. Die entsprechenden Gehaltsveränderungen sind in Abbildung 6 visualisiert. Das Muster ähnelt dem in Abbildung 4, allerdings verlieren Frauen nun im Durchschnitt etwas mehr, während Männer leicht hinzugewinnen. Wie zuvor gilt: Solche Anpassungen auf die Gehälter bestehender Beschäftigter anzuwenden, dürfte in der Praxis wenig realistisch sein. Der Ansatz ist jedoch nützlich, wenn es darum geht, für neue Stellen oder künftige Einstellungen angemessene Vergütungsniveaus zu bestimmen.

    Darüber hinaus liefert die Analyse weitere Hinweise. Wenn, wie in diesem Beispiel, nur Netzwerkposition und Gehalt berücksichtigt werden, erscheinen zwei weibliche Beschäftigte deutlich überbezahlt. Anstatt ihre Gehälter zu kürzen, ließe sich alternativ ihre Verantwortung im Unternehmen erhöhen. In graphischer Perspektive würde das bedeuten, dass ihnen mehr Mitarbeitende unterstellt werden. Auf diese Weise kann also auch die Struktur des Graphen selbst angepasst werden, um organisatorische Fairness und Effizienz besser abzubilden.

    Abbildung 6: Gehaltsänderungen gemäß dem hybriden GSP mit geschlechtsbezogen bias-korrigierter signalbasierter Teleportation.

    Fazit

    Diese Studie hat anhand der Beispiele der biblischen Gesellschaft und eines simulierten Unternehmens gezeigt, dass sich mit Methoden des Graph Signal Processing (GSP) Verzerrungen in Netzwerken wirkungsvoll sichtbar machen lassen. Solche Verzerrungen werden dabei nicht ausschließlich über einzelne Kennzahlen wie etwa Durchschnittsgehälter identifiziert, sondern unter Einbezug der strukturellen Position der Knoten (also der jeweiligen Personen) und weiterer Merkmale innerhalb des Netzwerks. Am Beispiel des Modellunternehmens wurde zudem deutlich, dass sich mit sorgfältig konzipierten GSP-Verfahren auch Korrekturen solcher Ungleichgewichte vornehmen lassen.

    In der Praxis sind die daraus abgeleiteten Maßnahmen, wie beispielswleise Gehaltskürzungen,nicht immer realistisch umsetzbar. Ebenso ist es häufig schwierig, die Netzwerkstruktur selbst zu verändern, um Mitarbeitenden zusätzliche Verantwortlichkeiten zuzuweisen.

    Dennoch stellen die hier vorgestellten Methoden wertvolle Werkzeuge für die Analyse von Netzwerken dar und können als Grundlage dienen, um Anpassungen entweder an der Struktur des Netzwerks oder am zugrunde liegenden Signal vorzuschlagen.

    Im Unternehmenskontext könnten etwa Beschäftigte, die gemessen an ihrer Zentralität und ihrem aktuellen Gehalt als unterbezahlt erscheinen, für Beförderungen in Betracht gezogen werden. Ebenso lassen sich mithilfe dieser Verfahren angemessene Gehaltsspannen für neu geschaffene Stellen ableiten. Trotz der Einschränkungen durch reale Rahmenbedingungen ergeben sich damit zahlreiche Anwendungsmöglichkeiten.

    Künftige Arbeiten könnten sich etwa mit der automatisierten Gestaltung von Signalen mittels Graph Neural Networks (GNNs) befassen oder GNNs zur Optimierung von Netzwerkstrukturen einsetzen. Anknüpfungspunkte bieten etwa die Arbeiten [3], [4] und [5], die sich mit signalbasierter Modellierung und Topologieoptimierung auf Grundlage von GNNs beschäftigen. Solche Erweiterungen gehen jedoch über den Rahmen dieser Studie hinaus, deren zentrales Ziel darin bestand, den Nutzen und die praktische Einsetzbarkeit von GsSP-Methoden zur Erkennung und Korrektur von Verzerrungen in vernetzten Systemen zu demonstrieren.

    Fußnoten

    1 PageRank ist ein leistungsfähiger Algorithmus zur Bestimmung der Bedeutung von Knoten. Er revolutionierte in den frühen 2000er Jahren die Suchmaschinenbranche und trug dazu bei, dass Google einen weltweiten Marktanteil von etwa 80 Prozent erreichte. Dennoch ist es möglich, dass PageRank noch präzisere oder aussagekräftigere Ergebnisse liefern könnte, wenn er um reale Signaldaten ergänzt würde, etwa um die Anzahl der Zugriffe auf eine Webseite innerhalb eines bestimmten Zeitraums. Auch wenn solche Daten für die meisten Webseiten nicht öffentlich verfügbar sind, könnte eine Studie an einer Teilmenge von Seiten mit bekannten Zugriffszahlen tiefere Einblicke in das Potenzial von Graph Signal Processing liefern.

    2 Hier wurde die Implementierung aus NetworkX mit einem Dämpfungsfaktor von 0,85 verwendet, was einer Teleportationswahrscheinlichkeit von 0,15 entspricht. Das bedeutet, dass der Algorithmus in 15 Prozent der Fälle zufällig zu einem anderen Knoten springt, anstatt einer Kante zu folgen.

    3Das Geschlecht jeder name_id stellt das Kaggle Alamo Polyglot Dataset bereit.

    4Mit einem gleichverteilten, normalisierten Vektor v und einem Dämpfungsfaktor von 0,85.

    5 Diese iterative Formulierung lässt sich als Graphfilter-Operation interpretieren. Sie ähnelt stark einem personalisierten PageRank-Verfahren, modelliert jedoch im Unterschied zum klassischen PageRank nicht den Einflussfluss über eingehende Kanten, sondern propagiert das Signal über ausgehende Kanten, indem eine zeilennormalisierte Adjazenzmatrix verwendet wird. Dies ist im Wesentlichen äquivalent zur Anwendung eines personalisierten PageRank mit transponierter Adjazenzmatrix. Der Teleportationsmechanismus verhindert ein zu rasches Abklingen des Signals, indem das ursprüngliche Signal in jedem Schritt in den Diffusionsprozess zurückgemischt wird und so dessen Einfluss über die Zeit erhalten bleibt. Darüber hinaus wurde auf die Konstruktion einer äquivalenten Filtermatrix verzichtet, da die hier verwendete iterative Formulierung intuitiver und umfassender ist und einen klareren sowie flexibleren Zugang ermöglicht. 

    Referenzen

    [1] Kaggle, “Alamo Polyglot,” 2023. [Online]. Available: https://www.kaggle.com/code/mpwolke/alamo-polyglot

    [2] J. M. McClure, “Jesus’s Social Network and the Four Gospels: Exploring the Relational Dynamics of the Gospels Using Social Network Analysis,” Biblical Theology Bulletin, vol. 50, no. 1, pp. 35–53, 2020. [Online]. Available: https://doi.org/10.1177/0146107919892841

    [3] F. Gama, A. G. Marques, G. Leus, and A. Ribeiro, “Convolutional neural network architectures for signals supported on graphs,” IEEE Transactions on Signal Processing, vol. 67, no. 4, pp. 1034–1049, 2019. [Online]. Available: https://arxiv.org/abs/1805.00165

    [4] M. Seo and S. Min, “Graph neural networks and implicit neural representation for near-optimal topology prediction over irregular design domains,” Engineering Applications of Artificial Intelligence, vol. 123, Part A, 106284, Aug. 2023. [Online]. Available: https://doi.org/10.1016/j.engappai.2023.106284

    [5] G. B. Gavris and W. Sun, “Topology optimization with graph neural network enabled regularized thresholding,” Extreme Mechanics Letters, vol. 71, 102215, Sep. 2024. [Online]. Available: https://doi.org/10.1016/j.eml.2024.102215

    Diesen Beitrag teilen:

    Autor

    Wolfgang Reuter

    Wolfgang Reuter ist Leading Strategist und KI-Experte bei Alexander Thamm. Er studierte Umweltwissenschaften an der UEA in Norwich, UK, und ist ausgebildeter Journalist. Er war unter anderem Korrespondent für den "Spiegel" in Frankfurt und Berlin, Ressortleiter Unternehmen & Märkte beim "Handelsblatt" und stellvertretender Redakteur beim "Focus". Dann begann er sich mit Programmierung zu beschäftigen und konzentrierte sich später auf künstliche Intelligenz. Mit damals 52, wechselte er den Beruf - und arbeitet nun hauptberuflich in diesem Bereich.

    X

    Cookie Freigabe

    Diese Website verwendet notwendige Cookies zur Sicherstellung des Betriebs der Website. Eine Analyse des Nutzerverhaltens durch Dritte findet nicht statt. Detaillierte Informationen über den Einsatz von Cookies finden Sie in unseren Datenschutzerklärung.