Data Science - Hip, cool, und sinnvoll. Eine kurze Einführung.

Data Science - Hip, cool, und sinnvoll. Eine kurze Einführung.

Wie viele Kommilitoninnen hast du? Wie viele Kolleginnen? Wahrscheinlich sind es nicht gleich viele Männer und Frauen. Aber ist dieser Unterschied noch zufällig, oder kann man auf einen Gender-Gap schließen? Um das herauszufinden können wir Methoden aus dem Gebiet der “Data Science” verwenden. Kurz gesagt ist Data Science ein Fachgebiet, bei dem Daten benutzt werden, um Informationen zu erhalten. Statistik mit Computern, könnte man sagen.

Um herauszufinden, ob es einen Gender-Gap in unserem Fachgebiet gibt, sammeln wir also zunächst einmal Daten (das “Data” in “Data Science”). Wir fragen unsere Freund*innen, die in unserem Fachbereich arbeiten, wieviele Männer und wieviele Frauen ihre Teams haben und bekommen folgende Antworten:

Aus diesen wenigen Daten können wir noch nichts ablesen. Nehmen wir also an, wir hätten noch viel mehr Personen gefragt (die alle in unterschiedlichen Firmen, aber demselben Fachbereich arbeiten). Erst jetzt können wir wissenschaftlich (das “Science” in “Data Science”) untersuchen, ob es einen Gender-Gap gibt. Wir stellen dazu erst einmal die Hypothese auf, dass es so viele Männer wie Frauen gibt. Diese Hypothese nennt man auch die “Nullhypothese”.

Um die Nullhypothese zu überprüfen, führen wir einen statistischen Test durch, der sich “Chi-Quadrat-Test” nennt. Damit kann man testen, ob eine Variable wie “Geschlecht” eine bestimmte Wahrscheinlichkeitsverteilung hat. In unserem Fall nutzen wir den Chi-Quadrat-Test, um zu überprüfen, ob die beobachtete Anzahl von Männern und Frauen der erwarteten Anzahl von Männern und Frauen entspricht. Bevor ihr zu lange darüber nachdenkt und sich euer Gehirn zu sehr verdreht, führen wir den Test doch einfach mal durch.

Zunächst rechnen wir zusammen, wieviele Männer und Frauen gezählt wurden. Sagen wir, wir hätten die folgenden Zahlen erhalten:

Insgesamt wurden also 364 Personen gezählt. Laut unserer Nullhypothese erwarten wir, dass die Hälfte aller Personen weiblich und die andere Hälfte männlich ist.

Um zu überprüfen, ob die beobachteten 220 und 144 zu sehr von den erwarteten 182 abweichen um noch Zufall zu sein, berechnen wir nun das “Chi-Quadrat” und einen Wert, der sich “p-Wert” nennt. Das Chi-Quadrat sagt, wie unterschiedlich die beobachteten Werte von den erwarteten Werten sind und der p-Wert sagt, wie wahrscheinlich es ist, dass dieser Unterschied Zufall ist. Die Rechnung hierzu erspare ich uns und verweise auf folgende Google Colab Datei, bei der ich unsere Testdaten in eine Python-Bibliotheksfunktion eingegeben habe, die den Rest für uns erledigt. Das Resultat ist:

Der p-Wert sagt uns, dass die Wahrscheinlichkeit, dass Chi-Quadrat etwa 15 ist, nur 0,007% ist, falls unsere Nullhypothese wahr ist. Da Chi-Quadrat aber nun mal ungefähr 15 ist, bedeutet das, dass die Abweichung unserer Beobachtung von unserer Erwartung kein Zufall sein kann. Deshalb müssen wir die Nullhypothese, dass es so viele Männer wie Frauen in unserem Fachbereich gibt, verwerfen. Da wir mehr Männer als Frauen gezählt haben können wir davon ausgehen, dass mehr Männer als Frauen hier arbeiten.

Wenn wir recherchieren, finden wir heraus, dass es in vielen Fachbereichen Gender-Gaps gibt, sei es, dass es mehr Frauen oder mehr Männer gibt. Besonders falls du Informatiker*iin bist, ist dir der Gender-Gap sicher schonmal aufgefallen. Der Gender-Gap in der Informatik zieht sich nicht nur durch die Arbeitswelt, sondern auch durch das Studium. Er zeigt sich auch bei Autor*innen von wissenschaftlichen Publikationen aus der Informatik. Über den Gender-Gap bei diesen Autor*innen habe ich im Sommersemester 2019 an der HTW Berlin meine Bachelorarbeit geschrieben. Meine Ausarbeitung und mein Python-Code, den in verwendet habe, findet ihr auf GitHub.