Gemeinsame Modellierung kann Schulen dabei helfen, Schulabbrecher vorherzusagen und zu verhindern

Ein von Cornell gemeinsam geleitetes Forschungsteam stellte fest, dass für Schulen, die nicht über die Ressourcen verfügen, Lernanalysen durchzuführen, um den Schülern zum Erfolg zu verhelfen, eine Modellierung auf der Grundlage von Daten anderer Institutionen genauso gut funktionieren kann wie eine lokale Modellierung, ohne dass die Fairness darunter leidet.

„Um datengesteuerte Modelle nutzen zu können, braucht man Daten“, sagte Rene Kizilcec, Assistenzprofessor für Informationswissenschaft am Cornell Ann S. Bowers College of Computing and Information Science. „Und in vielen Schulen, insbesondere in Schulen mit geringeren Ressourcen, die am meisten von Lernanalyseanwendungen profitieren würden, sind Daten selten zugänglich.“

Kizilcec ist leitender Autor von „Cross-Institutional Transfer Learning for Educational Models: Implications for Model Performance, Fairness, and Equity“, das auf der Association for Computing Machinery-Konferenz über Fairness, Zugänglichkeit und Transparenz vorgestellt wird (ACM FAccT), 12.-15. Juni in Chicago. Der Hauptautor ist Josh Gardner, Doktorand der Informatik an der University of Washington.

Kizilcec und sein Team verwendeten anonymisierte Daten von vier US-Universitäten und wandelten sie in eine gemeinsame Struktur um, um zu modellieren, welche Studenten wahrscheinlich ihr Studium abbrechen werden. Nur die universitätsspezifischen Modelle – keine individuellen Studentendaten, was Datenschutzprobleme aufwirft – wurden zwischen den Mitgliedern des Forschungsteams geteilt.

In den USA brechen jedes Jahr mehr als eine Million Studenten ihr Studium ab. Es ist 100-mal wahrscheinlicher, dass sie mit ihren Studiendarlehenszahlungen in Verzug geraten, als diejenigen, die ihren Abschluss machen. Dies hat die Bundesregierung dazu veranlasst, Vorschriften zu erlassen, die Hochschulen und Universitäten dazu anregen, die Zahl der Schulabbrecher zu reduzieren, indem sie sie dazu verpflichten, Abbrecherquoten sowie Rankings zu melden, die die Abschlussquoten berücksichtigen.

Kizilcec sagte, dass große Institutionen über die Ressourcen verfügen, um prädiktive Datenanalysen durchzuführen. Aber Institutionen, die am meisten von diesen Daten profitieren könnten – kleinere Hochschulen oder zweijährige Hochschulen – tun dies normalerweise nicht.

„Sie müssen sich auf die Dienste einiger weniger Unternehmen verlassen, die Bildungsanalyseprodukte anbieten.“ er sagte. „Institutionen können entweder ihre eigenen Modelle erstellen – ein sehr kostspieliger Prozess – oder eine Analyselösung erwerben, wobei die Modellierung normalerweise extern auf den Daten anderer Institutionen erfolgt. Die Frage ist, ob diese externen Modelle genauso gut funktionieren wie lokale Modelle. und ob sie Vorurteile einführen.“

Das Ziel der Arbeit der Forscher war eine genaue Vorhersage der „Retention“ – also der Frage, ob jeder Student, der im Herbst zum ersten Mal eine Hochschule betritt, sich im darauffolgenden Herbst an derselben Hochschule einschreiben würde.

Um den Erfolg des Transferlernens zu bewerten – das Sammeln von Informationen von einer Institution und deren Nutzung zur Vorhersage von Ergebnissen an einer anderen – verwendete das Team drei Ansätze:

  • Direkter Transfer – ein Modell von einer Institution wird an einer anderen verwendet;
  • Abstimmungstransfer – eine Form der Mittelwertbildung, um die Ergebnisse mehrerer Modelle („Wähler“) zu kombinieren, die an unterschiedlichen Institutionen trainiert wurden, um die Ergebnisse an einer anderen vorherzusagen; Und
  • Gestapelter Transfer – Kombination der Vorhersagen von Modellen, die an allen verfügbaren Institutionen trainiert wurden, mit den Trainingsdaten der Quellinstitution.
  • Die Forscher verwendeten die drei Transfermethoden zusammen mit der lokalen Modellierung an jeder der vier Institutionen, um die Gültigkeit des Transferlernens zu bewerten. Erwartungsgemäß gelang es der lokalen Modellierung, die Abbrecherquoten besser vorherzusagen, „aber ehrlich gesagt nicht in dem Maße, wie wir gedacht hätten, wenn man bedenkt, wie unterschiedlich die vier Institutionen hinsichtlich Größe, Abschlussquoten und Studentendemografie sind“, sagte Kizilcec.

    Und in Bezug auf Fairness – die Fähigkeit, über Geschlecht und ethnische Untergruppen hinweg eine gleichwertige Vorhersageleistung zu erzielen – schnitt die Modellierung gut ab, ohne die Fairness zu opfern.

    Kizilcec sagte, die Ergebnisse seines Teams deuten auf mehr Gerechtigkeit bei der Vorhersage von Schulabbrüchen hin, was ressourcenschwächeren Schulen dabei helfen könnte, früher einzugreifen und Schülerabwanderungen zu verhindern, die die Einrichtung kosten und zu schlechteren Ergebnissen für die Schüler führen könnten.

    „Es ist möglicherweise doch nicht notwendig, Ressourcen für die Schaffung lokaler Modelle an jeder einzelnen Schule bereitzustellen“, sagte er. „Wir können Erkenntnisse von Schulen nutzen, die über Dateninfrastruktur und Fachwissen verfügen, um Schulen ohne diese Ressourcen und ohne Einbußen bei der Fairness wertvolle Analysen anzubieten. Das ist ein vielversprechendes Ergebnis für Schulleiter und politische Entscheidungsträger.“

    Zur Verfügung gestellt von der Cornell University

    ph-tech