Zurück


Einführung


Lass uns mit einer Übersicht über Machine learning Modelle starten, die uns sagt,
wie diese funktionieren und wie sie eingesetzt werden.
Wenn du dich schon mit statischer Modellierung oder mit Machine learning beschäftigt hast,
kommt das Ihnen vielleicht leichter vor, aber keine Sorge,
wir werden noch früh genug zum Aufbau mächtigerer Modelle übergehen.

In diesem Kurs wirst du Modelle bauen, während du folgende Szenarien durchläufst:
Dein Cousin hat mit Immobilienspekulationen Millionen von Dollar verdient.
Er hat dir angeboten, Geschäftspartner/in zu werden, weil du dich für Datenwissenschaft interessierst.
Er versorgt dich mit Geld, während du Modelle liefern wirst, die den Wert verschiedener Häuser vorhersagen.

Du fragst deinen Cousin, wie er in der Vergangenheit Immobilienwerte vorausgesagt hat,
und er sagt, dass es reine Intuition sei. Doch bei genauerem Nachfragen stellt sich heraus,
dass er bei Häusern, die er in der Vergangenheit gesehen hat, Preismuster erkannt hat, die er nutzt,
um Vorhersagen für neue Häuser zu treffen, die er in Betracht zieht.

Machine learning funktioniert auf die gleiche Weise. Wir beginnen mit einem Modell namens Entscheidungsbaum.
Es gibt schickere Modelle, die genauere Vorhersagen liefern.
Aber Entscheidungsbäume sind einfach zu verstehen und bilden den Grundbaustein für einige der besten Modelle in der Datenwissenschaft.

Der Einfachheit halber beginnen wir mit dem einfachsten möglichen Entscheidungsbaum.


Es unterteilt Häuser in nur zwei Kategorien. Der prognostizierte Preis für jedes Haus,
das in Frage kommt, ist der historische Durchschnittspreis von Häusern derselben Kategorie.
Das heißt, dass durch vorherige Einträge der Preis der Häuser ermittelt wird.

Wir verwenden die Daten, um zu entscheiden, wie die Häuser in zwei Gruppen aufgeteilt werden sollen,
und dann wiederum, um den vorhergesagten Preis in jeder Gruppe zu bestimmen.
Dieser Schritt der Erfassung von Mustern aus Daten wird als "fitting" oder "training" des Modells bezeichnet.
Die Daten, die zur Anpassung des Modells verwendet werden, nennt man Trainingsdaten.

Die Einzelheiten der Modellanpassung (z. B. wie die Daten aufgeteilt werden) sind so komplex,
dass wir sie für später aufheben. Nachdem das Modell angepasst wurde, kannst du es auf neue Daten anwenden,
um die Preise für weitere Häuser vorherzusagen.

Verbesserung des Entscheidungsbaums


Welches der beiden folgenden Beispiele ist wahrscheinlicher, wenn man die Trainingsdaten aus dem Immobilienbereich anpasst?

Der Entscheidungsbaum auf der linken Seite (Entscheidungsbaum 1) ist wahrscheinlich sinnvoller,
da er die Tatsache widerspiegelt, dass Häuser mit mehr Schlafzimmern tendenziell zu höheren Preisen verkauft werden als Häuser mit weniger Schlafzimmern.
Das größte Manko dieses Modells ist, dass es die meisten Faktoren, die sich auf den Hauspreis auswirken,
wie die Anzahl der Badezimmer, die Grundstücksgröße, die Lage usw., nicht erfasst.

Mit einem Baum, der mehr "Splits" hat, kannst du mehr Faktoren erfassen.
Diese werden als "tiefere" Bäume bezeichnet. Ein Entscheidungsbaum,
der auch die Gesamtgröße des Grundstücks eines jeden Hauses berücksichtigt,
könnte wie folgt aussehen:

Sie sagen den Preis eines beliebigen Hauses voraus, indem Sie den Entscheidungsbaum durchlaufen und dabei immer den Pfad wählen,
der den Merkmalen des Hauses entspricht. Der vorhergesagte Preis für das Haus befindet sich am unteren Ende des Baums.
Der Punkt am unteren Ende, an dem wir eine Vorhersage treffen, wird als Blatt bezeichnet.

Die Aufteilung und die Werte auf den Blättern werden durch die Daten bestimmt.