Unterschied zwischen Entscheidungsbaum und Random Forest

Inhaltsverzeichnis:

Was ist Entscheidungsbaum
Was ist Random Forest?
Unterschied zwischen Entscheidungsbaum und Random Forest

Die Hauptunterschied zwischen Entscheidungsbaum und Random Forest ist das Ein Entscheidungsbaum ist ein Graph, der eine Verzweigungsmethode verwendet, um jedes mögliche Ergebnis einer Entscheidung zu veranschaulichen, während ein Random Forest eine Menge von Entscheidungsbäumen ist, die das endgültige Ergebnis basierend auf den Ausgaben aller seiner Entscheidungsbäume liefert.

Maschinelles Lernen ist eine Anwendung der künstlichen Intelligenz, die einem System die Fähigkeit verleiht, basierend auf früheren Erfahrungen zu lernen und sich zu verbessern. Decision Tree und Random Forest sind zwei Techniken des maschinellen Lernens. Ein Entscheidungsbaum bildet die möglichen Ergebnisse einer Reihe verwandter Entscheidungen ab. Es ist beliebt, weil es einfach und verständlicher ist. Wenn der Datensatz viel größer wird, reicht ein einzelner Entscheidungsbaum nicht aus, um die Vorhersage zu finden. Ein Random Forest, bei dem es sich um eine Sammlung von Entscheidungsbäumen handelt, ist eine Alternative zu diesem Problem. Die Ausgabe des Random Forest basiert auf den Ausgaben aller seiner Entscheidungsbäume.

Entscheidungsbaum, Maschinelles Lernen, Random Forest

Was ist Entscheidungsbaum

Ein Entscheidungsbaum ist ein Baumformdiagramm, das verwendet wird, um eine Vorgehensweise zu bestimmen. Jeder Zweig des Baumes repräsentiert eine mögliche Entscheidung, ein Ereignis oder eine Reaktion.

Es gibt mehrere Begriffe, die mit einem Entscheidungsbaum verbunden sind. Entropie ist das Maß der Unvorhersehbarkeit im Datensatz. Nach der Aufteilung des Datensatzes sinkt das Entropieniveau mit abnehmender Unvorhersehbarkeit. Informationsgewinn ist die Abnahme der Entropie nach dem Ausspucken des Datensatzes. Wichtig ist, die Daten so aufzuteilen, dass der Informationsgewinn höher wird. Die endgültigen Entscheidungen oder Klassifizierungen werden Blattknoten genannt. Der oberste oder Hauptknoten wird als Wurzelknoten bezeichnet. Der Datensatz sollte geteilt werden, bis die endgültige Entropie Null wird.

Ein einfacher Entscheidungsbaum sieht wie folgt aus.

Abbildung 1: Entscheidungsbaum

Der obige Entscheidungsbaum klassifiziert eine Reihe von Früchten. Es gibt 4 Trauben, 2 Äpfel und 2 Orangen. Bei einem Durchmesser von weniger als 5 werden die Trauben in eine Seite eingeteilt, während Orangen und Äpfel in die andere Seite eingeordnet werden. Trauben können nicht weiter klassifiziert werden, da sie keine Entropie haben. Bei der Kategorisierung nach der Farbe, d. h. ob das Fruchtrot rot ist oder nicht, werden Äpfel in eine Seite eingeordnet, während Orangen in die andere Seite eingeordnet werden. Somit klassifiziert dieser Entscheidungsbaum einen Apfel, eine Traube oder eine Orange mit 100%iger Genauigkeit.

Insgesamt ist ein Entscheidungsbaum einfach zu verstehen, leichter zu interpretieren und zu visualisieren. Es erfordert nicht viel Vorbereitung der Daten. Es kann sowohl numerische als auch kategoriale Daten verarbeiten. Andererseits kann das Rauschen in den Daten eine Überanpassung verursachen. Darüber hinaus kann das Modell aufgrund kleiner Abweichungen auch instabil werden.

Was ist Random Forest?

Random Forest ist eine Methode, die durch die Konstruktion mehrerer Entscheidungsbäume während der Trainingsphase funktioniert. Die Entscheidungen der Mehrheit der Bäume sind die endgültige Entscheidung des Random Forest. Ein einfaches Beispiel ist wie folgt.

Angenommen, es gibt eine Reihe von Früchten (Kirschen, Äpfel und Orangen). Im Folgenden sind die drei Entscheidungsbäume aufgeführt, die diese drei Fruchtarten kategorisieren.

Abbildung 2: Entscheidungsbaum 1

Abbildung 3: Entscheidungsbaum 2

Abbildung 4: Entscheidungsbaum 3

Dem Modell wird eine neue Frucht mit einem Durchmesser von 3 gegeben. Diese Frucht hat eine orange Farbe und wächst im Sommer. Der erste Entscheidungsbaum wird es als Orange kategorisieren. Der zweite Entscheidungsbaum kategorisiert sie als Kirsche, während der dritte Entscheidungsbaum sie als Orange kategorisiert. Betrachtet man alle drei Bäume, gibt es zwei Ausgaben für Orange. Daher ist die endgültige Ausgabe des Random Forest eine Orange.

Insgesamt liefert der Random Forest genaue Ergebnisse für einen größeren Datensatz. Es verringert auch das Risiko einer Überanpassung.

Unterschied zwischen Entscheidungsbaum und Random Forest

Definition

Ein Entscheidungsbaum ist ein Werkzeug zur Entscheidungsunterstützung, das einen baumähnlichen Graphen oder ein Modell von Entscheidungen und deren möglichen Konsequenzen verwendet, einschließlich zufälliger Ereignisergebnisse, Ressourcenkosten und Nutzen. Random Forests ist eine Ensemble-Lernmethode, die so funktioniert, dass sie zur Trainingszeit eine Vielzahl von Entscheidungsbäumen konstruiert und die Klasse in Abhängigkeit von den einzelnen Bäumen ausgibt.

Überanpassung

Es besteht die Möglichkeit der Überanpassung in einem Entscheidungsbaum. Die Verwendung mehrerer Bäume im Random Forest reduziert das Risiko einer Überanpassung.

Genauigkeit

Ein Random Forest liefert genauere Ergebnisse als ein Entscheidungsbaum.

Komplexität

Ein Entscheidungsbaum ist einfacher und leichter zu verstehen, zu interpretieren und zu visualisieren als ein vergleichsweise komplexer Random Forest.

Abschluss

Der Unterschied zwischen Entscheidungsbaum und Random Forest besteht darin, dass ein Entscheidungsbaum ein Graph ist, der eine Verzweigungsmethode verwendet, um jedes mögliche Ergebnis einer Entscheidung darzustellen, während ein Random Forest eine Menge von Entscheidungsbäumen ist, die das Endergebnis basierend auf den Ausgaben aller seine Entscheidungsbäume.