Unterschied zwischen linearer Regression und logistischer Regression

Inhaltsverzeichnis:

Was ist lineare Regression?
Was ist logistische Regression?
Unterschied zwischen linearer Regression und logistischer Regression

Die Hauptunterschied zwischen linearer Regression und logistischer Regression ist, dass die Die lineare Regression wird verwendet, um einen kontinuierlichen Wert vorherzusagen, während die logistische Regression verwendet wird, um einen diskreten Wert vorherzusagen.

Maschinelle Lernsysteme können zukünftige Ergebnisse basierend auf dem Training vergangener Eingaben vorhersagen. Es gibt zwei Hauptarten des maschinellen Lernens, die als überwachtes Lernen und unüberwachtes Lernen bezeichnet werden. Regression und Klassifikation fallen unter überwachtes Lernen, während Clustering unter unüberwachtes Lernen fällt. Überwachte Lernalgorithmen verwenden gekennzeichnete Daten, um den Datensatz zu trainieren. Lineare Regression und logistische Regression sind zwei Arten von überwachten Lernalgorithmen. Lineare Regression wird verwendet, wenn die abhängige Variable stetig und das Modell linear ist. Die logistische Regression wird verwendet, wenn die abhängige Variable diskret und das Modell nichtlinear ist.

Lineare Regression, Logistische Regression, Maschinelles Lernen

Was ist lineare Regression?

Die lineare Regression findet die Beziehung zwischen unabhängigen und abhängigen Variablen. Beide sind zusammenhängend. Die unabhängige Variable ist die Variable, die von den anderen Variablen nicht verändert wird. Es wird mit x bezeichnet. Es kann auch mehrere unabhängige Variablen wie x1, x2, x3 usw. geben. Die abhängige Variable ändert sich entsprechend der unabhängigen Variablen und wird mit y bezeichnet.

Wenn es eine unabhängige Variable gibt, lautet die Regressionsgleichung wie folgt.

y = b0+ b1x

Angenommen, x steht für Niederschlag und y für den Ernteertrag.

Abbildung 1: Lineare Regression

Der Datensatz sieht wie oben aus. Dann wird eine Linie ausgewählt, die die meisten Datenpunkte abdeckt. Diese Linie repräsentiert die vorhergesagten Werte.

Abbildung 2: Abstand zwischen den tatsächlichen Datenpunkten und den vorhergesagten Werten

Dann wird der Abstand von jedem Datenpunkt zur Linie ermittelt, wie in der obigen Grafik gezeigt. Dies ist der Abstand zwischen dem tatsächlichen Wert und dem vorhergesagten Wert. Dieser Abstand wird auch als Fehler oder Residuen bezeichnet. Die Linie mit der besten Anpassung sollte die kleinste Summe der Fehlerquadrate aufweisen. Wenn ein neuer Niederschlagswert (x) angegeben wird, ist es möglich, mit dieser Zeile den entsprechenden Ernteertrag (y) zu finden.

In der realen Welt kann es mehrere unabhängige Variablen geben (x1, x2, x3…). Dies wird als multiple lineare Regression bezeichnet. Die multiple lineare Regressionsgleichung lautet wie folgt.

Was ist logistische Regression?

Die logistische Regression kann verwendet werden, um zwei Klassen zu klassifizieren. Es ist auch bekannt als binäre Klassifikation. Überprüfen, ob eine E-Mail Spam ist oder nicht, vorhersagen, ob ein Kunde ein Produkt kaufen wird oder nicht, vorhersagen, ob es möglich ist, eine Werbeaktion zu erhalten oder nicht, sind einige andere Beispiele für logistische Regressionen.

Abbildung 3: Logistische Regression

Nehmen Sie an, dass die Anzahl der Stunden, die ein Schüler pro Tag studiert, die unabhängige Variable ist. Abhängig davon wird die Wahrscheinlichkeit des Bestehens einer Prüfung berechnet. Als Schwellenwert gilt der Wert 0,5. Bei Angabe der neuen Stundenzahl kann anhand dieser Grafik die entsprechende Wahrscheinlichkeit für das Bestehen der Prüfung ermittelt werden. Wenn die Wahrscheinlichkeit über 0,5 liegt, gilt sie als 1 oder bestanden. Wenn die Wahrscheinlichkeit unter 0,5 liegt, gilt sie als 0 oder nicht bestanden.

Die Anwendung der linearen Regressionsgleichung auf die Sigmoidfunktion ergibt die logistische Regressionsgleichung.

Die Sigmoidfunktion ist

Ein weiterer wichtiger Punkt ist, dass die logistische Regression nur auf die Klassifizierung von 2 Klassen anwendbar ist. Es wird nicht für die Mehrklassenklassifizierung verwendet.

Unterschied zwischen linearer Regression und logistischer Regression

Definition

Die lineare Regression ist ein linearer Ansatz, der die Beziehung zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen modelliert. Im Gegensatz dazu ist die logistische Regression ein statistisches Modell, das die Wahrscheinlichkeit eines Ergebnisses vorhersagt, das nur zwei Werte haben kann.

Verwendungszweck

Während die lineare Regression zur Lösung von Regressionsproblemen verwendet wird, wird die logistische Regression zur Lösung von Klassifikationsproblemen (binäre Klassifikation) verwendet.

Methodik

Bei der linearen Regression wird die abhängige Variable geschätzt, wenn sich die unabhängige Variable ändert. Die logistische Regression berechnet die Möglichkeit des Eintretens eines Ereignisses. Dies ist ein wichtiger Unterschied zwischen der linearen Regression und der logistischen Regression.

Ausgabewert

Auch bei der linearen Regression ist der Ausgabewert stetig. Bei der logistischen Regression ist der Ausgabewert diskret.

Modell

Obwohl die lineare Regression eine gerade Linie verwendet, verwendet die logistische Regression eine S-Kurve oder eine Sigmoidfunktion. Dies ist ein weiterer wichtiger Unterschied zwischen linearer Regression und logistischer Regression.

Beispiele

Die Vorhersage des BIP eines Landes, die Vorhersage des Produktpreises, die Vorhersage des Hausverkaufspreises, die Score-Vorhersage sind einige Beispiele für die lineare Regression. Die Vorhersage, ob eine E-Mail Spam ist oder nicht, die Vorhersage, ob es sich bei der Kreditkartentransaktion um Betrug handelt oder nicht, die Vorhersage, ob ein Kunde einen Kredit aufnehmen wird oder nicht, sind einige Beispiele für logistische Regressionen.

Abschluss

Der Unterschied zwischen linearer Regression und logistischer Regression besteht darin, dass die lineare Regression verwendet wird, um einen kontinuierlichen Wert vorherzusagen, während die logistische Regression verwendet wird, um einen diskreten Wert vorherzusagen. Kurz gesagt wird die lineare Regression für die Regression verwendet, während die logistische Regression für die Klassifizierung verwendet wird.

Referenz:

Bild mit freundlicher Genehmigung:

1. „Lineare Regression“ von Sewaqu – Eigene Arbeit, Public Domain) über Commons Wikimedia2. „Residuals for Linear Regression Fit“ Von Thomas.haslwanter – Eigene Arbeit (CC BY-SA 3.0) über Commons Wikimedia3. „Logistikkurve“ Von Qef (Vortrag) – Von Grund auf neu erstellt mit gnuplot (Public Domain) über Commons Wikimedia