Normalverteilung in der Statistik - Definition, Beispiel, Interpretation

Was ist Normalverteilung in der Statistik?

Die Normalverteilung ist eine glockenförmige Häufigkeitsverteilungskurve, mit deren Hilfe alle möglichen Werte beschrieben werden können, die eine Zufallsvariable innerhalb eines bestimmten Bereichs annehmen kann, wobei sich der größte Teil des Verteilungsbereichs in der Mitte befindet und sich nur wenige im äußersten Bereich befinden. Diese Verteilung hat zwei Schlüsselparameter: den Mittelwert (µ) und die Standardabweichung (σ), die eine Schlüsselrolle bei der Berechnung der Kapitalrendite und bei der Risikomanagementstrategie spielen.

Interpretation der Normalverteilung

Die obige Abbildung zeigt, dass die statistische Normalverteilung eine glockenförmige Kurve ist. Der Bereich möglicher Ergebnisse dieser Verteilung sind die gesamten reellen Zahlen zwischen -∞ bis + ∞. Die Schwänze der Glockenkurve erstrecken sich unbegrenzt auf beiden Seiten des Diagramms (+/-).

  • Ungefähr 68% aller Beobachtungen liegen innerhalb von +/- einer Standardabweichung (σ)
  • Ungefähr 95% aller Beobachtungen liegen innerhalb von +/- zwei Standardabweichungen (σ)
  • Ungefähr 99% aller Beobachtungen liegen innerhalb von +/- drei Standardabweichungen (σ)

Es hat eine Schiefe von Null (Symmetrie einer Verteilung). Wenn die Verteilung der Daten asymmetrisch ist, ist die Verteilung ungleichmäßig, wenn der Datensatz eine Schiefe größer als Null oder eine positive Schiefe aufweist. Dann ist der rechte Schwanz der Verteilung länger als der linke, und bei negativer Schiefe (weniger als Null) ist der linke Schwanz länger als der rechte Schwanz.

Es hat eine Kurtosis von 3 (misst die Spitze einer Verteilung), was darauf hinweist, dass die Verteilung weder zu hoch noch zu dünn ist. Wenn die Kurtosis mehr als drei beträgt, ist die Verteilung mit dickeren Schwänzen stärker ausgeprägt, und wenn die Kurtosis weniger als drei beträgt, hat sie dünne Schwänze und der Spitzenpunkt ist niedriger als die Normalverteilung.

Eigenschaften

  • Sie stellen eine Verteilungsfamilie dar, bei der Mittelwert und Abweichung die Form der Verteilung bestimmen.
  • Der Mittelwert, der Median und der Modus dieser Verteilung sind alle gleich.
  • Die Hälfte der Werte befindet sich links von der Mitte und die andere Hälfte rechts.
  • Der Gesamtwert unter der Standardkurve ist immer eins.
  • Am wahrscheinlichsten ist die Verteilung im Zentrum und weniger Werte liegen am hinteren Ende.

Transformation (Z)

Die Wahrscheinlichkeitsdichtefunktion (PDF) einer Zufallsvariablen (X) nach Verteilung ist gegeben durch:

wobei -∞ <x <∞; -∞ <µ 0

Wo,

  • F (x) = normale Wahrscheinlichkeitsfunktion
  • x = Zufallsvariable
  • µ = Verteilungsmittelwert
  • σ = Standardabweichung der Verteilung
  • π = 3,14159
  • e = 2,71828

Transformationsformel

Wo,

  • X = Zufallsvariable

Beispiele für die Normalverteilung in der Statistik

Lassen Sie uns die folgenden Beispiele diskutieren.

Beispiel 1

Angenommen, ein Unternehmen hat 10000 Mitarbeiter und eine Struktur mit mehreren Gehältern gemäß der Jobrolle, in der der Mitarbeiter arbeitet. Die Gehälter werden im Allgemeinen mit dem Bevölkerungsmittel von µ = 60.000 USD und der Populationsstandardabweichung σ = 15.000 USD verteilt. Wie hoch ist die Wahrscheinlichkeit, dass zufällig ausgewählte Mitarbeiter ein Gehalt von weniger als 45000 USD pro Jahr haben?

Lösung

Wie in der obigen Abbildung gezeigt, müssen wir zur Beantwortung dieser Frage den Bereich unter der normalen Kurve von 45 bis zum linken Seitenschwanz ermitteln. Außerdem müssen wir den Z-Tabellenwert verwenden, um die richtige Antwort zu erhalten.

Zunächst müssen wir den angegebenen Mittelwert und die Standardabweichung unter Verwendung der Transformationsformel in eine Standardnormalverteilung mit Mittelwert (µ) = 0 und Standardabweichung (σ) = 1 umwandeln.

Nach der Konvertierung müssen wir die Z-Tabelle nachschlagen, um den entsprechenden Wert herauszufinden, der uns die richtige Antwort gibt.

Gegeben,

  • Mittelwert (µ) = 60.000 USD
  • Standardabweichung (σ) = $ 15000
  • Zufallsvariable (x) = $ 45000

Transformation (z) = (45000 - 60000/15000)

Transformation (z) = -1

Jetzt ist der Wert, der -1 in der Z-Tabelle entspricht, 0,1587, was die Fläche unter der Kurve von 45 bis nach links darstellt. Es zeigte sich, dass bei einer zufälligen Auswahl eines Mitarbeiters die Wahrscheinlichkeit, weniger als 45000 USD pro Jahr zu verdienen, 15,87% beträgt.

Beispiel 2

Wenn Sie nun das gleiche Szenario wie oben beibehalten, ermitteln Sie die Wahrscheinlichkeit, dass zufällig ausgewählte Mitarbeiter mit der Normalverteilung mehr als 80.000 USD pro Jahr verdienen.

Lösung

In dieser Frage müssen wir also den schattierten Bereich von 80 bis zum rechten Schwanz mit derselben Formel ermitteln.

Gegeben,

  • Mittelwert (µ) = 60.000 USD
  • Standardabweichung (σ) = $ 15000
  • Zufallsvariable (X) = 80.000 USD

Transformation (z) = (80000 - 60000/15000)

Transformation (z) = 1,33

Gemäß der Z-Tabelle beträgt der äquivalente Wert von 1,33 0,9082 oder 90,82%, was zeigt, dass die Wahrscheinlichkeit, zufällig Mitarbeiter auszuwählen, die weniger als 80.000 USD pro Jahr verdienen, 90,82% beträgt.

Gemäß der Frage müssen wir jedoch die Wahrscheinlichkeit bestimmen, mit der zufällige Mitarbeiter mehr als 80.000 USD pro Jahr verdienen, also müssen wir den Wert von 100 abziehen.

  • Zufallsvariable (X) = 100% - 90,82%
  • Zufallsvariable (X) = 9,18%

Die Wahrscheinlichkeit, dass Mitarbeiter mehr als 80.000 USD pro Jahr verdienen, beträgt 9,18%.

Verwendet

  • Das technische Diagramm der Börse ist häufig eine Glockenkurve, die es Analysten und Anlegern ermöglicht, statistische Rückschlüsse auf die erwartete Rendite und das Risiko von Aktien zu ziehen.
  • Es wird in der realen Welt verwendet, um die wahrscheinlichste Zeit zu bestimmen, die Pizzafirmen für die Lieferung von Pizza und vielen weiteren realen Anwendungen benötigen.
  • Wird zum Vergleichen der Körpergröße einer bestimmten Bevölkerungsgruppe verwendet, bei der die meisten Menschen eine durchschnittliche Größe haben und nur sehr wenige Menschen eine überdurchschnittliche oder unterdurchschnittliche Körpergröße haben.
  • Sie werden zur Bestimmung der durchschnittlichen akademischen Leistung von Studenten verwendet, um den Rang von Studenten zu vergleichen.

Fazit

Die Normalverteilung findet Anwendung in der Datenwissenschaft und Datenanalyse. Fortschrittliche Technologien wie künstliche Intelligenz und maschinelles Lernen, die zusammen mit dieser Verteilung verwendet werden, können zu einer besseren Datenqualität führen, was Einzelpersonen und Unternehmen bei der effektiven Entscheidungsfindung hilft.

Interessante Beiträge...