Programmier-Tutorial - Seite 13

 

Fakultäten, Permutationen und Kombinationen


Fakultäten, Permutationen und Kombinationen

Hallo zusammen, heute werden wir uns mit den Konzepten des Zählens befassen, einschließlich Fakultäten, Permutationen und Kombinationen. Alles läuft auf das grundlegende Zählprinzip hinaus, das besagt, dass, wenn ein Ereignis auf M Arten und das zweite Ereignis auf N Arten auftreten kann, die beiden Ereignisse nacheinander auf insgesamt M mal N Arten auftreten können. Wichtig ist, dass das Ergebnis des ersten Ereignisses keinen Einfluss auf die Anzahl der möglichen Ergebnisse des zweiten Ereignisses hat.

Beginnen wir mit einem Beispiel. Angenommen, ein Menü umfasst 6 Salate und 8 Suppen. Wie viele Suppen- und Salatkombinationen sind möglich? Zuerst suchen wir uns einen Salat aus, der uns 6 Möglichkeiten bietet. Für jede dieser Optionen gibt es 8 mögliche Suppen. Daher haben wir am Ende 6 Gruppen zu je 8 Personen, was insgesamt 48 mögliche Kombinationen ergibt.

Diese Idee erstreckt sich auf längere Ereignissequenzen. Wenn ein Menü beispielsweise 6 Salate, 8 Suppen, 15 Hauptgerichte und 3 Desserts umfasst, dann sind es 6 mal 8 mal 15 mal 3, was 2.160 möglichen Mahlzeiten entspricht.

Manchmal müssen wir die Anzahl der Möglichkeiten zählen, wie Objekte, Personen oder Dinge angeordnet werden können. Auf wie viele verschiedene Arten kann sich beispielsweise eine Gruppe von vier Personen anstellen? Wir können das grundlegende Zählprinzip wieder anwenden. Es gibt 4 verschiedene Auswahlmöglichkeiten für die erste Person in der Reihe, 3 Auswahlmöglichkeiten für die zweite Person, 2 Auswahlmöglichkeiten für die dritte und 1 Auswahlmöglichkeit für die vierte Person. Wenn wir diese Zahlen miteinander multiplizieren, erhalten wir 4 mal 3 mal 2 mal 1, was 24 Möglichkeiten entspricht, die 4 Personen in der Reihe anzuordnen. Diese Berechnung ist so verbreitet, dass wir ihr einen besonderen Namen geben: Fakultät.

Im Allgemeinen ist die Fakultät einer Zahl N, bezeichnet als N!, das Produkt der ersten N positiven ganzen Zahlen. Zum Beispiel 3! ist 1 mal 2 mal 3, 5! ist 1 mal 2 mal 3 mal 4 mal 5 und so weiter. Die Fakultät wächst schnell, sogar schneller als das exponentielle Wachstum. Zum Beispiel 10! beträgt bereits mehr als 3 Millionen.

Betrachten wir ein etwas komplexeres Beispiel. Angenommen, 12 Pferde nehmen an einem Rennen teil und wir möchten wissen, auf wie viele verschiedene Arten sie gewinnen, sich platzieren und zeigen können, also auf den ersten drei Plätzen. Wir können das grundlegende Zählprinzip noch einmal anwenden. Es gibt 12 mögliche Gewinner, 11 mögliche Zweitplatzierte und 10 mögliche Drittplatzierte. Wenn wir diese Zahlen multiplizieren, finden wir, dass es 12 mal 11 mal 10 gibt, was 1.320 mögliche Kombinationen ergibt.

Um dies zu verallgemeinern, nehmen wir an, dass wir N Elemente haben und die Anzahl der Anordnungen für die ersten K Elemente zählen möchten. Unter Verwendung des grundlegenden Zählprinzips gibt es N Auswahlmöglichkeiten für das erste Element, N – 1 Auswahlmöglichkeiten für das zweite usw., bis wir insgesamt K Terme haben. Der letzte Term wird N - K + 1 sein. Wir bezeichnen ihn als NPK, was gleich N Fakultät dividiert durch (N - K) Fakultät ist.

Eine andere Situation entsteht, wenn wir die Anzahl der Möglichkeiten zählen möchten, wie wir Gruppen von K Objekten auswählen können, ohne Rücksicht auf ihre Reihenfolge. Dies nennt man Kombinationen. Wenn beispielsweise drei von zwölf Pferden in einem Rennen zufällig für Drogentests ausgewählt werden, auf wie viele Arten können die Pferde ausgewählt werden? In diesem Fall spielt die Reihenfolge keine Rolle. Wir verwenden die Notation NCk, die die Anzahl der Möglichkeiten darstellt, wie K Dinge aus insgesamt N Dingen ausgewählt werden können, ohne die Reihenfolge zu berücksichtigen. Um dies zu berechnen, verwenden wir die Formel N und wählen K = NPK /(K-Fakultät). Im gegebenen Beispiel müssen wir 12 berechnen und 3 auswählen. Dazu können wir eine kleine algebraische Manipulation anwenden. Wir können 12 wähle 3 als 12 permutiere 3 dividiert durch 3 Fakultät umschreiben. Vereinfacht gesagt haben wir 12! / (12 - 3)! * 3!. Nach Durchführung der Berechnungen stellen wir fest, dass 12 wählen 3 gleich 220 ist. Daher gibt es 220 Möglichkeiten, 3 Pferde aus 12 für zufällige Drogentests auszuwählen.

Im Allgemeinen können wir N wählen K als N-Fakultät dividiert durch (N – K) Fakultät mal K-Fakultät ausdrücken. Mit dieser Formel können wir die Anzahl der Kombinationen für verschiedene Szenarien berechnen.

Beim Umgang mit Permutationen und Kombinationen ist die entscheidende Frage, ob die Reihenfolge wichtig ist. Wenn die Reihenfolge wichtig ist, handelt es sich um ein Permutationsproblem. Wenn die Reihenfolge keine Rolle spielt, handelt es sich um ein Kombinationsproblem.

Schauen wir uns ein paar Beispiele an. Angenommen, wir möchten aus einer Klasse mit zwanzig Schülern ein Komitee aus vier Personen bilden. In diesem Fall spielt die Reihenfolge der Auswahl keine Rolle, daher müssen wir 20, wähle 4 berechnen. Mit der Formel finden wir, dass 20, wähle 4 gleich 20 ist! / (20 - 4)! * 4!, was sich zu 48.845 vereinfacht. Daher gibt es 48.845 Möglichkeiten, aus der Klasse von zwanzig Schülern ein Komitee aus vier Personen zu bilden.

Betrachten wir nun ein anderes Szenario. Wenn dem vierköpfigen Ausschuss ein Präsident, ein Vizepräsident, ein Sekretär und ein Schatzmeister angehören müssen, ist die Reihenfolge der Auswahl von Bedeutung. Hier müssen wir 20 permute 4 berechnen, also 20! / (20 - 4)!. Nach Durchführung der Berechnungen stellen wir fest, dass es 116.280 mögliche Anordnungen gibt.

Nehmen wir in einer etwas anderen Situation an, dass aus einer Klasse von zwanzig Schülern ein vierköpfiges Komitee gebildet werden muss und eine Person zum Präsidenten ernannt werden muss. Dies ist ein Hybridproblem, das zwei Schritte umfasst. Zuerst wählen wir den Präsidenten aus, was auf 20 verschiedene Arten erfolgen kann. Dann wählen wir die verbleibenden drei Mitglieder des Ausschusses aus, wobei die Reihenfolge keine Rolle spielt. Dies entspricht 19 wähle 3. Daher beträgt die Gesamtzahl der Möglichkeiten das 20-fache (19 wähle 3). Nachdem wir dies berechnet haben, stellen wir fest, dass es 19.382 mögliche Ergebnisse gibt.

Zusammenfassend lässt sich sagen, dass es sich bei Permutationen und Kombinationen um das Zählen der Art und Weise handelt, wie Ereignisse auftreten oder Objekte angeordnet werden können. Um die geeignete Methode zur Lösung des Problems zu bestimmen, ist es entscheidend zu verstehen, ob die Reihenfolge wichtig ist oder nicht. Indem wir das grundlegende Zählprinzip anwenden und die Formeln für Permutationen und Kombinationen verwenden, können wir die Möglichkeiten in verschiedenen Szenarien effektiv zählen.

 

Bedingte Wahrscheinlichkeit und die Multiplikationsregel


Bedingte Wahrscheinlichkeit und die Multiplikationsregel

Hallo zusammen, heute werden wir uns mit dem Konzept der bedingten Wahrscheinlichkeit und der Multiplikationsregel befassen. Beginnen wir damit, die Idee der bedingten Wahrscheinlichkeit anhand eines Beispiels zu veranschaulichen.

In einer Studie kontaktierte ein Forscher 1.250 Erwachsene und fragte jeden, ob er Hunde oder Katzen bevorzuge. Berechnen wir zunächst die Wahrscheinlichkeit, aus dieser Stichprobe zufällig einen Befragten auszuwählen, der Hunde bevorzugt. Von den 1.250 Befragten gab es 589 Personen, die Hunde bevorzugen. Daher beträgt die Wahrscheinlichkeit, zufällig jemanden auszuwählen, der Hunde bevorzugt, 589/1.250, was 0,471 oder 47,1 % entspricht.

Als nächstes berechnen wir die Wahrscheinlichkeit, dass ein Befragter über 55 Jahre Hunde gegenüber Katzen bevorzugt. Wir konzentrieren uns auf die Spalte mit der Bezeichnung „55+“ in der Tabelle. In dieser Spalte gibt es von insgesamt 325 Personen 143 Erwachsene, die Hunde bevorzugen. Daher beträgt die Wahrscheinlichkeit, zufällig jemanden aus dieser Spalte auszuwählen, der Hunde bevorzugt, 143/325, was ungefähr 0,44 oder 44 % entspricht.

Beachten Sie, dass die beiden Wahrscheinlichkeiten nicht gleich sind. Dies unterstreicht das Konzept der bedingten Wahrscheinlichkeit, die als die Wahrscheinlichkeit des Eintretens von Ereignis B definiert ist, wenn wir bereits wissen, dass Ereignis A eingetreten ist. In unserem Beispiel haben wir nicht nur die Wahrscheinlichkeit des Ereignisses B (Bevorzugung von Hunden) berechnet, sondern auch die Wahrscheinlichkeit von B bei A (Bevorzugung von Hunden, sofern der Befragte über 55 Jahre alt ist).

Betrachten wir ein weiteres Beispiel mit bedingter Wahrscheinlichkeit. Wir haben ein Kartenspiel, aus dem zwei Karten ersatzlos gezogen werden. Wenn die erste gezogene Karte ein König ist, möchten wir die Wahrscheinlichkeit ermitteln, dass die zweite gezogene Karte ebenfalls ein König ist. Hier haben wir zwei Ereignisse: A ist das Ereignis, dass die erste gezogene Karte ein König ist, und B ist das Ereignis, dass die zweite Karte ein König ist.

Wenn das erste Ereignis eintritt (wir ziehen einen König), haben wir jetzt noch 51 Karten übrig, von denen drei Könige sind. Daher beträgt die Wahrscheinlichkeit, einen zweiten König zu ziehen, 3/51, was ungefähr 0,059 oder 5,9 % entspricht. Es ist wichtig zu beachten, dass sich diese Wahrscheinlichkeit von der Wahrscheinlichkeit unterscheidet, dass die erste Karte ein König ist, die 4/52 oder 0,077 wäre.

Die bedingte Wahrscheinlichkeit ist besonders nützlich, wenn wir die Wahrscheinlichkeit berechnen möchten, dass zwei Ereignisse, A und B, beide eintreten. Hier kommt die Multiplikationsregel ins Spiel. Die Wahrscheinlichkeit, dass die Ereignisse A und B beide nacheinander auftreten, ergibt sich aus der Formel: P(A und B) = P(A) × P(B|A). Wir interpretieren es als die Wahrscheinlichkeit des Eintretens des ersten Ereignisses multipliziert mit der Wahrscheinlichkeit des Eintretens des zweiten Ereignisses, vorausgesetzt, das erste Ereignis ist bereits eingetreten.

Berechnen wir zum Beispiel die Wahrscheinlichkeit, zwei Könige aus einem Standarddeck ohne Ersatz zu ziehen. Die Wahrscheinlichkeit, dass die erste Karte ein König ist, beträgt 4/52, und die Wahrscheinlichkeit, dass die zweite Karte ein König ist, beträgt 3/51, sofern die erste Karte ein König ist. Wenn wir diese Wahrscheinlichkeiten miteinander multiplizieren, erhalten wir, dass die Wahrscheinlichkeit, dass beide Karten Könige sind, etwa 0,0045 oder 0,45 % beträgt.

Betrachten wir nun das Szenario, in dem ein Kunde in einem Restaurant Alkohol und eine Vorspeise bestellt. Wir haben beobachtet, dass die Wahrscheinlichkeit, dass ein Kunde Alkohol bestellt (Ereignis A), 40 % beträgt, die Wahrscheinlichkeit, eine Vorspeise zu bestellen (Ereignis B), 30 % und die Wahrscheinlichkeit, sowohl Alkohol als auch eine Vorspeise zu bestellen (Ereignis A und B), beträgt 20 %.

Um die bedingte Wahrscheinlichkeit einer Alkoholbestellung zu berechnen, vorausgesetzt, der Kunde hat eine Vorspeise bestellt (P(A|B)), können wir die Multiplikationsregel verwenden. Wenn wir die angegebenen Werte einsetzen, erhalten wir P(A und B) = 20 %, P(B) = 30 %. Indem wir die Formel der Multiplikationsregel umstellen, können wir nach P(A|B) auflösen:

P(A|B) = P(A und B) / P(B)

Wenn wir die angegebenen Werte ersetzen, erhalten wir P(A|B) = 20 % / 30 % = 2/3 oder ungefähr 0,667. Daher liegt die Wahrscheinlichkeit, dass ein Kunde Alkohol bestellt, vorausgesetzt, er hat eine Vorspeise bestellt, bei zwei Dritteln.

Berechnen wir auf ähnliche Weise die Wahrscheinlichkeit, eine Vorspeise zu bestellen, vorausgesetzt, der Kunde hat Alkohol bestellt (P(B|A)). Mit der Multiplikationsregel erhalten wir wiederum:

P(B|A) = P(A und B) / P(A)

Wenn wir die angegebenen Werte ersetzen, erhalten wir P(B|A) = 20 % / 40 % = 1/2 oder 0,5. Somit beträgt die Wahrscheinlichkeit, dass ein Kunde eine Vorspeise bestellt, wenn er Alkohol bestellt hat, die Hälfte.

Es ist wichtig zu beachten, dass diese beiden bedingten Wahrscheinlichkeiten unterschiedlich sind, was darauf hindeutet, dass die Ereignisse der Bestellung von Alkohol und der Bestellung einer Vorspeise voneinander abhängig sind. Die Tatsache, dass P(A|B) nicht gleich P(A) und P(B|A) nicht gleich P(B) ist, legt nahe, dass die Kenntnis, ob ein Ereignis eingetreten ist, Informationen über die Wahrscheinlichkeit des Eintretens des anderen Ereignisses liefert.

Betrachten wir nun einige Beispiele, um festzustellen, ob die aufgelisteten Ereignispaare unabhängig sind oder nicht:

  1. Diabetes bekommen, wenn beide Elternteile Diabetes haben: Diese Ereignisse sind abhängig. Wenn beide Elternteile Diabetes haben, steigt die Wahrscheinlichkeit, dass eine Person an Diabetes erkrankt. Es ist jedoch nicht sicher, dass die Person an Diabetes erkrankt, und es ist immer noch möglich, Diabetes zu entwickeln, ohne dass die Erkrankung in der Familie vorkommt.

  2. Eine Fünf beim ersten Wurf eines Standardwürfels und eine Vier beim zweiten Wurf: Diese Ereignisse sind unabhängig voneinander. Das Ergebnis des ersten Wurfs gibt keine Auskunft über das Ergebnis des zweiten Wurfs. Die Wahrscheinlichkeit, bei einem fairen Würfel eine Fünf und eine Vier zu würfeln, beträgt für jedes Ereignis 1/6.

  3. Zigaretten rauchen und Lungenkrebs bekommen: Diese Ereignisse sind abhängig. Das Rauchen von Zigaretten erhöht die Wahrscheinlichkeit, an Lungenkrebs zu erkranken. Es ist jedoch keine Gewissheit, und auch Menschen, die nicht rauchen, können Lungenkrebs entwickeln.

  4. Zwei ersatzlos aus einem Standardstapel gezogene Karten, und beide Karten sind Asse: Diese Ereignisse sind abhängig. Die Wahrscheinlichkeit, die zweite Karte als Ass zu ziehen, hängt davon ab, ob die erste gezogene Karte ein Ass war. Die Wahrscheinlichkeit, dass beide Karten Asse sind, ist geringer als die Wahrscheinlichkeit, dass die erste Karte ein Ass ist.

  5. Zwei aus einem Standardstapel gezogene Karten mit Ersatz, und beide Karten sind Asse: Diese Ereignisse sind unabhängig. Durch das Ersetzen der Karte nach dem ersten Ziehen werden jeglicher Einfluss oder Informationen verloren, die durch die erste Karte gewonnen wurden. Die Wahrscheinlichkeit, ein Ass zu ziehen, bleibt für beide Karten gleich.

Im Allgemeinen gelten zwei Ereignisse als unabhängig, wenn die Wahrscheinlichkeit des Eintretens eines Ereignisses angesichts des Eintretens des anderen Ereignisses gleich der Wahrscheinlichkeit des unabhängigen Eintretens des Ereignisses ist. Wenn die Wahrscheinlichkeiten unterschiedlich sind, sind die Ereignisse abhängig.

Lassen Sie uns abschließend ein Szenario analysieren, in dem ein Manager die Genauigkeit von Bestellungen in einem Restaurant untersucht. Der Manager untersucht 960 Bestellungen für verschiedene Mahlzeiten und Tageszeiten, um Wahrscheinlichkeiten zu ermitteln.

Frage 1: Die Wahrscheinlichkeit, dass ein zufällig ausgewählter Auftrag aus diesem Datensatz korrekt ausgeführt wurde, lässt sich wie folgt berechnen: Von den insgesamt 960 Aufträgen wurden 842 Aufträge korrekt ausgeführt. Somit beträgt die Wahrscheinlichkeit 842/960, was ungefähr 0,877 oder 87,7 % entspricht.

Frage 2: Um die Wahrscheinlichkeit zu ermitteln, dass eine zufällig ausgewählte Abendessenbestellung korrekt ausgeführt wurde, berücksichtigen wir die bedingte Wahrscheinlichkeit. Unter den Essensbestellungen befinden sich 249 korrekt ausgefüllte Bestellungen von insgesamt 280 Essensbestellungen. Daher beträgt die Wahrscheinlichkeit 249/280, was ungefähr 0,889 oder 88,9 % entspricht.

Frage 3: Um festzustellen, ob die zufällige Auswahl einer richtigen Bestellung unabhängig von der zufälligen Auswahl einer Abendessenbestellung ist, vergleichen wir die bedingte Wahrscheinlichkeit P(A|B) mit der Wahrscheinlichkeit P(A). In diesem Fall beträgt P(A|B) 0,889 (wie in der vorherigen Frage berechnet) und P(A) 0,877 (aus der ersten Frage). Da die beiden Wahrscheinlichkeiten nicht gleich sind, können wir daraus schließen, dass die zufällige Auswahl einer richtigen Bestellung nicht unabhängig von der zufälligen Auswahl einer Abendessenbestellung ist.

Es ist wichtig zu beachten, dass wir in diesem Beispiel die klassische Wahrscheinlichkeit betrachtet haben, bei der Wahrscheinlichkeiten auf der Grundlage des gegebenen Datensatzes berechnet werden. Die Frage, ob zukünftige Beobachtungen dieser Variablen unabhängig sein werden, ist komplexer und erfordert eine statistische Analyse, beispielsweise einen Chi-Quadrat-Test. Die empirische Bestimmung der Unabhängigkeit von Ereignissen erfordert die Beurteilung des Vorhandenseins zufälliger Variabilität und die Analyse einer größeren Stichprobe.

 

Eine Einführung in Zufallsvariablen


Eine Einführung in Zufallsvariablen

Hallo zusammen, heute beschäftigen wir uns mit dem Konzept der Zufallsvariablen. Eine Zufallsvariable ist eine Variable, die über einen probabilistischen Prozess definiert wird, wobei das Ergebnis des Prozesses durch einen numerischen Wert dargestellt wird. Schauen wir uns einige Beispiele an, um ein besseres Verständnis zu erlangen.

Stellen Sie sich das Szenario vor, in dem Sie zwei Würfel würfeln und deren Summe ermitteln. Die Summe der Würfel kann als Zufallsvariable betrachtet werden. Ein weiteres Beispiel ist das 50-malige Werfen einer Münze und das Zählen der Kopfzahl. Die in diesem Experiment ermittelte Anzahl der Köpfe ist ebenfalls eine Zufallsvariable. Ebenso sind die Messung der genauen Größe einer zufällig ausgewählten Person in der Stadt Chicago oder die Messung der Länge eines Ausbruchs des Old Faithful-Geysirs Beispiele für Zufallsvariablen.

Es ist wichtig zu beachten, dass nicht alle Ergebnisse eines probabilistischen Experiments Zufallsvariablen sind. Beispielsweise sind das Geschlecht eines zufällig ausgewählten Welpen in einem Hundeheim oder die Augenfarbe eines zufällig ausgewählten US-Senators Ergebnisse, die nicht unter die Kategorie der Zufallsvariablen fallen. Dabei handelt es sich um kategoriale Daten, da sie nicht numerisch sind und keine Zufallsvariablen definieren.

Es gibt zwei grundlegende Arten von Zufallsvariablen: diskrete und kontinuierliche. Kontinuierliche Zufallsvariablen nehmen ihre Werte innerhalb eines bestimmten Bereichs an, beispielsweise der genauen Länge eines Ausbruchs oder der genauen Größe einer zufällig ausgewählten Person. Diese Werte können Brüche und Dezimalzahlen mit jedem gewünschten Genauigkeitsgrad umfassen. Diskrete Zufallsvariablen hingegen haben Werte, die einzeln aufgelistet werden können, beispielsweise 1, 2, 3, 4 oder 5.

Wenn eine Zufallsvariable eine endliche Anzahl möglicher Ergebnisse hat, können wir eine Tabelle erstellen, die alle diese Ergebnisse zusammen mit ihren entsprechenden Wahrscheinlichkeiten auflistet. Diese Tabelle wird als diskrete Wahrscheinlichkeitsverteilung bezeichnet. Betrachten wir ein Beispiel, bei dem wir eine Münze dreimal werfen und die Anzahl der erhaltenen Köpfe zählen. Die möglichen Ergebnisse sind 0, 1, 2 oder 3 Kopf, und wir weisen jedem Ergebnis Wahrscheinlichkeiten zu. Die Wahrscheinlichkeit, kein Kopf zu bekommen, liegt zum Beispiel bei 1 zu 8, und die Wahrscheinlichkeit nimmt entsprechend ab oder zu.

Die Konstruktion einer diskreten Wahrscheinlichkeitsverteilung kann auch mithilfe von Daten erfolgen. Angenommen, wir befragen eine Zufallsstichprobe von 100 Erwachsenen in den Vereinigten Staaten und fragen sie, wie oft sie in der Woche auswärts zu Abend gegessen haben, wobei die Antworten zwischen 0 und 5 liegen. Wir können die Wahrscheinlichkeiten für die Auswahl von Personen, die in jede Kategorie fallen, durch Division berechnen die Anzahl der Personen in dieser Kategorie durch die Gesamtstichprobengröße, die 100 beträgt. Dies führt zu einer Wahrscheinlichkeitsverteilung, die alle möglichen Ergebnisse der Zufallsvariablen (Anzahl der Essenszeiten) zusammen mit ihren jeweiligen Wahrscheinlichkeiten zeigt.

Um diskrete Wahrscheinlichkeitsverteilungen visuell darzustellen, können wir Wahrscheinlichkeitshistogramme zeichnen. Wenn wir mit dem vorherigen Beispiel fortfahren, können wir ein Histogramm mit den Kategorien 0, 1, 2, 3, 4 und 5 auf der x-Achse und den entsprechenden Wahrscheinlichkeiten als Höhen der Balken erstellen. Wenn beispielsweise die Wahrscheinlichkeit, in der letzten Woche keine Mahlzeiten eingenommen zu haben, 0,49 beträgt, zeichnen wir für die Kategorie x=0 einen Balken auf der Höhe von 0,49. Die Form dieses Wahrscheinlichkeitshistogramms wäre identisch mit der Form eines Häufigkeitsverteilungshistogramms für dieselben Daten.

Zusammenfassend sind Zufallsvariablen numerische Werte, die die Ergebnisse probabilistischer Experimente darstellen. Sie können entweder diskret oder kontinuierlich sein. Diskrete Zufallsvariablen haben eine endliche Anzahl möglicher Ergebnisse und ihre Wahrscheinlichkeiten können mithilfe einer diskreten Wahrscheinlichkeitsverteilung dargestellt werden. Wahrscheinlichkeitshistogramme sind nützlich, um diskrete Wahrscheinlichkeitsverteilungen visuell darzustellen und die Wahrscheinlichkeit unterschiedlicher Ergebnisse zu verstehen.

 

Wahrscheinlichkeitshistogramme in R


Wahrscheinlichkeitshistogramme in R

Hallo an alle! Heute werden wir den Prozess der Erstellung schöner Wahrscheinlichkeitshistogramme in R mit dem Befehl qplot untersuchen. Lassen Sie uns ein paar Beispiele durchgehen.

In unserem ersten Beispiel haben wir eine diskrete Zufallsvariable namens X, die Werte von 1 bis 6 annehmen kann, zusammen mit ihren jeweiligen Wahrscheinlichkeiten. Geben wir zunächst die Daten ein und generieren das Histogramm in R.

Wir beginnen mit der Definition der Variablen X, die Werte von 1 bis 6 annehmen kann. Dazu können wir den abgekürzten Doppelpunktoperator 1:6 verwenden. Nun enthält unsere Variable X die Werte 1, 2, 3, 4, 5 und 6.

Als nächstes erstellen wir einen Vektor, um die entsprechenden Wahrscheinlichkeiten zu speichern. In diesem Fall betragen die Wahrscheinlichkeiten für die Werte 1, 2, 3, 4, 5 und 6 0,15, 0,1, 0,1, 0,4, 0,2 bzw. 0,05. Es ist wichtig zu beachten, dass die Reihenfolge der Wahrscheinlichkeiten mit der Reihenfolge der entsprechenden Werte übereinstimmen muss.

Um sicherzustellen, dass wir die Daten korrekt eingegeben haben, können wir eine schnelle Überprüfung durchführen, indem wir die Summe aller Wahrscheinlichkeiten berechnen. Die Summe sollte immer 1 sein, wenn wir eine legitime diskrete Wahrscheinlichkeitsverteilung haben. In diesem Fall beträgt die Summe tatsächlich 1, was darauf hinweist, dass die Daten korrekt eingegeben wurden.

Lassen Sie uns nun das Wahrscheinlichkeitshistogramm erstellen. Wir werden die qplot-Funktion verwenden und die Variable X für die x-Achse angeben. Wir müssen R auch mitteilen, wie die Werte mithilfe der Wahrscheinlichkeiten gewichtet werden, die wir als Höhenargument angeben. Abschließend legen wir die Art der Darstellung fest, in diesem Fall ein Histogramm.

Beim Erstellen des Histogramms stellen wir fest, dass die Balken einander nicht berühren. In einem Wahrscheinlichkeitshistogramm sollten benachbarte Werte Balken haben, die sich berühren, um ihre Beziehung anzuzeigen. Um dies zu beheben, können wir die Anzahl der Bins so festlegen, dass sie mit der Anzahl der Werte übereinstimmt, die wir haben. In diesem Fall haben wir sechs Werte, also legen wir die Anzahl der Bins auf sechs fest.

Jetzt nimmt das Histogramm Gestalt an. Um die optische Attraktivität zu steigern, können wir jedoch einige Unterschiede zwischen den Balken hinzufügen. Dies erreichen wir, indem wir eine Randfarbe für die Balken festlegen. In diesem Fall verwenden wir die Farbe Schwarz.

Im zweiten Beispiel fahren wir mit der Erstellung eines Wahrscheinlichkeitshistogramms fort. Diesmal haben wir eine Zufallsvariable namens Y, die die Werte 15, 16, 18, 19 und 20 annehmen kann. Wir haben auch entsprechende Wahrscheinlichkeiten für diese Werte, mit Ausnahme von 17, die eine Wahrscheinlichkeit von 0 hat, da sie so ist kein mögliches Ergebnis.

Wir folgen den gleichen Schritten wie zuvor, geben die Daten ein und erstellen das Histogramm mithilfe der qplot-Funktion. Diesmal stellen wir jedoch fest, dass es bei Y gleich 17 einen leeren Eimer gibt, was auf eine Wahrscheinlichkeit von Null hinweist. Um diese Informationen genau zu erfassen, möchten wir sechs Bins verwenden, sodass ein leerer Bin bei Y gleich 17 ist.

Wir können die Ästhetik des Histogramms weiter verbessern, indem wir eine Randfarbe und eine Innenfarbe für die Balken hinzufügen. Beispielsweise können wir die Randfarbe auf Dunkelblau und die Füllfarbe auf normales Blau festlegen. Darüber hinaus können wir die Beschriftung der Y-Achse anpassen, um anzugeben, dass sie Wahrscheinlichkeiten darstellt, und die Beschriftung der X-Achse einfach in „Werte“ ändern, da es sich um einen abstrakten Datensatz handelt.

Mit diesen Anpassungen erscheint unser Wahrscheinlichkeitshistogramm professioneller. Natürlich können wir die Farben und Etiketten noch weiter verfeinern, um die gewünschte visuelle Präsentation zu erreichen. So erstellen wir ein elegantes Wahrscheinlichkeitshistogramm in R.

 

Arbeiten mit diskreten Zufallsvariablen


Arbeiten mit diskreten Zufallsvariablen

Hallo an alle! Heute werden wir das Konzept diskreter Zufallsvariablen und diskreter Wahrscheinlichkeitsverteilungen untersuchen. Eine Zufallsvariable ist eine Variable, deren Wert durch einen Zufallsprozess bestimmt wird. Im Falle einer diskreten Zufallsvariablen können die möglichen Ergebnisse aufgelistet werden, was zu einer diskreten Wahrscheinlichkeitsverteilung führt.

Betrachten wir ein Beispiel, um dieses Konzept zu veranschaulichen. Stellen Sie sich vor, wir haben ein Haus mit 16 Zimmern und wählen zufällig einen Raum aus, um die Anzahl der Fenster zu zählen. Die Anzahl der Fenster kann 0, 1, 2, 3 oder 4 betragen, jeweils mit entsprechenden Wahrscheinlichkeiten von 3/16, 5/16 usw. Dies stellt eine diskrete Wahrscheinlichkeitsverteilung dar, die aus allen möglichen Ergebnissen und den damit verbundenen Wahrscheinlichkeiten besteht.

Es gibt zwei wichtige Eigenschaften diskreter Zufallsvariablen und diskreter Wahrscheinlichkeitsverteilungen. Erstens muss die Summe aller Wahrscheinlichkeiten gleich eins sein. Dadurch wird sichergestellt, dass immer etwas passiert, da die Wahrscheinlichkeiten alle möglichen Ergebnisse abdecken. Wenn wir in unserem Beispiel alle Wahrscheinlichkeiten addieren, erhalten wir 16/16 oder eins.

Zweitens können beim Umgang mit diskreten Wahrscheinlichkeitsverteilungen Wahrscheinlichkeiten hinzugefügt werden. Wenn wir beispielsweise die Wahrscheinlichkeit ermitteln möchten, dass X 3 oder 4 ist, können wir die Wahrscheinlichkeit, dass X 3 und die Wahrscheinlichkeit, dass X 4 ist, berechnen und diese dann addieren. In diesem Fall beträgt die Wahrscheinlichkeit 3/16 + 1/16 = 4/16 = 1/4.

Fahren wir mit einigen Beispielproblemen fort. Betrachten Sie eine weitere diskrete Wahrscheinlichkeitsverteilung mit einer Zufallsvariablen Y mit fünf möglichen Ergebnissen: 5, 10, 25, 50 und 200. Wir erhalten Wahrscheinlichkeiten für vier dieser Ergebnisse und müssen die Wahrscheinlichkeit für das fünfte Ergebnis ermitteln.

Da die Summe aller Wahrscheinlichkeiten gleich eins sein muss, können wir auf die fehlende Wahrscheinlichkeit schließen. Indem wir die Summe der bekannten Wahrscheinlichkeiten (0,04 + 0,12 + 0,18 + 0,45) von eins subtrahieren, finden wir, dass die Wahrscheinlichkeit, dass Y 200 ist, 0,21 beträgt.

Führen wir nun einige Berechnungen mit derselben diskreten Wahrscheinlichkeitsverteilung durch. Zunächst möchten wir die Wahrscheinlichkeit ermitteln, dass Y kleiner oder gleich 10 ist. Dazu müssen wir die Wahrscheinlichkeiten für Y gleich 5 und Y gleich 10 summieren, was zu 0,04 + 0,12 = 0,16 führt.

Als nächstes interessiert uns die Wahrscheinlichkeit, dass Y eine ungerade Zahl ist. In diesem Fall haben wir zwei Ergebnisse: Y ist gleich 5 und Y ist gleich 25. Durch Addition ihrer Wahrscheinlichkeiten erhalten wir 0,04 + 0,18 = 0,22.

Bestimmen wir abschließend die Wahrscheinlichkeit, dass Y größer als 5 ist. Anstatt die Wahrscheinlichkeiten für Y gleich 10, 25, 50 und 200 direkt zu summieren, können wir eine Abkürzung verwenden. Wir betrachten das Komplementereignis: die Wahrscheinlichkeit, dass Y nicht größer als 5 ist. Indem wir die Wahrscheinlichkeit, dass Y kleiner oder gleich 5 (0,04) ist, von 1 subtrahieren, erhalten wir 1 – 0,04 = 0,96.

Diese Beispiele zeigen, wie man Wahrscheinlichkeiten berechnet und komplementäre Ereignisse im Kontext diskreter Wahrscheinlichkeitsverteilungen nutzt.

 

Zufallsvariablen: Mittelwert, Varianz und Standardabweichung


Zufallsvariablen: Mittelwert, Varianz und Standardabweichung

Hallo an alle! Heute werden wir Zufallsvariablen und ihre Maße für die zentrale Tendenz und Streuung diskutieren, nämlich Mittelwert, Varianz und Standardabweichung. Wir können das Zentrum und die Ausbreitung einer Zufallsvariablen auf ähnliche Weise beschreiben wie mit numerischen Daten.

Betrachten wir ein Beispiel einer diskreten Wahrscheinlichkeitsverteilung. Stellen Sie sich vor, wir führen eine Umfrage durch, bei der wir die Leute nach dem Zufallsprinzip befragen, wie viele Abendessen sie in der vergangenen Woche auswärts gegessen haben. Die Verteilung zeigt, dass etwa 49 % der Befragten nicht auswärts gegessen haben, etwa 22 % einmal auswärts gegessen haben usw. Wir können diese Verteilung mithilfe eines Wahrscheinlichkeitshistogramms visualisieren. Wenn man das Histogramm betrachtet, ist es intuitiv, den Mittelpunkt und die Streuung dieser Zufallsvariablen zu diskutieren.

Um genauer zu sein, interpretieren wir unsere Ergebnisse anhand des Histogramms. Der erwartete Wert oder Mittelwert einer Zufallsvariablen wird ermittelt, indem jeder Wert der Zufallsvariablen mit seiner entsprechenden Wahrscheinlichkeit multipliziert und die Ergebnisse summiert werden. Dieser gewichtete Mittelwert stellt den Mittelpunkt der Zufallsvariablen dar. Unter Bezugnahme auf unsere vorherige diskrete Wahrscheinlichkeitsverteilung berechnen wir den erwarteten Wert, indem wir jeden Wert (0, 1, 2 usw.) mit seiner jeweiligen Wahrscheinlichkeit (0,49, 0,22 usw.) multiplizieren und die Produkte summieren. In diesem Fall beträgt der erwartete Wert 1,12.

Der erwartete Wert wird oft als μ bezeichnet, was analog zum Populationsmittelwert in der Datenanalyse ist. Es misst den Mittelpunkt der Zufallsvariablen. Betrachtet man das Wahrscheinlichkeitshistogramm, stellt der erwartete Wert den Ausgleichspunkt dar, an dem das Histogramm an einem Drehpunkt balancieren würde.

Lassen Sie uns nun die Streuung einer diskreten Zufallsvariablen diskutieren, die anhand von Varianz und Standardabweichung gemessen wird. Die Varianz wird berechnet, indem der Mittelwert von jedem Wert der Zufallsvariablen subtrahiert, das Ergebnis quadriert, mit der entsprechenden Wahrscheinlichkeit multipliziert und alle gewichteten Varianzen summiert werden. Dadurch wird erfasst, wie weit jeder Wert vom Mittelwert abweicht. Da wir die Differenzen jedoch quadriert haben, hat die resultierende Varianz nicht die gleichen Einheiten wie die Originaldaten. Um ein Maß auf derselben Skala zu erhalten, ziehen wir die Quadratwurzel der Varianz und erhalten so die Standardabweichung.

In der Praxis kann es mühsam sein, Varianz und Standardabweichung manuell zu berechnen. Es wird empfohlen, Technologien wie Statistiksoftware oder Taschenrechner zu verwenden. Bei der R-Programmierung können wir beispielsweise die Werte und ihre entsprechenden Wahrscheinlichkeiten eingeben und dann integrierte Funktionen verwenden, um den erwarteten Wert, die Varianz und die Standardabweichung zu berechnen.

Durch den Einsatz von Technologie können wir Berechnungen effizient durchführen und manuelle Berechnungen mit Produkten und Quadraten vermeiden. Die Varianz liefert wertvolle Erkenntnisse für Berechnungen und theoretische Überlegungen, während die Standardabweichung für die Interpretation bequemer ist, da sie dieselben Einheiten wie die ursprüngliche Zufallsvariable aufweist.

Zusammenfassend lässt sich sagen, dass beim Umgang mit Zufallsvariablen das Verständnis ihres Zentrums (Mittelwert) und ihrer Streuung (Varianz und Standardabweichung) von entscheidender Bedeutung ist. Diese Maße ermöglichen es uns, die Eigenschaften der Zufallsvariablen effizient zu quantifizieren und zu interpretieren.

 

Bernoulli-Versuche und die Binomialverteilung


Bernoulli-Versuche und die Binomialverteilung

Hallo zusammen, heute werden wir Bernoulli-Versuche und die Binomialverteilung besprechen. Ein Bernoulli-Versuch ist ein einfaches Wahrscheinlichkeitsexperiment mit zwei Ergebnissen: Erfolg und Misserfolg. Diese Versuche werden durch die Erfolgswahrscheinlichkeit definiert, die als Kleinbuchstabe „p“ bezeichnet wird. Betrachten wir einige Beispiele, um dieses Konzept zu veranschaulichen.

Wenn man zum Beispiel eine Münze wirft und den Kopf als Erfolg betrachtet, hätte dies eine Erfolgswahrscheinlichkeit (p) von 1/2. Wenn man eine Karte aus einem Standarddeck mit 52 Karten zieht und ein Ass als Erfolg betrachtet, beträgt die Erfolgswahrscheinlichkeit (p) 4/52 oder 1/13. Wenn 40 % der amerikanischen Wähler ihrem Präsidenten zustimmen, hätte die zufällige Auswahl eines Wählers eine Erfolgswahrscheinlichkeit (p) von 0,4.

Es ist wichtig zu beachten, dass die Begriffe „Erfolg“ und „Misserfolg“ in diesem Zusammenhang Fachbegriffe sind und keine politischen Aussagen oder persönlichen Meinungen implizieren. Wir können Bernoulli-Versuche als diskrete Zufallsvariablen darstellen, indem wir Erfolg als 1 und Misserfolg als 0 kodieren. Dadurch können wir eine einfache Wahrscheinlichkeitsverteilung erstellen, bei der x die Werte 0 oder 1 annimmt. Die Wahrscheinlichkeit, eine 1 zu erhalten, ist gleich p, während die Die Wahrscheinlichkeit, eine 0 zu erhalten, ist gleich 1 – p, da diese Ergebnisse komplementär sind.

Wir können den erwarteten Wert dieser Zufallsvariablen (x) berechnen, indem wir x multipliziert mit der entsprechenden Wahrscheinlichkeit (p(x)) für alle möglichen Werte von x aufsummieren. Der erwartete Wert ist gleich p, was die Erfolgswahrscheinlichkeit in einem einzelnen Versuch darstellt. Auf ähnliche Weise können wir die Varianz berechnen, indem wir (x – erwarteter Wert)^2 multipliziert mit p(x) für alle möglichen Werte von x aufsummieren. Die Varianz ist gleich p(1 – p). Durch Ziehen der Quadratwurzel der Varianz erhalten wir die Standardabweichung, die die Streuung der Zufallsvariablen misst.

In vielen Fällen werden Bernoulli-Versuche wiederholt durchgeführt, was zu einer Gesamtzahl von Erfolgen in n identischen und unabhängigen Versuchen führt. Dies führt zu einer diskreten Zufallsvariablen, die Werte von 0 bis n annehmen kann. Die Binomialverteilung, typischerweise als B(n, p) bezeichnet, stellt die Wahrscheinlichkeitsverteilung für diese Zufallsvariable dar, wenn wir n identische und unabhängige Bernoulli-Versuche mit einer Erfolgswahrscheinlichkeit von p haben.

Wenn beispielsweise eine faire Münze dreimal geworfen wird und wir x als Anzahl der Köpfe definieren, erhalten wir B(3, 0,5) als Binomialverteilung. Wir können die Wahrscheinlichkeiten für jeden Wert von x direkt berechnen, indem wir alle möglichen Ergebnisse und ihre entsprechenden Wahrscheinlichkeiten berücksichtigen. Wenn n größer wird, wird es unpraktisch, diese Wahrscheinlichkeiten manuell zu berechnen, und wir benötigen eine allgemeinere Formel.

Die Wahrscheinlichkeit von genau k Erfolgen in n Versuchen, wobei k im Bereich von 0 bis n liegt, wird durch die Formel n wähle k mal p^k mal (1 - p)^(n - k) angegeben. Diese Formel berücksichtigt die Anzahl der Möglichkeiten, in n Versuchen genau k Erfolge zu erzielen, und die entsprechenden Wahrscheinlichkeiten. Es ermöglicht uns, Wahrscheinlichkeiten in der Binomialverteilung effizient zu berechnen.

Betrachten wir ein Beispiel, bei dem ein Basketballspieler eine durchschnittliche Freiwurf-Erfolgsquote von 78 % hat. Wenn sie zehn Freiwürfe schießt, können wir mithilfe der Binomialverteilung die Wahrscheinlichkeit berechnen, dass sie genau acht Schüsse und mindestens acht Schüsse abgibt. Indem wir die Werte in die Formel einfügen, können wir die Wahrscheinlichkeiten entsprechend berechnen.

Eine Zufallsvariable mit Binomialverteilung ist die Summe mehrerer Bernoulli-Versuche. Der Mittelwert dieser Zufallsvariablen ist durch n mal p und die Varianz durch n mal p mal (1 - p) gegeben. Die Standardabweichung ist die Quadratwurzel aus np mal (1 – p).

Im Fall eines zehnmal schießenden Basketballspielers mit einer Erfolgswahrscheinlichkeit von 0,78 wäre der erwartete Wert (Mittelwert) 10 * 0,78 = 7,8 und die Standardabweichung wäre die Quadratwurzel von (10 * 0,78 * (1 - 0,78). )) ≈ 1,3.

Um die Binomialverteilung zu visualisieren, können wir ein Wahrscheinlichkeitshistogramm erstellen. Am Beispiel des Basketballspielers, der zehn Schüsse mit einer Erfolgswahrscheinlichkeit von 0,78 schießt, erstellen wir ein Histogramm mit Balken, die jeden Wert von x (Anzahl erfolgreicher Schüsse) von 0 bis 10 darstellen. Die Höhe jedes Balkens entspricht der Erfolgswahrscheinlichkeit diese spezifische Anzahl von Schüssen in den zehn Versuchen. Beispielsweise läge die Wahrscheinlichkeit, genau 8 Schüsse zu machen, bei etwa 0,3.

Die Binomialverteilung bietet einen nützlichen Rahmen für die Analyse von Situationen, die wiederholte unabhängige Versuche mit einer festen Erfolgswahrscheinlichkeit beinhalten. Durch das Verständnis der Eigenschaften der Binomialverteilung, wie Erwartungswert, Varianz und Wahrscheinlichkeitsberechnungen, können wir fundierte Entscheidungen und Vorhersagen in verschiedenen Bereichen treffen, einschließlich Statistik, Finanzen und Qualitätskontrolle.

Denken Sie daran, dass die Binomialverteilung bestimmte Bedingungen voraussetzt, z. B. unabhängige Versuche und eine feste Erfolgswahrscheinlichkeit für jeden Versuch. Diese Annahmen sollten sorgfältig geprüft werden, wenn die Binomialverteilung auf reale Szenarien angewendet wird.

Zusammenfassend lässt sich sagen, dass Bernoulli-Versuche und die Binomialverteilung ein grundlegendes Verständnis von Wahrscheinlichkeitsexperimenten mit zwei Ergebnissen und mehreren unabhängigen Versuchen bieten. Mithilfe der mit diesen Konzepten verbundenen Formeln und Eigenschaften können wir die Wahrscheinlichkeiten für das Erreichen unterschiedlicher Erfolgsniveaus in verschiedenen Szenarien analysieren und vorhersagen.

 

Binomialrechnungen in R


Binomialrechnungen in R

Hallo zusammen, heute werden wir R verwenden, um Berechnungen mit der Binomialverteilung durchzuführen. In R gibt es vier Grundfunktionen, die für die Arbeit mit der Binomialverteilung wichtig sind.

Erstens generiert die Funktion rbinom() Zufallswerte aus der Binomialverteilung. Es werden drei Argumente benötigt: die Anzahl der zu generierenden Zufallswerte, die Stichprobengröße und die Erfolgswahrscheinlichkeit eines einzelnen Versuchs. Beispielsweise generiert rbinom(10, 2, 0.5) 10 Zufallswerte aus einer Binomialverteilung mit einer Stichprobengröße von 2 und einer Erfolgswahrscheinlichkeit von 0,5.

Zweitens gibt die Funktion dbinom() die Wahrscheinlichkeit zurück, eine bestimmte Anzahl von Erfolgen in der Binomialverteilung zu erzielen. Es werden drei Argumente benötigt: die Anzahl der Erfolge, die Stichprobengröße und die Erfolgswahrscheinlichkeit. Sie können die Anzahl der Erfolge als Vektor angeben, um Wahrscheinlichkeiten für unterschiedliche Erfolgszahlen gleichzeitig zu berechnen. Beispielsweise berechnet dbinom(0:4, 4, 0.5) die Wahrscheinlichkeiten für 0, 1, 2, 3 oder 4 Erfolge in einer Binomialverteilung mit einer Stichprobengröße von 4 und einer Erfolgswahrscheinlichkeit von 0,5.

Als nächstes ist die Funktion pbinom() eine kumulative Wahrscheinlichkeitsfunktion. Es gibt die Wahrscheinlichkeit zurück, in der Binomialverteilung höchstens eine bestimmte Anzahl von Erfolgen zu erzielen. Ähnlich wie bei dbinom() können Sie einen Wertevektor bereitstellen, um kumulative Wahrscheinlichkeiten zu berechnen. Beispielsweise gibt pbinom(0:4, 4, 0,5) die Wahrscheinlichkeiten zurück, in einer Binomialverteilung mit einer Stichprobengröße von 4 und einer Erfolgswahrscheinlichkeit von 0,5 höchstens 0, 1, 2, 3 oder 4 Erfolge zu erzielen.

Schließlich ist die Funktion qbinom() ein inverser Wahrscheinlichkeitsrechner. Es gibt den kleinsten Erfolgswert zurück, sodass die kumulative Wahrscheinlichkeit gleich oder größer als eine angegebene Wahrscheinlichkeit ist. Mit anderen Worten: Es berechnet Quantile in der Binomialverteilung. Beispielsweise gibt qbinom(c(0.25, 0.5, 0.75), 10, 0.5) das 25., 50. und 75. Perzentil in einer Binomialverteilung mit einer Stichprobengröße von 10 und einer Erfolgswahrscheinlichkeit von 0,5 an.

Wenden wir diese Funktionen nun auf einige Probleme an.

Problem 1: Lassen Sie uns 50 Durchläufe eines Experiments simulieren, bei dem wir zehnmal mit einem fairen Würfel würfeln und die Anzahl der Sechsen zählen. Wir können die Funktion rbinom() mit der Stichprobengröße 10 und der Erfolgswahrscheinlichkeit von 1/6 verwenden (da die Chance, eine Sechs zu würfeln, bei 1/6 liegt).

results <- rbinom ( 50 , 10 , 1 / 6 ) table ( results )

Problem 2: Laut einer aktuellen Umfrage bevorzugen 72 % der Amerikaner Hunde gegenüber Katzen. Wenn 8 Amerikaner zufällig ausgewählt werden, wie groß ist die Wahrscheinlichkeit, dass genau 6 von ihnen Hunde bevorzugen und dass weniger als 6 Hunde bevorzugen? Wir können die Funktionen dbinom() und pbinom() verwenden.

# Probability of exactly 6 preferring dogs
prob_six <- dbinom ( 6 , 8 , 0.72 ) # Probability of fewer than 6 preferring dogs
prob_less_than_six <- pbinom ( 5 , 8 , 0.72 )
prob_six
prob_less_than_six

Problem 3: Eine gewichtete Münze hat eine Wahrscheinlichkeit von 42 %, dass sie „Kopf“ erhält. Wie hoch ist die erwartete Kopfzahl bei 5 Würfen? Erstellen Sie außerdem ein Wahrscheinlichkeitshistogramm für die Zufallsvariable, die die Anzahl der Köpfe in 5 Würfen darstellt.

Um die erwartete Anzahl an Köpfen zu berechnen, können wir die Formel für den Erwartungswert einer Binomialverteilung verwenden, der das Produkt aus Stichprobengröße und Erfolgswahrscheinlichkeit ist. In diesem Fall beträgt die Stichprobengröße 5 und die Erfolgswahrscheinlichkeit (einen Kopf zu bekommen) beträgt 0,42.

# Expected number of heads
expected_heads <- 5 * 0.42 expected_heads

Die erwartete Kopfzahl bei 5 Würfen der gewichteten Münze beträgt 2,1.

Um ein Wahrscheinlichkeitshistogramm zu erstellen, verwenden wir das Paket ggplot2 in R. Zuerst installieren und laden wir das Paket.

install.packages ( "ggplot2" ) # Run this line if ggplot2 is not installed
library ( ggplot2 )

Als Nächstes generieren wir mit der Funktion dbinom() die diskrete Wahrscheinlichkeitsverteilung für die Anzahl der Köpfe in 5 Würfen. Wir berechnen die Wahrscheinlichkeiten für jede mögliche Kopfzahl (0 bis 5).

x <- 0 : 5 # Possible number of heads
p <- dbinom ( x , 5 , 0.42 ) # Probabilities

Jetzt können wir das Wahrscheinlichkeitshistogramm mit ggplot2 erstellen.

# Create probability histogram
df <- data.frame ( x = x , p = p )
ggplot ( df , aes ( x = as.factor ( x ) , y = p ) ) + geom_bar ( stat = "identity" , fill = "lightblue" ) + xlab ( "Number of Heads" ) + ylab ( "Probability" ) + ggtitle ( "Probability Histogram for Number of Heads in 5 Tosses" )

Dieser Code generiert ein Histogramm mit der Anzahl der Köpfe auf der x-Achse und den entsprechenden Wahrscheinlichkeiten auf der y-Achse.

 

Die gleichmäßige Verteilung


Die gleichmäßige Verteilung

Hallo zusammen, heute werden wir uns mit kontinuierlichen Zufallsvariablen befassen und insbesondere solche mit Gleichverteilungen untersuchen.

Erinnern wir uns zunächst daran, was eine kontinuierliche Zufallsvariable ist. Dabei handelt es sich um eine Variable, die im Gegensatz zu einem diskreten Satz von Werten Werte innerhalb eines gesamten Bereichs annehmen kann. Wenn wir beispielsweise zufällig jemanden auswählen und seine genaue Größe messen, gibt es unendlich viele mögliche Werte, die diese Zufallsvariable annehmen kann. Folglich ist die Wahrscheinlichkeit, einen bestimmten Wert zu erhalten, verschwindend gering, was es unpraktisch macht, die Wahrscheinlichkeiten bestimmter Werte zu diskutieren. Um dieses Problem anzugehen, konzentrieren wir uns auf Wahrscheinlichkeiten, die damit verbunden sind, dass die Zufallsvariable in bestimmte Wertebereiche fällt.

Anstatt beispielsweise nach der Wahrscheinlichkeit zu fragen, dass jemand genau 58,6 Zoll groß ist (was nahezu Null wäre), könnten wir nach der Wahrscheinlichkeit fragen, dass seine Körpergröße zwischen 55 und 65 Zoll liegt. Dieser Ansatz ermöglicht es uns, mit aussagekräftigen Wahrscheinlichkeiten zu arbeiten. Ein weiteres Beispiel ist die Betrachtung der Wahrscheinlichkeit, dass ein zufällig ausgewähltes Lied weniger als drei Minuten oder länger als drei Minuten ist, anstatt genau drei Minuten.

Eine der einfachsten Arten kontinuierlicher Zufallsvariablen ist die Gleichverteilung. Bei einer gleichmäßig verteilten Zufallsvariablen sind die Wahrscheinlichkeiten gleichmäßig über den gesamten Bereich verteilt. Möglicherweise sind Sie auf dieses Konzept in der Excel-Funktion rand() gestoßen, die eine Zufallszahl zwischen 0 und 1 mit den angegebenen Dezimalstellen generiert. In diesem Fall haben alle Werte die gleiche Wahrscheinlichkeit. Wir bezeichnen dies als eine gleichmäßige Verteilung im Intervall [0, 1].

Um Wahrscheinlichkeiten für eine gleichmäßige Verteilung zu berechnen, dividieren wir die Breite des gewünschten Intervalls durch die Gesamtbreite des gesamten Bereichs. Beispielsweise beträgt die Wahrscheinlichkeit, dass das Ergebnis kleiner als 0,2 ist, 0,2 dividiert durch 1 (die Gesamtbreite), was 0,2 ergibt. Ebenso beträgt die Wahrscheinlichkeit, dass das Ergebnis größer oder gleich 4 ist, 0,6, da das interessierende Intervall eine Breite von 0,6 Einheiten hat. Es ist erwähnenswert, dass die Strenge der Ungleichungen (z. B. „<“ vs. „<=") beim Umgang mit kontinuierlichen Zufallsvariablen irrelevant ist, da die Wahrscheinlichkeiten einzelner Ergebnisse verschwindend klein sind.

Wir können das Konzept der gleichmäßigen Wahrscheinlichkeitsverteilungen auch auf andere Intervalle erweitern. Wenn man beispielsweise das Intervall [1, 7] betrachtet, erhält man eine kontinuierliche Wahrscheinlichkeitsverteilung, bei der die Zufallsvariable mit gleicher Wahrscheinlichkeit jeden Wert zwischen 1 und 7 annehmen kann. Sehen wir uns einige Beispiele innerhalb dieser Distribution an:

  • Die Wahrscheinlichkeit, dass die Zufallsvariable kleiner als 5 ist, beträgt 4/6 oder 2/3, berechnet durch Division der Breite des Intervalls von 1 bis 5 (4) durch die Gesamtbreite des Intervalls (6).
  • Die Wahrscheinlichkeit, dass die Zufallsvariable kleiner oder gleich 1,5 ist, beträgt 0,5/6 oder 1/12. Hier teilen wir die Breite des Intervalls von 1 bis 1,5 (0,5) durch die Gesamtbreite des Intervalls (6).
  • Die Wahrscheinlichkeit dafür, dass die Zufallsvariable größer als 6,12 ist, beträgt 11/70 oder 0,157, ermittelt durch Division der Breite des Intervalls von 6,12 bis 7 durch die Gesamtbreite des Intervalls (70/5).

Das Zeichnen von Wahrscheinlichkeitshistogrammen für kontinuierliche Zufallsvariablen ist nicht auf die gleiche Weise möglich wie für diskrete Zufallsvariablen, da die einzelnen Wahrscheinlichkeiten verschwindend klein sind. Stattdessen verwenden wir Dichtediagramme, die die Wahrscheinlichkeit als Fläche und nicht als Höhe darstellen. In einem Dichtediagramm für eine Gleichverteilung sind alle Wahrscheinlichkeiten gleich und ergeben eine horizontale Linie. Die Gesamtfläche unter dem Dichtediagramm sollte immer 1 betragen, um sicherzustellen, dass die Wahrscheinlichkeiten korrekt summiert werden.

Betrachten wir zur Veranschaulichung eine gleichmäßige Verteilung im Intervall [-5, 5]. In diesem Fall beträgt die Breite der Domäne 10 (5 - (-5)). Um die Dichtekurve zu erstellen, muss die Höhe des Rechtecks 1 geteilt durch die Breite sein, was 1/10 ergibt. Dadurch wird sichergestellt, dass die Gesamtfläche unter der Dichtekurve 1 beträgt.

Berechnen wir nun die Wahrscheinlichkeit, dass die Zufallsvariable in dieser Verteilung größer als 3,5 ist. Wir können die Dichtekurve neu zeichnen und den Bereich entsprechend X > 3,5 schattieren. Die Wahrscheinlichkeit ist dann gleich der Fläche dieser schattierten Region.

Indem wir die Formel zur Berechnung der Fläche eines Rechtecks (Basis mal Höhe) anwenden, multiplizieren wir die Breite (5 - 3,5 = 1,5) mit der Höhe (1/10). Daraus ergibt sich eine Fläche von 1,5/10 bzw. 15 %.

Zusammenfassend beträgt in der Gleichverteilung U(-5, 5) die Wahrscheinlichkeit, dass X größer als 3,5 ist, 15 %.

 

Kontinuierliche Zufallsvariablen


Kontinuierliche Zufallsvariablen

Hallo an alle! Heute beschäftigen wir uns mit dem Thema kontinuierlicher Zufallsvariablen. Eine kontinuierliche Zufallsvariable ist einfach eine Variable, die Werte über einen gesamten Bereich annehmen kann, was präzise Messungen ermöglicht. Schauen wir uns einige Beispiele an, um dieses Konzept zu veranschaulichen.

Stellen Sie sich vor, Sie wählen einen beliebigen Hund im örtlichen Tierheim aus und messen die Länge seines Schwanzes. Sie können Messungen mit jedem gewünschten Genauigkeitsgrad erhalten. Erwägen Sie in ähnlicher Weise die Messung der exakten Temperatur am Südpol zu einem beliebigen Zeitpunkt oder die Messung der Dauer eines zufällig ausgewählten Kundendienstanrufs. Diese Beispiele demonstrieren die Fähigkeit, Variablen mit beliebiger Präzision zu messen.

Im Gegensatz dazu kann eine diskrete Zufallsvariable nur Werte aus einer nicht kontinuierlichen Menge annehmen. Wenn Sie beispielsweise 20 Mal würfeln und die Sechser zählen, erhalten Sie ganze Zahlen wie 0, 1, 2, 3, 4 usw. Brüche oder Dezimalzahlen wie ein halbes, zwei Drittel oder dreiviertel sind jedoch keine möglichen Ergebnisse.

Die Beschreibung von Wahrscheinlichkeiten für kontinuierliche Zufallsvariablen ist komplexer als für diskrete. Bei unendlich vielen möglichen Ergebnissen ist die Wahrscheinlichkeit, ein bestimmtes individuelles Ergebnis zu erzielen, praktisch Null. Wenn wir beispielsweise angeben, dass ein Kundendienstanruf 150 Sekunden dauert, könnte die tatsächliche Länge 150,1, 150,05 oder unzählige andere Werte betragen. Daher ist die Wahrscheinlichkeit, dass der Anruf genau 150 Sekunden dauert, praktisch Null.

Dennoch können bestimmte Anruflängen wahrscheinlicher erscheinen als andere. Wir gehen davon aus, dass ein Anruf, der 150 Sekunden dauert, viel wahrscheinlicher ist als einer, der drei Stunden dauert. Um Wahrscheinlichkeiten für kontinuierliche Zufallsvariablen zu ermitteln, konzentrieren wir uns eher auf Wertebereiche als auf bestimmte Ergebnisse. Beispielsweise berücksichtigen wir die Wahrscheinlichkeit, dass ein Anruf zwischen 140 und 160 Sekunden liegt, was häufig zu Wahrscheinlichkeiten ungleich Null führt.

Eine Möglichkeit, eine kontinuierliche Zufallsvariable zu visualisieren, ist eine Dichtekurve. Wahrscheinlichkeiten über Bereiche werden dann als Flächen unter der Dichtekurve dargestellt. Betrachten wir ein Diagramm, das eine Zufallsvariable X darstellt, die mit abnehmender Wahrscheinlichkeit zwischen 0 und 4 liegt. Der schattierte Bereich im Diagramm stellt die Wahrscheinlichkeit dar, dass X bei einem bestimmten Versuch zwischen 1 und 2 fällt. Aus dem Bild können wir erkennen, dass die Wahrscheinlichkeit, dass X zwischen 1 und 2 fällt, geringer ist als die Wahrscheinlichkeit, dass es zwischen 0 und 1 fällt. Diese Diskrepanz entsteht, weil unter der Kurve von 0 bis 1 mehr Fläche vorhanden ist als von 1 bis 2 Ebenso ist die Wahrscheinlichkeit höher, dass X zwischen 1 und 2 liegt als zwischen 2 und 3. Wir können die Wahrscheinlichkeit, dass 30 %.

Eine Dichtekurve wird üblicherweise als Wahrscheinlichkeitsdichtefunktion (PDF) bezeichnet. Ein legitimes PDF besitzt zwei wesentliche Eigenschaften. Erstens muss es immer positiv sein, sich an der positiven Natur von Wahrscheinlichkeiten auszurichten. Zweitens sollte die Gesamtfläche unter dem Diagramm eines legitimen PDF immer eins betragen, was bedeutet, dass wir bei der Durchführung eines Wahrscheinlichkeitsexperiments einen bestimmten Wert von X erhalten.

Während das Konzept einer PDF- und Dichtekurve intuitiv sein mag, können die tatsächlichen Berechnungen damit eine Herausforderung sein. In der Praxis arbeiten wir häufig mit kumulativen Verteilungsfunktionen (CDFs) von Zufallsvariablen, um aufwändige Berechnungen zu vermeiden. Ein CDF gibt die Wahrscheinlichkeit an, dass eine Zufallsvariable bei einem bestimmten Versuch einen Wert annimmt, der nicht größer als ein angegebenes X ist. Im Wesentlichen werden die Wahrscheinlichkeiten akkumuliert. Wenn beispielsweise X zunimmt, steigt auch der entsprechende CDF-Wert, da sich mehr Wahrscheinlichkeiten akkumulieren.

Mit der CDF können wir die Wahrscheinlichkeit berechnen, dass eine Zufallsvariable in einen bestimmten Bereich fällt. Diese Wahrscheinlichkeit wird durch Subtrahieren der CDF-Werte der unteren und oberen Grenzen des Bereichs bestimmt. Schauen wir uns den Graphen der PDF- und CDF-Werte derselben Zufallsvariablen an, der mit X bezeichnet wird. Der schattierte Bereich im Graphen stellt die akkumulierte Wahrscheinlichkeit dar, dass . Beachten Sie, dass mit zunehmendem X immer auch die CDF F(X) zunimmt, da sich mehr Wahrscheinlichkeit ansammelt.

Um die Wahrscheinlichkeit zu berechnen, dass X zwischen zwei Werten liegt, beispielsweise a und b, subtrahieren wir den CDF-Wert bei b vom CDF-Wert bei a. Im Diagramm entspricht dies dem Subtrahieren der Fläche links von X gleich 2 von der Fläche links von X gleich 1. Mathematisch wird dies als F(b) – F(a) ausgedrückt. Die visuelle Darstellung macht es deutlich.

Der einfachste Typ einer kontinuierlichen Zufallsvariablen ist eine mit einer Gleichverteilung. Bei einer Gleichverteilung sind die Wahrscheinlichkeiten für Intervalle gleicher Breite gleich. Im Wesentlichen bedeutet dies, dass jeder Wert von X innerhalb eines bestimmten Bereichs gleich wahrscheinlich ist. Eine andere Sichtweise besteht darin, dass die PDF einer gleichmäßig verteilten Zufallsvariablen eine konstante Funktion ist.

Betrachten wir ein Beispiel. Angenommen, wir haben eine kontinuierliche Zufallsvariable, deren Werte bei gleichmäßiger Verteilung zwischen 1 und 7 liegen können. Das PDF ist eine konstante Funktion zwischen 1 und 7 mit einer Gesamtfläche von 1. Da die Breite des Intervalls 6 beträgt, beträgt die Höhe des Diagramms 1/6. Mit diesen Informationen können wir Wahrscheinlichkeiten für jeden Bereich von ist 1/6. Somit beträgt die Wahrscheinlichkeit (1/6) * (7 - 2) = 5/6.

Wenn Sie eine ausführlichere Erklärung der Gleichverteilungen wünschen, habe ich ein spezielles Video zu diesem Thema, das Sie über den oben angegebenen Link finden können.

Grund der Beschwerde: