Учебники по программированию - страница 13

 

Правило сложения для вероятностей


Правило сложения для вероятностей

Всем привет, сегодня мы будем обсуждать правило сложения вероятностей. Это правило позволяет вычислить вероятности объединения событий. Начнем с упрощенной версии правила.

Предположим, у нас есть два события, А и В, которые не пересекаются, то есть у них нет общих исходов. В этом случае вероятность того, что произойдет любое событие, представляет собой просто сумму их индивидуальных вероятностей. Это можно записать как:

Р(А ∪ В) = Р(А) + Р(В)

Здесь A ∪ B представляет собой набор всех результатов, которые находятся в A или B, что по существу означает «A или B». Важно помнить, что непересекающиеся события не могут происходить одновременно, поскольку у них нет общих результатов. Иногда эти события называют взаимоисключающими.

Чтобы проиллюстрировать эту версию правила сложения, рассмотрим пример. Предположим, мы дважды бросили правильный кубик и определили событие А как первый бросок, равный 6, а событие В как сумму бросков, равную трем. Эти события взаимоисключающие, потому что если первый бросок равен шести, сумма не может быть равна трем. Теперь, чтобы вычислить вероятность A или B (первым броском будет шестерка или сумма равна трем), нам нужны отдельные вероятности этих событий.

Вероятность того, что при первом броске выпадет шестерка, равна 1/6, поскольку существует шесть возможных исходов, и только один из них — шестерка. Вероятность того, что сумма бросков будет равна трем, равна 2/36, учитывая, что существует 36 возможных результатов для двух бросков костей, а два результата дают в сумме три (1 + 2 и 2 + 1). Складывая эти вероятности, мы получаем общую вероятность 2/9.

Перейдем к другому примеру, взятому из учебника «Элементарная статистика» Ларсона и Фарбера. При опросе домовладельцев их спрашивали о времени, которое проходит между уборками дома. Результаты сведены в круговую диаграмму, показывающую разные временные интервалы. Мы хотим найти вероятность того, что случайно выбранный домовладелец пропускает между уборками более двух недель.

В данном случае нас интересует вероятность выбора домовладельца из синего или желтого сегмента круговой диаграммы. Поскольку эти отрезки взаимоисключающие (вы не можете убираться в доме как раз в три недели, так и четыре недели и более), мы можем сложить вероятности этих событий. Вероятность уборки дома каждые три недели составляет 10%, а вероятность уборки четыре недели и более составляет 22%. Сложение этих вероятностей дает нам общую вероятность 32%.

Теперь давайте рассмотрим более общий случай, когда два события, А и В, не пересекаются. В этом сценарии правило сложения становится немного сложнее. Вероятность A или B определяется как:

P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

Здесь A ∩ B представляет исходы, которые есть как в A, так и в B. Важно вычесть вероятность A ∩ B, потому что, когда A и B перекрываются, исходы в A ∩ B учитываются дважды (один раз в A и один раз в B). ).

Чтобы проиллюстрировать эту версию правила сложения, давайте воспользуемся примером из опроса о привычках курения и использовании ремней безопасности. В ходе опроса было опрошено 242 респондента об их привычках, и в таблице обобщены результаты. Мы хотим найти вероятность того, что случайно выбранный респондент не курит и не пристегнут ремнем безопасности.

Пусть A — событие отказа от курения, а B — событие непристегнутого ремня безопасности. Нас интересует вероятность A или B (A ∪ B). Чтобы вычислить это, нам нужны индивидуальные вероятности A, B и A ∩ B. Вероятность некурения составляет 169 из 242, так как в выборке из 242 человек 169 некурящих. Вероятность того, что вы не пристегнете ремень безопасности, составляет 114 из 242. Теперь нам также нужна вероятность A ∩ B, которая представляет людей, которые не курят и не пристегивают ремень безопасности. Из таблицы мы видим, что таких особей 81.

Используя правило сложения для непересекающихся событий, мы можем рассчитать вероятность A или B следующим образом:

P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

Подставляя значения, получаем:

Р(А ∪ В) = 169/242 + 114/242 - 81/242

Упрощая выражение, находим, что:

Р(А ∪ В) = 202/242

Теперь давайте вычислим вероятность A или B напрямую, сложив отдельные вероятности. В этом случае мы можем использовать правило сложения непересекающихся событий, поскольку события в каждой ячейке таблицы взаимоисключающие. Складывая вероятности пяти ячеек, представляющих A или B, мы получаем:

P(A ∪ B) = 88/242 + 81/242 + 9/242 + ... (оставшиеся вероятности)

Выполнив сложение, мы снова приходим к вероятности 202/242.

Следовательно, оба метода дают одинаковую вероятность A или B, которая составляет 202/242.

The Addition Rule for Probabilities
The Addition Rule for Probabilities
  • 2021.02.17
  • www.youtube.com
How can we compute P(A or B)? With the addition rule, of course! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more sta...
 

Факториалы, перестановки и комбинации


Факториалы, перестановки и комбинации

Привет всем, сегодня мы собираемся изучить концепции подсчета, включая факториалы, перестановки и комбинации. Все сводится к фундаментальному принципу подсчета, который гласит, что если одно событие может произойти M способами, а второе событие может произойти N способами, то два последовательных события могут произойти в общей сложности M раз N способами. Важно отметить, что исход первого события не влияет на количество возможных исходов второго события.

Начнем с примера. Предположим, в меню 6 салатов и 8 супов. Сколько комбинаций супа и салата возможно? Сначала мы выбираем салат, что дает нам 6 возможностей. Для каждого из этих вариантов есть 8 возможных супов. Таким образом, мы получаем 6 групп по 8, что в сумме дает 48 возможных комбинаций.

Эта идея распространяется на более длинные последовательности событий. Например, если меню включает в себя 6 салатов, 8 супов, 15 основных блюд и 3 десерта, то 6 умножить на 8 умножить на 15 умножить на 3, что равняется 2160 возможным приемам пищи.

Иногда нам нужно подсчитать, сколько способов можно расположить предметы, людей или вещи. Например, сколькими способами может встать в очередь группа из 4 человек? Мы можем снова использовать фундаментальный принцип подсчета. Есть 4 разных варианта для первого человека в очереди, 3 варианта для второго человека, 2 варианта для третьего и 1 вариант для четвертого. Перемножая эти числа вместе, мы находим, что 4 раза 3 раза 2 раз 1, что равняется 24 способам, которыми 4 человека можно расположить в очереди. Этот расчет настолько распространен, что мы даем ему специальное название: факториал.

В общем, факториал числа N, обозначаемый как N!, является произведением первых N натуральных чисел. Например, 3! это 1 раз 2 раза 3, 5! 1 раз 2 раза 3 раза 4 раза 5 и так далее. Факториал растет быстро, даже быстрее, чем экспоненциальный рост. Например, 10! уже более 3 млн.

Рассмотрим чуть более сложный пример. Предположим, в скачках участвуют 12 лошадей, и мы хотим знать, сколькими разными способами они могут выиграть, занять место и показать результат, имея в виду первые три позиции. Мы можем еще раз применить фундаментальный принцип подсчета. Есть 12 возможных победителей, 11 возможных занявших второе место и 10 возможных занявших третье место. Умножая эти числа, мы получаем, что 12 умножить на 11 умножить на 10, что дает 1320 возможных комбинаций.

Чтобы обобщить это, предположим, что у нас есть N элементов, и мы хотим подсчитать количество аранжировок для первых K элементов. Используя фундаментальный принцип подсчета, есть N вариантов для первого элемента, N - 1 вариантов для второго и так далее, пока у нас не будет всего K терминов. Последним членом будет N - K + 1. Мы обозначаем это как NPK, что равно N факториалу, деленному на (N - K) факториал.

Другая ситуация возникает, когда мы хотим подсчитать, сколько способов мы можем выбрать группы из K объектов, независимо от их порядка. Это называется сочетаниями. Например, если три из двенадцати лошадей, участвующих в скачках, случайным образом выбираются для проверки на наркотики, сколькими способами можно выбрать этих лошадей? В этом случае порядок не имеет значения. Мы используем обозначение NCk, которое представляет количество способов, которыми можно выбрать K вещей из общего количества N вещей без учета порядка. Чтобы вычислить это, мы используем формулу N Choose K = NPK / (K factorial). В данном примере нам нужно вычислить 12, выбрать 3. Для этого мы можем применить небольшую алгебраическую манипуляцию. Мы можем переписать 12, выбрав 3, как 12, переставив 3, деленное на 3, факториал. Упрощая далее, у нас есть 12! / (12 - 3)! * 3!. После выполнения вычислений мы находим, что 12 выбирают 3 равно 220. Следовательно, есть 220 способов выбрать 3 лошадей из 12 для случайного тестирования на наркотики.

В общем, мы можем выразить N select K как N факториал, деленный на (N - K) факториал, умноженный на K факториал. Эта формула позволяет рассчитать количество комбинаций для различных сценариев.

Когда имеешь дело с перестановками и комбинациями, решающим вопросом является вопрос о том, имеет ли значение порядок. Если порядок имеет значение, это проблема перестановки. Если порядок не имеет значения, это проблема комбинации.

Давайте рассмотрим несколько примеров. Предположим, мы хотим сформировать комитет из четырех человек из класса из двадцати студентов. В данном случае порядок выбора значения не имеет, поэтому нам нужно вычислить 20 выбрать 4. Используя формулу, находим, что 20 выбрать 4 равно 20! / (20 - 4)! * 4!, что упрощается до 48 845. Следовательно, существует 48 845 способов сформировать комитет из четырех человек из класса из двадцати учеников.

Теперь давайте рассмотрим другой сценарий. Если в комитет из четырех человек должны входить президент, вице-президент, секретарь и казначей, порядок отбора имеет значение. Здесь нам нужно вычислить 20 перестановок 4, что равно 20! / (20 - 4)!. Выполнив вычисления, мы находим, что существует 116 280 возможных вариантов расположения.

В несколько иной ситуации предположим, что из класса из двадцати студентов необходимо сформировать комитет из четырех человек, и одного человека нужно назначить президентом. Это гибридная задача, состоящая из двух шагов. Сначала выбираем президента, что можно сделать 20 разными способами. Затем мы выбираем оставшихся трех членов комитета, где порядок не имеет значения. Это соответствует 19 вариантам выбора 3. Следовательно, общее количество возможностей равно 20 (19 вариантов выбора 3). Подсчитав это, мы обнаруживаем, что существует 19 382 возможных исхода.

Таким образом, перестановки и комбинации включают в себя подсчет количества способов, которыми могут произойти события или могут быть организованы объекты. Понимание того, имеет ли значение порядок или нет, имеет решающее значение для определения подходящего метода решения проблемы. Применяя фундаментальный принцип подсчета и используя формулы перестановок и комбинаций, мы можем эффективно подсчитывать возможности в различных сценариях.

Factorials, Permutations, and Combinations
Factorials, Permutations, and Combinations
  • 2020.07.04
  • www.youtube.com
Let's learn to count. Factorials, permutations, and combinations all rely on the terribly important Fundamental Counting Principle. Make it your friend! If t...
 

Условная вероятность и правило умножения


Условная вероятность и правило умножения

Всем привет, сегодня мы углубимся в концепцию условной вероятности и правила умножения. Давайте начнем с иллюстрации идеи условной вероятности на примере.

В ходе исследования исследователь связался с 1250 взрослыми и спросил каждого, кого они предпочитают собак или кошек. Для начала рассчитаем вероятность случайного выбора из этой выборки респондента, предпочитающего собак. Из 1250 респондентов 589 человек предпочитают собак. Следовательно, вероятность случайного выбора человека, предпочитающего собак, составляет 589/1250, что равно 0,471 или 47,1%.

Далее вычислим вероятность того, что респондент старше 55 лет предпочитает собак кошкам. Ориентируемся на столбец с пометкой «55+» в таблице. В этой колонке 143 взрослых из 325 человек, предпочитающих собак. Таким образом, вероятность случайного выбора из этого столбца кого-то, кто предпочитает собак, составляет 143/325, что составляет примерно 0,44 или 44%.

Обратите внимание, что две вероятности не совпадают. Это выдвигает на первый план концепцию условной вероятности, которая определяется как вероятность того, что событие B произойдет, когда мы уже знаем, что событие A произошло. В нашем примере мы рассчитали не только вероятность события B (предпочтение собак), но и вероятность события B при условии A (предпочтение собак при условии, что респондент старше 55 лет).

Давайте рассмотрим другой пример с условной вероятностью. У нас есть колода карт, и из нее без замены вытягиваются две карты. Если первая вытянутая карта — король, мы хотим найти вероятность того, что вторая вытянутая карта — тоже король. Здесь у нас есть два события: A — событие, когда первая вытянутая карта — король, и B — событие, когда вторая карта — король.

Если происходит первое событие (мы вытягиваем короля), у нас теперь остается 51 карта, из которых три короля. Следовательно, вероятность вытянуть второго короля составляет 3/51, что составляет примерно 0,059 или 5,9%. Важно отметить, что эта вероятность отличается от вероятности того, что первая карта окажется королем, которая составляет 4/52 или 0,077.

Условная вероятность особенно полезна, когда мы хотим вычислить вероятность того, что два события, А и В, произойдут оба. Здесь вступает в действие правило умножения. Вероятность того, что события A и B происходят последовательно, определяется формулой: P(A и B) = P(A) × P(B|A). Мы интерпретируем его как вероятность появления первого события, умноженную на вероятность появления второго события, при условии, что первое событие уже произошло.

Например, посчитаем вероятность вытянуть двух королей из стандартной колоды без замены. Вероятность того, что первая карта окажется королем, равна 4/52, а вероятность того, что вторая карта окажется королем, при условии, что первая карта является королем, равна 3/51. Перемножив эти вероятности вместе, мы находим, что вероятность того, что обе карты являются королями, составляет примерно 0,0045 или 0,45%.

Теперь давайте рассмотрим сценарий, когда клиент заказывает алкоголь и закуску в ресторане. Мы заметили, что вероятность того, что покупатель закажет алкоголь (событие А), равна 40 %, вероятность заказа закуски (событие В) равна 30 %, а вероятность заказа алкоголя и закуски (события А и В) равна 20%.

Чтобы вычислить условную вероятность заказа алкоголя при условии, что клиент заказал закуску (P(A|B)), мы можем использовать правило умножения. Подставив данные значения, мы получим P(A и B) = 20%, P(B) = 30%. Изменив формулу правила умножения, мы можем найти P(A|B):

P(A|B) = P(A и B) / P(B)

Подставляя данные значения, мы получаем P(A|B) = 20% / 30% = 2/3 или приблизительно 0,667. Следовательно, вероятность того, что клиент закажет алкоголь, при условии, что он заказал закуску, составляет две трети.

Аналогично рассчитаем вероятность заказа закуски при условии, что клиент заказал алкоголь (P(B|A)). Опять же, используя правило умножения, мы имеем:

P(B|A) = P(A и B) / P(A)

Подставляя данные значения, мы имеем P(B|A) = 20% / 40% = 1/2 или 0,5. Таким образом, вероятность того, что покупатель закажет закуску, при условии, что он заказал алкоголь, равна половине.

Важно отметить, что эти две условные вероятности различны, что указывает на то, что события заказа алкоголя и заказа закуски являются зависимыми. Тот факт, что P(A|B) не равно P(A) и P(B|A) не равно P(B), предполагает, что знание того, произошло ли одно событие, дает информацию о вероятности возникновения другого события.

Теперь давайте рассмотрим несколько примеров, чтобы определить, являются ли перечисленные пары событий независимыми или нет:

  1. Заболевание диабетом, если оба ваших родителя больны диабетом: эти события являются зависимыми. Если оба родителя больны диабетом, вероятность заболеть диабетом возрастает. Тем не менее, нет уверенности в том, что у человека разовьется диабет, и все еще возможно развитие диабета без семейного анамнеза этого заболевания.

  2. Получение пятерки при первом броске стандартного игрального кубика и получение четверки при втором броске: эти события независимы. Результат первого броска не дает никакой информации о результате второго броска. Вероятность выпадения пятерки и четверки на честном кубике составляет 1/6 для каждого события.

  3. Курение сигарет и рак легких: эти события зависят друг от друга. Курение сигарет повышает вероятность развития рака легких. Однако это не обязательно, и люди, которые не курят, все равно могут заболеть раком легких.

  4. Две карты, взятые из стандартной колоды без замены, и обе карты тузы: Эти события зависимы. Вероятность вытягивания второй карты в качестве туза зависит от того, была ли первая вытянутая карта тузом. Вероятность того, что обе карты являются тузами, ниже, чем вероятность того, что первая карта является тузом.

  5. Две карты, взятые из стандартной колоды с заменой, и обе карты тузы: Эти события независимы. Замена карты после первого розыгрыша сводит на нет любое влияние или информацию, полученную от первой карты. Вероятность вытянуть туза остается одинаковой для обеих карт.

В общем, два события считаются независимыми, если вероятность того, что одно событие произойдет при наступлении другого события, равна вероятности того, что событие произойдет независимо. Когда вероятности различаются, события зависимы.

Наконец, давайте проанализируем сценарий, в котором менеджер изучает точность заказов в ресторане. Менеджер проверяет 960 заказов на разное питание и время дня, чтобы определить вероятности.

Вопрос 1: Вероятность того, что случайно выбранный заказ из этого набора данных был выполнен правильно, можно рассчитать следующим образом: из 960 заказов, которые были выполнены правильно, 842 заказа. Таким образом, вероятность составляет 842/960, что примерно равно 0,877 или 87,7%.

Вопрос 2: Чтобы найти вероятность того, что случайно выбранный заказ на обед был заполнен правильно, мы рассмотрим условную вероятность. Среди заказов на ужин 249 правильно выполненных заказов из 280 заказов на ужин. Таким образом, вероятность составляет 249/280, что составляет примерно 0,889 или 88,9%.

Вопрос 3. Чтобы определить, не зависит ли случайный выбор правильного заказа от случайного выбора заказа на обед, мы сравниваем условную вероятность P(A|B) с вероятностью P(A). В этом случае P(A|B) равно 0,889 (рассчитано в предыдущем вопросе), а P(A) равно 0,877 (из первого вопроса). Поскольку две вероятности не равны, мы можем заключить, что случайный выбор правильного заказа не является независимым от случайного выбора заказа на ужин.

Важно отметить, что в этом примере мы рассмотрели классическую вероятность, которая включает в себя расчет вероятностей на основе заданного набора данных. Вопрос о том, будут ли будущие наблюдения этих переменных независимыми, является более сложным и требует статистического анализа, такого как тестирование хи-квадрат. Эмпирическое определение независимости событий включает оценку наличия случайной изменчивости и анализ выборки большего размера.

Conditional Probability and the Multiplication Rule
Conditional Probability and the Multiplication Rule
  • 2020.09.20
  • www.youtube.com
How does information about the probability of one event change the probability of another event? Let's get into it! If this vid helps you, please help me a t...
 

Введение в случайные величины


Введение в случайные величины

Всем привет, сегодня мы углубимся в понятие случайных величин. Случайная величина — это переменная, определенная для некоторого вероятностного процесса, где результат процесса представлен числовым значением. Давайте рассмотрим несколько примеров, чтобы лучше понять.

Рассмотрим сценарий броска двух игральных костей и получения их суммы. Сумму игральных костей можно считать случайной величиной. Другой пример — подбросить монету 50 раз и подсчитать количество выпавших орлов. Количество голов, полученное в этом эксперименте, также является случайной величиной. Точно так же измерение точного роста случайно выбранного человека в городе Чикаго или измерение продолжительности извержения гейзера Old Faithful являются примерами случайных величин.

Важно отметить, что не все результаты вероятностного эксперимента являются случайными величинами. Например, пол случайно выбранного щенка в приюте для собак или цвет глаз случайно выбранного сенатора США — это результаты, которые не подпадают под категорию случайных величин. Это категориальные данные, поскольку они не являются числовыми и не определяют случайные величины.

Существует два основных типа случайных величин: дискретные и непрерывные. Непрерывные случайные переменные принимают свои значения в пределах определенного диапазона, например точная продолжительность извержения или точный рост случайно выбранного человека. Эти значения могут включать дроби и десятичные дроби с любым желаемым уровнем точности. С другой стороны, дискретные случайные величины имеют значения, которые могут быть перечислены по отдельности, например 1, 2, 3, 4 или 5.

Когда случайная величина имеет конечное число возможных результатов, мы можем составить таблицу, в которой перечислены все эти результаты вместе с соответствующими им вероятностями. Эта таблица называется дискретным распределением вероятностей. Давайте рассмотрим пример, где мы трижды подбрасываем монету и подсчитываем количество выпавших орлов. Возможные исходы: 0, 1, 2 или 3 орла, и мы присваиваем вероятности каждому исходу. Например, вероятность того, что не выпадет орел, равна 1 из 8, и соответственно вероятность уменьшается или увеличивается.

Построение дискретного распределения вероятностей также может быть выполнено с использованием данных. Предположим, мы опрашиваем случайную выборку из 100 взрослых в Соединенных Штатах и спрашиваем их, сколько раз они ужинали вне дома в течение недели, при этом ответы варьировались от 0 до 5. Мы можем вычислить вероятности выбора людей, попадающих в каждую категорию, разделив количество людей в этой категории по общему размеру выборки, равному 100. Это приводит к распределению вероятностей, которое показывает все возможные результаты случайной величины (количество приемов пищи вне дома) вместе с их соответствующими вероятностями.

Чтобы визуально представить дискретные распределения вероятностей, мы можем нарисовать гистограммы вероятностей. Продолжая предыдущий пример, мы можем создать гистограмму с категориями 0, 1, 2, 3, 4 и 5 на оси x и соответствующими вероятностями в виде высоты столбцов. Например, если вероятность нулевого приема пищи вне дома на прошлой неделе равна 0,49, мы рисуем полосу на высоте 0,49 для категории x=0. Форма этой гистограммы вероятности будет идентична форме гистограммы распределения частот для тех же данных.

Таким образом, случайные величины — это числовые значения, представляющие результаты вероятностных экспериментов. Они могут быть как дискретными, так и непрерывными. Дискретные случайные величины имеют конечное число возможных результатов, и их вероятности могут быть представлены с использованием дискретного распределения вероятностей. Гистограммы вероятности полезны для визуального отображения дискретных распределений вероятностей и понимания вероятности различных результатов.

An Introduction to Random Variables
An Introduction to Random Variables
  • 2020.04.30
  • www.youtube.com
What is a random variable? What are the different types? How can we quantify and visualize them? If this vid helps you, please help me a tiny bit by mashing ...
 

Гистограммы вероятности в R


Гистограммы вероятности в R

Всем привет! Сегодня мы будем изучать процесс построения красивых гистограмм вероятности в R с помощью команды qplot. Давайте рассмотрим пару примеров.

В нашем первом примере у нас есть дискретная случайная величина по имени X, которая может принимать значения от 1 до 6 вместе с соответствующими вероятностями. Для начала давайте введем данные и сгенерируем гистограмму в R.

Начнем с определения переменной X, которая может принимать значения от 1 до 6. Для этого можно использовать сокращенный оператор двоеточия 1:6. Теперь наша переменная X содержит значения 1, 2, 3, 4, 5 и 6.

Затем мы создаем вектор для хранения соответствующих вероятностей. В этом случае вероятности значений 1, 2, 3, 4, 5 и 6 равны 0,15, 0,1, 0,1, 0,4, 0,2 и 0,05 соответственно. Важно отметить, что порядок вероятностей должен соответствовать порядку соответствующих значений.

Чтобы убедиться, что мы ввели данные правильно, мы можем выполнить быструю проверку, рассчитав сумму всех вероятностей. Сумма всегда должна быть равна 1, если у нас есть законное дискретное распределение вероятностей. В этом случае сумма действительно равна 1, что указывает на то, что данные были введены правильно.

Теперь давайте сгенерируем гистограмму вероятности. Мы будем использовать функцию qplot и укажем переменную X для оси x. Нам также нужно сообщить R, как взвешивать значения, используя вероятности, которые мы предоставляем в качестве аргумента высоты. Наконец, мы указываем тип графика, который в данном случае является гистограммой.

После создания гистограммы мы замечаем, что столбцы не касаются друг друга. На гистограмме вероятности соседние значения должны иметь соприкасающиеся столбцы, указывающие на их взаимосвязь. Чтобы исправить это, мы можем указать, что количество бинов будет таким же, как и количество значений, которые у нас есть. В этом случае у нас есть шесть значений, поэтому мы устанавливаем количество бинов равным шести.

Теперь гистограмма начинает обретать форму. Однако, чтобы улучшить его визуальную привлекательность, мы можем добавить некоторые различия между полосами. Мы достигаем этого, определяя цвет границы для столбцов. В данном случае мы используем черный цвет.

Переходя ко второму примеру, мы продолжаем процесс создания гистограммы вероятности. На этот раз у нас есть случайная величина по имени Y, которая может принимать значения 15, 16, 18, 19 и 20. У нас также есть соответствующие вероятности для этих значений, за исключением 17, вероятность которого равна 0, поскольку она не возможный результат.

Мы выполняем те же шаги, что и раньше, вводя данные и создавая гистограмму с помощью функции qplot. Однако на этот раз мы замечаем, что есть пустое ведро при Y, равном 17, что указывает на нулевую вероятность. Чтобы точно зафиксировать эту информацию, мы хотим использовать шесть бинов с учетом пустого бина по Y, равному 17.

Мы можем улучшить внешний вид гистограммы, добавив цвет границ и внутренний цвет для столбцов. Например, мы можем установить темно-синий цвет границы и обычный синий цвет заливки. Кроме того, мы можем настроить метку оси Y, чтобы указать, что она представляет вероятности, и изменить метку оси X просто на «значения», поскольку это абстрактный набор данных.

С этими корректировками наша гистограмма вероятности выглядит более профессиональной. Конечно, мы можем продолжить тонкую настройку цветов и меток для достижения желаемого визуального представления. Вот как мы строим элегантную гистограмму вероятности в R.

Probability Histograms in R
Probability Histograms in R
  • 2020.09.11
  • www.youtube.com
Constructing attractive probability histograms is easy in R. In this vid, we use the qplot() command in the ggplot2 package.If this vid helps you, please hel...
 

Работа с дискретными случайными величинами


Работа с дискретными случайными величинами

Всем привет! Сегодня мы будем изучать концепцию дискретных случайных величин и дискретных распределений вероятностей. Случайная величина – это переменная, значение которой определяется случайным процессом. В случае дискретной случайной величины можно перечислить возможные результаты, что приведет к дискретному распределению вероятностей.

Рассмотрим пример, иллюстрирующий эту концепцию. Представьте, что у нас есть дом с 16 комнатами, и мы случайным образом выбираем комнату, чтобы подсчитать количество окон в ней. Количество окон может быть 0, 1, 2, 3 или 4, каждое с соответствующей вероятностью 3/16, 5/16 и так далее. Это представляет собой дискретное распределение вероятностей, которое состоит из всех возможных исходов и связанных с ними вероятностей.

Есть два важных свойства дискретных случайных величин и дискретных распределений вероятностей. Во-первых, сумма всех вероятностей должна равняться единице. Это гарантирует, что что-то всегда произойдет, поскольку вероятности охватывают все возможные результаты. В нашем примере, если мы сложим все вероятности, мы получим 16/16 или один.

Во-вторых, при работе с дискретными распределениями вероятностей можно добавлять вероятности. Например, если мы хотим найти вероятность того, что X равно 3 или 4, мы можем вычислить вероятность того, что X равно 3, и вероятность того, что X равно 4, а затем сложить их вместе. В этом случае вероятность равна 3/16 + 1/16 = 4/16 = 1/4.

Давайте продолжим с парой примеров задач. Рассмотрим другое дискретное распределение вероятностей, включающее случайную величину Y с пятью возможными исходами: 5, 10, 25, 50 и 200. Нам даны вероятности для четырех из этих исходов, и нам нужно найти вероятность для пятого исхода.

Поскольку сумма всех вероятностей должна быть равна единице, мы можем вывести недостающую вероятность. Вычитая сумму известных вероятностей (0,04 + 0,12 + 0,18 + 0,45) из единицы, мы находим, что вероятность того, что Y равно 200, равна 0,21.

Теперь давайте проведем пару вычислений, используя то же самое дискретное распределение вероятностей. Во-первых, мы хотим найти вероятность того, что Y меньше или равно 10. Это включает в себя суммирование вероятностей для Y, равного 5, и Y, равного 10, что дает 0,04 + 0,12 = 0,16.

Далее нас интересует вероятность того, что Y — нечетное число. В этом случае у нас есть два исхода: Y равно 5 и Y равно 25. Складывая их вероятности, мы получаем 0,04 + 0,18 = 0,22.

Наконец, давайте определим вероятность того, что Y больше 5. Вместо прямого суммирования вероятностей для Y, равного 10, 25, 50 и 200, мы можем использовать более короткий путь. Рассмотрим событие дополнения: вероятность того, что Y не больше 5. Вычитая вероятность того, что Y меньше или равно 5 (0,04) из 1, получаем 1 - 0,04 = 0,96.

Эти примеры демонстрируют, как вычислять вероятности и использовать дополнительные события в контексте дискретных распределений вероятностей.

Working with Discrete Random Variables
Working with Discrete Random Variables
  • 2020.04.30
  • www.youtube.com
Let's solve some problems using discrete probability distributions!
 

Случайные величины: среднее значение, дисперсия и стандартное отклонение


Случайные величины: среднее значение, дисперсия и стандартное отклонение

Всем привет! Сегодня мы обсудим случайные величины и их меры центральной тенденции и разброса, а именно среднее значение, дисперсию и стандартное отклонение. Мы можем описать центр и разброс случайной величины так же, как и с числовыми данными.

Рассмотрим пример дискретного распределения вероятностей. Представьте, что мы провели опрос, в котором случайным образом спрашивали людей о количестве обедов, которые они ели вне дома на предыдущей неделе. Распределение показывает, что примерно 49% респондентов не ели вне дома, около 22% ели вне дома один раз и так далее. Мы можем визуализировать это распределение с помощью гистограммы вероятности. Наблюдая за гистограммой, интуитивно понятно обсудить центр и разброс этой случайной величины.

Чтобы быть более конкретным, давайте интерпретируем наши выводы на основе гистограммы. Ожидаемое значение или среднее значение случайной величины определяется путем умножения каждого значения случайной величины на соответствующую вероятность и суммирования результатов. Это взвешенное среднее представляет собой центр случайной величины. Ссылаясь на наше предыдущее дискретное распределение вероятностей, мы вычисляем ожидаемое значение, умножая каждое значение (0, 1, 2 и т. д.) на его соответствующую вероятность (0,49, 0,22 и т. д.) и суммируя произведения. В этом случае ожидаемое значение равно 1,12.

Ожидаемое значение часто обозначается как μ, что аналогично среднему значению генеральной совокупности при анализе данных. Он измеряет центр случайной величины. Глядя на гистограмму вероятности, ожидаемое значение представляет собой точку равновесия, в которой гистограмма будет балансировать на точке опоры.

Теперь давайте обсудим разброс дискретной случайной величины, который измеряется с помощью дисперсии и стандартного отклонения. Дисперсия рассчитывается путем вычитания среднего из каждого значения случайной величины, возведения результата в квадрат, умножения его на соответствующую вероятность и суммирования всех взвешенных дисперсий. Это фиксирует, насколько каждое значение отклоняется от среднего. Однако, поскольку мы возвели разницу в квадрат, результирующая дисперсия не будет иметь тех же единиц измерения, что и исходные данные. Чтобы иметь меру в той же шкале, мы берем квадратный корень из дисперсии, что дает нам стандартное отклонение.

На практике вычисление дисперсии и стандартного отклонения вручную может быть громоздким. Рекомендуется использовать такие технологии, как статистическое программное обеспечение или калькуляторы. Например, при программировании на R мы можем вводить значения и соответствующие им вероятности, а затем использовать встроенные функции для вычисления ожидаемого значения, дисперсии и стандартного отклонения.

Используя технологии, мы можем эффективно выполнять расчеты и избегать ручных вычислений, связанных с произведениями и квадратами. Дисперсия дает ценную информацию для расчетов и теоретических соображений, в то время как стандартное отклонение более удобно для интерпретации, поскольку оно использует те же единицы измерения, что и исходная случайная величина.

Таким образом, при работе со случайными величинами решающее значение имеет понимание их центра (среднего) и разброса (дисперсии и стандартного отклонения). Эти меры позволяют нам эффективно оценивать и интерпретировать характеристики случайной величины.

Random Variables: Mean, Variance, and Standard Deviation
Random Variables: Mean, Variance, and Standard Deviation
  • 2020.05.02
  • www.youtube.com
If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy, crush that 'subscribe' button!
 

Испытания Бернулли и биномиальное распределение


Испытания Бернулли и биномиальное распределение

Всем привет, сегодня мы обсудим испытания Бернулли и биномиальное распределение. Испытание Бернулли — это простой вероятностный эксперимент с двумя исходами: успехом и неудачей. Эти испытания определяются вероятностью успеха, обозначаемой строчной буквой «p». Рассмотрим несколько примеров, иллюстрирующих эту концепцию.

Например, подбрасывание монеты и рассмотрение выпадения орла как успеха будет иметь вероятность успеха (p), равную 1/2. Вытягивание карты из стандартной колоды из 52 карт и рассмотрение туза как успеха будет иметь вероятность успеха (p), равную 4/52 или 1/13. Если 40% американских избирателей одобряют своего президента, вероятность успеха (p) для случайного выбора избирателя будет равна 0,4.

Важно отметить, что термины «успех» и «неудача» в данном контексте являются техническими терминами и не подразумевают никаких политических заявлений или личных мнений. Мы можем представить испытания Бернулли в виде дискретных случайных величин, закодировав успех как 1, а неудачу как 0. Это позволяет нам создать простое распределение вероятностей, где x принимает значения 0 или 1. Вероятность получения 1 равна p, в то время как Вероятность выпадения 0 равна 1 - p, так как эти исходы дополняют друг друга.

Мы можем вычислить ожидаемое значение этой случайной величины (x), суммируя x, умноженное на соответствующую вероятность (p(x)) для всех возможных значений x. Ожидаемое значение равно p, что представляет собой вероятность успеха в одном испытании. Точно так же мы можем вычислить дисперсию, суммируя (x - ожидаемое значение)^2, умноженное на p(x) для всех возможных значений x. Дисперсия равна p(1 - p). Извлечение квадратного корня из дисперсии дает нам стандартное отклонение, которое измеряет разброс случайной величины.

Во многих случаях испытания Бернулли проводятся многократно, что приводит к общему числу успешных результатов в n идентичных и независимых испытаниях. Это приводит к дискретной случайной величине, которая может принимать значения от 0 до n. Биномиальное распределение, обычно обозначаемое как B(n, p), представляет собой распределение вероятностей для этой случайной величины, когда у нас есть n идентичных и независимых испытаний Бернулли с вероятностью успеха p.

Например, если честная монета подбрасывается три раза, и мы определяем x как количество выпавших орлов, у нас будет B(3, 0,5) в качестве биномиального распределения. Мы можем напрямую вычислить вероятности для каждого значения x, рассмотрев все возможные исходы и соответствующие им вероятности. Когда n становится больше, вычислять эти вероятности вручную становится непрактично, и нам нужна более общая формула.

Вероятность ровно k успехов в n испытаниях, где k находится в диапазоне от 0 до n, определяется формулой n выбрать k раз p^k раз (1 - p) ^ (n - k). Эта формула учитывает количество способов достичь ровно k успехов в n испытаниях и соответствующие вероятности. Это позволяет нам эффективно вычислять вероятности в биномиальном распределении.

Давайте рассмотрим пример, когда у баскетболиста средний показатель успешных штрафных бросков составляет 78%. Если она делает десять штрафных бросков, мы можем использовать биномиальное распределение, чтобы вычислить вероятность того, что она сделает ровно восемь бросков и по крайней мере восемь бросков. Подставляя значения в формулу, мы можем соответствующим образом вычислить вероятности.

Случайная величина с биномиальным распределением представляет собой сумму нескольких испытаний Бернулли. Среднее значение этой случайной величины задается n раз p, а дисперсия дается n раз p раз (1 - p). Стандартное отклонение — это квадратный корень из np, умноженный на (1 — p).

В случае, когда баскетболист бросает десять раз с вероятностью успеха 0,78, ожидаемое значение (среднее) будет 10 * 0,78 = 7,8, а стандартное отклонение будет квадратным корнем из (10 * 0,78 * (1 - 0,78). )) ≈ 1,3.

Чтобы визуализировать биномиальное распределение, мы можем построить гистограмму вероятности. На примере баскетболиста, выполнившего десять бросков с вероятностью успеха 0,78, мы создаем гистограмму с столбцами, представляющими каждое значение x (количество успешных бросков) от 0 до 10. Высота каждого столбца соответствует вероятности достижения это конкретное количество выстрелов в десяти попытках. Например, вероятность сделать ровно 8 выстрелов будет около 0,3.

Биномиальное распределение обеспечивает полезную основу для анализа ситуаций, включающих повторные независимые испытания с фиксированной вероятностью успеха. Понимая свойства биномиального распределения, такие как ожидаемое значение, дисперсия и расчет вероятности, мы можем принимать обоснованные решения и делать прогнозы в различных областях, включая статистику, финансы и контроль качества.

Помните, что биномиальное распределение предполагает определенные условия, такие как независимые испытания и фиксированная вероятность успеха для каждого испытания. Эти допущения следует тщательно учитывать при применении биномиального распределения к реальным сценариям.

В заключение, испытания Бернулли и биномиальное распределение предлагают фундаментальное понимание вероятностных экспериментов с двумя исходами и несколькими независимыми испытаниями. Используя формулы и свойства, связанные с этими понятиями, мы можем анализировать и прогнозировать вероятность достижения различных уровней успеха в различных сценариях.

Bernoulli Trials and The Binomial Distribution
Bernoulli Trials and The Binomial Distribution
  • 2020.08.03
  • www.youtube.com
Your life will get so much better once you understand the binomial distribution. If this vid helps you, please help me a tiny bit by mashing that 'like' butt...
 

Биномиальные вычисления в R


Биномиальные вычисления в R

Всем привет, сегодня мы будем использовать R для выполнения вычислений, связанных с биномиальным распределением. В R есть четыре основные функции, которые важно знать для работы с биномиальным распределением.

Во-первых, функция rbinom() генерирует случайные значения из биномиального распределения. Он принимает три аргумента: количество генерируемых случайных значений, размер выборки и вероятность успеха в отдельном испытании. Например, rbinom(10, 2, 0,5) генерирует 10 случайных значений из биномиального распределения с размером выборки 2 и вероятностью успеха 0,5.

Во-вторых, функция dbinom() возвращает вероятность получения заданного количества успехов в биномиальном распределении. Он принимает три аргумента: количество успехов, размер выборки и вероятность успеха. Вы можете указать количество успехов в виде вектора, чтобы вычислить вероятности для разных количеств успехов одновременно. Например, dbinom(0:4, 4, 0,5) вычисляет вероятности получения 0, 1, 2, 3 или 4 успехов в биномиальном распределении с размером выборки 4 и вероятностью успеха 0,5.

Далее, функция pbinom() является кумулятивной функцией вероятности. Он возвращает вероятность получения не более указанного количества успехов в биномиальном распределении. Подобно dbinom(), вы можете предоставить вектор значений для вычисления кумулятивных вероятностей. Например, pbinom(0:4, 4, 0,5) возвращает вероятности получения не более 0, 1, 2, 3 или 4 успехов в биномиальном распределении с размером выборки 4 и вероятностью успеха 0,5.

Наконец, функция qbinom() — калькулятор обратной вероятности. Он возвращает наименьшее значение успехов, при котором совокупная вероятность равна или превышает указанную вероятность. Другими словами, он вычисляет квантили в биномиальном распределении. Например, qbinom(c(0,25, 0,5, 0,75), 10, 0,5) дает 25-й, 50-й и 75-й процентили в биномиальном распределении с размером выборки 10 и вероятностью успеха 0,5.

Теперь давайте применим эти функции к некоторым задачам.

Задача 1. Давайте смоделируем 50 прогонов эксперимента, в котором мы бросаем правильную игральную кость 10 раз и подсчитываем количество шестерок. Мы можем использовать функцию rbinom() с размером выборки 10 и вероятностью успеха 1/6 (поскольку вероятность выпадения шестерки составляет 1/6).

results <- rbinom ( 50 , 10 , 1 / 6 ) table ( results )

Проблема 2. Согласно недавнему опросу, 72% американцев предпочитают собак кошкам. Если наугад выбраны 8 американцев, какова вероятность того, что ровно 6 из них предпочитают собак и что менее 6 предпочитают собак? Мы можем использовать функции dbinom() и pbinom().

# Probability of exactly 6 preferring dogs
prob_six <- dbinom ( 6 , 8 , 0.72 )
# Probability of fewer than 6 preferring dogs

prob_less_than_six <- pbinom ( 5 , 8 , 0.72 )
prob_six prob_less_than_six

Проблема 3: взвешенная монета имеет 42% шанс выпасть решкой. Каково ожидаемое количество голов при 5 бросках? Кроме того, постройте гистограмму вероятности для случайной величины, представляющей количество голов в 5 бросках.

Чтобы рассчитать ожидаемое количество орлов, мы можем использовать формулу ожидаемого значения биномиального распределения, которое является произведением размера выборки и вероятности успеха. В этом случае объем выборки равен 5, а вероятность успеха (выпадения орла) равна 0,42.

# Expected number of heads
expected_heads <- 5 * 0.42 expected_heads

Ожидаемое количество орлов при 5 бросках взвешенной монеты равно 2,1.

Чтобы построить гистограмму вероятности, мы будем использовать пакет ggplot2 в R. Сначала давайте установим и загрузим пакет.

install.packages ( "ggplot2" ) # Run this line if ggplot2 is not installed library ( ggplot2 )

Далее мы создадим дискретное распределение вероятностей для количества выпавших голов за 5 бросков, используя функцию dbinom(). Мы вычислим вероятности для каждого возможного количества голов (от 0 до 5).

x <- 0 : 5 # Possible number of heads
p <- dbinom ( x , 5 , 0.42 ) # Probabilities

Теперь мы можем создать гистограмму вероятности, используя ggplot2.

# Create probability histogram
df <- data.frame ( x = x , p = p )
ggplot ( df , aes ( x = as.factor ( x ) , y = p ) ) + geom_bar ( stat = "identity" , fill = "lightblue" ) + xlab ( "Number of Heads" ) + ylab ( "Probability" ) + ggtitle ( "Probability Histogram for Number of Heads in 5 Tosses" )

Этот код сгенерирует гистограмму с количеством голов по оси X и соответствующими вероятностями по оси Y.

Binomial Calculations in R
Binomial Calculations in R
  • 2020.09.12
  • www.youtube.com
In this vid, we learn how to do binomial calculation in R using the commands rbinom(), dbinom, pbinom(), and qbinom(). If this vid helps you, please help me ...
 

Равномерное распределение


Равномерное распределение

Всем привет, сегодня мы углубимся в непрерывные случайные величины и конкретно изучим те, которые имеют равномерное распределение.

Начнем с того, что вспомним, что такое непрерывная случайная величина. Это переменная, которая может принимать значения в пределах всего диапазона, в отличие от дискретного набора значений. Например, если мы случайным образом выберем кого-то и измерим его точный рост, эта случайная величина может принять бесконечно много возможных значений. Следовательно, вероятность получения любого конкретного значения бесконечно мала, что делает нецелесообразным обсуждение вероятностей конкретных значений. Чтобы решить эту проблему, мы сосредоточимся на вероятностях, связанных со случайной величиной, попадающей в определенные диапазоны значений.

Например, вместо того, чтобы спрашивать вероятность того, что кто-то будет ростом ровно 58,6 дюйма (что было бы почти равно нулю), мы могли бы узнать вероятность того, что его рост окажется между 55 и 65 дюймами. Этот подход позволяет нам работать со значимыми вероятностями. Другой пример касается вероятности того, что случайно выбранная песня будет длиться менее трех минут или длиннее трех минут, а не ровно три минуты.

Одним из простейших типов непрерывных случайных величин является равномерное распределение. В равномерно распределенной случайной величине вероятности равномерно распределены по всей области ее определения. Возможно, вы столкнулись с этой концепцией в функции Excel rand(), которая генерирует случайное число от 0 до 1 с указанными десятичными знаками. В этом случае все значения имеют равные вероятности. Мы называем это равномерным распределением на интервале [0, 1].

Чтобы вычислить вероятности для равномерного распределения, мы делим ширину желаемого интервала на общую ширину всего диапазона. Например, вероятность результата меньше 0,2 равна 0,2, деленной на 1 (общая ширина), что дает 0,2. Точно так же вероятность того, что результат будет больше или равен 4, равна 0,6, поскольку интересующий интервал имеет ширину 0,6 единицы. Стоит отметить, что строгость неравенств (например, «<» против «<=») не имеет значения при работе с непрерывными случайными величинами, учитывая, что вероятности отдельных исходов бесконечно малы.

Мы можем распространить концепцию равномерного распределения вероятностей и на другие интервалы. Например, рассмотрение интервала [1, 7] даст непрерывное распределение вероятностей, в котором случайная величина может принимать любое значение от 1 до 7 с равной вероятностью. Давайте рассмотрим несколько примеров в этом дистрибутиве:

  • Вероятность того, что случайная величина меньше 5, равна 4/6 или 2/3 и рассчитывается путем деления ширины интервала от 1 до 5 (4) на общую ширину интервала (6).
  • Вероятность того, что случайная величина меньше или равна 1,5, составляет 0,5/6 или 1/12. Здесь ширину интервала от 1 до 1,5 (0,5) делим на общую ширину интервала (6).
  • Вероятность того, что случайная величина больше 6,12, равна 11/70 или 0,157, полученная путем деления ширины интервала от 6,12 до 7 на общую ширину интервала (70/5).

Построение гистограмм вероятностей для непрерывных случайных величин невозможно так же, как для дискретных случайных величин, поскольку отдельные вероятности бесконечно малы. Вместо этого мы используем графики плотности, представляя вероятность как площадь, а не высоту. На графике плотности для равномерного распределения все вероятности равны и приводят к горизонтальной линии. Общая площадь под графиком плотности всегда должна быть равна 1, чтобы обеспечить правильное суммирование вероятностей.

Для иллюстрации рассмотрим равномерное распределение на интервале [-5, 5]. В этом случае ширина домена равна 10 (5 - (-5)). Чтобы создать кривую плотности, нам нужно, чтобы высота прямоугольника была равна 1, деленной на ширину, что дает нам 1/10. Это гарантирует, что общая площадь под кривой плотности равна 1.

Теперь давайте посчитаем вероятность того, что случайная величина больше 3,5 в этом распределении. Мы можем перерисовать кривую плотности и заштриховать область, соответствующую X > 3,5. Тогда вероятность равна площади этой заштрихованной области.

Применяя формулу для вычисления площади прямоугольника (основание умножить на высоту), мы умножаем ширину (5 - 3,5 = 1,5) на высоту (1/10). В результате получается площадь 1,5/10 или 15%.

Подводя итог, можно сказать, что при равномерном распределении U(-5, 5) вероятность того, что X больше 3,5, составляет 15%.

The Uniform Distribution
The Uniform Distribution
  • 2020.05.13
  • www.youtube.com
Your first continuous random variable! The uniform distribution is a fantastic way to learn the basics.
Причина обращения: