Если вы хотите вести статистику, тогда все должно быть нормально распределено - Общее обсуждение

mytarmailS 2021.03.15 18:35 #23661

Aleksey Nikolayev:

Некоторые вещи, которые потом весьма нравятся, кажутся поначалу мерзкими - кофе, икра, васаби, рок-музыка и тд)

это точно, я тоже по началу не понимал некоторых структур в р-ке, думал что это за бред

например писал все через цикл и не понимал семейство "apply" , а потом оказалось что можно выиграть в читабельности, скорости и с 6-ти строк кода сделать одну

Про отклонение платежа при Любые вопросы новичков по [ВНИМАНИЕ, ТЕМА ЗАКРЫТА!] Любой

Vladimir Perervenko 2021.03.16 16:09 #23662

mytarmailS:

это точно, я тоже по началу не понимал некоторых структур в р-ке, думал что это за бред

например писал все через цикл и не понимал семейство "apply" , а потом оказалось что можно выиграть в читабельности, скорости и с 6-ти строк кода сделать одну

Не только apply. Я чаще пользую foreach, можно распараллелить не переделывая код... Иногда полезен итератор, попробуйте

library(coro)
abc <- generate_abc()
loop(for (x in abc) print(x))

Удачи

mytarmailS 2021.03.16 20:03 #23663

Vladimir Perervenko:

Не только apply. Я чаще пользую foreach, можно распараллелить не переделывая код... Иногда полезен итератор, попробуйте

Удачи

Спасибо!

mytarmailS 2021.03.17 15:45 #23664

mytarmailS:

Спасибо!

А что такое generate_abc ? я так и не понял потому что пример дает ошибку

library(coro)
> abc <- generate_abc()
Error in generate_abc() : could not find function "generate_abc"

Maxim Dmitrievsky 2021.03.18 06:33 #23665

Все эти операции есть в питоне

print([x for x in range(50)])

Aleksey Nikolayev 2021.03.18 07:10 #23666

Это всё началось в лиспе и особенно развито в функциональном программировании, элементы которого есть как в R, так и в питоне.

Vladimir Perervenko 2021.03.25 09:25 #23667

Прочел случайно статью с утверждением для меня удивительным. Predictors, responses and residuals: What really needs to be normally distributed?

Несколько цитат:

"Многие ученые обеспокоены нормальностью или ненормальностью переменных в статистическом анализе. Следующие и подобные мнения часто выражаются, публикуются или преподаются:

« Если вы хотите вести статистику, тогда все должно быть нормально распределено ».
« Мы нормализовали наши данные, чтобы соответствовать предположению о нормальности ».
« Мы преобразовали наши данные в журнал, поскольку они имели сильно искаженное распределение ».
« После того, как мы подобрали модель, мы проверили гомоскедастичность остатков ».
« Мы использовали непараметрический тест, поскольку наши данные не соответствовали предположению о нормальности ».

И так далее. Я знаю, что это сложнее, но все же кажется, что нормальное распределение - это то, что люди хотят видеть повсюду, и что нормальное распределение вещей открывает дверь к чистой и убедительной статистике и сильным результатам. Многие люди, которых я знаю, перед анализом регулярно проверяют, нормально ли распределяются их данные, а затем они либо пытаются «нормализовать» их, например, с помощью логарифмического преобразования, либо соответствующим образом корректируют статистический метод на основе частотного распределения своих данных. Здесь я исследую это более внимательно и покажу, что предположений о нормальности может быть меньше, чем можно было бы подумать."

Дальше обоснование мысли и вывод:

" Почему люди до сих пор нормализуют данные?

Еще одна загадочная проблема заключается в том, почему люди по-прежнему склонны «нормализовать» свои переменные (как предикторы, так и ответы) до подгонки модели. Почему эта практика возникла и стала преобладать, даже если нет никаких предположений, которые могли бы ее вызвать? У меня есть несколько теорий на этот счет: незнание, склонность следовать статистическим кулинарным книгам, распространение ошибок и т. Д.
Два объяснения кажутся более правдоподобными: во-первых, люди нормализуют данные, чтобы линеаризовать отношения. Например, с помощью логарифмического преобразования предиктора можно подобрать экспоненциальную функцию, используя обычный механизм наименьших квадратов. Это может показаться нормальным, но тогда почему бы не указать нелинейную взаимосвязь непосредственно в модели (например, с помощью соответствующей функции ссылки)? Кроме того, практика логарифмического преобразования ответа может привести к серьезным артефактам, например, в случае данных подсчета с нулевым счетчиком (O'Hara & Kotze 2010).
Вторую правдоподобную причину «нормализации» практики предложила моя коллега Кэтрин Мертес-Шварц: возможно, это связано с тем, что исследователи пытаются решить проблему, и их данные были собраны очень слипчиво и неравномерно. Другими словами, очень часто один работает с данными, которые имеют большое количество наблюдений, агрегированных в определенной части градиента, в то время как другая часть градиента относительно недопредставлена. Это приводит к искаженным распределениям. Преобразование таких распределений приводит к кажущемуся регулярному распространению наблюдений по градиенту и устранению выбросов. На самом деле это можно сделать с добрыми намерениями. Однако это тоже в корне неверно."

Для меня это утверждение (шокирующее?) , не могу подобрать подходящее слово. Но буду учитывать в дальнейшем

Predictors, responses and residuals: What really needs to be normally distributed?

www.r-bloggers.com

[This article was first published on Are you cereal? » R , and kindly contributed to R-bloggers]. (You can report issue about the content on this page here)

Учебники по программированию Quantitative trading Обсуждение статьи "Прогнозирование временных

Vladimir Perervenko 2021.03.25 09:26 #23668

Maxim Dmitrievsky:

Все эти операции есть в питоне

Это не о print а о генераторах и итераторах.

Aleksey Nikolayev 2021.03.25 10:31 #23669

Vladimir Perervenko:
Прочел случайно статью с утверждением для меня удивительным. Predictors, responses and residuals: What really needs to be normally distributed?

Пассаж про линейную регрессию выдаёт автора, как человека незнакомого с теорвером/матстатом. Стандартный вариант предположений для ЛР - входы детерминированы (например, моменты времени), а распределения выходов зависят от распределения шума (и каждый выход будет иметь своё матожидание, зависящее от входа и отличное от других).

Другой вариант - если входы и выходы берутся из какого-то совместного распределения, то здесь условие применимости модели линейной регрессии ещё жёстче - нормальным должно быть СОВМЕСТНОЕ (двумерное, как минимум) распределение. Без этого допущения про МНК можно забыть.

Bayesian regression - Делал Уравнение регрессии Законы распределение и рынок

Forester 2021.03.25 13:31 #23670

Vladimir Perervenko:
Прочел случайно статью с утверждением для меня удивительным. Predictors, responses and residuals: What really needs to be normally distributed?

Несколько цитат:

"Многие ученые обеспокоены нормальностью или ненормальностью переменных в статистическом анализе. Следующие и подобные мнения часто выражаются, публикуются или преподаются:

« Если вы хотите вести статистику, тогда все должно быть нормально распределено ».
« Мы нормализовали наши данные, чтобы соответствовать предположению о нормальности ».
« Мы преобразовали наши данные в журнал, поскольку они имели сильно искаженное распределение ».
« После того, как мы подобрали модель, мы проверили гомоскедастичность остатков ».
« Мы использовали непараметрический тест, поскольку наши данные не соответствовали предположению о нормальности ».

Из за требования сетей к нормализации данных, нормальному распределнию, и куче доп. настроек - перешел на деревовидные системы. Они запомнят данные как есть.

А после наименования ИИ ( в одной из статей для простых людей ) как базы данных на основе нейросетей или деревьев, стал относиться к ним именно, как к базам данных, которые в 1 ячейке(листе) могут хранить несколько очень похожих строк, т.е. заодно и обобщать. При делении дерева до последнего примера, в ячейках будут только одинаковые строки без обобщения - т.е. получится чистая база данных. Нам все таки нужно обобщать, поэтому останавливаем деление листьев пораньше.

[АРХИВ] Любой вопрос новичка, Формат .set файла сохранённой Режим DDE "горячий", "теплый"

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2367