Зачем лезете в недоступные для вашего понимания вещи? - Общее обсуждение

Aleksey Vyazmikin 2023.05.23 11:29 #30801

СанСаныч Фоменко #:

Этого в статье нет.

Описана обычная подгонка с разным делением исходных предикторов, включая кросс валидацию. Обыденность, которую закумуфлировали словами.

Спасибо за экспертное мнение.

СанСаныч Фоменко 2023.05.23 11:43 #30802

Maxim Dmitrievsky #:

и nuisance ф-ии (или параметры) это не функции шума, а вспомогательные, которые не являются целевыми для конкретной задачи

Можно ссылку в статье на вид этих "вспомогательных" функций?

В то же время довольно подробно описаны причины использования RF, который назван базовой функцией и который вычисляет большое количество сведений в результате работы:

An object of class randomForest , which is a list with the following components:

call	the original call to randomForest
type	one of regression , classification , or unsupervised .
predicted	the predicted values of the input data based on out-of-bag samples.
importance	a matrix with nclass + 2 (for classification) or two (for regression) columns. For classification, the first nclass columns are the class-specific measures computed as mean descrease in accuracy. The nclass + 1st column is the mean descrease in accuracy over all classes. The last column is the mean decrease in Gini index. For Regression, the first column is the mean decrease in accuracy and the second the mean decrease in MSE. If importance=FALSE , the last measure is still returned as a vector.
importanceSD	The “standard errors” of the permutation-based importance measure. For classification, a p by nclass + 1 matrix corresponding to the first nclass + 1 columns of the importance matrix. For regression, a length p vector.
localImp	a p by n matrix containing the casewise importance measures, the [i,j] element of which is the importance of i-th variable on the j-th case. NULL if localImp=FALSE .
ntree	number of trees grown.
mtry	number of predictors sampled for spliting at each node.
forest	(a list that contains the entire forest; NULL if randomForest is run in unsupervised mode or if keep.forest=FALSE .
err.rate	(classification only) vector error rates of the prediction on the input data, the i-th element being the (OOB) error rate for all trees up to the i-th.
confusion	(classification only) the confusion matrix of the prediction (based on OOB data).
votes	(classification only) a matrix with one row for each input data point and one column for each class, giving the fraction or number of (OOB) ‘votes’ from the random forest.
oob.times	number of times cases are ‘out-of-bag’ (and thus used in computing OOB error estimate)
proximity	if proximity=TRUE when randomForest is called, a matrix of proximity measures among the input (based on the frequency that pairs of data points are in the same terminal nodes).
mse	(regression only) vector of mean square errors: sum of squared residuals divided by n .
rsq	(regression only) “pseudo R-squared”: 1 - mse / Var(y).
test	if test set is given (through the xtest or additionally ytest arguments), this component is a list which contains the corresponding predicted , err.rate , confusion , votes (for classification) or predicted , mse and rsq (for regression) for the test set. If proximity=TRUE , there is also a component, proximity , which contains the proximity among the test set as well as proximity between test and training data.

Неизвестно, что конкретно использует автор из приведенного перечня, но других источников определения ошибок классификации или регрессии при использовании RF просто нет да и не нужно.

При разных вариантах комбинаций входных данных ошибки, выдаваемые RF, будут разными. Именно это и изучает автор и делает выводы о дисперсии ошибок и неком, не известно как вычисляемом смещении.

Вероятностная нейронная сеть Разговор с искусственным интеллектом Тестер стратегий MetaTrader 5:

Aleksey Vyazmikin 2023.05.23 11:56 #30803

Maxim Dmitrievsky #:
А вы еще и психотерапевт по совместительству? Нет, все по факту.

Да, ищу клиентов, хотите записаться?

По факту Вы не воспринимаете критику. Увидели нечто похожее, что вы делаете - с фильтрацией неудобных учасков выборки, что в вашем сознании придало научность вашему подходу и теперь это защищаете. Один из способ защиту у вас - нападение - с уязвлением и оскорблением оппонента. Я признаю, что есть прогресс в этом вопросе - стали сдержанней - и даже можно Вас похвалить в этом.

В то же время, моё предложение о совместной деятельности, т.е. конструктивное предложение, направленное на обогащение знаний об исследуемом предмете - вы называете отвлечением от темы.

В чем же тема этой ветки - демонстрировать красоту и уникальность ума отдельно взятых участников? Иными словами балабольство, а не поиск истины, на ваш взгляд?

Лавина Билет в будущее Как Вам новое оформление

Aleksey Vyazmikin 2023.05.23 14:47 #30804

Maxim Dmitrievsky #:
Я очень четко понимаю что пишу, иначе бы не писал. А ты нет. Кончай флудеть, надоел.

Изучи материал, потом обсудим. Не осилишь - я не расстроюсь. Разжевать и в рот положить - это к другим людям.

Максим, я сбросил перевод ранее, что мне удалось получить. Из него, честно говоря, я пришел к схожим выводам, что и СанСаныч Фоменко . Я допускаю, что это искаженный перевод, так как многое там просто странно звучит то они выборку лечат, то подгонкой занимаются показателей...

Поэтому я и предлагаю Вам пояснить то, что никто не понял, своими словами, хотя бы тезисно. Может после этого я буду воспринимать написанную информацию подругому.

Вот выдержка из перевода, всё ли понятно написано?

Скорость изменения цены, как Какое самое важное условие Отсутствует в списке сигналов

Lilita Bogachkova 2023.05.23 15:35 #30805

СанСаныч Фоменко #:

Этого в статье нет.

Описана обычная подгонка с разным делением исходных предикторов, включая кросс валидацию. Обыденность, которую закумуфлировали словами.

У меня вопрос к знатокам машинного обучения. Если я использую данные одного символа для обучения, данные другого символа для валидации и данные третьего символа для тестирования, является ли это хорошей практикой?

Кроме того, я получаю следующие результаты тестовых данных: зеленые ячейки очень хорошие, желтые ячейки хорошие, красные ячейки средние.

А также вопрос о модификации данных для обучения модели. Я заметила, что модель с трудом находит экстремумы, в моем случае значения выше 60 и значения ниже 40.
Поэтому я нахожу в тренировочных данных значения выше 60 и ниже 40, которые я дополнительно повторно добавляю в тренировочные данные перед их подачей в модель, поэтому вопрос: можно ли повысить точность модели за счет увеличения обучающие данные, содержащие информацию об экстремумах?

inputs_unique, indices = np.unique(inputs, axis=0, return_index=True)
outputs_unique = outputs[indices]

# Find indices where outputs_unique values are greater than 60
indices_greater_than_60 = np.where(outputs_unique > 0.6)

# Get the corresponding inputs_unique and outputs_unique values
filtered_inputs_greater = inputs_unique[indices_greater_than_60]
filtered_outputs_greater = outputs_unique[indices_greater_than_60]

# Add filtered_inputs values to inputs_unique
inputs_unique = np.concatenate((inputs_unique, filtered_inputs_greater), axis=0)
# Add filtered_outputs values to outputs_unique
outputs_unique = np.concatenate((outputs_unique, filtered_outputs_greater), axis=0)

# Find indices where outputs_unique values are smaller than 40
indices_smaller_than_40 = np.where(outputs_unique < 0.4)

# Get the corresponding inputs_unique and outputs_unique values
filtered_inputs_smaller = inputs_unique[indices_smaller_than_40]
filtered_outputs_smaller = outputs_unique[indices_smaller_than_40]

# Add filtered_inputs values to inputs_unique
inputs_unique = np.concatenate((inputs_unique, filtered_inputs_smaller), axis=0)
# Add filtered_outputs values to outputs_unique
outputs_unique = np.concatenate((outputs_unique, filtered_outputs_smaller), axis=0)

Разговор с искусственным интеллектом Машинное обучение и нейронные Индикатор зигзаг и нейронные

mytarmailS 2023.05.23 16:54 #30806

хорошая книга по ML , DM

https://mhahsler.github.io/Introduction_to_Data_Mining_R_Examples/book/introduction.html

Chapter 1 Introduction | An R Companion for Introduction to Data Mining

Michael Hahsler
mhahsler.github.io

1.1 Used Software This companion book assumes that you have R and RStudio Desktop installed and that you are familiar with the basics of R, how to run R code and install packages. If you are new...

Maxim Dmitrievsky 2023.05.23 18:10 #30807

mytarmailS 2023.05.24 08:47 #30808

Lilita Bogachkova #:

У меня вопрос к знатокам машинного обучения. Если я использую данные одного символа для обучения, данные другого символа для валидации и данные третьего символа для тестирования, является ли это хорошей практикой?

кратко НЕТ

вы тренируете модель распознавать арбузы , тестите на яблоках , валидируете на...

Rorschach 2023.05.24 09:20 #30809

Lilita Bogachkova #:

У меня вопрос к знатокам машинного обучения. Если я использую данные одного символа для обучения, данные другого символа для валидации и данные третьего символа для тестирования, является ли это хорошей практикой?

Попробуйте использовать один и тот же символ с добавлением шума.

mytarmailS 2023.05.24 09:44 #30810

Rorschach #:

Попробуйте использовать один и тот же символ с добавлением шума.

думаю лучше время сместить если это не тики,

шум он всетаки искажает данные, да и параметры есть у шума и не понятно какие выбрать , да и вообще почему тогда не делать сразу котировки из шума как я делал недавно

[Архив!] FOREX - Тенденции, Эма Кросс! А можно не откладывая

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3081