Выберите функцию, которая наилучшим образом разделяет данные. Сравните это с моделью дерева решений - Общее обсуждение

Lilita Bogachkova 2023.01.28 10:27 #841

написать алгоритм дерева решений

-

Дерево решений — это контролируемый алгоритм обучения, который можно использовать как для задач классификации, так и для задач регрессии. Основная идея дерева решений заключается в рекурсивном разделении данных на подмножества на основе значений входных признаков с целью создания подмножеств, которые являются как можно более «чистыми» (т. Е. Подмножества, которые содержат только один класс или небольшой диапазон значений для целевой переменной).

Ниже приведена основная схема шагов, связанных с построением алгоритма дерева решений.

Выберите функцию, которая наилучшим образом разделяет данные: алгоритм начинается с корня дерева и выбирает объект, который лучше всего разбивает данные на подмножества с самой высокой «чистотой». Обычно это делается путем вычисления примеси Джини или получения информации для каждого признака.
Создание нового внутреннего узла для выбранного компонента: для выбранного компонента создается новый внутренний узел, и данные разбиваются на подмножества на основе значений этого компонента.
Повторите процесс для каждого подмножества: процесс повторяется для каждого подмножества данных, создавая новый внутренний узел для компонента, который наилучшим образом разделяет данные в каждом подмножестве.
Создание конечного узла: когда подмножество данных является «чистым» (т. е. содержит только один класс или небольшой диапазон значений для целевой переменной), создается конечный узел. Конечный узел помечается классом или значением, наиболее распространенным в подмножестве.
Повторите процесс: процесс повторяется до тех пор, пока дерево не будет завершено и все подмножества данных не будут разделены на листовые узлы.
Обрежьте дерево: чтобы предотвратить переподготовку, дерево обрезают путем удаления ветвей, которые не вносят большого вклада в точность модели.
Используйте дерево для прогнозирования: после построения дерева его можно использовать для прогнозирования новых данных путем обхода дерева от корня до узла листа и возврата метки, связанной с этим узлом листа.

Важно отметить, что алгоритм дерева решений также, как известно, чувствителен к небольшим изменениям в данных, и это может привести к перенастройке. Чтобы преодолеть эту проблему, можно использовать методы ансамбля, такие как Random Forest и Gradient Boosting, которые объединяют несколько моделей дерева решений для повышения общей производительности.

The following is a basic outline of the steps involved in building a decision tree algorithm:

Select the feature that best splits the data: The algorithm starts at the root of the tree and selects the feature that best splits the data into subsets with the highest "purity". This is typically done by calculating the Gini impurity or the information gain for each feature.
Create a new internal node for the selected feature: A new internal node is created for the selected feature, and the data is split into subsets based on the values of that feature.
Repeat the process for each subset: The process is repeated for each subset of the data, creating a new internal node for the feature that best splits the data in each subset.
Create a leaf node: When a subset of the data is "pure" (i.e., contains only one class or a small range of values for the target variable), a leaf node is created. The leaf node is labeled with the class or value that is most common in the subset.
Repeat the process: The process is repeated until the tree is complete and all subsets of the data have been split into leaf nodes.
Prune the tree: To prevent overfitting, the tree is pruned by removing branches that do not contribute much to the accuracy of the model.
Use the tree for prediction: Once the tree is built, it can be used to make predictions on new data by traversing the tree from the root to a leaf node and returning the label associated with that leaf node.

Машинное обучение и нейронные Машинное обучение в трейдинге: Обсуждение статьи "Градиентный бустинг

Lilita Bogachkova 2023.01.28 10:30 #842

Примесь Джини является мерой того, насколько «чистым» является подмножество данных. Он используется в алгоритмах дерева решений для определения наилучшей функции для разделения данных на каждом внутреннем узле. Примесь Джини вычисляется как вероятность неправильной классификации случайно выбранного элемента в подмножестве, если элемент помечен в соответствии с наиболее частым классом в подмножестве.

Ниже приведен основной обзор этапов, связанных с расчетом примеси Джини:

Инициализируйте переменную для хранения примеси Джини, установите ее в ноль.
Для каждого класса в подмножестве: a. Вычислите долю элементов в подмножестве, принадлежащих классу, назовите его p. b. Умножьте p на (1-p) и добавьте результат к примеси Джини.
Верните примесь Джини.

Примесь Джини подмножества может варьироваться от 0 до 1, где 0 представляет чистое подмножество, а 1 представляет собой нечистое подмножество.

Важно отметить, что примесь Джини также имеет определенные ограничения. Он чувствителен к количеству классов и не чувствителен к количеству точек выборки в каждом классе. Для преодоления этой проблемы могут быть использованы другие меры примеси, такие как получение информации, которые менее чувствительны к количеству классов.

The following is a basic outline of the steps involved in calculating Gini impurity:

Initialize a variable to store the Gini impurity, set it to zero.
For each class in the subset: a. Calculate the proportion of elements in the subset that belong to the class, call it p. b. Multiply p by (1-p) and add the result to the Gini impurity.
Return the Gini impurity.

The Gini impurity of a subset can range between 0 and 1, where 0 represents a pure subset and 1 represents an impure subset.

Машинное обучение и нейронные Учебники по программированию Quantitative trading

Lilita Bogachkova 2023.01.28 10:35 #843

написать алгоритм линейной регрессии

-

Линейная регрессия — это контролируемый алгоритм машинного обучения, используемый для прогнозирования непрерывной целевой переменной (также называемой зависимой переменной) на основе одной или нескольких предикторных переменных (также называемых независимыми переменными или признаками). Он предполагает, что существует линейная связь между предикторными переменными и целевой переменной, и он направлен на поиск наиболее подходящей линии (или гиперплоскости в случае нескольких предикторных переменных), которая минимизирует сумму квадратов разностей между прогнозируемыми и фактическими значениями целевой переменной.

Ниже приведен базовый обзор шагов, участвующих в алгоритме линейной регрессии:

Соберите набор данных, включающий как предикторные переменные, так и целевую переменную.
Инициализируйте значения коэффициентов (также называемых весами) для предикторных переменных до нуля или малых случайных значений.
Используйте набор данных для обучения модели путем многократной корректировки значений коэффициентов, чтобы свести к минимуму сумму квадратов разности между прогнозируемыми и фактическими значениями целевой переменной. Обычно это делается с использованием метода, называемого градиентным спуском.
После завершения обучения используйте модель для прогнозирования новых данных, вводя значения предикторных переменных и используя изученные коэффициенты для расчета прогнозируемого значения целевой переменной.
Оцените производительность модели, используя метрику, такую как средняя квадратная ошибка или R-квадрат.

Алгоритм линейной регрессии - это простой, но мощный алгоритм, который широко используется во многих областях, включая финансы. Он также известен как обычный метод наименьшего квадрата. Недостатком этого алгоритма является то, что он может моделировать только линейные отношения между зависимыми и независимыми переменными. Для моделирования более сложных отношений могут быть использованы другие алгоритмы, такие как полиномиальная регрессия, деревья решений.

The following is a basic outline of the steps involved in a linear regression algorithm:

Collect a dataset that includes both predictor variables and the target variable.
Initialize the values of the coefficients (also called weights) for the predictor variables to zero or small random values.
Use the dataset to train the model by repeatedly adjusting the values of the coefficients to minimize the sum of the squared differences between the predicted and actual values of the target variable. This is typically done using a method called gradient descent.
Once the training is done, use the model to make predictions on new data by inputting the values of the predictor variables and using the learned coefficients to calculate the predicted value of the target variable.
Evaluate the performance of the model using a metric such as mean squared error or R-squared.

Машинное обучение и нейронные Python для алготрейдинга Учебники по программированию

Lilita Bogachkova 2023.01.28 10:38 #844

Алгоритм квадратичной ошибки — это метод, используемый для измерения разницы между прогнозируемым значением и фактическим значением целевой переменной в контролируемой задаче обучения. Он обычно используется в качестве функции затрат в линейной регрессии и других алгоритмах оптимизации.

Ниже приведена основная схема алгоритма квадратичной ошибки:

При наличии набора данных с n наблюдениями и модели с m параметрами алгоритм начинается с инициализации параметров модели.
Для каждого наблюдения в наборе данных алгоритм вычисляет прогнозируемое значение целевой переменной, используя параметры модели и предикторные переменные.
Для каждого наблюдения алгоритм вычисляет разницу между прогнозируемым значением и фактическим значением целевой переменной.
Затем алгоритм возводит эту разницу в квадрат и суммирует квадраты разностей для всех наблюдений, чтобы получить общую квадратичную ошибку.
Заключительным шагом алгоритма является деление общей квадратной погрешности на количество наблюдений для получения средней квадратичной погрешности (MSE), которая является мерой средней разницы между прогнозируемыми и фактическими значениями целевой переменной.
Целью алгоритма оптимизации является поиск набора параметров, минимизирующих MSE.

Алгоритм квадратичной ошибки - это простой, легко реализуемый алгоритм, который может быть использован для задач линейной и нелинейной регрессии. Однако этот алгоритм чувствителен к выбросам в данных и плохо справляется, когда данные сильно искажены. Кроме того, квадратная ошибка не зависит от наличия шума в данных. В этом случае другие функции затрат, такие как средняя абсолютная погрешность или потеря Huber, могут быть более подходящими.

The following is a basic outline of the squared error algorithm:

Given a dataset with n observations and a model with m parameters, the algorithm starts by initializing the parameters of the model.
For each observation in the dataset, the algorithm calculates the predicted value of the target variable using the model's parameters and the predictor variables.
For each observation, the algorithm calculates the difference between the predicted value and the actual value of the target variable.
The algorithm then squares this difference, and sums up the squared differences for all observations to get the total squared error.
The final step of the algorithm is to divide the total squared error by the number of observations to get the mean squared error (MSE), which is a measure of the average difference between the predicted and actual values of the target variable.
The goal of the optimization algorithm is to find the set of parameters that minimize the MSE.

Машинное обучение и нейронные Учебники по программированию Машинное обучение в трейдинге:

Lilita Bogachkova 2023.01.28 10:40 #845

R-квадрат (R²) — это статистическая мера того, насколько хорошо модель соответствует данным. Он обычно используется в линейной регрессии и других контролируемых алгоритмах обучения для оценки качества прогнозов модели. R-квадрат находится в диапазоне от 0 до 1, при этом значение 1 указывает на идеальное соответствие между моделью и данными, а значение 0 указывает на то, что модель не лучше горизонтальной линии.

Ниже приведена основная схема алгоритма R-квадрата:

При наличии набора данных с n наблюдениями и модели с m параметрами алгоритм начинается с инициализации параметров модели.
Для каждого наблюдения в наборе данных алгоритм вычисляет прогнозируемое значение целевой переменной, используя параметры модели и предикторные переменные.
Затем алгоритм вычисляет общую сумму квадратов (TSS) путем суммирования квадратов разностей между фактическими значениями целевой переменной и средним значением целевой переменной.
Далее алгоритм вычисляет остаточную сумму квадратов (RSS) путем суммирования квадратов разностей между прогнозируемыми значениями и фактическими значениями целевой переменной.
Затем значение R-квадрата вычисляется путем вычитания RSS из TSS и деления на TSS.
Наконец, значение R-квадрата затем умножается на 100, чтобы преобразовать его в процент.

Алгоритм R-квадрата — это простой, легко реализуемый алгоритм, который можно использовать для оценки качества прогнозов модели. Тем не менее, он не указывает, является ли модель переподготовленной или неподготовленной. Кроме того, в некоторых случаях, например, когда модель имеет мало параметров по сравнению с количеством наблюдений, R-квадрат может быть искусственно завышен.

The following is a basic outline of the R-squared algorithm:

Given a dataset with n observations and a model with m parameters, the algorithm starts by initializing the parameters of the model.
For each observation in the dataset, the algorithm calculates the predicted value of the target variable using the model's parameters and the predictor variables.
The algorithm then calculates the total sum of squares (TSS) by summing the squared differences between the actual values of the target variable and the mean of the target variable.
Next, the algorithm calculates the residual sum of squares (RSS) by summing the squared differences between the predicted values and the actual values of the target variable.
The R-squared value is then calculated by subtracting the RSS from the TSS, and dividing by the TSS.
Finally, The R-squared value is then multiplied by 100 to convert it to a percentage.

Учебники по программированию Элитные показатели :) Quantitative trading

Lilita Bogachkova 2023.01.28 10:45 #846

Показать примеры!

-

Конечно, вот несколько примеров того, как реализовать эти рекомендации на практике:

Начните с простого: например, начните с обучения модели линейной регрессии на данных валютной пары и используйте такие метрики, как средняя квадратная ошибка, для оценки ее производительности. Сравните это с моделью дерева решений и оцените, какая из них работает лучше.
Используйте различные метрики: например, используйте точность, точность, отзыв и оценку F1 для оценки производительности модели дерева решений по задаче классификации.
Используйте перекрестную проверку: например, используйте k-кратную перекрестную проверку для оценки производительности модели линейной регрессии по данным валютной пары. Это включает в себя разделение данных на k подмножеств, обучение модели на подмножествах k-1 и тестирование ее на оставшемся подмножестве. Повторите этот процесс k раз и усредните метрики производительности.
Настройка гиперпараметров: например, используйте поиск по сетке, чтобы найти наилучшую комбинацию гиперпараметров для модели дерева решений. Поиск по сетке предполагает указание диапазона значений для каждого гиперпараметра и обучение модели со всеми возможными комбинациями этих значений.
Экспериментируйте с различными наборами функций: например, попробуйте использовать различные комбинации технических индикаторов в качестве входных данных для модели линейной регрессии и оцените влияние на производительность модели.
Ансамблевые методы: например, используйте такую технику, как случайный лес, который объединяет несколько деревьев решений для повышения производительности модели.
Например, используйте программное обеспечение для бэктестирования для моделирования производительности алгоритма в течение определенного периода времени с учетом реалистичных предположений, таких как проскальзывание и комиссия.

Машинное обучение в трейдинге: Машинное обучение и нейронные Python для алготрейдинга

Lilita Bogachkova 2023.01.28 10:53 #847

Вот пример того, как можно реализовать эти рекомендации в скрипте Python:

# Import necessary libraries
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split, GridSearchCV

# Load data and perform preprocessing
data = pd.read_csv("currency_data.csv")
X = data[['feature1', 'feature2', 'feature3']]
y = data['label']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Train linear regression model
lr = LinearRegression()
lr.fit(X_train, y_train)
y_pred = lr.predict(X_test)
lr_mse = mean_squared_error(y_test, y_pred)
lr_r2 = r2_score(y_test, y_pred)

# Train decision tree model
dt = DecisionTreeRegressor()
dt.fit(X_train, y_train)
y_pred = dt.predict(X_test)
dt_mse = mean_squared_error(y_test, y_pred)
dt_r2 = r2_score(y_test, y_pred)

# Compare performance of the two models
if lr_mse < dt_mse:
    print("Linear regression performs better with MSE:", lr_mse, "and R2:", lr_r2)
else:
    print("Decision tree performs better with MSE:", dt_mse, "and R2:", dt_r2)

# Use GridSearchCV for hyperparameter tuning
param_grid = {'max_depth': [2, 4, 6, 8], 'min_samples_leaf': [1, 2, 3, 4]}
grid_search = GridSearchCV(dt, param_grid, cv=5)
grid_search.fit(X_train, y_train)
print("Best parameters: ", grid_search.best_params_)

# evaluate the performance using a backtesting system 
# (this step is not covered in this example)

Примечание: Это всего лишь пример, вам может потребоваться изменить код в соответствии с данными и проблемой, которая у вас есть.

Valeriy Yastremskiy 2023.01.28 13:05 #848

Alexander Ivanov #:

Не понимаю, почему не могу регаться на ЧатГПТ из России?

симку нидерландскую купить надо, это можно отсюда сделать..

Lilita Bogachkova 2023.01.28 15:38 #849

Lilita Bogachkova #:
Вот пример того, как можно реализовать эти рекомендации в скрипте Python: Примечание: Это всего лишь пример, вам может потребоваться изменить код в соответствии с данными и проблемой, которая у вас есть.

Я сомневаюсь, что код, сгенерированный ИИ, полезен, поэтому я редко акцентирую его.
Может ли кто-нибудь, кто знает Python, сказать нам, насколько полезен этот код, предложенный ИИ?

#!/usr/bin/python
# -*- coding: utf-8 -*-
# Import necessary libraries

import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split, GridSearchCV, \
    KFold
from sklearn.ensemble import RandomForestRegressor

# Load data and perform preprocessing

data = pd.read_csv('currency_data.csv')
X = data[['feature1', 'feature2', 'feature3']]
y = data['label']

# Perform k-fold cross-validation

kf = KFold(n_splits=5)
for (train_index, test_index) in kf.split(X):
    (X_train, X_test) = (X.iloc[train_index], X.iloc[test_index])
    (y_train, y_test) = (y.iloc[train_index], y.iloc[test_index])

    # Train linear regression model

    lr = LinearRegression()
    lr.fit(X_train, y_train)
    y_pred = lr.predict(X_test)
    lr_mse = mean_squared_error(y_test, y_pred)
    lr_r2 = r2_score(y_test, y_pred)

    # Train decision tree model

    dt = DecisionTreeRegressor()
    dt.fit(X_train, y_train)
    y_pred = dt.predict(X_test)
    dt_mse = mean_squared_error(y_test, y_pred)
    dt_r2 = r2_score(y_test, y_pred)

    # Train Random Forest model

    rf = RandomForestRegressor()
    rf.fit(X_train, y_train)
    y_pred = rf.predict(X_test)
    rf_mse = mean_squared_error(y_test, y_pred)
    rf_r2 = r2_score(y_test, y_pred)

    # Compare performance of the three models

    if lr_mse < dt_mse and lr_mse < rf_mse:
        print ('Linear regression performs better with MSE:', lr_mse,
               'and R2:', lr_r2)
    elif dt_mse < lr_mse and dt_mse < rf_mse:
        print ('Decision tree performs better with MSE:', dt_mse,
               'and R2:', dt_r2)
    else:
        print ('Random forest performs better with MSE:', rf_mse,
               'and R2:', rf_r2)

# save the model

import pickle
pickle.dump(rf, open('random_forest_model.pkl', 'wb'))

# load the model

loaded_model = pickle.load(open('random_forest_model.pkl', 'rb'))

# test the loaded model on a test set

loaded_predictions = loaded_model.predict(X_test)
loaded_mse = mean_squared_error(y_test, loaded_predictions)
loaded_r2 = r2_score(y_test, loaded_predictions)
print ('Loaded model performs with MSE:', loaded_mse, 'and R2:',
       loaded_r2)

# end of the code

Petros Shatakhtsyan 2023.01.29 10:17 #850

Надо спросить у ИИ, разве можно получить такой результат без обмана ?

Его надо внести в книгу Гиннеса.

Разговор с искусственным интеллектом (ИИ) о форексе. - страница 85