Разметка данных для нейросетей. Ваши идеи... - страница 2

[Удален]  
Uladzimir Izerski #:

Никаких точностей на рынках нет и никогда не будет. Есть только приблизительности, случайные совпадения не в счет.

Изерский, точностей у кого-то нет в голове в первую очередь, одни приблизительности :)

Не нужно путать точность с точечностью. 

Трансдуктивное и активное обучение (без учителя или при слабом контроле) не приводит к точности.

Разве только в частном порядке, цитата из статьи. Самое важное выделил:

"В идеале, точность классификации активного лернера на небольшом количестве размеченных данных должна превосходить точность аналогичного классификатора, если бы все данные были размечены. Из отчета следует, что классификатор, который обучался на всех размеченных данных, имеет точность ниже чем у активного лернера, который обучен всего на 2000 примеров. Наверное, это хорошо"

"В данной статье мы разобрались с активным обучением, которое оставило смешанные впечатления. С одной стороны, всегда заманчиво обучаться на небольшом количестве примеров, и эти модели действительно работают хорошо для некоторых классификационных задач. Однако, это все еще далеко от искусственного интеллекта. Такая модель не может сама найти устойчивые закономерности в мусорных данных, и для нее требуется более тщательная подготовка признаков и меток, в т. ч. на основе экспертной разметки. Я не увидел значительного прироста в качестве моделей, и был ли он вообще. В то же время, трудоемкость и время обучения моделей увеличилось, что является негативным фактором."

Градиентный бустинг в задачах трансдуктивного и активного машинного обучения
Градиентный бустинг в задачах трансдуктивного и активного машинного обучения
  • 2020.12.11
  • www.mql5.com
В данной статье вы познакомитесь с методами активного машинного обучения на реальных данных, узнаете какие плюсы и минусы они имеют. Возможно, эти методы займут свое место в вашем арсенале моделей машинного обучения. Термин трансдукции был введен Владимиром Наумовичем Вапником, изобретателем машины опорных векторов или SVM (support vector machine).
 

Где то с полгода назад задумался о жадном алгоритме построения дерева и подумал, что может проблема в нем и он не может найти настоящие закономерности.

Сделал эксперимент.
Строил не 1 жадное дерево, а генерировал миллионы деревьев с абсолютно всеми сплитами по всем фичам. Всего фич было около 500. Исследовал дельты цен, дельты к 10 МА с разными периодами, скорости, ускорения, круглые уровни, 5 ЗигЗагов с разными шагами.
Каждую фичу делил от 4 до 15 (кажется) кусков/секторов. Задача решаемой по времени вычислений оказалась для использования в 1м дереве 3-х фич, глубина дерева тоже 3. Примерно 500*500*500=125млн деревьев. Если до 4х фич, то это было бы в 500 раз дольше, вместо нескольких дней - несколько лет. Это на моем 36 ядерном компе и еще 2 обычных компа с 4 и 6 ядрами.

На всех этих миллионах ООС так и не нашлось ничего намного лучше, чем то, что жадный алгоритм дерева нашел.

Выводы:

1) жадный алгоритм вполне достаточен

2) нет значимых фич. Ведь если бы они были, то какое нибудь 4578454-е дерево (с 36,247 и475-й фичей) выдало бы хороший результат на ООС.

3) С форексом можно закрыть все эксперименты. Поэтому решил начать эксперименты с криптой (и потом на этой основе с биржами), возможно там найдутся фичи в стаканах и др. инфе. Но проблема с стаканами в том, что заявки могут быть сняты за долю секунды до срабатывания, а это будет вводить в заблуждение. Особенно если таких мигающих ордеров (т.е. шума) 90%.
[Удален]  
Forester #:

Где то с полгода назад задумался о жадном алгоритме построения дерева и подумал, что может проблема в нем и он не может найти настоящие закономерности.

Сделал эксперимент.
Строил не 1 жадное дерево, а генерировал миллионы деревьев с абсолютно всеми сплитами по всем фичам. Всего фич было около 500. Исследовал дельты цен, дельты к 10 МА с разными периодами, скорости, ускорения, круглые уровни, 5 ЗигЗагов с разными шагами.
Каждую фичу делил от 4 до 15 (кажется) кусков/секторов. Задача решаемой по времени вычислений оказалась для использования в 1м дереве 3-х фич, глубина дерева тоже 3. Примерно 500*500*500=125млн деревьев. Если до 4х фич, то это было бы в 500 раз дольше, вместо нескольких дней - несколько лет. Это на моем 36 ядерном компе и еще 2 обычных компа с 4 и 6 ядрами.

На всех этих миллионах ООС так и не нашлось ничего намного лучше, чем то, что жадный алгоритм дерева нашел.

Выводы:

1) жадный алгоритм вполне достаточен

2) нет значимых фич. Ведь если бы они были, то какое нибудь 4578454-е дерево (с 36,247 и475-й фичей) выдало бы хороший результат на ООС.

3) С форексом можно закрыть все эксперименты. Поэтому решил начать эксперименты с криптой (и потом на этой основе с биржами), возможно там найдутся фичи в стаканах и др. инфе. Но проблема с стаканами в том, что заявки могут быть сняты за долю секунды до срабатывания, а это будет вводить в заблуждение. Особенно если таких мигающих ордеров (т.е. шума) 90%.
Здесь уже был такой, который обучал миллионы деревьев на инстансах от amazon. Все попытки узнать у него, а какая вообще стратегия торговли лежит за всем этим, провалились. Примерно то же самое будет с семплерами, когда в голове нет ни одной идеи какая стратегия реализуется. 

Можно долго месить глину случайными замесами, но так и не получить кувшин 😁
 
Maxim Dmitrievsky #:
Здесь уже был такой, который обучал миллионы деревьев на инстансах от amazon. Все попытки узнать у него, а какая вообще стратегия торговли лежит за всем этим, провалились.
У меня стратегия все та же: оптимизация разных ТП/СЛ.
Успех то у него был? Или как у меня?
[Удален]  
Forester #:
У меня стратегия все та же: оптимизация с разными ТП/СЛ.
Это не стратегия торговли. Стратегия подразумевает какой-то лежащий в ее основе смысл или предположение о закономерностях.
 
Короче относительно темы топика. На самом деле главным качеством данных является ..... наклона. И это один из ГЛАВНЫХ параметров оценки данных
 
Mihail Marchukajtes #:
Короче относительно темы топика. На самом деле главным качеством данных является ..... наклона. И это один из ГЛАВНЫХ параметров оценки данных

Оу? Сколько лет, сколько зим?

Угол наклона не сложно определить. Тут уже есть много готовых формул.

[Удален]  
Forester #:
Успех то у него был? Или как у меня?

Нет, он ерунду делал. По типу вместо 50 деревьев в лесу ставил 5000.

 

Форум по трейдингу, автоматическим торговым системам и тестированию торговых стратегий

Что подать на вход нейросети? Ваши идеи...

Ivan Butko, 2025.02.08 10:25

Парадигма поиска:

Целевая - не следующая порядковая свеча или следующее порядковое показание. 

Целевая - результат торговли, начиная с текущего времени. 

То есть, 

1) Берем любую стратегию. Дожидаемся ее срабатывания (открытия позиции). Записываем входной сет (любой). Мониторим позицию до закрытия, и записываем результат сделки, как целевую.

2) Обучаем любым методом. 

3) Запускаем нашу (помоичную) стратегию 

4) Добавляем к ней фильтр - нашу НС. 


В результате, нам нужно приложить немного интеллектуальных, творческих усилий, терпения, времени, чтобы подобрать стратегию. 

Остальное "докрутит" нейросеть. 

Мы снимает с нейросети непосильный интеллектуальный труд попросту потому, что в текущих реалиях НС даже неспособна определить уровни, если их не разметить "самому".

И она будет заниматься тем, чем ей положено: шлифовать ТС. 

Сюда продулирую, как один из самых любопытных методов разметки

И добавлю ещё один вариант модификации разметки выше:

  • все минусовые значения заменяем на 0
  • все селовские профиты заменяем на положительные числа
  • результат резметки - есть ли профит или нет, и если есть - то какой. А вот какой минус - запоминать не нужно, просто тратятся ресурсы нейросети
Порогами потом можно настраивать ожидаемую прибыль от сделок при тестировании
[Удален]  
Разметить сразу без минусовых значений религия не позволяет? 😁