Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1270

 
Maxim Dmitrievsky:

ты не управляешь ситуацией в игре, а оцениваешь свои шансы в зависимости от принятых решений

так должно быть понятнее что игра с оппонентом и с рынком это аналогичные вещи

В игре ты влияешь на ситуацию, тебе не надо оценивать шансы на выигрыш в каждый момент принятия решения, ты ищешь возможность потратить меньше ресурсов для нанесения большего урона. К тому же, как я говорил, там процесс динамический, решение может пересматриваться на каждой итерации без особых последствий, а у нас даже пересмотр решения платный.

 
Maxim Dmitrievsky:

если ты играешь ноликами в крестики нолики то ты ни на что не влияешь если оппонент эффективный, он всегда выигрывает

если ты торгуешь на неэффективном рынке, тебе не обязательно на него влиять что бы выигрывать

чисто терминологический спор, мне кажется, который ничего не меняет )

Несогласен, когда ты играешь в крестики/нолики ты своим ходом влияешь на вероятность действий оппонента своими действиями.

Да я не спорю, мне это не нужно, для себя я вижу разницу в ситуациях, но допускаю, что эти два направления могут в симбиозе что-то дать друг другу.

 
Maxim Dmitrievsky:

он просто поставит крестик в другой клетке, вероятность его выигрыша останется 100% о каком влиянии речь? он никак не повлиял на вероятности исходов. чисто физическое влияние не имеет никакого смысла, когда речь о шансах

Ну если он в центре поставит свой крестик или нолик, то явно шансов у Вас будет меньше, или мне пора поспать...

 
Maxim Dmitrievsky:

Если он играет правильно и не допускает ошибок (эффективный), то в tic tac toe всегда выигрывают крестики (т.е. первый кто ходит)

ладно, не важно короче.. ) просто если уловить мысль то лишних дум потом поубавится насчет этого

Ну, вот согласились, что влияет, а это очень важно и именно влиянию там в большей мере идет обучение, нежели прогнозированию. Там мониторинг чужих юнитов, и оценка их угрозы, т.е. возможность законтролить их подешевле, и отдельно оценка ветви развития - тут вообще можно просто дерево использовать бинарное. Ну и что-то по ситуации оценивается. Думаю там симбиоз разных моделей, отвечающих за разное и обменивающихся данными между собой.

 
Maxim Dmitrievsky:

да с чем же я согласился? как раз обратное пишу. Есть вероятностная картина, равновесие по Нэшу например, когда что бы ты не делал ты не изменишь расклад сил, у тебя есть оптимальная стратегия, которой ты можешь придерживаться, и только. Играя за нолики с эффективным противником ты никогда не выиграешь, т.е. не можешь изменить ситуацию.

В игре оцениваются именно вероятностные переходы, что-то типа Марковской цепи. Причина-следствие. Стратегия-контрстратегия, и никакого влияния. Если противник ошибается то проигрывает.

За стратегию рынка прими изменение курса, за свою стратегию прими свое предполагаемое изменение курса. Чья стратегия круче тот и победил. У эффективного рынка стратегия наилучшая, т.е. ни один из участников не может его обыграть в долгосроке.

В том то и дело, что своими действиями ты влияешь на вероятность действий противника в игре, а на рынок ты не можешь повлиять. Плюс добавьте стационарность игрового поля. Я не вижу в игре серьезных прогнозов, там просто расчет вероятности и снижение рисков своими действиями. Мы можем так же снижать риски, если проводить аналогии, к примеру входить в рынок при маленьком расчетном стопе, но тогда число сделок будет катастрофически мало. В общем, если бы у Вас было бы 100кк рублей и вы сидели на втором эшелоне акциц Moex, то аналогия могла бы быть уместной, так-как Вы могли бы существенно влиять на цену и её движение, а так остается только пытаться спрогнозировать, что будет делать тот у кого есть эти 100кк. И мы пологаем, что это можно сделать по его поведению, т.е. по тому как он будет влиять на цену, другого у нас просто нет.

 
Maxim Dmitrievsky:

На выбор стратегии противником ты не можешь повлиять. Ты можешь загнать его в патовую ситуацию, но это и есть часть твоей стратегии. Он может изменить свою стратегию по ходу пьесы, а может не менять, по своему желанию. В целом, если у тебя флэш рояль, как у рынка, то ты заранее выиграл. То есть, у тебя на руках лучшая стратегия из этого пространства, при любых ходах противника, как в tic tac toe, ты выигрываешь. 

Отдельные ходы уже не влияют, потому что заранее бьются стратегией оппонента (в любых комбинациях).

Или, допустим, в интеллектуальном споре с кем-то у вас в руке есть кирпич, а у оппонента нет. Какова вероятность что вы пропорите?

Вот Вы приводите примеры, где два субъекта влияют друг на друга, в игре так и есть, но на рынок Вы критически мало влияете, я об этом Вам говорю. Т.е. какую бы Вы не выбрали стратегию, рынок будет делать то, что ему нужно, трейдер с малым кэшем только наблюдатель.

 
Maxim Dmitrievsky:

вы узко мыслите, похоже не смогу донести мысль о том, что игра идет в вероятности а не во взаимодействие с другим игроком. С этого начался спор, что вы сказали что для рынка нужны другие алгоритмы. Я сказал что нет.

И не старайтесь, я мыслю прагматически, предметно в отношении этих дел. Мыслить вероятностями можно тогда, когда ты можешь на них влиять. А так, это надежда называется, надежда что рынок будет торговать по случайно воссозданному алгоритму... ну есть такая вероятность, но на сколько она велика?

 
Maxim Dmitrievsky:

к сожалению, беседа зашла в русло бреда

тервер один на всех, нейронные сети тоже. 

никаких прагматических и предметных вещей в МО не существует, а только абстрактные понятия.

У нас видимо разное представление о рынке и разное ожидание от МО, в том числе почему это должно работать.

Благодаря диалогу с Вами я уже представил себе как бы обучал бота для игры, и теперь мне все кажется менее сказочна.

 
Тут пришла в голову идея, что нормальное распределение можно ожидать только на завершенных процессах (просто мысль - не проверял), а ранок таковым не является, поэтому все предположения о его неравномерном распределении и нестационарности лишь догадки, которые нельзя проверить, пока существует рынок.
 
Maxim Dmitrievsky:

Для рынка он обучается точно так же, потому что технология та же самая. Про "влияние" забудьте, его нет в явном виде при обучении в каком Вы себе это представляете. А есть наборы стратегий, оптимальные стратегии и т.п. (в  RL они называются политики) 

Если бы у нас был создатель бота, то мы бы могли задать ему ряд вопросов и очень бы удивились ответам. Все эти RL хорошо обучаются стационарным факторам влияния на среду, но если ты играешь против другого игрока, то тут в голом виде RL не будет работать. Я глубоко не изучал это направление, может заблуждаюсь. Но тут явное взаимодействие с меняющейся средой, из поведения ботов не видно, что там есть ожидание чего либо, вообще не видно, есть контроль вероятности нанесения урона как тебе так и противнику, и тут идут просчеты просто и действуют в сторону меньшей вероятности негативного исхода, но это не та вероятность, заданная политикой в начале игры - это влияние на изменяющуюся среду.

Причина обращения: