記事「時系列マイニングのためのデータラベル(第2回):Pythonを使ってトレンドマーカー付きデータセットを作成する」についてのディスカッション 新しいコメント MetaQuotes 2024.01.08 14:55 新しい記事「時系列マイニングのためのデータラベル(第2回):Pythonを使ってトレンドマーカー付きデータセットを作成する」はパブリッシュされました: この連載では、ほとんどの人工知能モデルに適合するデータを作成できる、いくつかの時系列のラベル付け方法を紹介します。ニーズに応じて的を絞ったデータのラベル付けをおこなうことで、訓練済みの人工知能モデルをより期待通りの設計に近づけ、モデルの精度を向上させ、さらにはモデルの質的飛躍を助けることができます。 この時点で基本的な作業は完了しましたが、より正確なデータを取得したい場合は、さらに人間の介入が必要です。ここではいくつかの方向性を指摘するだけで、詳細なデモンストレーションはおこないません。 1. データの整合性確認 完全性とは、データ情報が欠落しているかどうかを指します。これには、データ全体が欠落しているか、データ内のフィールドが欠落している可能性があります。データの完全性はデータ品質の最も基本的な評価基準の1つです。たとえば、M15期間の株式市場データの前のデータが次のデータと2時間異なる場合、対応するツールを使用してデータを完成させる必要があります。もちろん、クライアント端末から外国為替データや株式市場データを取得することは一般的に困難ですが、交通データや気象データなど、他のソースから時系列データを取得する場合は、特に注意する必要があります。 データ品質の完全性は比較的簡単に評価でき、通常はデータ統計に記録された一意の値によって評価できます。たとえば、前の期間の株価データの終値が1000だったが、次の期間の始値が10になった場合、データが欠落していないか確認する必要があります。 2. データラベルの正確性を確認する この記事の観点から見ると、上記で実装したデータ ラベル付けメソッドには特定の脆弱性がある可能性があります。正確なラベル付けデータを取得するには、pytrendseriesライブラリで提供されるメソッドに依存するだけでなく、データを視覚化し、傾向があるかどうかを観察する必要もあります。データの分類があまりにも影響を受けやすい、または鈍いため、いくつかの重要な情報が失われています。現時点では、データを分析する必要があります。分割する必要がある場合は分割し、結合する必要がある場合は結合する必要があります。この作業には、完了するには多大な労力と時間がかかるため、ここでは具体的な例は当面提供しません。 正確性とは、データに記録されている情報が正しいかどうか、データに記録されている情報に異常や間違いがないかを指します。一貫性とは異なり、精度に問題があるデータは、単なるルールの不一致ではありません。一貫性の問題は、データ ログのルールの不一致によって発生する可能性がありますが、必ずしもエラーが原因であるとは限りません。 3. ラベルが合理的かどうかを確認するために、基本的な統計検証を実行します。 整合性の配布:データセットの完全性を迅速かつ直観的に確認します。 ヒートマップ:ヒートマップを使用すると、2 つの変数間の相関関係を簡単に観察できます。 階層的クラスタリング:データのさまざまなクラスが密接に関連しているか、分散しているかを確認できます。 もちろん、上記の方法だけではありません。 作者: Yuqiang Pan 新しいコメント 取引の機会を逃しています。 無料取引アプリ 8千を超えるシグナルをコピー 金融ニュースで金融マーケットを探索 新規登録 ログイン スペースを含まないラテン文字 このメールにパスワードが送信されます エラーが発生しました Googleでログイン WebサイトポリシーおよびMQL5.COM利用規約に同意します。 新規登録 MQL5.com WebサイトへのログインにCookieの使用を許可します。 ログインするには、ブラウザで必要な設定を有効にしてください。 ログイン/パスワードをお忘れですか? Googleでログイン
新しい記事「時系列マイニングのためのデータラベル(第2回):Pythonを使ってトレンドマーカー付きデータセットを作成する」はパブリッシュされました:
この連載では、ほとんどの人工知能モデルに適合するデータを作成できる、いくつかの時系列のラベル付け方法を紹介します。ニーズに応じて的を絞ったデータのラベル付けをおこなうことで、訓練済みの人工知能モデルをより期待通りの設計に近づけ、モデルの精度を向上させ、さらにはモデルの質的飛躍を助けることができます。
この時点で基本的な作業は完了しましたが、より正確なデータを取得したい場合は、さらに人間の介入が必要です。ここではいくつかの方向性を指摘するだけで、詳細なデモンストレーションはおこないません。
1. データの整合性確認
完全性とは、データ情報が欠落しているかどうかを指します。これには、データ全体が欠落しているか、データ内のフィールドが欠落している可能性があります。データの完全性はデータ品質の最も基本的な評価基準の1つです。たとえば、M15期間の株式市場データの前のデータが次のデータと2時間異なる場合、対応するツールを使用してデータを完成させる必要があります。もちろん、クライアント端末から外国為替データや株式市場データを取得することは一般的に困難ですが、交通データや気象データなど、他のソースから時系列データを取得する場合は、特に注意する必要があります。
データ品質の完全性は比較的簡単に評価でき、通常はデータ統計に記録された一意の値によって評価できます。たとえば、前の期間の株価データの終値が1000だったが、次の期間の始値が10になった場合、データが欠落していないか確認する必要があります。
2. データラベルの正確性を確認する
この記事の観点から見ると、上記で実装したデータ ラベル付けメソッドには特定の脆弱性がある可能性があります。正確なラベル付けデータを取得するには、pytrendseriesライブラリで提供されるメソッドに依存するだけでなく、データを視覚化し、傾向があるかどうかを観察する必要もあります。データの分類があまりにも影響を受けやすい、または鈍いため、いくつかの重要な情報が失われています。現時点では、データを分析する必要があります。分割する必要がある場合は分割し、結合する必要がある場合は結合する必要があります。この作業には、完了するには多大な労力と時間がかかるため、ここでは具体的な例は当面提供しません。
正確性とは、データに記録されている情報が正しいかどうか、データに記録されている情報に異常や間違いがないかを指します。一貫性とは異なり、精度に問題があるデータは、単なるルールの不一致ではありません。一貫性の問題は、データ ログのルールの不一致によって発生する可能性がありますが、必ずしもエラーが原因であるとは限りません。
3. ラベルが合理的かどうかを確認するために、基本的な統計検証を実行します。
作者: Yuqiang Pan