機械学習とニューラルネットワーク - ページ 24

 

MIT 6.S192 - 講義 9:「ニューラル抽象化」Tom White 著



MIT 6.S192 - 講義 9:「ニューラル抽象化」Tom White 著

このビデオでは、アーティストであり講師でもある Tom White が、機械認識とニューラル ネットワークを芸術的実践に取り入れるアプローチについて説明しています。 White は、MIT で数学とグラフィック デザインを学んだバックグラウンドと、ビクトリア大学でクリエイティブ コーディングを教えている現在の仕事について語ります。彼はまた、他の人がメディアを創造的に使用するのを助けるためのツールの構築に関する彼の研究と、機械の知覚を探求する彼自身のアートワークについても語っています。 White は、AI アルゴリズムを使用して作成されたスケッチと版画を紹介し、音楽グループとのコラボレーションや最近の美術展について語っています。彼はまた、ニューラル ネットワークとのコラボレーションの課題と、AI で生成されたアートを公開することの意図しない結果についても説明します。

  • 00:00:00 ビデオのこのセクションでは、アーティストで講師の Tom White が自己紹介を行い、MIT のメディア ラボで数学とグラフィック デザインを学ぶなど、彼のバックグラウンドについて話します。彼は、創造的な分野としてプログラミングを探求することに興味を持っていることと、現在、ウェリントンのビクトリア大学で創造的なコーディングをどのように教えているかについて語っています。ホワイトはまた、他の人がメディアを創造的に使用するのに役立つ実用的なツールの構築に焦点を当てた彼の研究についても言及しています。さらに、彼は自分自身の別の芸術活動について話し、彼の講演でさらに議論する予定であり、同様の道を追求することに興味のある学生に刺激を与えることを望んでいます.

  • 00:05:00 このセクションでは、講演者はニューラル抽象化に関する講演と、機械の知覚を探求するアートワークの概要を説明します。彼は、機械には独自の世界の見方があり、彼のアートワークはこれをより多くの聴衆に公開することを目的としていると説明しています。講演者は、AI の表現と抽象化のトピックにも触れ、ニューラル ネットワーク ビジョン システムの表現を芸術的な文脈で伝えるためにどのように調査するかについても触れます。彼は、目、顔、ニワトリなどの実際の画像のデータセットに基づいたアート作品のいくつかを示し、システムの内部世界を理解するプロセスに診断をどのように導入するかを示すことで、これを実証しています。講演は、芸術における機械の知覚を探求することの意味と、機械が世界を知覚するさまざまな方法を理解するのにどのように役立つかについて述べて締めくくります。

  • 00:10:00 このセクションでは、トム ホワイトが MIT 在職中の初期プロジェクトのいくつかについて説明します。これには、リアルタイム ビデオ フィルターを作成するための機械学習技術の探求、マルチタッチ インタラクション用のカスタム ハンド インターフェースの作成が含まれます。 、および彼のアート プロジェクト Stream of Consciousness では、WordNet などの AI 技術を組み込んで関連する単語を見つけました。 White はまた、後に Processing や OpenFrameworks などのシステムの基盤となったコア ソフトウェア ライブラリ Acu の作成に関与したこと、および現在の仕事で機械学習プロセスのスケッチや図面の作成にどのように関わっているかについても語っています。

  • 00:15:00 このセクションでは、アーティストのスチュアート・デイビスから始めて、彼らの作品にインスピレーションを与えた芸術の優先順位について話します。スチュアート・デイビスはありふれた物を取り上げ、その中に何か新しいものを見つけるまで何度も何度も無理矢理描いていました。ハロルド・コーエンは、人工知能を介して正式な方法でマーク作成に関する彼のアイデアを成文化することにより、ジェネレーティブ・ドローイング・システムを実験した別のアーティストでした.後年、これらのシステムとの共同作業者としてより多くの仕事をするようになりましたが、Cohen の中心的な質問は「画像とは何か?」ということでした。次にスピーカーは、アンディ ウォーホルとロイ リキテンスタインがアートワークを実行する際に共有する技術として、スクリーン印刷での作業の技術的側面について話します。

  • 00:20:00 このセクションでは、アーティストで講師のトム ホワイトが、扇風機のような画像を作成するために知覚的に最適化するコンピューター ビジョン システムを使用して作成する、ブラシ技法の代わりにスクリーン印刷を使用してプリントを作成する芸術的技法について説明します。または人工知能アルゴリズムを使用した双眼鏡。 White は、Stuart Davis が、毎日同じオブジェクトを見つめることによって、なじみのあるオブジェクトを新しい方法で認識および表現することをどのように学んだかについて説明します。同様に、ホワイト氏はコンピュータ ビジョン システムを使用して、なじみのあるオブジェクトを認識して表現する新しい方法を導入しようとしています。

  • 00:25:00 ビデオのこのセクションでは、スピーカーは、ニューラル ネットワーク システムを使用して、さまざまなイメージを作成するために操作できる非常に少ないストロークを使用して簡単なスケッチを作成するデモについて説明します。彼は、同じ数のストロークを使用してシュモクザメとアイアンのスケッチをどのように作成したかを説明し、ストロークの位置を反転させることで、ニューラル ネットワークをだましてアイアンをサメに、またはその逆に認識させることができることを示しています。講演者は、ニューラル ネットワークがさまざまなオブジェクトのスケッチを作成する方法を実演し、システムが左利きまたは右利きの向きの影響を受けず、提供されたトレーニング データセットの色の影響を受けることを示します。

  • 00:30:00 このセクションでは、Tom White が機械学習のさまざまな例とその仕組みについて話します。 1 つの例は、主に緑色の計量カップのサンプルを使用するコンピューター ビジョン システムです。これにより、緑色の計量カップが実際よりも一般的であるとシステムに認識させます。ホワイトはまた、すべての検証例よりも強く登録されたダニで作成したプリントについても説明します。これは、概念のより良い抽象化を作成するために単純化による増幅が使用されるアートやデザインと比較されます。最後に、White は彼の合成抽象化シリーズを紹介します。これは、検索エンジンでフィルターをトリガーする、明示的または危険な仕事の画像を模倣した抽象プリントで構成されています。

  • 00:35:00 このセクションでは、クジラ、ペンギン、目のデータセットなど、彼のシステムがオンライン API でどのように機能するかの例をスピーカーが共有します。彼はまた、カスタム データ セットを作成した音楽グループとのコラボレーションや、コンピューターが結び目、アリ、またはその他のオブジェクトと見なす画像のグループを取り上げた最近の美術展についても説明しています。スピーカーは、生成技術へのさまざまなアプローチと、彼のアートワークが現実の世界にどのように影響するかについて話します。彼は、ジェンダー ネットワークへの関心と、顔のニューラル ネットワーク出力を使用してアートワークを作成した方法について言及しています。

  • 00:40:00 このセクションでは、Tom White が、ジェネレーティブ ネットワークの探求と、スプレッドシートのインターフェースを介して、ジェネレーティブ モデルのサンプルを創造性ツールとして使用するスプレッドシート ツールを大学院生と一緒に作成したことについて話します。レナ・サリン、マリオ・クリンゲマン、ロビー・バレット、エドマンド・ベラミーなどの他のアーティストも言及されています. White はまた、共同制作プロセスにおけるアーティストとシステムの両方の役割を強調しながら、アート制作のためのこれらのシステムとのコラボレーションの課題についても説明します。最後に、彼は AI で生成されたアートを公開することの意図しない結果と、視覚化技術とシステムに何が見えるかを尋ねることによってそれを理解する方法について話します。

  • 00:45:00 このセクションでは、スピーカーは、画像がシステムに送られ、それがどのように関連しているかを視覚化する、ディープ ドリームに似たテクニックについて話します。講演者は、Tumblr のアダルト コンテンツ フィルター、Amazon API、Sloan Kettering のアカデミック オフィスなどの現実世界のシステムに、彼らのアート作品がどのようにぶつかるかについて言及します。また、芸術作品を現実世界のオブジェクトと同じラベルに分類する際に、これらの視覚システムがどのように崩壊するかの例についても説明します。スピーカーは、彼らのアートワークの核となるアイデアは、機械の目を通してそれを理解することであり、機械のために、機械によってアートを作成し、機械学習のバックグラウンドに関係なく人々がそれを鑑賞できるようにすることであると説明しています。

  • 00:50:00 このセクションでは、Tom White が物理的なアート作品の媒体としてスクリーン印刷を選んだ理由を説明します。彼は、スクリーンやカメラを使ったインタラクティブなインスタレーションとは異なる方法で、物理的な作品に人々を関連付けることができると強調しています。彼はまた、スクリーン印刷により、より正確な作品を作成できるようになり、アート界のポップ アーティストの先例があると説明しています。 Tom はさらに、可能性のある写真を処理するのが難しいため、物理的な作業を行うのはより難しいと説明していますが、敵対的な攻撃を物理的な世界に持ち込む興味深い方法です。さらに、アルゴリズムのバイアスや、AI とサイバーセキュリティのその他の側面をよりよく理解するために、アートがどのように役立つかについても語っています。

  • 00:55:00 このセクションでは、Tom White が Celeb-A データセットのバイアス (女性は男性よりも笑顔であるとラベル付けされる可能性が高い) が、表情の修正を目的とした生成ネットワークのバイアスにどのようにつながるかについて説明します。彼の研究は、敵対的な例に焦点を当てているのではなく、ニューラル ネットワークをトリガーする刺激を視覚化して理解することに重点を置いていると彼は述べています。ホワイトはまた、最小限のストロークなどの単純な表現を試して、視覚的な出力を簡単に生成できるようにすることについても話しています。彼は、人々は低解像度の画像を認識できると指摘し、この能力をテストした心理学の研究から着想を得ています。

  • 01:00:00 このセクションでは、Tom White が視聴者にニューラル抽象化空間の研究をチェックするように勧め、詳細については昨年のワークショップのビデオに誘導します。彼は調査の価値を強調し、視聴者からの質問を歓迎します。
MIT 6.S192 - Lecture 9: "Neural Abstractions" by Tom White
MIT 6.S192 - Lecture 9: "Neural Abstractions" by Tom White
  • 2021.01.28
  • www.youtube.com
About: Tom White is a New Zealand artist teaching computers to draw using artificial intelligence and machine perception. Tom’s artwork focuses on how machin...
 

MIT 6.S192 - 講義 10: 「マゼンタ: 機械学習でクリエイティブ エージェンシーに力を与える」ジェシー エンゲル



MIT 6.S192 - 講義 10: 「マゼンタ: 機械学習でクリエイティブ エージェンシーに力を与える」ジェシー エンゲル

Google Brain のリード リサーチ サイエンティストである Jesse Engel が、創造性と音楽における AI と機械学習の役割を検討している研究グループである Magenta について説明します。このグループは主に、メディアを生成し、オープンソース コードと、Javascript でインタラクティブなクリエイティブ モデルを作成できる magenta.js と呼ばれるフレームワークを通じてアクセスできるようにする機械学習モデルに焦点を当てています。エンゲルは、音楽を安価に生産され消費される商品ではなく、文化的アイデンティティとつながりのための社会的および進化的なプラットフォームと見なすことの重要性を強調しています。彼らは、表現力、双方向性、適応性を通じて、機械学習が新しい形の創造的なエージェンシーを個人に与える方法を探っています。講義では、音楽の機械学習モデルの設計、予測出力のための膨張畳み込みの使用、微分可能なデジタル信号処理、美しい失敗を生み出す機械学習システムの作成など、さまざまなトピックを取り上げます。さらに、彼はアーティストとの共同作業の課題と、モデルの学習における分散と構成性から抜け出すという壮大な課題について話します。

  • 00:00:00 このセクションでは、Google Brain のリード リサーチ サイエンティストである Jesse Engel が、創造性と音楽における AI と機械学習の役割を検討している研究グループである Magenta について説明します。このグループは主に、メディアを生成し、オープンソース コードと、Javascript でインタラクティブなクリエイティブ モデルを作成できる magenta.js と呼ばれるフレームワークを通じてアクセスできるようにする機械学習モデルに焦点を当てています。エンゲルは、音楽を安価に生産され消費される商品ではなく、文化的アイデンティティとつながりのための社会的および進化的なプラットフォームと見なすことの重要性を強調しています。彼らは、表現力、双方向性、適応性を通じて、機械学習が新しい形の創造的なエージェンシーを個人に与える方法を探っています。

  • 00:05:00 このセクションでは、Jesse Engel が、特に音楽のコンテキストにおいて、よりハッキング可能でトレーニングに必要なデータが少ない機械学習モデルの設計について話します。彼は、表現力と適応性を保ちながら、直感的な因果関係の制御によって低レイテンシを実現するなど、アルゴリズム設計のさまざまな側面間のトレードオフについて説明しています。彼は 2 つの機械学習モデルを比較します。openai Jukenbox は生のオーディオ波形を非常にリアルにモデル化しますが、大量のデータを必要とします。Doodle は音楽を構造化データとしてモデル化しますが、非現実的なサウンドを使用します。最後に、このグループが採用しているアプローチについて説明します。モデル内の構造を使用して、解釈可能性と表現力を妥協するというものです。

  • 00:10:00 このセクションでは、Jesse Engel が、これまでのオーディオ トランスクリプション モデルの最新技術と、人間の知覚に一致する方法で音符を正確に予測することに関して、モデルがどのように制限されていたかについて説明します。彼は、個々のフレームのエラーが実際の音符の開始時ほど重要ではないこと、および損失関数を私たちが気にかけているもの、つまり音楽を再生したときにどのように聞こえるかによりよく一致させるために、新しいニューラル ネットワーク アーキテクチャがどのように作成されたかを示しています。戻る。ピアノ奏者が携帯電話で演奏している様子が示すように、この新しい最先端モデルは、音声が「荒れ果てた」状態であっても、正確な書き起こしを実現できました。

  • 00:15:00 ビデオのこのセクションでは、Google Brain の Jesse Engel が、国際的な電子ピアノ コンテストからの大規模なデータ セットの例を使用して、ニューラル ネットワークにおけるデータ セットの重要性を説明しています。彼は、リカレント ニューラル ネットワーク (RNN) やトランスフォーマー アーキテクチャなどのニューラル ネットワークを使用して音楽シーケンスをモデル化し、音符をトークン化するという課題について説明しています。この課題に対処するために、彼らは個々の音楽イベントとタイムスタンプを認識する語彙を作成しました。データのマイクロ タイミング、ベロシティ、およびバリエーションを正確に表現することで、モデルはより自然なサウンドの音楽を生成できます。

  • 00:20:00 レクチャーのこのセクションでは、Jesse Engel が、Magenta チームがオリジナルのモチーフから始めて、LSTM と呼ばれる自己回帰モデルを使用して、前のトークンから次のトークンを予測した方法を説明します。ただし、LSTM の長期的なコヒーレンスは限られているため、コヒーレンスを改善するために以前のすべてのデータを追跡するためにトランスフォーマーを実装しました。これにより、彼らは生の音声を転写して何千時間もの象徴的な音楽を得ることができ、より長期的な一貫性を持つモデルをトレーニングすることができました。より直感的なコントロールを実現するために、チームはメロディーも抽出し、世代が依存するコントロールとして使用しました。次に、このモデルをさまざまなサウンドのニューラル シンセサイザーとして使用し、パラメーターを特定のサウンド セットに調整することができます。

  • 00:25:00 ビデオのこのセクションでは、Jesse Engel が、ニューラル ネットワークが高レベルの制御に基づいて出力を予測するための Magenta の膨張畳み込みプロセスの技術的側面について説明します。膨張畳み込みを使用することで、システムはダウンサンプリングせずに広い範囲の時間を調べることができ、表現力を維持しながら情報の損失を回避できます。ただし、プロセスは遅く、長期的な構造のために長期的な条件付けが必要です。ノートの条件付けを使用することで、システムは解釈可能な中間表現を使用して現実的なパフォーマンスを生成できます。

  • 00:30:00 このセクションでは、DDSP、つまり微分可能なデジタル信号処理について学びます。 Jesse Engel は、オシレーター、フィルター、シンセサイザーなどの従来の信号処理方法をディープ ラーニングと統合して、より効率的で現実的で応答性の高いシステムを作成することを提案しています。ニューラル ネットワークにオーディオを直接作成させる代わりに、既知の信号処理要素が使用され、ニューラル ネットワークがそれらを制御して表現力豊かな出力を生成します。 DDSP モジュールは解釈可能で効率的であり、サウンドはこれらの可変周波数正弦波発振器によってモデル化できます。 DDSP は、高調波振動と 2 次微分方程式を使用して、オーディオ モデリングの柔軟性を高めます。 DDSP は単なる周期成分ではなく、さまざまなフィルターでランダムに成形できるノイズ要素も含まれます。これらの合成要素をニューラル ネットワーク デコーダーで制御することにより、元のオーディオに匹敵するオーディオを生成できます。

  • 00:35:00 講義のこのセクションでは、講演者は、モデルを介してスペクトログラムを実行してから再合成することにより、より少ないデータで高品質の合成を作成するようにデコーダーをトレーニングする方法について説明します。これにより、モデルはピッチとラウドネスをフルートの音、バイオリンの音に変換し、歌唱スタイルから音色を転送することさえできます。また、リバーブやハーモニクスなどのさまざまなモデル コンポーネントをオフにして、個々の属性を調べることもできます。モデルは、ブラウザーでのリアルタイム操作の実装のために、1 メガバイト未満のモデルに圧縮できます。 DDSP モデルは幅広い文化に適用できるため、微分音の変化やシフトを維持できます。

  • 00:40:00 このセクションでは、Jesse Engel が Magenta プロジェクトと、機械学習を使用してクリエイティブ エージェンシーを強化するというその目標について説明します。彼は、ツールを置き換えるのではなく、創造的なプロセスに役立つと感じているミュージシャンから肯定的な反応を受け取っていると説明しています。 Magenta チームは、モデルのトレーニング用の Web インターフェイス、Web アプリへのデプロイ、音楽ソフトウェア用のリアルタイム プラグインなど、より広範なエコシステムの作成に注力しています。 Engel 氏は、このシステムはよりインタラクティブで、リアルタイムで、適応性が高いと指摘していますが、表現力と多様なインタラクティブ モデルに関しては、まだ改善の余地があります。チームは、データから構造とラベルを学習するために、教師なしモデルを調査しています。彼らのウェブサイトには、誰でも試すことができるいくつかのデモ、ソフトウェア、および専門的なツールがあります。

  • 00:45:00 このセクションでは、Jesse Engel が、美しい失敗を生み出す機械学習システムを作成することが、アーティストが使用できるシステムを作成するための 1 つの考え方であると説明しています。たとえば、オリジナルのドラム マシンに設計された制限は、ヒップホップやエレクトロニック ミュージシャンが楽しさと芸術的な方法でサウンドを使用する原因となった、それらの決定的な特徴であることが判明しました。さらに、エンゲルは解釈可能性とインタラクティブ性の関係について議論し、機械学習モデルで使用される言語と仮定が、最大の解釈可能性のためにソフトウェアとユーザーの間の仲介者として機能する API を作成するためのソリューションになる可能性があることを示唆しています。

  • 00:50:00 ビデオのこのセクションでは、Jesse Engel が、対象ユーザーに適合するモデルを設計しながら、一般化のために構造を強化するという課題について説明しています。彼は、ニュートン力学を特定の画像セットでエミュレートできるニュートン力学が、画像の 1 つの側面が変化したときに外挿するのに苦労する方法を説明しています。彼はまた、音楽の強さやキック ドラムの音量に適応できるモデルを構築することがいかに魅力的なアイデアであるかについても触れています。アーティストとのコラボレーションについての議論も持ち上がっていますが、ジェシーは、制限と研究ベースのプロモーションシステムのために挑戦的であると説明しています.議論は、学習モデルにおける分散と構成性から抜け出すという大きな課題に結びついています。
MIT 6.S192 - Lecture 10: "Magenta: Empowering creative agency with machine learning" by Jesse Engel
MIT 6.S192 - Lecture 10: "Magenta: Empowering creative agency with machine learning" by Jesse Engel
  • 2021.01.28
  • www.youtube.com
Jesse Engel, Staff Research Scientist, Google Brainhttps://jesseengel.github.io/about/More about the course: http://deepcreativity.csail.mit.edu/Information ...
 

MIT 6.S192 - 講義 11:「人工生物多様性」、ソフィア・クレスポ、フェイレアカン・マコーミック



MIT 6.S192 - 講義 11:「人工生物多様性」、ソフィア・クレスポ、フェイレアカン・マコーミック

「人工生物多様性」に関するこの講義では、ソフィア・クレスポとフェイレアカン・マコーミックがテクノロジーと自然の交点を探求し、ユニークな形の芸術を生み出します。 2 人は、機械学習への関心と使用、およびその美しさとの関係について話し合い、人間の知覚の限界を浮き彫りにします。彼らはまた、生態系をよりよく理解するために、個々の種とそれらの複雑な絡み合いの両方を表現することを提唱する「Entangled Others」などの共同プロジェクトについても話し合います。スピーカーは、芸術的実践における持続可能性とコラボレーションの重要性、およびツールとアートの関係を強調し、アルゴリズムは人間のアーティストに取って代わることはできないと述べています。

  • 00:00:00 このセクションでは、Sofia Crespo と Feileacan McCormick が人工生物多様性の概念について議論し、機械学習の領域で何かを美しくするものは何かという問題を探ります。 2 人は、ニューラル ネットワークのトレーニングに使用されるデータ セット、モデルのトレーニング プロセス、または脳内の仮想ニューロンのレイヤー間の相互作用に美しさが見られるかどうかを検討します。また、データセットのキュレーションとパターンの探索を伴うため、ニューラルネットワークのトレーニングと瞑想の行為の間にも類似点があります。全体として、ディスカッションでは、技術と自然が交差して独自の形式の芸術を生み出す方法が強調されています。

  • 00:05:00 このセクションでは、ソフィア クレスポが、クラゲに対する彼女の魅力と、色に関する人間の知覚の限界について説明します。彼女は、クラゲに興味を持ったことがきっかけで、機械学習アルゴリズムを使って合成クラゲを探求するようになったと説明しています。彼女は、人工ニューラル ネットワークが私たちの認知プロセスと「自然性」の概念、およびそれを視覚化する方法について何を教えてくれるかという問題について熟考しています。 Crespo はまた、アーロン ハーツマンによるガン アートの視覚的不確定性に関する論文についても説明しています。この論文では、有意義な視覚刺激がどのように視覚的に不確定になり、認知反応を引き起こすかを探っています。

  • 00:10:00 このセクションでは、講演者が機械学習への関心と使用方法、および美との関係について話し合います。彼らは、機械学習を使用する場合、人間が作成したデータセットを利用して非常に人間的な領域内で作業するため、自然に対する人間の視覚的仮定に対処すると説明しています。スピーカーは、人間が自然の一部であるため、テクノロジーは自然の一部であると示唆しており、テクノロジーが自然とは別の実体であるというこの考えには欠陥があります。さらに、スピーカーは人工生命の定義について議論し、ソフトウェア、アート、さらにはウェットウェア、ハードウェア、遺伝学などのさまざまな分野で理解できることを強調しています。彼らは、進化した人工生物に関するカール・シムの研究を使用して、プリミティブが生命のような性質を具現化する能力を実証し、その行動とともに、競争力と目標指向の行動の感覚を出現させます。

  • 00:15:00 このセクションでは、Luigi Serafini の Codex Seraphinianus のように、人工ニューラル ネットワークが幻想的な生き物や言語をどのように作成できるかを学びます。これらの創造物は、植物学、動物学、言語、建築に関する人間の知識を再結合したものです。その人工性にもかかわらず、それらは多様性に顕著な多様性を示しています。講義では、19 世紀の写真家で植物学者であり、シアノタイプ法を作成したアンナ アトキンスについても説明します。このスピーカーは、アトキンスの手法と畳み込みニューラル ネットワークを組み合わせて、生きているような生物を生成し、シアノタイプ手法を使用して印刷しました。このプロジェクトは人工自然史と呼ばれ、カメラが存在する前に人間が自然をどのように見ていたかを紹介する本です。

  • 00:20:00 このセクションでは、Sofia Crespo と Feileacan McCormick が共同プロジェクト「Entangled Others」について説明します。このプロジェクトでは、生態系をよりよく理解するために、個々の種だけでなく、複雑な絡み合いも表現することを提唱しています。彼らは、最初のプロジェクトである「Artificial Remnants」について説明します。このプロジェクトでは、昆虫の 3D モデルを生成し、人々がデジタル生物と相互作用するための拡張現実体験を作成しました。このプロジェクトの成功は、エコシステムを構築し、人間関係に存在するという抽象的な概念を探求するという最新の取り組みにつながりました。しかし、新型コロナウイルスの影響で展示予定が変更になった。

  • 00:25:00 このセクションでは、スピーカーは「人工生物多様性」に関するプロジェクトと、生態系の相互接続性の例としてどのようにサンゴ礁に目を向けたのかについて説明します。しかし、データが不足しているため、サンゴの形態の多様性を模倣するために、アーティストと協力して合成サンゴを作成する必要がありました。彼らは、これがサンゴ礁の複雑なシステムを正確に反映したものではないため、主観的な表現であることを認めていますが、それでもその性質を思い出させてくれます.彼らはまた、自然のパターンの抽象的な表現を通して自然にスポットライトを当てることの魅力的な側面について話し、生体材料を扱うことは学習上の課題でした.

  • 00:30:00 このセクションでは、スピーカーは、廃棄されたオリーブの種からバイオプラスチックを作成することを専門とするスタジオと協力して、持続可能性を優先するためにどのように努力したかについて説明します.この素材は何度でも溶かして再利用できるため、展示物を作成したり、将来のプロジェクトのために素材を再利用したりできます。彼らは、自然を扱うアーティストにとって、持続可能性を考え、デジタル レイヤーの物理的影響を考慮することが重要であり、特に芸術的実践において機械学習を使用することが重要であることを強調しています。彼らはまた、つながりを強化し、新しいつながりを生み出すためのコラボレーションと学際的な相互作用の重要性を強調し、コラボレーションや会話などのために他の人に手を差し伸べるように呼びかけました。議論は哲学にも触れ、プラトンとドゥルーズとガタリを参照しています。

  • 00:35:00 このセクションでは、アーティストのソフィア クレスポとフェイレアカン マコーミックがツールとアートの関係について話し合います。彼らは、鉛筆が私たちの描き方を形作るのと同じように、デジタル ツールにも形を作る性質があると説明しています。また、ジェネレーティブ アートやデジタル アートを作成する際に芸術的視点を忘れないことの重要性や、技術的な解決策だけでなく、なぜ、どのように、何を疑問視する必要があるのかについても触れています。彼らは、芸術は人間が消費するために作られ、アルゴリズムは人間の芸術家に取って代わることができないことを思い出すことが不可欠であると述べています.
MIT 6.S192 - Lecture 11: "Artificial Biodiversity", Sofia Crespo and Feileacan McCormick
MIT 6.S192 - Lecture 11: "Artificial Biodiversity", Sofia Crespo and Feileacan McCormick
  • 2021.01.28
  • www.youtube.com
"Artificial Biodiversity", Sofia Crespo & Entangled Others https://sofiacrespo.com/https://entangledothers.studio/More about the course: http://deepcreativit...
 

MIT 6.S192 - 講義 12: 「AI + 創造性、アート オタクの視点」ジェイソン ベイリー



MIT 6.S192 - 講義 12: 「AI + 創造性、アート オタクの視点」ジェイソン ベイリー

Jason Bailey が、機械学習が偽造品の検出から価格予測まで、芸術の分野にどのような影響を与えているかについて説明します。彼はアーティストに対し、データ駆動型アートに内在する偏見を認識するよう促し、すべての視点を含むトレーニング データの必要性を強く勧めています。

  • 00:00:00 ジェイソン・ベイリーは MIT の講師で、AI と創造性について議論します。彼はエンジニアリングとマーケティングのバックグラウンドを持ち、この経験をアートとテクノロジーの交差点に関する講演にもたらします。ベイリーは、美術史、美術市場における価格予測、クリエイティブ アートにおける AI と ML の使用という 3 つの主要分野に焦点を当てます。

  • 00:05:00 ジェイソン・ベイリーは、どのようにして美術品の偽造問題に関心を持つようになったのか、どのようにして大判の本をスキャンしてアーティストの完全な作品のデータベースを作成したかについて説明しています。彼は、これらのカタログの履歴書がいかに珍しく、見つけるのが難しいか、そして最近誰かが約 2,000 ドルで人気のあるバージョンを再発行したことについて話します。

  • 00:10:00 Jason Bailey のブログ「artnome.com」では、データを使用してアートをよりよく理解し、批評する方法を探っています。 2017 年、彼のブログは 538 から注目を集め、彼のプロジェクト「Ai for Art Scholarship: What Does That Look Like?」に関する記事が公開されました。講演で彼のプロジェクトと出版物へのリンクを共有した後、ベイリーは彼の講演の 1 つの段落の要約を提供します。

  • 00:15:00 ジェイソン ベイリーが、機械学習が美術史、特に絵画の分析と美術史の理解にどのように役立つかについて説明します。彼は最近のプロジェクトについても語っています。このプロジェクトでは、機械学習モデルをトレーニングして、さまざまな美術館で同じアーティストによる象徴的な絵画を識別しました。

  • 00:20:00 ジェイソン ベイリーの講演では、絵画の価格と絵画を構成する 1 つのピクセルの関係、およびアート市場の動向について説明します。彼の機械学習プラットフォームは、スペインの画家パブロ・ピカソの絵画の価格を 0.58 の相関で予測することができました。

  • 00:25:00 ジェイソン ベイリーが、機械学習の現状とアートの世界への影響について説明します。彼は、より現実的で超現実的なアートを作成するために機械学習がどのように使用されているか、そしてこのイノベーションが最近この分野への新たな関心をどのように刺激したかについて語っています。

  • 00:30:00 ジェイソン ベイリーが人工知能と創造性について講義し、深い夢想とスタイルの伝達を芸術の創造にどのように利用できるかを説明します。彼は、これらのテクノロジに関する彼自身の経験と、それらが最初に発見されたときほど刺激的ではなくなったことについて語っています。彼は、フランス人アーティスト、ロビー・バレットの作品について議論して講義を締めくくります。

  • 00:35:00 ジェイソン ベイリーが AI と創造性について講演し、AI とジェネレーティブ アートが普及している現代に対処するには、従来のアート トレーニングがいかに不十分であるかについて説明します。彼は、アートのバックグラウンドがどのようにアーティストやジェネラティブ アートのプロモーターとつながることができるか、また彼自身の作品がこれらのアーティストからどのように影響を受けているかについて語っています。

  • 00:40:00 ジェイソン ベイリーが、テクノロジーとアートが過去にどのように交差してきたか、アーティストが抽象化を測定するのにデータ分析がどのように役立つかについて説明します。彼はまた、画家としてのキャリアの中で抽象化を計算するプロジェクトに関与していたことについても言及しています。

  • 00:45:00 ジェイソン ベイリーは、彼のチームのアルゴリズムを使用して、アーティストの歴史的な人気、絵画の複雑さ、絵画に使用されている素材などの多くの要因に基づいて、絵画の価格を予測する方法を説明しています。彼はまた、このアルゴリズムはまだ初期段階にあり、改善するにはさらに研究が必要であると述べています。

  • 00:50:00 このレクチャーでは、ジェイソン ベイリーが、オークション データを使用して創造性を研究する方法と、芸術や自然などの他の分野をモデルにどのように組み込んだかについて説明します。

  • 00:55:00 ジェイソン ベイリーは、AI が創造性に与える影響について議論し、あらゆる視点を含むトレーニング データの必要性を強調しています。彼はまた、偏った AI アルゴリズムの潜在的な結果についても説明しています。最後に、データ駆動型アートに内在する偏見を認識するようアーティストに促しています。
MIT 6.S192 - Lecture 12: "AI+Creativity, an Art Nerd's Perspective" by Jason Bailey
MIT 6.S192 - Lecture 12: "AI+Creativity, an Art Nerd's Perspective" by Jason Bailey
  • 2021.01.28
  • www.youtube.com
Jason Bailey, Founder at Artnome.comMore about the course: http://deepcreativity.csail.mit.edu/Information about accessibility can be found at https://access...
 

MIT 6.S192 - 講義 13:「表面、オブジェクト、手順: 3D シーン理解のための学習とグラフィックの統合」Jiajun Wu 著



MIT 6.S192 - 講義 13:「表面、オブジェクト、手順: 3D シーン理解のための学習とグラフィックの統合」Jiajun Wu 著

スタンフォード大学の助教授である Jiajun Wu 氏が、コンピューター グラフィックスからのディープ ラーニングとドメイン知識の統合による、機械でのシーン理解に関する彼の研究について説明します。 Wu は、深度マップを介して可視面を推定し、他の同様の形状の大規模なデータセットからの事前知識に基づいて形状を完成させることにより、単一の画像から 3D オブジェクト ジオメトリを復元する 2 段階のアプローチを提案しています。 Wu はまた、球面マップを 3D のサーフェスの代理表現として使用して、サーフェスの特徴をより適切にキャプチャし、システムがより詳細で滑らかな出力で形状を完成できるようにすることも提案しています。さらに、Wu は、形状を形状プログラムに再構成することで、特に抽象的なオブジェクトや人工オブジェクトのモデリングと再構成を大幅に改善する方法について説明しています。最後に、Wu は、コンピューター グラフィックスのドメイン知識を機械学習と統合して、形状の再構成、テクスチャ合成、およびシーンの理解を向上させる方法について説明します。

  • 00:00:00 ビデオのこのセクションでは、スタンフォード大学の助教授である Jiajun Wu が、コンピュータ グラフィックスからのディープ ラーニングとドメイン知識の統合による、マシンでのシーン理解に関する彼の研究について説明しています。彼の目標は、人間の認知を再現することで、オブジェクトのカテゴリ、3D ジオメトリ、物理的特性、将来の予測など、シーンを包括的に理解するマシンを構築することです。 Wu の研究は、コンピューター グラフィックスのドメイン知識とディープ ラーニングを統合するハイブリッド モデルを作成することにより、機械学習とアートの間のギャップを埋めることも目指しています。このアプローチにより、画像の編集と生成に新たな可能性がもたらされるだけでなく、ディープ ラーニングの適用における創造性も可能になります。

  • 00:05:00 講義のこのセクションでは、Jiajun Wu が 1 つの画像から 3D オブジェクト ジオメトリを復元する問題について説明します。これは、3D 形状から 2D 画像を生成するコンピュータ グラフィックスの古典的な問題の逆と見なすことができます。 、テクスチャ、ライティング、マテリアル、視点。タスクを実行するようにニューラル ネットワークをトレーニングすることはできますが、Wu は、コンピューター グラフィックスからの事前知識を統合することで、パフォーマンス、効率、および一般化可能性が向上する可能性があると示唆しています。彼は、この問題を解決するための 2 段階のアプローチを提案しています。まず、深度マップを介して可視サーフェスを推定し、次に、他の同様の形状の大規模なデータセットからの事前知識に基づいて形状を完成させます。

  • 00:10:00 このセクションでは、Jiajun Wu がオブジェクトの表面と形状の詳細をキャプチャする中間表現として深度を使用することの重要性について説明します。 Wu 氏は、ShapeNet データセットでモデルをトレーニングし、そこから形状をランダムにサンプリングすることで、このアプローチによって出力の精度が大幅に向上することを実証しています。ただし、モデルがこれまでに見たことのないオブジェクトに一般化することは困難であり、データの誤解につながる可能性があることを彼は認めています。これに対処するために、Wu は、2D 表現を 3D 表現に逆投影する微分層を構築することを提案しています。これにより、システムは決定論的で完全に微分可能なプロセスを決定して形状を完成させることができます。

  • 00:15:00 このセクションでは、スピーカーは 3D のオブジェクトに部分的なサーフェスを使用することの制限について説明します。具体的には、3D 空間の多くの領域が空であるため、補完ネットワークがサーフェスの特徴をキャプチャすることが難しくなります。これに対処するために、話者は球面マップを 3D のサーフェスの代理表現として使用することを提案します。この場合、すべてのピクセルがサーフェス上のポイントに対応し、表現が無駄になりません。パイプラインは推定深度を取得し、それを部分的な球形マップに投影します。これは、球形マップ スペースで補完ネットワークを使用して完成させることができます。この新しい方法により、よりスムーズで詳細な出力が得られ、トレーニング中に見られなかったオブジェクト カテゴリに一般化できます。

  • 00:20:00 このセクションでは、Jiajun Wu が、中間表現と逆投影が、より一般化可能な優れた形状再構成システムの構築にどのように役立つかについて説明します。人間と馬でのテストの例を使用して、Wu は、システムが以前に変形可能なオブジェクトを見ることなく、単一のビューから比較的合理的な方法でオブジェクトを再構築できることを指摘し、システムがより良い視覚システムを構築するために使用される可能性があることを示しています。 Wu はまた、表面の中間表現と前方投影がどのようにレンダリングを改善するのに役立つかを説明し、独立した要素をより細かく制御して新しいオブジェクトの形状とテクスチャを合成できるようにします。

  • 00:25:00 このセクションでは、Jiajun Wu が以前のテクニックを組み合わせてシーンに拡張するプロセスについて説明します。まず、彼は反転システムを使用して、木や空などの非オブジェクトのような背景セグメントの潜在的な表現を含む、オブジェクトのジオメトリ、ポーズ、およびテクスチャの表現を取得します。次に、これらの表現を編集して、車を近づけたりテクスチャを変更したりするなど、シーン内のさまざまな変化がイメージ全体にどのように影響するかを確認します。 Wu 氏は、オブジェクトが 3D ジオメトリを持っていることを理解することの重要性を強調しています。これにより、この方法で完全かつ正確な結果が得られるからです。最後に、テーブルなどの人工オブジェクトを再構築する際の形状の抽象化の課題と、抽象的でプログラムのような表現を組み込むことでより良い結果が得られる方法について説明します。

  • 00:30:00 このセクションでは、形状を形状プログラムに再構築することで、特に家具などのオブジェクトのモデリングと再構築を大幅に改善する方法について、Wu が説明します。さらに、建築設計の 3D プロジェクションをガイドできるアルゴリズムなどを通じて、複製や対称性などの手続き型構造をコンテンツ作成に活用する方法についても説明しています。生の 2D 画像と 3D 空間を接続するために、Wu のチームは視覚データ内の線や三角形などのプリミティブを検出する確率的探索に着想を得て、現在、3D プリミティブの形状を合成して画像センシングを導くことを試みています。

  • 00:35:00 このセクションでは、Jiajun Wu が内部学習を使用して画像統計から単一の画像からすべてを学習する方法について説明し、単一の画像内でパッチが繰り返される可能性があり、この繰り返しがスケール全体で発生する可能性があることを観察します。ニューロンの活性化を使用して 1 つの画像内の繰り返しオブジェクトを識別することにより、見つかったプリミティブは線、長方形、球、または円柱である可能性があり、ニューラル ネットワークはこれらの繰り返しオブジェクトの重心の上にプログラムを識別および合成するための機能を学習できます。これは、画像の補完や補外、シーンをより不規則にするための規則性編集など、多くの問題を解決するのに役立ちます。

  • 00:40:00 このセクションでは、スピーカーは、単一平面よりも複雑な 3D 画像にプログラムを適用する方法について説明します。ここでの問題は、各平面の方向と表面レベルを考慮しながら、画像を複数の平面に分割することです。話者は、消失点やワイヤーフレームなどの視覚的な手がかりを使用してこれに対処することを提案しています。ただし、ワイヤフレーム フィーチャはノイズが多い可能性があり、複数の候補プレーン パーティションが存在する可能性があります。プログラムのトップダウンの知識を使用することで、候補平面を 2D 画像に修正し、プログラム合成を実行して画像の正しい分割を見つけることができます。そうすることで、従来の方法では達成できなかった最高の関節操作結果と画像合成を見つけることができます。

  • 00:45:00 このセクションでは、Jiajun Wu が、コンピューター グラフィックスのドメイン知識を機械学習と統合して、形状の再構成、テクスチャ合成、およびシーンの理解を向上させる方法について説明しました。 Wu は、シーンの理解は、視覚データの背後にある最小ではあるが普遍的な因果構造 (オブジェクト、サーフェス、投影、およびオクルージョン) に基づいていることを強調しました。学習と機械学習を統合することで、従来の 2D 画像を超える、より高度な 3D モデルを作成できる可能性が高まると Wu 氏は考えています。 Wu 氏と彼のチームは 3D プリントを掘り下げたことはありませんが、3D 形状モデリングと、これらのモデルの背後で推論された手順を使用する可能性に関心があります。
MIT 6.S192 - Lecture 13: "Surfaces, Objects, Procedures ..." by Jiajun Wu
MIT 6.S192 - Lecture 13: "Surfaces, Objects, Procedures ..." by Jiajun Wu
  • 2021.01.28
  • www.youtube.com
Talk: "Surfaces, Objects, Procedures: Integrating Learning and Graphics for 3D Scene Understanding" Jiajun Wu, Assistant Professor, Stanford Universityhttps:...
 

MIT 6.S192 - 講義 14: 「無限に創造的なオープンエンドのイノベーション エンジンの作成に向けて」ジェフ クルーン



MIT 6.S192 - 講義 14: 「無限に創造的なオープンエンドのイノベーション エンジンの作成に向けて」ジェフ クルーン

OpenAI の研究者である Jeff Clune は、この MIT の講義で、際限なく創造的なオープンエンドのイノベーション エンジンの作成に関する彼の研究について説明しています。彼は、一連のものから始めて新しいものを生成し、興味深いものを維持するために評価し、興味深い目新しさを維持するためにそれを変更するという自然な進化と人間文化のレシピを実行できるアルゴリズムを作成しようとしています。 Clune は、ニューラル ネットワークを使用して新しいものを認識し、Map Elites アルゴリズムについて説明し、エンコーディング用の構成パターン生成ネットワークを紹介します。彼は、これらのツールを組み合わせて、複雑で多様な画像を生成し、難しい問題を解決し、課題に対するソリューションを絶えず革新できるオープンエンドのアルゴリズムを作成する方法を示しています。

  • 00:00:00 このセクションでは、ブリティッシュ コロンビア大学のコンピューター サイエンスの准教授であり、OpenAI の研究チーム リーダーであるジェフ クルーンが、無限に創造的なオープンエンドのイノベーション エンジンの作成に関する彼の研究について説明します。彼は、哲学から始まり、AI の壮大な課題に取り組むための計算システムの構築へと移行するという彼の個人的な旅を振り返ります。 Clune は、ジャガーやタカの複雑なエンジニアリング デザインなど、無限に革新し、自然の無限の創造物に見られる、無限のアルゴリズムを作成することに関心があります。

  • 00:05:00 このセクションでは、講演者はイノベーション エンジンの概念について説明します。イノベーション エンジンは、創造性を可能にする自然進化と人間文化の両方が続くレシピとして定義されています。このレシピには、一連のものから始めて、何か新しいものを生成し、それが興味深いかどうかを評価し、興味深い結果を保持および変更することが含まれます。スピーカーは、長期的には人間の介入なしにこのプロセスを自動的に実行できるアルゴリズムを作成することを目指しています.しかし、最大の課題は、面白くないノベルティを発生させずに、面白いノベルティだけを生成することです。講演者は、ニューラル ネットワークを使用して多数のクラスを認識し、新しい種類のものを認識して興味深い結果を生成することを提案しています。

  • 00:10:00 このセクションでは、Jeff Clune が Map Elites と呼ばれるアルゴリズムと、アルゴリズム検索の分野におけるその位置について説明します。彼は、多くの困難な問題は、目標に合わせて最適化するだけでなく、新しいことを探索して発見する必要があり、これはアルゴリズムに反映されるべきであると説明しています. Clune と彼の同僚は、Quality Diversity Algorithms と呼ばれる新しいサブフィールドに取り組んできました。これは、そのタイプのソリューションに対して可能な限り優れた大規模で多様なソリューション セットを見つけることを目的としています。このアルゴリズムは、別のタスクを進めるときに、これが本当に難しい問題を解決する唯一の方法であると信じて、目標を切り替えようとします。

  • 00:15:00 このセクションでは、生物学と人工知能の交差点に取り組んでいる研究者である Jeff Clune が、いくつかの基準に従ってソリューションを最適化するために使用される Map Elites アルゴリズムについて説明します。 Clune 氏は、彼と彼の同僚が Map Elites をロボティクスの問題に適用し、遺伝的アルゴリズムを使用してソフト ロボットの形態を生成し、その結果、多様な生物が生まれたと説明しています。しかし、チームは満足していませんでした。なぜなら、それぞれのクリーチャーがほぼ同一であり、アルゴリズムは新しい検索を開始することによってのみ多様なデザインを生成したからです。これを改善するために、Clune は Map Elites アルゴリズムを同じ問題に適用しました。今回は、正規の最適化アルゴリズムを使用する代わりに、ボクセルの数と特定のマテリアルの量を関心のある次元として選択しました。彼は、アルゴリズムが可能性のはるかに広い空間を探索し、最終的にはるかに優れた結果を生み出すことを発見しました.さらに、Clune 氏は、後のセクションで、彼らが取り組んでいた問題を解決する上で、彼らが使用する合成パターン生成ネットワーク (CPPN) と呼ばれるエンコーディングがいかに重要であるかを説明しました。

  • 00:20:00 講義のこのセクションでは、Jeff Clune が深層学習と進化的アルゴリズムにおけるエンコーディングの選択について説明します。ダイレクト エンコーディングでは、最終成果物のすべての特徴がパラメーター ベクトルの数値で表されますが、ジェネレーティブ エンコーディングでは、パラメーター ベクトル内の情報が再利用されて最終製品が生成されるため、より規則的またはパターン化された製品が得られます。自然は、幾何学的パターンを使用して生成的符号化を使用して、体内の細胞の位置に基づいて、各細胞がなる細胞のタイプである細胞の運命を決定します。このアプローチは、発生生物学の共通語と見なされており、既存のパターンを組み合わせて最終製品に新しいパターンを作成します。

  • 00:25:00 このセクションでは、OpenAI の研究者である Jeff Clune が、発生生物学の力を効率的に使用して、オープンエンドの AI システムを作成する方法について説明します。彼は、表現型要素の関数として幾何学的位置をエンコードするために、基礎となる化学反応を一切伴わずに自然のシステムの力の多くを抽象化する組成パターン生成ネットワーク (CPPN) の使用を提案しています。 CPPN は、ニューラル ネットワークやロボットの形態などの表現型要素を最適化するためにアーティファクトに座標を提供することで、非対称テーマと対称テーマ、繰り返しテーマを組み合わせて組み合わせることで、任意の複雑さを生み出すことができます。クルーンと彼のチームは、このアイデアを 3 次元に落とし込み、endlessforms.com という Web サイトを構築しました。このサイトでは、ユーザーが互いの進化した形状を拾い上げて、飛び石の成長するアーカイブを作成できます。

  • 00:30:00 講義のこのセクションでは、Jeff Clune が CPPN を使用して設計を自動化し、任意の複雑な画像を 3D プリントする方法について説明し、技術的な障壁を取り除き、創造的な設計を簡単に生成するこれらのツールの力を示します。次に、CPPN をオープンエンドのアルゴリズムを作成するタスクに適用し、それらを最適化して、ImageNet の 1000 個のビンをそれぞれ分類します。クルーンは、より良いパフォーマンスの仮説がどのようにテストされたかを説明し、その結果、関連するカテゴリのように見える画像や、コンセプトの芸術的解釈を呼び起こす画像が頻繁に得られました。いくつかの「欺瞞的な画像」を生成したにもかかわらず、この生成プロセスにより、チームは敵対的な画像につながったディープ ニューラル ネットワークに固有の欠陥を実証しながら、まったく新しい美的空間を探求することができました。

  • 00:35:00 このセクションでは、Jeff Clune が、彼と彼のチームが開発した、高品質の多様な画像を生成できる多様性アルゴリズムの品質について説明します。このアルゴリズムは、さまざまな画像のセットを生成します。その中には美的に興味深く、ビジネス ロゴなどの実用的な目的に使用できるものもあります。彼はまた、アルゴリズムの目標切り替え機能により、生物学や技術分野で発生するのと同様に、適応放射がどのように発生するかについても説明しています。彼は、革新的なアイデアの誕生と進化を示すグラフと系統樹を紹介しながら、アルゴリズム内で行われる進化プロセスへの洞察を提供します。さらに、彼は、アルゴリズムとその出力が芸術的なチューリング テストに合格し、AI ではなく人間によって作成された芸術と間違われたことを共有しています。

  • 00:40:00 このセクションでは、Jeff Clune が品質多様性 (QD) アルゴリズムのアイデアを紹介します。QD アルゴリズムは、パフォーマンスが高く、目標を切り替える能力を持つ多様なソリューションを生成できます。彼は、損傷に適応できるロボットなどの課題の解決や、Montezuma's Revenge や Pitfall のような困難な探索課題の探索におけるそれらの使用について説明しています。彼は、QD アルゴリズムは革新の可能性を秘めているものの、まだ制限がなく、環境によって制約を受けていると述べています。次に、Jeff Clune は、興味深く、複雑で、多様な学習環境とそのソリューションを際限なく生成できる、Paired Open-Ended Trailblazer (POET) アルゴリズムなどのオープンエンド アルゴリズムを作成するというアイデアを提案します。 POET アルゴリズムは、現在のエージェント集団にとって簡単すぎず、難しすぎない新しい学習環境を生成するように設計されており、エージェントを最適化して各課題をより適切に解決し、それらの間の目標切り替えを可能にします。

  • 00:45:00 このセクションでは、ジェフ クルーンが「ゴール スイッチング」の概念について説明します。システムが 1 つの環境で競合し、進歩し、別の環境に移行する能力です。彼は、ますます困難な環境を自動的に作成する地形を横断する RL アルゴリズムを示しています。 Clune 氏は、これが進捗状況を測定し、局所的な最適条件を克服する方法であると説明しています。彼は「詩人」アルゴリズムを紹介し、それが難しい問題を解決する唯一の方法であることを示しています。彼は、新しく最適化されたロボットが古い環境に侵入し、以前の化身と置き換わるタスクに見られるように、局所最適を克服するには詩が不可欠であることを示しています。 Clune 氏は、この種の複雑なイノベーションが、より高度なシミュレーションへの道を開く可能性があると指摘しています。

  • 00:50:00 レクチャーのこのセクションでは、Jeff Clune が体の最適化と環境生成を組み合わせて、洞窟に住むクモと同じように特定の環境に最適化されたクリーチャーを作成する可能性について説明します。彼はまた、Dali のようなイノベーション エンジンを、課題と解決策を発明するアルゴリズムと組み合わせて、作成された画像、ビデオ、音楽、または詩の興味深い新機能を検出することを提案しています。クルーン氏は、彼の研究チームは AI 神経科学も調査したと述べています。AI 神経科学は、ディープ ニューラル ネットワークが分類する画像についてどの程度理解しているかを研究する分野です。彼らは、特定のニューロンを最大限に活性化する画像を合成することでこれを行い、ネットワーク内の 5 本足のヒトデの概念を調査することができました。

  • 00:55:00 講義のこのセクションでは、Jeff Clune が、自然画像生成に制約を追加することから、深層学習を使用して自然画像の事前分布を学習することまで、深層学習画像生成の進化について説明します。アルゴリズムを微調整するだけで、各ジェネレーターから非常に異なる芸術的スタイルが生成されます。ニューラル ネットワークは、自然画像の空間など、特定の空間で各オブジェクトが何を意味するかを理解しており、よりフォトリアリスティックな品質の画像を生成できます。ただし、これらの自然な画像空間では多様性がほとんど発生しません。この問題を克服するために、プラグ アンド プレイの生成ネットワークが導入されました。これは、ディープ ラーニングで以前に見られたよりもはるかに広範囲の多様な画像を生成します。

  • 01:00:00 講義のこのセクションでは、Jeff Clune が AI 神経科学の進歩と自由な創造プロセスの作成について説明します。彼は、AI が火山や芝刈り機などの私たちの世界の概念をどのように認識して学習できるかを強調していますが、敵対的なイメージを生成および認識しやすい. Clune は Chris Ola の研究を推奨し、スピーチやビデオなどのさまざまなモードを探求する彼のチームの研究について語っています。彼はまた、実際のサルの脳内のニューロンを活性化する合成画像の生成など、この分野で達成された進歩と将来の可能性について興奮を共有しています。クルーンは、科学はしばしば美的なアーティファクトを生み出し、最新の機械学習ツールが芸術と科学の融合をどのように可能にするかを示唆しています。最後に、終わりのないクリエイティブで自由なプロセスを作成するというミッションに参加することに関心のある学生には、Ken Stanley と Joel Lehman の作品を読むことをお勧めします。

  • 01:05:00 このセクションでは、Jeff Clune が、制限のないアルゴリズムが汎用人工知能の進歩をサポートする可能性があると説明しています。彼は、AI 生成アルゴリズムの論文を読むことをお勧めします。この論文では、これらのアルゴリズムが一般的な AI を生成する方法を探っています。 Jeff はまた、研究者がこれらのアイデアをさまざまなドメインに適用し、GPT-3 や Dolly などのツールを使用することを奨励しています。彼は、詩や建築など、さまざまな分野で簡単に達成できることを探求することが、刺激的な進歩につながる可能性があると示唆しています。 Jeff はまた、マルチエージェント設定で Poet アルゴリズムを使用することに関する Joseph の質問に答え、そのような環境でエージェントのパフォーマンスを測定することの難しさなど、発生する課題について説明します。
MIT 6.S192 - Lecture 14: "Towards Creating Endlessly Creative Open-Ended ..." by Jeff Clune
MIT 6.S192 - Lecture 14: "Towards Creating Endlessly Creative Open-Ended ..." by Jeff Clune
  • 2021.01.30
  • www.youtube.com
Towards Creating Endlessly Creative Open-Ended Innovation EnginesJeff CluneAssociate Professor, Computer Science, University of British Columbia, and Researc...
 

MIT 6.S192 - レクチャー 15: Joel Simon による「クリエイティブ ネットワーク」



MIT 6.S192 - レクチャー 15: Joel Simon による「クリエイティブ ネットワーク」

このレクチャーでは、ジョエル・サイモンが、自然の生態系から引き出された創造的なネットワークに対する彼のインスピレーションとアプローチを探ります。彼は創造的なプロセスにおける計算能力の可能性を示し、トポロジー最適化、モルフォゲン、進化的アルゴリズムなどの技術がどのように信じられないほどの形や質感の出現を可能にするかを説明しています.また、Simon は、CPPN と GAN を使用して画像を検出および変更するためのオンライン ツールである GANBreeder プロジェクトの詳細を共有し、クリエイティブ プロセスにおける相互推奨システムの可能性についても説明しています。サイモンはテクノロジーとクリエイティビティの未来について楽観的であり、人間が協力して建物の機能を最適化し、より優れたものを生み出すことができると信じています。

  • 00:00:00 このセクションでは、ジョエル サイモンが、彼の背景と、クリエイティブなネットワーク ワークへのインスピレーションについて説明します。彼はブライアン・イーノの孤独な天才の概念に対する批判を強調し、クリエイティビティがどのようにさまざまな力が一緒に働く創発的な産物として定量化できるかを説明しています。サイモンはまた、彫刻への道のりについても話し、デジタルであることとコンピューターであることの違いを強調しながら、コンピューターを使った創作方法を学び、探求するようになりました。

  • 00:05:00 このセクションでは、Joel Simon が、大学時代に発見した計算設計とトポロジー最適化の研究のインスピレーションについて説明します。サイモンは、トポロジー最適化によって、従来の意味では作成できなかった新しい形状を生み出す能力に魅了され、その可能性をさらに探求しようとしました。しかし、単純な最適化手法を超えて、建物を木のように成長させる適応性や環境などの現実の要素を組み込む必要があることに気づき、ジェネレーティブ アーキテクチャの実験を行うようになりました。彼の作品は建築設計に基づいているだけでなく、グラフ シミュレーションの手法や進化した仮想生物をインスピレーションとして使用し、計算設計の複雑さと革新性を高めました。

  • 00:10:00 このセクションでは、スピーカーは、特に反応拡散に関して、成長プロセスにおけるパターン情報とモルフォゲンの使用について説明します。彼は、これらのパターンをアートで使用してテクスチャを生成できると説明し、単純なネットワークを位置から色にマッピングして画像に変換するために使用される Jeff の CPPN について説明します。これらの成長のアイデアをさらに進めるために、講演者はプロジェクト「Evolving Alien Corals」を作成しました。このプロジェクトでは、3D メッシュの頂点全体でモルフォゲンを使用して、頂点が移動および放出する方向を制御します。これにより、信じられないほどの形を生み出す複合効果が可能になりました。サンゴの色はモルフォゲンが最適化されたものであり、美しいパターンを生成するだけではありません。このプロジェクトはまた、フォームがフィットネス機能に従う場合、フォームを駆動する力または目的で彫刻できるというアイデアを示しています。講演者はまた、生態系の考え方と中間撹乱仮説についても簡単に触れます。この仮説では、最適な多様性は中間の量の撹乱で達成されます。

  • 00:15:00 このセクションでは、ジョエル サイモンが、自然の生態系から引き出された創造的なネットワークに対する彼の魅力について語り、これらの景観がパターンの彫刻と操作にどのように役立つかを探ります。彼は、生態系の崩壊がどのようなものであるか、または侵入種や異なる島の融合などの混乱が生態系にどのように影響するかという問題を提起します.サイモンは、多目的問題の解決策としての楔形文字と書道のアイデアに触発されました。さまざまな方法を試すために、Simon はカスタム ニューラル アーキテクチャを作成しました。これは、ノイズの多い媒体を介したコミュニケーションのパターン認識を生成します。各フォームは認識可能で相互に区別され、さまざまな言語が出現しました。その後、彼はこのシステムを協力的かつ敵対的になるように修正し、互いに似ているが異なる方法で機能する独自の書道セットを作成しました。

  • 00:20:00 このセクションでは、ジョエル サイモンが、マティスの自画像やコンウェイのライフ ゲームなど、さまざまな情報源から着想を得たジェネラティブ アート プロジェクトのいくつかについて説明します。彼は遺伝的アルゴリズムを使用して肖像画を作成し、人工生命の生成アーキテクチャの概念を探求しました。サイモンはまた、ニューラル ネットワークを使用して生物の画像を生成し、選択的に繁殖させて新しい興味深いデザインを作成する、ピック ブリーダー プロジェクトからどのようにインスピレーションを得たかについても語っています。

  • 00:25:00 このセクションでは、スピーカーは、CPPN と GAN を使用して画像を検出および変更するためのオンライン ツールである GANBreeder を作成するためのインスピレーションについて説明します。彼は、偉大さは計画できないという考えに触発され、このツールで使用されるアルゴリズムを強化するのに役立つ人間への生来の関心に興味をそそられました。彼は GAN を深く掘り下げ、GAN の潜在的なベクトルには、クロスオーバーに使用するために必要なプロパティがあることを認識しています。これにより、子供の画像を両親の両方に似せることができます。講演者は、さまざまな種類の創造性について語り、彼のツールは、BigGAN と Picbreeder を組み合わせて GANBreeder を作成したコンビナトリアルなものであると述べています。また、GANBreeder を使用してユーザーが画像を作成できる 3 つの方法、つまり、ランダムな子を取得する、2 つの画像を混合する、画像の遺伝子を編集する方法についても説明しています。

  • 00:30:00 レクチャーのこのセクションでは、Joel Simon が創造的なプロセスについて、オープンエンドから意図的なものまで、その間に勾配がある探索段階の観点から説明します。画像を作成および作成するさまざまな方法として、無性生殖、有性生殖、クリスパーなどの生物学的類似点が言及されています。次に、サイモンは、人間が 128 次元で考えることができないため、インタラクティブで共同的な探索の重要性を強調して、彼が作成した画像の例を、それを構成する遺伝子とともに提供します。 Simon は、ArtBreeder をアイデアやインスピレーションを見つけるためのツールとして使用できるという考えで締めくくり、機械学習に関心のあるユーザーに関連する、ユーザーが独自の遺伝子を作成できるようにする最近の機能について言及しています。

  • 00:35:00 このセクションでは、Simon が、彼のプロジェクトである Ganbreeder が画像タグ付けのクラウド ソース エコシステムをどのように活用しているかについて説明します。画像内の微妙な特性のサンプルを収集することにより、ユーザーはそれを、より強力な遺伝子を作成できるツールまたはフィルターに変えることができます。このプロジェクトは、どの画像が最も興味深いかというプロンプトを表示する単純な画像のグリッドとして開始されました。しかし、ユーザーは、写真をアップロードして歴史上の人物に色を付けたり、ドレスを作ったり、キャラクターにペイントしたりするなど、予期しない方法でガンブリーダーを使用しています.サイモンは、実験は実際にはガンではなくインターフェースであったことを強調しています。

  • 00:40:00 ビデオのこのセクションでは、Joel Simon が、既存のレコメンデーション エンジンでは現在使用されていない潜在的なバリエーションの次元を利用する相互レコメンデーション システム ツールを作成することの潜在的な力について説明しています。彼は、作業中に歌詞が曲に含まれているかどうかを判断できない例を挙げており、レコメンデーション エンジンが彼のようなユーザーがこれらのバリエーションの次元を考慮したツールを作成するのに役立つ場合、はるかに強力なレコメンドを行うことができると示唆しています。 .サイモンはまた、クリエイティブ ツールにおける所有権とコラボレーションのアイデアを探求し、多くの人々が共同で作成したために誰もアートを「所有」していない、彼がキュレーションしたインタラクティブなアート ショーについて説明します。

  • 00:45:00 このセクションでは、ジョエル・サイモンが、創造的なプロセスにおける計算能力の可能性とは対照的に、人間の思考の限界について説明します。人間は、明確な階層構造で考える、ルーティンを持つ、複雑に重なり合って考えないなど、私たちの思考に一定の偏見を持っています。サイモンは、コラボレーション、探求、新しいメディアの許可、および比喩を促進することが、新しい創造的なプロセスにどのようにつながるかについて説明します。このプロセスでは、クリエイティブ ディレクターとアーティストの対話が不可欠であり、ディレクターはアーティストの創造性を導きます。サイモンは、コンピューティングとクリエイティビティの未来について楽観的であり、ツールを使用して新しいアートワークを作成し、アーティストやクリエイティブの代わりになるのではなく、他の人々と共有することになると考えています.

  • 00:50:00 このセクションでは、ジョエル サイモンがクリエイティビティと、テクノロジーの進歩がアーティストに取って代わるという誤解について説明します。彼は、そのような進歩が創造的な表現をすべての人にとってよりアクセスしやすくするだけであると信じており、創造性は人間の本質的な必要性であり、それ自体が目的であると述べています.サイモンは、繁殖の自然なプロセスを適応させ、生物模倣を使用して、人間の認知能力を超えたデザインのための共同プロセスを作成する、形態形成デザインの概念を提案することで締めくくります。彼は、人間はより大きな創造的な結合組織の一部であり、プロジェクトのインスピレーションはこのより大きなシステムから集められることを強調しています。

  • 00:55:00 このセクションでは、Joel Simon が、複雑なエコシステムとして相互に調和する建物のエコシステムを構築する技術の未来について楽観的な見方をしています。彼は、新しい比喩と技術により、人々は理解を超えた方法でこれらの建物の機能を協力して最適化できると信じています。テクノロジーには長所と短所がありますが、機械と人間の対話に対するサイモンの前向きな見方は、テクノロジーが人々を結び付けてより大きなものを生み出すことができる未来への洞察を提供します.
MIT 6.S192 - Lecture 15: "Creative-Networks" by Joel Simon
MIT 6.S192 - Lecture 15: "Creative-Networks" by Joel Simon
  • 2021.01.30
  • www.youtube.com
Joel Simon is an artist, researcher and toolmaker inspired by the systems of biology and creativityhttps://www.joelsimon.net/More about the course: http://de...
 

MIT 6.S192 - 講義 16: 「計算としての芸術に対する人間の視覚的認識」アーロン・ハーツマン



MIT 6.S192 - レック。 16:「コンピューティングとしての芸術に対する人間の視覚的知覚」アーロン・ヘルツマン

この講義では、芸術における知覚の曖昧さと不確定性、およびあいまいなイメージを作成する際の敵対的生成ネットワーク (GAN) の使用について探究します。視聴時間が知覚に及ぼす影響と、画像エントロピーと人間の好みとの関係について説明します。講師は芸術の進化論を提案し、芸術は社会的関係を持つことができるエージェントによって作成されます。アートにおける AI の使用についても議論されており、アルゴリズムは有用なツールになる可能性がありますが、人間のアーティストに取って代わることはできないという結論に達しています。講義は、価値などの概念に関するいくつかの発言で締めくくられます。

  • 00:00:00 このセクションでは、現代美術の重要なテーマである知覚の曖昧さと不確定性について話します。彼は、さまざまな解釈を伴う画像によって、視聴時間が変化し、異なる認識の間を行ったり来たりする可能性があり、個人の選択に影響を与える可能性があると説明しています.視覚的不確定性は、単純な首尾一貫した解釈をもたらすように見えるが首尾一貫した形で解決できないイメージを表すために使用される用語であり、このテーマは現代、特にキュービズムで人気を博しました。心理学の文献では、知覚の曖昧さと、この曖昧さの空間を説明する方法について議論および研究されてきましたが、近年、生成的敵対者が出現するまで、比較可能な刺激を見つけて曖昧さを測定することは困難でした。

  • 00:05:00 このセクションでは、スピーカーはアートの作成における GAN の使用と、これらのタイプの画像が示す自然な視覚的曖昧さについて説明します。チームはこれらの画像を使用して、参加者に画像を短時間見せて説明を求める研究を行いました。結果は、知覚の不確実性と曖昧さのレベルが高い画像ほど、参加者からの説明の範囲が広いことを示しました。さらに、視聴期間の長さは、画像を説明するために使用される単語の数と種類に影響を与え、参加者はより長い露出でより一貫した解釈に収束しました.

  • 00:10:00 このセクションでは、講師が画像エントロピーとあいまいな画像に対する人間の好みとの関係について説明します。チームは、ユーザーには 2 つのカテゴリがあり、1 つは低エントロピーの画像を好み、もう 1 つは高エントロピーの画像を好むことを発見しました。ただし、ユーザーをこれらのカテゴリにクラスタリングしても、特定の種類の画像の好みを予測することにしか成功しておらず、正しい情報を抽出するにはより多くの自然言語処理が必要です。続いて、アートの定義と、コンピューターがアートを作成できるかどうかを調べます。現在の芸術の定義は、エイリアンによって作成された可能性のあるような新しい芸術形式を一般化するものではないため、不適切であることがわかっています.代わりに、話者は芸術の進化論を提案します。芸術は、社会的関係、つまり社会活動を行うことができるエージェントによって作成されます。これは、コンピューターがアーティストになり得るという結論につながりますが、専門家ではない人に間違った理解を与える可能性があるため、この対話は見当違いです。
     
  • 00:15:00 このセクションでは、人間のアートに対する認識とアートの作り方を理解するために、計算から得たアイデアを使用する方法について話します。彼は、コンピューターは人間性または社会的関係を持たない限りアーティストにはなれないと主張しています。しかし、コンピューターは芸術的創造性のための強力なツールであり、芸術的創造のための新しいツールを提供します。講演者はまた、AI アートがアクセスしやすくなるにつれてその価値が失われるという考えに反論し、最高の AI アーティストはコーディングを実験し、慎重に結果を選択していることを指摘します。

  • 00:20:00 このセクションでは、Hertzmann が芸術における人工知能 (AI) の使用について議論し、人間の好みに基づいて芸術を生成できる機械を芸術家と見なすことができるかどうかについて質問します。彼は、現在の AI アルゴリズムは単に指示に従っているだけであり、人間のアーティストの創造性を持っていないと主張しています。しかし、彼はアルゴリズムが芸術的なプロセスと好みをモデル化し、芸術の作成とキュレーションに役立つツールになる可能性に興奮しています.結局のところ、アートは文化と時間の産物であるため、ハーツマンはアルゴリズムが人間のアーティストに取って代わることができるとは考えていません。

  • 00:25:00 このセクションでは、価値などの概念についての議論の後、いくつかの結論を述べます。これらの概念や議論の新しいトピックに関する重要な情報は提供されていません。講演者は、啓発的で刺激的な話をしてくれたことに感謝しています。
MIT 6.S192 - Lec. 16: "Human Visual Perception of Art ..." Aaron Hertzmann (see comments for part I)
MIT 6.S192 - Lec. 16: "Human Visual Perception of Art ..." Aaron Hertzmann (see comments for part I)
  • 2021.02.01
  • www.youtube.com
Human Visual Perception of Art as Computation, Part IIAaron HertzmannPrincipal Scientist, Adobehttps://research.adobe.com/person/aaron-hertzmann/Note we only...
 

MIT 6.S192 - 講義 17:「グラフィック デザイン サービスにおける AI の使用」Zoya Bylinskii 著



MIT 6.S192 - 講義 17:「グラフィック デザイン サービスにおける AI の使用」Zoya Bylinskii 著

Adobe の研究科学者である Zoya Bylinskii は、この講義でグラフィック デザインと人工知能 (AI) の交差点を探ります。 Bylinskii 氏は、AI は、面倒な作業を自動化し、デザインのバリエーションを生成することで、デザイナーを置き換えるのではなく、支援することを意図していると強調しています。 Bylinskii は、インタラクティブなデザイン ツールや AI によって生成されたアイコンのアイデアなど、AI 支援ツールの例を示しています。 Bylinskii は、AI をグラフィック デザインに適用する際の課題と可能性についても説明しています。これには、創造的な思考、キュレーション、さまざまな分野の専門家との協力の必要性が含まれます。彼女は、グラフィック デザインの AI と機械学習に関心のある候補者に、プロジェクトの経験を紹介し、研究の機会を追求するようアドバイスしています。

  • 00:00:00 このセクションでは、Adobe のリサーチ サイエンティストである Zoya Bylinskii が、グラフィック デザインのサービスで AI を使用する方法について説明します。 Bylinskii は、グラフィック デザインと AI の交点と、グラフィック デザインの多様な文体を、学習して自動化できる計算モジュールに分解する方法について語っています。 AI はデザイナーに取って代わるものではなく、デザイナーをデザイン プロセスとキュレーションの中心に置きながら、退屈なタスクの自動化と迅速な探索によってデザインのバリエーションを自動的に生成できるようにすることを意図していると彼女は強調します。 Bylinskii は、これらの目標の 2 つの例を挙げています。さまざまなフォーム ファクターとアスペクト比に合わせてデザインのサイズを変更してレイアウトすること、およびアイコン、ロゴ、または類似のデザイン アセットを作成するときに多くの可能な視覚的表現を循環させることです。

  • 00:05:00 このセクションでは、Zoya Bylinskii が、単調な作業を最小限に抑え、より効率的な反復プロセスを促進することで、設計の自動化によって設計プロセスの速度を向上させる方法について説明します。 Bylinskii は、機械学習がデザインにおける視覚的な重要性をどのように予測できるかを説明し、さまざまなデザインで視覚的に印象的で注目を集めるものを学習することで、グラフィック デザイナーのためのより効果的なガイダンスを作成します。注釈ツールを利用することで、Bylinskii と彼女の同僚は、この重要性の概念でモデルをトレーニングするために、1,000 の画像と注釈のペアのデータセットをキュレートし、分類モジュールを使用して、テスト時に設計の最も顕著な領域を予測し、設計者を次のように導きました。他のデザイン要素を配置する場所。

  • 00:10:00 このセクションでは、Zoya Bylinskii がグラフィック デザインで人工知能 (AI) を使用する 2 つのアプリケーションについて説明します。最初のアプリケーションには、小規模なニューラル ネットワークを使用して、さまざまな設計要素の予測される重要性をリアルタイムで継続的に再計算するインタラクティブな設計ツールが含まれます。このツールにはヒストグラムもあり、ユーザーは各要素の重要度を調整して設計を操作できます。 2 番目のアプリケーションには、アイコン生成のアイデア化が含まれます。ここでは、AI を使用して、一般的な視覚的概念に対応する新しいアイコンを作成します。 Bylinskii 氏は、これらのアプリケーションは両方とも、AI 支援のグラフィック デザイン ツールで重要度モデルを使用するための有望な新しい方向性を提供すると説明しています。

  • 00:15:00 このセクションでは、スピーカーは、寿司の配達など、既存のアイコンがないコンセプトの新しい図像を作成しようとするときに、デザイナーが直面する課題について説明します。このプロセスには手作業が必要で、インスピレーションを得るための関連コンセプトの検索、既存のアイコンの再結合と編集が必要です。このプロセスを簡素化するために、スピーカーは複合アイコン生成用の新しい AI 駆動パイプラインを導入します。このシステムは、スペース、スタイル、セマンティクスを組み合わせて、スタイル的に互換性があり、クエリされたコンセプトに意味的に関連する複合アイコンを生成します。 AI 主導のパイプラインでは、クエリを関連する単語に分解し、スタイル的に互換性のあるアイコンを見つけ、それらを組み合わせて目的のメッセージを伝えます。

  • 00:20:00 このセクションでは、Bylinskii が Iconate と呼ばれるプロジェクトについて説明します。このプロジェクトは、AI を使用して、新しいデザインを作成するための互換性のあるアイコンの組み合わせとレイアウトを提案します。システムは、埋め込みスペースを学習して、スタイル的に互換性のあるアイコンと、構成要素のアイコンのレイアウトを定義するためのテンプレート ベースのアプローチを提案します。 Iconate は、個々のコンポーネントに注釈が付けられた 1,000 個の複合アイコンの CompyCon1k データセットを使用してトレーニングされました。 Bylinskii 氏は、このシステムにより、ユーザーはスタンドアロンのデザイン ツールよりもはるかに高速に複合アイコンを作成でき、ユーザーが思いつくあらゆるコンセプトのアイコンをすばやく生成するために使用できると説明しています。彼女はまた、人間の創造性を置き換えるのではなく、デザイン プロセスを促進することを目的とした、ロゴ合成やレイアウト調整システムなど、他の AI を利用したデザイン ツールを強調しています。

  • 00:25:00 このセクションでは、スピーカーは、テキスト、統計、および小さなビジュアライゼーションを含むインフォグラフィックの作成における AI の使用について説明します。彼女はまた、この作業がさまざまなコミュニティや会議に広がっていることを指摘し、GAN を使用した GUI デザインの生成など、コンピューター ビジョンからの例を提供しています。彼女は、コンピューテーショナル グラフィック デザインやクリエイティビティのためのデータ セットなど、利用可能なリソースが多数あることを指摘し、Behance Artistic Media Data Set と Automatic Understanding of Image and Video Advertisements Data Set について簡単に言及しています。

  • 00:30:00 このセクションでは、講演者は設計ワークフロー内のコンポーネントを自動化するために利用可能なモデルとツールについて説明し、自動ツールの多くはあまり創造的ではありませんが、将来の発見の可能性はまだたくさんあることに注意してください自動化された高度にクリエイティブなワークフローのスペース。彼女は、学生がこの分野を自分で探求し、学際的な思考を生成することを奨励しています。これにより、計算と設計のインターフェースでエキサイティングなアプリケーションにつながる可能性があります。ディスカッションでは、グラフィック デザインにおける現在のテキストからビジュアルへのモデルの限界と、ベクター グラフィックを生成できる新しいモデルの可能性についても触れています。

  • 00:35:00 このセクションでは、Web 上のインフォグラフィックを検索して視覚障害者向けに注釈を付けるために、特定のインフォグラフィックからキャプションを作成することを目標とするプロジェクトについて話します。しかし、既存のオブジェクト検出器を使用してインフォグラフィックからビジュアルとアイコンを抽出できなかったため、問題が発生しました。これにより、合成データを使用してアイコン検出器をトレーニングする方法が開発され、最終的にアイコンの検出が可能になりました。生徒たちはその後、アイコンと近くのテキストの間の共同埋め込みを学習する可能性を探りました。これは、複雑なグラフィック デザインで抽象的な概念がどのように視覚化されるかを理解するために使用できます。講演者は、AI はデザイナーに取って代わるものではなく、デザイナーを支援するものであり、キュレーションは仕事の重要な側面であり続けることを強調しています。

  • 00:40:00 このセクションでは、講演者は、AI によって生成されたグラフィック デザインの領域におけるデザイナーの役割について説明します。設計を生成するためにモデルをトレーニングすることは可能ですが、まったく新しい設計を作成するようにモデルをトレーニングすることは困難です。したがって、設計者は、現在の多様性を超えた新しい資産とコンポーネントを導入し、それらを使用して新しい設計を自動的に操作および生成できます。講演者はまた、キュレーションの必要性を強調しています。デザイナーは、ガベージとガベージ以外のペアを特定してトレーニング プロセスを改善できるからです。さらに、講演者は、十分なデータが不足しているため、デザインを異なる文化に適応させることは依然として課題であると述べています。最後に、講演者は、さらなる開発のために既存の製品チームに組み込むことができる大きな研究アイデアを提案することを目指している、Adobe のような企業における研究科学者の役割について説明します。

  • 00:45:00 このセクションでは、Zoya Bylinskii がグラフィック デザインに AI を適用して実用的な製品を作成する際の課題について説明します。彼女は、さまざまな技術製品に移植できるように問題を概念化し、研究のアイデアを企業に売り込み、さまざまな分野の専門家と協力して専門知識を得る必要性を強調しています。 Bylisnkii は学生やインターンに対し、強力な計算ツールセットを開発して、エンジニアリング、研究、または製品のインターンとしての地位を確立する可能性を高めるようアドバイスしています。

  • 00:50:00 このセクションでは、講演者はグラフィック デザインの AI と機械学習に関心のある候補者に求めるスキルに焦点を当てています。彼らは、ソフトウェア ツールと機械学習の習熟度の必要性を強調しています。彼らは、コース形式だけでなく、Github の例を含むプロジェクト形式で経験を紹介することを推奨しています。彼らは、候補者が創造性と革新性を発揮し、既存のモデルやライブラリを超えて新しいアイデアを概念化し、新しい方法で適用する必要があることを示唆しています。候補者は、大学の研究室で研究経験または技術職を追求する必要があります。彼らは、教授にアプローチし、特定の問題について特定の期間働くことを提案することを推奨しています。最後に、他の研究者からの参考資料の重要性を強調し、候補者の創造性、技術力、および研究への適合性を証明します。
MIT 6.S192 - Lecture 17: "Using A.I. in the service of graphic design" by Zoya Bylinskii
MIT 6.S192 - Lecture 17: "Using A.I. in the service of graphic design" by Zoya Bylinskii
  • 2021.01.30
  • www.youtube.com
Dr. Zoya BylinskiiResearch Scientist, Creative Intelligence Lab, Adobehttps://research.adobe.com/person/zoya-bylinskii/More about the course: http://deepcrea...
 

MIT 6.S192 - 講義 19: 一貫したニューラル フィールドを使用した簡単な 3D コンテンツの作成、Ajay Jain



MIT 6.S192 - 講義 19: 一貫したニューラル フィールドを使用した簡単な 3D コンテンツの作成、Ajay Jain

このレクチャーでは、Ajay Jain がニューラル シーン表現に関する彼の研究を紹介します。特に、まばらにサンプリングされた入力ビューを使用してシーンの 3D ジオメトリと色の表現を構築する Neural Radiance Fields モデルに焦点を当てています。 Jain は、Neural Radiance Field を 1 つのシーンに当てはめる際の課題と、測光損失とセマンティック整合性損失を追加することでトレーニング プロセスのデータ効率を改善する方法について説明します。彼はまた、プロジェクト Dream Fields で、CLIP を使用して NeRF のアーティファクトを削除し、キャプションから 3D オブジェクトを生成することについても話しています。その他のトピックには、シーン内の一貫した前景オブジェクトの作成、キャプション付き 3D オブジェクト データセットの取得、レンダリング コストの削減、システムのパフォーマンスの最適化などがあります。

  • 00:00:00 ビデオのこのセクションでは、Ajay Jain が生成モデルと AI ツールに関する彼の旅と研究への関心について語っています。彼はまた、グラフィックス アプリケーションで一般的に使用されるメッシュ表現と比較して、トレーニングと学習コンテキストでの使用が容易なボリューム アプローチに焦点を当てて、さまざまなタイプのシーン表現について説明します。 Jain は、ニューラル シーン表現に対する最近の関心も強調しています。

  • 00:05:00 このセクションでは、スピーカーはニューラル シーン表現の概念、特にニューラル ラディアンス フィールドと呼ばれるモデルに焦点を当てて説明します。このモデルは、シーンのまばらにサンプリングされた入力ビューを使用してシーンの 3D ジオメトリと色の表現を構築し、新しい視点からのレンダリングを可能にするビュー合成の問題に対処します。 Neural Radiance Field はこれらの画像から推定され、まばらにサンプリングされたビューのスムーズな補間を可能にします。このモデルは、光沢のある表面の鏡面反射など、ビューに依存する効果をモデル化することもできます。ニューラル ネットワークは、3D 空間座標と視線方向からの関数マッピングとして表され、各座標の色と密度を予測します。レンダリングは、レイ トレーシングとボリューム レンダリングによって行われます。

  • 00:10:00 このセクションでは、スピーカーは、ニューラル ネットワークの重みを最適化して目的の色を実現するために、ニューラル シーン表現に従って色をレンダリングするプロセスについて説明します。彼らは、シーンをエンコードする MLP により視点の微分可能なレンダリングが可能になり、最適化が容易になると説明しています。このプロセスは逆グラフィックスと呼ばれ、2D 空間から、それらのビューを再構築する基礎となる 3D 表現を最適化することが含まれます。講演者は、5 次元の入力をより高い次元の空間に投影する正弦波位置エンコーディング アプローチを使用して、入力座標がニューラル ネットワークにどのように供給されるかについても説明します。

  • 00:15:00 このセクションのビデオでは、ニューラル ラディアンス フィールドを 1 つのシーンに適合させる際の課題について説明します。これは、通常、トレーニングに大量のデータが必要になるためです。ビデオは、フィールドに収まるように 100 枚の画像を必要とする 1 つの合成シーンを紹介していますが、一部の屋外シーンでは画像数が少なくて済みました。次に、このビデオでは、観測されていない位置で測光損失と呼ばれる追加の損失をニューラル ラディアンス フィールド トレーニングに追加することによって、トレーニング プロセスのデータ効率を改善する方法について説明します。これにより、シーンが収束する前であっても、斬新なビューのレンダリングが可能になります。

  • 00:20:00 このセクションでは、スピーカーは、トレーニング中に任意の観点からシーンを正規化できるセマンティック一貫性損失の概念について説明します。ビジュアル エンコーダーを使用すると、各入力ビューは特徴空間で表されます。これにより、視点間で一貫したオブジェクト ID およびその他の特徴のエンコードが可能になります。ピクセルの色などの低レベルの詳細ではなく、オブジェクトのアイデンティティとプロパティをエンコードする必要があるため、機能の選択は非常に重要です。話者は、CLIP ネットワークを使用することを提案します。これは、画像を関連するキャプションに一致させることを学習したためです。これにより、オブジェクトのクラス、オブジェクトのポーズ、およびシーン全体の詳細をエンコードできます。スピーカーは、異なるカメラ ポーズからの特定のシーン内の CLIP の画像エンコーダーからの埋め込みの余弦類似性が非常に似ていることを示していますが、ピクセル空間では非常に異なっています。

  • 00:25:00 ビデオのこのセクションでは、スピーカーは、特徴空間の類似性を最大化することで、CLIP を使用して NeRF のアーティファクトを除去する実験について話し、次に、CLIP を使用してキャプションだけから 3D オブジェクトを生成する 2 番目の作業について説明します。ドリームフィールズ。彼らは共有シーンの表現を最適化して、正則化を追加したダイエット NeRF に似せてから、各パースペクティブの新しいビューをレンダリングします。彼らは、CLIP のテキスト エンコーダーを使用して、画像の特徴空間での特徴の類似性を最適化する代わりに、シーンとキャプションの間の特徴空間での類似性を最大化します。彼らは、検索と最適化のプロセスが難しいため、CLIP を使用した自動キャプションは難しいと指摘しています。

  • 00:30:00 このセクションでは、Ajay Jain が、Dream Fields を使用して 3D シーンで一貫した前景オブジェクトを作成するプロセスについて説明します。シーン内のポーズをランダムにサンプリングして画像をレンダリングすることで、セマンティックな特徴がキャプションの特徴と一致するようにします。ただし、正則化を行わずにこのアプローチを単純に適用すると、シーンが劣化する可能性があります。したがって、ランダムにサンプリングされた背景と非常に透明な前景オブジェクトを合成してシーンを正則化し、シーンのスパース性を促進します。この正則化により、シーン内により一貫した前景オブジェクトを作成できます。さらに、さまざまなキャプション テンプレートを試して、モデルの構成の一般化を測定します。

  • 00:35:00 このセクションでは、キャプション付きの 3D オブジェクト データセットを取得する際の課題と、事前トレーニング済みの 2D 画像およびテキスト エンコーダーである CLIP を使用してこの問題にどのように対処したかについて説明します。 Dream Fields プロジェクトは、ジオメトリの共有表現を通じて、この 2D 表現を 3D に持ち上げます。スピーカーは、生成された 3D オブジェクトの品質と最適化プロセスのコストを改善するために使用される手法についても話します。このプロジェクトの目標は、3D コンテンツの作成を容易にし、ダウンストリーム アプリケーションに役立つアセットを生成することです。コードは、試してみたい人なら誰でも利用できます。

  • 00:40:00 このセクションでは、Ajay Jain は、オブジェクトの 3D 構造は、どの観点からも CLIP を満たす共有表現によってのみ出現すると説明しています。データから学習した 3D 構造には事前情報がないため、3D データの一貫性が失われており、今後の作業の機会となります。 Jain はまた、基礎となるジオメトリが表示されない場合、一貫性が保たれず、構造が繰り返されることにも言及しています。座標からの関数マッピングから生成されたニューラル ネットワークは、後処理する必要があります。これには、ニューラル フィールドの出力を .fbx ファイルまたはメッシュに変換することが含まれます。一部のアルゴリズムでは、この変換が可能です。

  • 00:45:00 このセクションでは、低解像度で画像をレンダリングし、単一の低メモリ GPU を使用してプロセスを大幅に高速化するなど、ニューラル ラディアンス フィールド ボリューム表現のレンダリング コストを削減する戦略についてスピーカーが説明します。また、このタイプの表現内で透明なオブジェクトを処理する方法についても説明し、変形可能なオブジェクトの合成やトレーニング中の人間のフィードバックの組み込みなど、3D アーティストにとってこのアプローチをより実用的にするための今後のステップについても言及しています。最後に、Colab ノートブックを共有してシステムを実装し、さまざまなプロンプトの品質設定を調整します。

  • 00:50:00 このセクションでは、スピーカーは、一貫したニューラル フィールドを使用して 3D コンテンツを作成する際の学習曲線と最適化プロセスについて説明します。シーン内のピクセルの透明度や反復ごとのデータ拡張の数など、最適化プロセスに影響を与えるさまざまな要因について説明しています。また、サンプル数を減らし、デフォルトのCLIP b16の代わりにCLIP b32を使用するなど、構成パラメータを微調整してメモリ使用量を削減することも提案しています。最後に、パフォーマンスを最適化するために複数の GPU で並列化するオプションについて言及しています。
MIT 6.S192 - Lecture 19: Easy 3D content creation with consistent neural fields, Ajay Jain
MIT 6.S192 - Lecture 19: Easy 3D content creation with consistent neural fields, Ajay Jain
  • 2022.04.19
  • www.youtube.com
Ajay JainDoctoral student (Ph.D.), UC Berkeleyhttps://ajayj.comMore about the course: http://deepcreativity.csail.mit.edu/Information about accessibility can...
理由: