DALL・E2とは？

DALL・E 2 は、テキストの説明から画像を作成する人工知能プログラムであり、調査会社の OpenAI によって木曜日に明らかにされました。

GPT-3 変換モデルの 120 億パラメータートレーニングバージョンを使用して、自然言語入力を解釈し、対応する画像を生成します。たとえば、「小型犬の白黒写真」という文が提供されると、正しくレンダリングされたチワワの白黒画像が生成されました。

このシステムは完璧ではありません。解釈が困難な画像や、完全に的外れな画像が生成されることがあります。たとえば、「火山の上を一輪車に乗って綱渡りをしている人物」の画像を生成するように求められた場合、(私の意見では美しい) が、前景に小さな人物がいる水面に沈む夕日の完全に無関係な画像が生成されました。 .

それでも、結果は印象的であり、OpenAI は、DALL·E 2 は「プロの人間のアーティストの品質に匹敵するテキスト記述から画像を生成する最初の AI モデルである」と述べています。

このシステムは、OpenAI によってスクレイピングおよびキュレーションされたインターネットからの約 130 万の画像とキャプションで構成される、テキストと画像のペアのデータセットでトレーニングされました。次に、トレーニングデータを使用して GPT-3 モデルを微調整し、テキストの説明から画像を生成できるようにしました。

OpenAI によると、このシステムは、抽象的、具体的、さらには詩的なものを含む幅広いテキスト記述から「高品質」の画像を生成できるという。

チワワの例に加えて、DALL・E 2 によって作成された画像の他の例には、正しくレンダリングされたアドルフヒトラーの肖像画、野菜で作られたドラゴンの画像、トーストで作られたモナリザの画像が含まれます。

このシステムは、「フローフ」(作られた動物) や「タルパ」(思考形態) など、存在しないものの画像を生成することもできます。

全体として、結果は印象的であり、OpenAI はシステムが「テキストの説明から画像を生成する新しい可能性を開く」と述べています。

E2から これ CLIPシステム テキスト情報を視覚情報に変換します。これはエンコーダー/デコーダーパラダイムです。つまり、入力テキストが提供されると、まずマシン入力に変換され、次にシステムによって処理され、最後にデコーダーに渡され、エンコードされたデータが画像に変換されます。

DALL E 2とは

DALL・E2とは？

これは、フレーズを使用してまったく新しい視覚効果を作成する生成言語モデルである DALL・E の最新世代です。 DALL E 2 は巨大な 3.5V モデルですが、GPT-3 ほど大きくはありません。興味深いことに、前モデル (12B) よりも軽量です。説明の整合性とフォトリアリズムの点では、DALL・E 2 は DALL・E 2 よりもサイズが大きいにもかかわらず、70% 優れています。

DALL.E 2- 初心者向けの説明と例

具体的には、DALL・E 2 は、自然言語処理用のディープラーニングと画像生成用のコンピュータービジョンを組み合わせた、階層的な条件付きテキスト画像合成モデルです。その目標は 2 つのモデルをトレーニングすることであり、トレーニングセットはペアの画像と説明で構成されます。 1 つ目は、書かれたタイトルが与えられた場合、CLIP 画像埋め込みを生成するようにトレーニングできる先験的なものです。次に、CLIP 画像 (および存在する場合はキャプション) を埋め込むときに、トレーニング済みの画像を生成できるデコーダーを用意します。

DALLE 2 は、インターネットからのキャプション付きの何億もの写真を使用してトレーニングされ、モデルが学習する内容を変更するために、それらの画像の一部が削除され、再シャッフルされます。複数の画像オプションを取得します CLIPアタッチメント そしてそれを使う デコーダ それらのそれぞれを通過します。次に、ユーザーの入力に基づいて、そのすべての情報を興味深い組み合わせで作成します。

例 DALL IS 2

DALL・Eを理解するためにちょっとしたゲームをしてみましょう。次の 3 つのステップに分けて説明しましょう。

青い空を飛んでいる虹、雲、ユニコーンを想像してみてください。あなたの想像の中で絵がどのようなものになるか想像してみてください。人々は、埋め込み画像の完全な類似物に最も近いものであり、頭に浮かんだばかりの写真はその完璧な例です。最終製品については推測することしかできませんが、何を含めるべきかについては良い考えがあります.アプリオリモデルは、フレーズ内の単語から読者を想像上のシーンに導きます。
これで、描画を開始できます。 unCLIP が行うことは、頭の中で描いた絵を実際のスケッチに変換することです。これで、同じ説明から、同じ基本的な統計を使用して、まったく新しいビジュアルスタイルで別のキャラクターを正確に再現できます。 DALL・E 2 は、この方法で埋め込まれた既存の画像から独自の画像を生成することもできます。
作成したスケッチに注意してください。これは、「雲の真ん中にあるユニコーンと空に虹がかかる」という描写をスケッチするとどうなるかということです。画像とテキストを調べて、他のもの (太陽、家、木など) を最もよく表しているものと、主題、スタイル、色などを最もよく表しているものを判断します。CLIP が行うことは、特性をエンコードすることです。テキストと画像。

DALL-E とは何かがわかったので、次のセクションに進んでその機能を理解しましょう。

ヒント： DALL-E-2 AI サービスでリアルな画像を作成する方法

特徴 DALL E 2

以下、DALL・E2のスペックです。

バリエーション
着色
テキストの違い

それらについて詳しく話しましょう。

Word2010で名刺を作成する方法

1] バリエーション

DALL・E 2 は、単に文章を画像に翻訳するだけではありません。 OpenAI は生成プロセスを試すことができ、堅牢な CLIP 埋め込みのおかげで、特定の署名に対してさまざまな結果を生成します。 CLIP がその「心」で「見る」ものは、入力から重要と見なされるもの (すべての画像で同じまま) と、置き換えることができるもの (異なる画像で変化するもの) です。可能な限り、DALL·E 2 は「意味のある情報と美的側面」の両方を保持します。