DALL・E2とは?例を使って初心者向けに説明

Cto Takoe Dall E 2 Ob Asnenie Dla Nacinausih S Primerami



未定義

DALL・E2とは?

DALL・E 2 は、テキストの説明から画像を作成する人工知能プログラムであり、調査会社の OpenAI によって木曜日に明らかにされました。





GPT-3 変換モデルの 120 億パラメーター トレーニング バージョンを使用して、自然言語入力を解釈し、対応する画像を生成します。たとえば、「小型犬の白黒写真」という文が提供されると、正しくレンダリングされたチワワの白黒画像が生成されました。







このシステムは完璧ではありません。解釈が困難な画像や、完全に的外れな画像が生成されることがあります。たとえば、「火山の上を一輪車に乗って綱渡りをしている人物」の画像を生成するように求められた場合、(私の意見では美しい) が、前景に小さな人物がいる水面に沈む夕日の完全に無関係な画像が生成されました。 .





それでも、結果は印象的であり、OpenAI は、DALL·E 2 は「プロの人間のアーティストの品質に匹敵するテキスト記述から画像を生成する最初の AI モデルである」と述べています。



このシステムは、OpenAI によってスクレイピングおよびキュレーションされたインターネットからの約 130 万の画像とキャプションで構成される、テキストと画像のペアのデータセットでトレーニングされました。次に、トレーニング データを使用して GPT-3 モデルを微調整し、テキストの説明から画像を生成できるようにしました。

OpenAI によると、このシステムは、抽象的、具体的、さらには詩的なものを含む幅広いテキスト記述から「高品質」の画像を生成できるという。

チワワの例に加えて、DALL・E 2 によって作成された画像の他の例には、正しくレンダリングされたアドルフ ヒトラーの肖像画、野菜で作られたドラゴンの画像、トーストで作られたモナリザの画像が含まれます。



このシステムは、「フローフ」(作られた動物) や「タルパ」(思考形態) など、存在しないものの画像を生成することもできます。

全体として、結果は印象的であり、OpenAI はシステムが「テキストの説明から画像を生成する新しい可能性を開く」と述べています。

E2から これ CLIPシステム テキスト情報を視覚情報に変換します。これはエンコーダー/デコーダー パラダイムです。つまり、入力テキストが提供されると、まずマシン入力に変換され、次にシステムによって処理され、最後にデコーダーに渡され、エンコードされたデータが画像に変換されます。

DALL E 2とは

DALL・E2とは?

これは、フレーズを使用してまったく新しい視覚効果を作成する生成言語モデルである DALL・E の最新世代です。 DALL E 2 は巨大な 3.5V モデルですが、GPT-3 ほど大きくはありません。興味深いことに、前モデル (12B) よりも軽量です。説明の整合性とフォトリアリズムの点では、DALL・E 2 は DALL・E 2 よりもサイズが大きいにもかかわらず、70% 優れています。

DALL.E 2- 初心者向けの説明と例

具体的には、DALL・E 2 は、自然言語処理用のディープ ラーニングと画像生成用のコンピューター ビジョンを組み合わせた、階層的な条件付きテキスト画像合成モデルです。その目標は 2 つのモデルをトレーニングすることであり、トレーニング セットはペアの画像と説明で構成されます。 1 つ目は、書かれたタイトルが与えられた場合、CLIP 画像埋め込みを生成するようにトレーニングできる先験的なものです。次に、CLIP 画像 (および存在する場合はキャプション) を埋め込むときに、トレーニング済みの画像を生成できるデコーダーを用意します。

DALLE 2 は、インターネットからのキャプション付きの何億もの写真を使用してトレーニングされ、モデルが学習する内容を変更するために、それらの画像の一部が削除され、再シャッフルされます。複数の画像オプションを取得します CLIPアタッチメント そしてそれを使う デコーダ それらのそれぞれを通過します。次に、ユーザーの入力に基づいて、そのすべての情報を興味深い組み合わせで作成します。

例 DALL IS 2

DALL・Eを理解するためにちょっとしたゲームをしてみましょう。次の 3 つのステップに分けて説明しましょう。

  1. 青い空を飛んでいる虹、雲、ユニコーンを想像してみてください。あなたの想像の中で絵がどのようなものになるか想像してみてください。人々は、埋め込み画像の完全な類似物に最も近いものであり、頭に浮かんだばかりの写真はその完璧な例です。最終製品については推測することしかできませんが、何を含めるべきかについては良い考えがあります.アプリオリ モデルは、フレーズ内の単語から読者を想像上のシーンに導きます。
  2. これで、描画を開始できます。 unCLIP が行うことは、頭の中で描いた絵を実際のスケッチに変換することです。これで、同じ説明から、同じ基本的な統計を使用して、まったく新しいビジュアル スタイルで別のキャラクターを正確に再現できます。 DALL・E 2 は、この方法で埋め込まれた既存の画像から独自の画像を生成することもできます。
  3. 作成したスケッチに注意してください。これは、「雲の真ん中にあるユニコーンと空に虹がかかる」という描写をスケッチするとどうなるかということです。画像とテキストを調べて、他のもの (太陽、家、木など) を最もよく表しているものと、主題、スタイル、色などを最もよく表しているものを判断します。CLIP が行うことは、特性をエンコードすることです。テキストと画像。

DALL-E とは何かがわかったので、次のセクションに進んでその機能を理解しましょう。

ヒント: DALL-E-2 AI サービスでリアルな画像を作成する方法

特徴 DALL E 2

以下、DALL・E2のスペックです。

  1. バリエーション
  2. 着色
  3. テキストの違い

それらについて詳しく話しましょう。

Word2010で名刺を作成する方法

1] バリエーション

DALL・E 2 は、単に文章を画像に翻訳するだけではありません。 OpenAI は生成プロセスを試すことができ、堅牢な CLIP 埋め込みのおかげで、特定の署名に対してさまざまな結果を生成します。 CLIP がその「心」で「見る」ものは、​​入力から重要と見なされるもの (すべての画像で同じまま) と、置き換えることができるもの (異なる画像で変化するもの) です。可能な限り、DALL·E 2 は「意味のある情報と美的側面」の両方を保持します。

2]着色

DALL・E 2 は、自動塗りつぶしで既存の写真を変更できます。次の例では、左の画像が元の画像で、中央と右の写真では要素が別の場所に描画されています。 DALL・E 2 は、ピクチャー スタイルに追加の要素を一致させます。また、テクスチャと反射を更新して、新しい要素を反映します。

読む : ChatGPTでできること

3]テキストの違い

DALL・E 2 は、テキストの違いを使用して画像を変換します。 DALL・E 2 には、オブジェクトを変更できる高度な補間機能もあります。 1 人の Twitter ユーザーが、自分の iPhone を「アンモーデン化」することができました。 twitter.com それをチェックしてください。

これらの機能が気に入った場合は、 openai.com そして登録。新しいアカウントを作成するか、既存の Microsoft または Google アカウントを使用してサインアップできます。それを行うと、無料のクレジットがいくらか得られます。それ以上必要な場合は、料金を支払う必要があります。

これらは DALL・E 2 の機能の一部であり、多くの優れたユース ケースがありますが、AI ツールに頼りすぎないようにすることを常にお勧めします。結局のところ、それらは仕事を成し遂げるために使用されるツールにすぎず、人の感情的知性に取って代わることはできません.

また読む: 最高のディープフェイク アプリ、ソフトウェア、ウェブサイト。

DALL E 2とは
人気の投稿