UI と AI の出会い: 画像の実装から学んだ教訓 | 海南フレッシュスタートグループ株式会社

Playkot 2D アーティストの Tatiana Mironova は、スタジオが Spring Valley の UI 要素を作成するために画像生成ツールをパイプラインにどのように実装したかについて詳しく説明しました。このプロセス中にチームが学んだことと、独自のモデルをトレーニングすることの明確な利点と落とし穴は次のとおりです。

タチアナ・ミロノワ

すべては、品質を損なうことなく、現在のタスクに費やす時間を短縮するにはどうすればよいかという全社的な疑問から始まりました。

私たちの多くは、これまで純粋な熱意からディープラーニングモデルや genAI ツールを検討していましたが、AI をプロセスに統合できるかどうかを理解するには、より体系的なアプローチが必要でした。現在、Playkot のほぼすべてのチームが、タスクのためにニューラルネットワークを実験しています。私たちは Slack 上の AI をテーマにしたチャットで経験を共有し、誰かが小さな進歩を遂げたら、そのソリューションを採用します。

それでは、Spring Valley の開発中に UI チームで試したことについて話しましょう。

私は今年の初めからニューラルネットワークについて積極的に調査し始めました。私は 3 ～ 4 日かけてツールを使いこなし、テクノロジとアプローチを理解し、物事の技術的な側面を理解しました。

最初に Midjourney を試してみたのは、それが最もアクセスしやすいオプションであると思われたためです。私たちはすでに実験用の企業アカウントを持っていました。これではアイコン作成の時間を節約できないことがすぐにわかりました。私がテストしていた 4 番目のバージョンでは、画質がまだ不十分でした。新しい 5 番目のバージョンでは、品質は大幅に向上しましたが、私たちのタスクでは、結果には依然として大幅な修正が必要でした。

最大の障害は、Midjourney が私たちの要求するスタイルにマッチしなかったことです。一言で言えば、インターネット全体がアップロードされているため、非常に予測不可能な結果が生成され、自分のスタイルに合わせてトレーニングすることはできません。

それにもかかわらず、Midjourney はコンセプトや個々の要素を生成するための適切な補助ツールであることがわかりました。アイデアを伝達する必要がある場合、またはアイデアを何らかの形式で見つける必要がある場合は、それをうまく処理します。

たとえば、カメオ飾りを作成する必要がありました。生成にしばらく時間を費やしましたが、どの結果も自分に合わないことに気づきました。すべてを 3D で構築するほうが簡単です。しかし、カメオ出演のポートレート自体はまともに見えた。スタイルから目立つものではなかったし、鼻が 2 つも曲がっていなかったし、口も曲がっていなかったので、なぜ使用しないのだろうか?

3D プログラムには、ディスプレイスメントマップと呼ばれるツールがあります。これは、オブジェクトの明るい領域に高さを追加し、暗い領域をインデントします。 Photoshop でミッドジャーニーのカメオをすぐに切り取り、それに独自の素材を適用しました。ポートレートを手で描く必要はありませんでした。当初の計画と同じ時間をアイコンに費やしましたが、カメオ画像はより自然で興味深いものになりました。

そして、これが別の例です。クリスタルで枝を作る必要がありました。それぞれがどのように見えるかを考えるには、かなりの時間がかかります。 Midjourney の例を挙げましたが、このようなクリスタルが大量に生成されました。その後、自分に最も適した世代を選択し、必要なシード (つまり、その世代の変数) をプロンプトに追加し、十分なグラフィック素材をすぐに入手して、最終的にアイコンに使用しました。

それから私は安定拡散の実験を始めました。これにより、すでに作成されたモデルをベースとして取得し、画像を追加して、このデータセット上でトレーニングすることができます。その時点までに、私たちのプロジェクトには、データセットに使用できる、必要なスタイルの優れたアイコンが多数蓄積されていました。

Stable Diffusion には、Dreambooth 拡張機能、ハイパーネットワーク、LoRA などのいくつかのトレーニング方法があります。アイデアは、それぞれをテストして何が機能するかを確認することでした。 LoRA の方が顔やポートレートに適しているため、私たちはすぐに却下しました。ただし、Dreambooth 拡張機能はうまく機能しました。

モデルのトレーニングは危険な作業です。最初は、一度トレーニングを成功させれば、その後はメリットが得られるという欺瞞的な感覚を抱くかもしれません。しかし、どれだけ多くの詳細を考慮する必要があるかに気づき始めると…結果が素晴らしいものではないとわかったら、最初からやり直す必要があります。ほぼすべての AI モデルはビデオカードに非常に負荷がかかるため、コンピューターのビデオメモリが限られている場合、再トレーニングにはさらに 3 時間かかります。その結果、軽微なエラーによってプロセスが延長され、使用に十分な結果が得られるという保証はありません。

一旦トレーニング用のモデルをセットして寝ました。私の計画では、目覚ましをセットして起きて、結果を確認することでした。午前3時に起きたら、かなり立派なチューリップの花束ができました。「ああ、ついに何らかの結果が出た！」と思いました。

これら 3 つのチューリップの画像は、ゲームが努力する価値があることを証明しました。

安定拡散に可能性があることに気づいたとき、プロセスの技術的側面の問題に対処する必要がありました。コンピューターの能力が主な障害となっており、この点でチームの全員が平等な機会を与えられているわけではありません。他社の同僚の経験から、すべての世代が動作するサーバーとして別のコンピュータを割り当てることが有効な方法であることがわかりました。

同時に、私たちは他の AI 愛好家からのさまざまなライフハックを試しました。膨大な数のチュートリアルをレビューし、他の適切なモデルを探しましたが、最終的に別の解決策を見つけました。それは、ゲームアセットに特化した Stable Diffusion ベースのサービスである Scenario.gg です。

より高い技術的能力を備えたサーバーにより、パワーに関する問題が解決されました。また、素晴らしい利点もありました。安定した拡散は、これまで機械学習を詳しく調べたことのない初心者ユーザーにとっては目がくらむかもしれませんが、Scenario.gg のインターフェイスは直観的に理解できるものです。すでに私たちのリクエストに合わせて調整されています。コンセプトアート、イラスト、またはアセット生成のいずれのためにモデルをトレーニングするかを選択できます。

外部サーバーではプロセスが高速化され、最終的にはより一貫した結果が得られるようになりました。元の画像をアップロードし、モデルがトレーニングされたスタイルで結果を取得する、画像から画像への方法が最も効果的でした。この方法が役に立った具体的なタスクについて説明します。

奇妙なことに、作成するのが最も難しいアイコンは、植物、果物、野菜、食べ物、花など、あらゆる種類の有機物です。「たかが花、描くのがそんなに難しいの？」と思うかもしれません。しかし、有機的な形状を構築するには非常に時間がかかります。そして、そこが AI モデルが優れた点です。

私の仕事の 1 つとして、ウェディングブーケを描く必要がありました。その前に、私はすでに花のアイコンからデータセットを収集していました。

img2img メソッドを使用して、参照ブーケをモデルに与え、モデルが分析、処理し、スタイルとマージできるようにしました。

一度に最大世代数を 16 に設定しました。別のタスクに取り組んでいると、膨大な数のオプションが生成されました。それらの中には、形状、質量、色、レンダリングの点で満足のいくものもありました。これらは私が選択した最良の結果です:

ご覧のとおり、花束のリボンは非常にユニークであることがわかりますが、これはまさに手ですぐに修正できるものです。その結果、修正後、ゲームに追加したときの花束は次のようになりました。

目標は達成され、このタスクにかかる時間をほぼ 50% 節約できました。手動でこのような花束を描くのには 8 ～ 10 時間かかりますが、深層学習モデルを使用すると、30 ～ 40 分でアイコンを生成し、最適なものを選択し、最小限の修正を加えて、タスクを 4 時間で完了できます (そうではありません)。データセットのコンパイルにさらに 1 時間を数えます)。

または、これは花の冠です。別のタスクに対処しながらさまざまなオプションを生成するという、非常に緊急のタスクを 4 時間で完了しました。

免責事項: これはすべてのオブジェクトに対してうまく機能するわけではありません。まず、大きな利点は、花の付いた独自のアイコンから優れたデータセットを収集したことです。これは、多様で、優れたレンダリングとフォームを備え、統一されたスタイルで行われています。そして第二に、安定拡散の基本モデルには、おそらくすでに膨大な数の花が含まれています。大まかに言えば、私たちはこの花束の中で最高のものをすべて組み合わせました。

食品も安定拡散に最適なカテゴリーです。ハンバーガーのアイコンを作成する必要があるとします。最初にプロンプトを使用してパラメータを設定しましたが、結果は可能な限り奇妙なものでした。スクリーンショットのトウモロコシの入ったプレートを見てください。

しかし、img2img メソッドはうまく機能しました。適切な写真を見つけてすぐに処理し、安定拡散が参照を必要なスタイルと組み合わせました。

この世代で最も成功した結果を選択しました。もちろん、ここのパティが非常に奇妙であることは明らかであり、ゴマが多すぎます。そして、ゲームデザイナーからのリクエストはベジタリアンバーガーでした。スプリングバレーでは、動物を殺さず、実際に魚を捕らず、肉を食べないというコンセプトがあります。

これらすべてを修正し、アイコンの「ノイズ」を手動で軽減しましたが、それでも約 1 時間半から 2 時間の時間を節約できました。これがゲームに組み込まれた最終バージョンです。

もう一つの成功例はオレンジケーキです。ペストリーのアイコンに基づいて作成したデータセットは次のとおりです。

モデルから得られた結果は次のとおりです。

いくつかの修正を加えた後のケーキは次のとおりです。すでにゲームに組み込まれています。

「安定した拡散 + 強力なサーバーを備えた便利なサービス + img2img メソッド」の組み合わせは、データセットを注意深く厳選し、トレーニングに時間を投資するなどの下調べを行う限り、UI チームにとって大きな変革をもたらす可能性があります。

たとえば、バナナの束を使ったアイコンを作成するよう割り当てられたとします。私たちはすでに適切なデータセットを持っています。ゲームには果物のアイコンがたくさんあります。正しい参照があれば、モデルは優れた予備スケッチを提供します。良好な色の精度、質感、凹凸があり、バナナの上部でさえ緑色です。確かに調整が必要ですが、それほど時間はかかりません。

ここでの唯一の問題は著作権です。認識可能なストック構成を参照として使用する場合は、ライセンスでこの画像の使用が許可されているかどうかを注意深く確認し、クリエイティブコモンズライセンスで代替案を探す必要があります。

たとえば、上のこれらのサクランボは私たちの美学によく適合しており、ここで必要な編集は最小限で済みます。しかし、それらがストック写真から作られているのは簡単にわかります。ほぼ直接一致しています。この場合、アーティストは何をすべきでしょうか? コラージュし、修正し、どの要素を削除できるかを検討し、これを変換して別の結果を実現します。これにもさらに時間がかかります。

この問題の法的側面は、原則として大規模かつ未開発の分野です。たとえば、ニューラルネットワークによって生成されたすべての作品、特に完全にオープンな視聴者向けプラットフォーム Midjourney では、著作権の対象になりません。法的に言えば、ミッドジャーニーに行って、任意の世代を T シャツにプリントして販売したり、ゲームに取り入れたりできるようになりました。そして、誰かがこれが生成された場所を認識し、キーワードからそれを見つけて、自分のゲームで同じイラストを使用したとしたら、誰が正しいでしょうか? この地域での出来事がどのように発展するかを予測するのは困難であり、これはさらに別の潜在的なリスクを表しています。

有機的な形式から遠ざかるほど、結果は悪化する傾向があります。 Stable Diffusion は直線の形状や線を正しく構築するのに苦労しているため、正確な形成が必要なすべてのアイテムについてまともな結果をまだ達成できていません。

私たちは誰しもボトルを何千回も見たことがありますが、人間の目は歪みをすぐに検出します。特にアイコンでは、単一のオブジェクトが正方形に限定されており、ボトルが曲がって見えると、誰もがそれに気づきます。

下のスクリーンショットでは、仕事で使用できる可能性のある要素に紫色のチェックマークを付けています。ただし、これは大部分の世代全体のうちの 3 つのイメージにすぎません。 Photoshop でシェイプを使用して結果を修正する必要があるため、時間を無駄にして何も終わらない可能性が高くなります。このボトルを同じ形状で描画するか、使い慣れたパイプラインに従って 3D モデリングする方が簡単です。

深層学習モデルは反復に優れています。彼らは与えられた要素を繰り返し使用し、特定の形状のボトルに一度遭遇すると、その形状を生成し続け、根本的に新しいものは何も生成しません。

もう 1 つの課題は、モデルに何が表示され、どのように機能するかをモデルに正確に説明することです。さまざまなトレーニング方法がありますが、最も実用的な方法は、アップロードされた画像を分析し、それぞれについてテキストの説明を作成することです。モデルをトレーニングする人は、このテキストファイルを詳しく調べて説明を確認できます。

場合によっては、AI が間違いを犯したり、見ているものを理解しなかったりすることがあります。たとえば、ボトルが実際には透明であるにもかかわらず、テキストには「木のコルクと液体が入った緑色のボトル」と書かれている可能性があります。このまま放置しておくと、緑色のボトルを頼むたびに、何があろうとも透明なボトルを提供し続けることになります。各説明を手動で確認することもできますが、そのような画像が何百枚もある場合はどうなるでしょうか? 微調整のコストは高額です。

大規模なデータセットでの生成が失敗した別の例を示します。ここでは、結果が見た目と一致する場合があることに気づくことができますが、何が描かれているかを理解することはできません。 AI が個々の要素をどこから取得したかは認識できますが。

生成モデルを実験する過程で学んだ教訓は次のとおりです。

要約すると、生成モデルが私たちの代わりに仕事をできるようになるまでにはまだかなり遠いですが、別のツールとして使用することはできます。私たちがすでにかなり得意としている有機的なアイコンに加えて、補助マテリアル、パターン、ポスター、背景、および背景の一部を生成することもできます。これらすべての岩、木、花は通常、非常に時間がかかり、細心の注意を払う必要があります。仕事。必要なスタイルで生成してコラージュする方がはるかに高速です。

これらのアプローチはまだチーム全体に拡張されていないため、プロセスに 100% 組み込まれていません。あらゆる可能性を検討するまでは、この問題に取り組むのは時期尚早であると考えています。しかし、AI モデルにより、アーティストはある意味、より複雑なものを作成できるようになると私は信じています。

タスクを計画するときは、指定された時間枠内で何を達成できるかを見積もります。これは、2 人のカウボーイが登場するミームのようなもので、1 人がマネージャーで、もう 1 人がデザイナーです。「この仕事にどれくらいの時間を費やしますか？」 vs. 「このタスクにはどのくらいの時間を費やす必要がありますか?」同じ時間で、より複雑なものを作成できるようになります。そしてそれは大きな利点です。

共有したい話はありますか? までご連絡ください[メールで保護されています]

[メールで保護されています]