Closed

JPCommunityMgr

Community Manager

•

3.1K Posts

July 27th, 2023 23:00

Dell Project Helix & Generative AI 101 Part 1: Key Concepts

Itzikr's Blog 日本語翻訳版

＊オリジナルブログは以下URLから参照可能です

https://volumes.blog/2023/05/25/dell-project-helix-generative-ai-101-part-1-key-concepts/

デル・テクノロジーズは、NVIDIAと共同で、エンタープライズの顧客に生成型AIを提供する新たなプロジェクトProject Helixを発表しました。

Project Helixは、企業が自社のビジネス知識を活用してカスタムAIモデルを作成し、運用することを可能にするフルスタックソリューションです。このシリーズでは、その発表の詳細に迫りますが、まずは舞台を設定しましょう。

生成型AIを単純な言葉で説明すると？

生成型AIはプロンプト（指示）に対してテキスト、画像、または他のメディアを生成する能力を持つAIシステムの一種です。生成モデルは、入力データのパターンと構造を学習し、その後、訓練データに似てはいますが、ある程度の新規性を持つ新しいコンテンツを生成します。

生成型AIを取り組む上で最も注目されているフレームワークには、生成敵対ネットワーク（GANs）と生成事前学習トランスフォーマー（GPTs）があります。

GPTsはトランスフォーマーアーキテクチャに基づく人工ニューラルネットワークで、ラベルなしの大量のテキストデータによって事前学習され、人間のような新たなテキストを生成することができます。
GANsは、新しいデータサンプルを作成するジェネレーターネットワークと、そのサンプルが実際にあるものか偽物であるかを評価するディスクリミネータネットワークの二つの部分から構成されています。（本シリーズではGANsには焦点を当てません）

生成型AIには、アート、音楽、ライティングなどの創造的な分野だけでなく、ヘルスケア、金融、ゲームなどの分野でも多くの可能性があります。我々は最近のChat GPTやBing Chatのリリースで、これを現実に見てきました。

大きな言語モデル（LLMs：Large Language Models）はどのように関わってくるのでしょうか？

良い質問です！ GPTs（Generative Pre-trained Transformers）は、LLMの一種です。GPTを訓練するために使用されるデータセットは、社内文書、顧客とのインタラクション、公に利用可能な情報など、さまざまなソースから得られます。GPTはこのデータを使用して言語のパターンと構造を学習し、訓練データに似た新しいコンテンツを生成することができます。

GPTは大量のテキストデータを使用して訓練されます。つまり、LLMsは大量のテキストデータに基づいてモデルを訓練した結果と言えます。大言語モデル（LLM）は、多数のパラメーター（通常は数十億かそれ以上の重み）を持つニューラルネットワークで、自己教師あり学習や半教師あり学習を使用して大量のテキストで訓練されます。

LLMs（大きな言語モデル）は2018年頃に登場し、それ以来、さまざまなタスクを良好に実行する能力を持つようになりました。

LLMsは、特定の目的のために訓練されるのではなく、幅広いタスクで優れた性能を発揮する汎用モデルです。彼らは世界についてのかなりの一般的な知識を有し、訓練中に多くの事実を「記憶」することができます。

LLMsはビジネスにどのように役立つのでしょうか？

人工知能（AI）は現代のビジネス運営に不可欠になるでしょう、そして大きな言語モデル（LLMs）は今日利用可能な最も強力なAIモデルの一つとして登場しました。ビジネスケースは、カスタマーサービスのための会話エージェントとチャットボット、音声とビジュアルのコンテンツ作成、ソフトウェアプログラミング、セキュリティ、詐欺検出、脅威検知、自然言語のインタラクション、翻訳などがあります。

LLMsは多くの新たなアプリケーションやビジネスチャンスを可能にする助けとなるでしょう。エンタープライズの顧客はLLMsを利用して、自社のビジネスインテリジェンスを強化し、以前は不可能だった方法でAIの価値を解き放つことができます。

このテクノロジーによって何らかの形で影響を受けないビジネスや社会の領域はほとんどないでしょう。

他のサービスを使用するのではなく、自分でLLMsを開発することを考慮すべき理由は何ですか。

ChatGPT、Google Bard AI、Microsoft Bing Chatなどの公開生成型AIモデルや、その他のより専門的なオファーが興味深いものではありますが、これらのGPTモデルをダウンロードしてさらに訓練/ファインチューニングすることはできません（それらはオープン/オープンソースではありません）。

これらのモデルはいくつかの異なる手段でアクセスすることができます。例えば、OpenAIは開発者が自身のアプリケーションでGPTモデルを使用するためのAPIを提供します（課金されるAPIモデル、トークン、Embeddingなど）。Embeddingsとトークン（単語とその量）は、これらのモデルに対して、あなたの特定のデータに対するコンテキストをさらに提供する手段として利用可能です。

OpenAIやMicrosoftのような企業は、顧客と共に自社のGPT/LLMモデルをオンプレミスで実装するために他の企業と協力し始めており、この流れは急速に進んでいます。しかし、既知のデータセットで訓練されたり、既知の事前学習モデルから開発したり、ファインチューニングしたりして自社の大きな言語モデル（LLMs）を開発する企業の強いニーズもあります。

自社のLLMを開発する利点 - 反復、再訓練、改善

既存のものを使用するのではなく、自社の大規模な言語モデルを開発することは、いくつかの商業的およびビジネス上の利点を提供することができます。ただし、大規模な言語モデルを一から作成するには、リソースと専門知識が必要であることに注意することが重要です。以下に、得ることが出来るであろういくつかの利点を挙げます：

カスタマイズと最適化：自社のモデルを開発することで、特定のデータでモデルを訓練し、独自のビジネスニーズを満たすことができます。業界特有の専門用語、顧客との交流スタイル、あるいは自社の製品やサービスの微妙な違いを理解するように調整することが可能です。
データのセキュリティとプライバシー：サードパーティのモデルを使用する場合、しばしばデータをプロバイダーのサーバーに送信する必要があり、これはプライバシー上の懸念を引き起こすことがあります。自社のモデルを開発することで、データを社内に保持でき、データのセキュリティとプライバシーを強化できます。
アップデートとメンテナンスのコントロール：モデルを所有しているということは、いつどのように更新するかを自分でコントロールできるということで、ビジネスニーズの変化や顧客からのフィードバックに素早く対応できます。
競争優位：ユニークで効果的な言語モデルは、あなたのビジネスを競合から差別化する強力なツールとなり得ます。顧客体験を向上させ、効率を向上させ、さらには販売できる製品やサービスになり得ます。
長期的なコスト削減：初期投資は高いかもしれませんが、長期的にはサードパーティのプロバイダーにライセンス料や使用料を支払わないことで費用を節約できる可能性があります。
知的財産：アルゴリズム、訓練データ、そして結果として得られるモデルは、あなたのビジネスの貴重な知的財産資産となり得ます。

事前学習済みモデルはどうか？

自身の言語モデルを訓練することで、訓練データに対するより大きなコントロールと、モデルを特定のニーズに合わせてファインチューニングする能力を得ることができます。しかし、言語モデルの訓練には大量の計算能力とデータが必要となるため、時間とリソースを大量に消費する可能性があります。

一方で、事前訓練済みの言語モデルを使用すると、時間とリソースを節約することができ、また自然言語処理（NLP）タスクの強固な基盤となります。GPT-3やBERTのような事前訓練済みの言語モデルは大量の高品質なデータで訓練されており、タスク固有のデータが少ない場合でも、特定のタスクに対してファインチューニングすることができます。さらに、事前訓練済みのモデルは、文のエンコーディングや言語翻訳など、すぐに利用可能な一連の機能を持っていることが多いです。

最終的に、自身の言語モデルを訓練するか、事前訓練済みのものを使用するかの決定はニーズとリソースに基づくべきです。もし十分な計算能力と、用途に特化した高品質なデータがある場合は、自身の言語モデルを訓練するのが最善の選択かもしれません。しかし、リソースが限られている場合や、自然言語処理（NLP）タスクの強固な基盤が必要な場合は、事前訓練済みの言語モデルを使用するのが適しているかもしれません。

デル・テクノロジーズはどのようにして協力している？

DellとNVIDIAは、すでにAIと高性能コンピューティングのためのイノベーションをリードしており、この新しい領域で積極的に協力して、顧客がエンタープライズ向けの生成型AIモデルを作成し運用できるようにしています。

Dellは、NVIDIAの計算とインフラストラクチャのアクセラレータを備えた業界をリードするサーバー、データストレージシステム、ネットワーキング、管理、リファレンスデザインを持ち、さまざまなタイプと規模の企業がAIとインフラストラクチャソリューションとの取り組みを支援する経験を持っています。
NVIDIAは、最先端の事前訓練済みの基礎モデル、NVIDIA AIエンタープライズソフトウェア、多数のネットワーク化されたシステムを同時に管理するシステムソフトウェア、そして生成型AIの構築、カスタマイズ、運用に関する専門知識を持っています。

現在、DellとNVIDIAは、Project Helixという新しい生成型AIプロジェクトに取り組んでいます。これは、DellとNVIDIAが共同で取り組むイニシアチブで、世界中のエンタープライズデータセンターに生成型AIを提供することを目指しています。Project Helixは、企業が自社のビジネスの知識をもとにカスタムAIモデルを作成し運用できる、フルスタックのソリューションです。

Dellは、極めてスケーラブルで効率的なインフラストラクチャソリューションを設計しており、これにより世界中の企業が新しい波としてきている生成型AIソリューションを作成することができます。これにより、彼らの業界を再発明し、競争優位を提供することができます。

完全な発表とホワイトペーパーはここで利用可能です

Project Helixの解説

これからのブログシリーズでは、生成型AIとLLMsの世界を探索します。これには、モデルの訓練とファインチューニング、強化学習、一般的なAI訓練と推論が含まれます。

最終的に、このシリーズは、AIモデルの開発と使用に関与する主要な概念の概観を提供することを目指しています。特に、LLMs、そのアプリケーション、そしてDell Technologiesがどのように成功を支えることができるかに焦点を当てています。

パート1：生成的AIとLLMs – 導入と主要な概念（トランスフォーマと訓練タイプ）

私たちはLLMsとGPTの主要な概念、トランスフォーマーについて探求します。トランスフォーマーアーキテクチャの構成、なぜこのアーキテクチャがゲームチェンジャーとなったのか、そして注意すべきビジネスと技術的な課題について説明します。

パート2：LLMの訓練タイプと技術

私たちはLLMsの訓練に焦点を当てます、これには利用可能な訓練の種類とこれらのモデルを作成するために使用されるツールと技術が含まれます。訓練データの収集と処理方法、そして特定のタスクのためのLLMsの微調整の重要性を探求します。

パート3：事前訓練モデルのファインチューニングと転移学習（事前訓練モデルの取り扱い）

私たちは強化学習の世界を深く探ります。これは、報酬やペナルティに基づいてモデルが決定を下すように訓練する機械学習の一種です。私たちは、強化学習がどのようにして運用を最適化し、ヘルスケアや金融などの業界での意思決定プロセスを改善するために使用されるかについて議論します。

パート4：推論

私たちはAIモデルの一般的な訓練と推論について議論します。

パート5：Project Helix - 概観

私たちはDellとNVIDIAが持っている特定の利点を探求し、これがどのようにして企業が特定のビジネス課題を解決するための専用の生成的AIを、オンプレミスで使用できるようにするのかを説明します。

Project Helixがどのようにして、最高のDellのインフラとソフトウェアを基にしたフルスタックの生成的AIソリューションを提供できるのか。
最新のNVIDIAアクセラレータ、AIソフトウェア、AI専門知識を組み合わせて、企業が特定のビジネス課題を解決するための専用の生成的AIをオンプレミスで使用できるようにする。
企業が利用する生成的AIのライフサイクル全体を支援する。これには、インフラのプロビジョニング、大規模モデルの訓練、事前訓練モデルのファインチューニング、複数サイトのモデル展開、大規模モデルの推論が含まれる。
企業の敏感で独自のデータのセキュリティとプライバシーを確保し、政府規制の遵守を保証する。
より安全で信頼性の高いAIを開発する能力を提供する – これは今日の企業にとっての基本的な要求事項である。

いくつかの重要な概念を見てみましょう

自然言語処理（NLP）は、コンピュータと人間間の言語に関する相互作用を扱う人工知能の一分野です。LLMは大規模言語モデルの略で、大量のテキストデータから学習し、自然言語の出力を生成することができるニューラルネットワークの一種を指します。GPT（最も一般的なトランスフォーマーモデルの一つ）はGenerative Pre-trained Transformerの略で、予め訓練された生成型トランスフォーマーを意味します。

トランスフォーマーは、self-attentionと呼ばれるメカニズム（この部分は重要なので、後で説明します）を使って、自然言語のような順序データを処理できるニューラルネットワークの一種です。

トランスフォーマーのアーキテクチャについて説明する前に、パラメータについて見てみましょう。

トランスフォーマーとは何ですか？「Attention is All You Need」

「トランスフォーマー」はディープラーニングの分野、特に自然言語処理（NLP）のタスクに用いられるモデルのアーキテクチャの一種です。これは2017年のVaswaniらによる論文「Attention is All You Need」で紹介されました。それ以来、元のトランスフォーマーモデルに対する数々のバリエーションと改善が導入されてきました。

標準的なトランスフォーマー：「Attention is All You Need」の論文で紹介されました。標準的なトランスフォーマーモデルは、self-attention（またはscaled dot-product attention）と呼ばれるメカニズムを使用し、エンコーダ-デコーダの構造を持っています。
BERT（Bidirectional Encoder Representations from Transformers）：Googleが開発したBERTは、一度に全ての単語列を読み込むテキスト分類タスク用のトランスフォーマーで、双方向性を持っています。これにより、モデルはテキスト内の過去と未来の単語の両方から文脈を学習することができます。
GPT（Generative Pretrained Transformer）：OpenAIが開発したGPTは、大規模で教師なしのトランスフォーマーベースの言語モデルです。BERTとは異なり、これは自動再帰モデルで、左から右へと順番にテキストを生成します。
Transformer-XL（Transformer with Extra Long context）：このバリエーションは、トランスフォーマーモデルに再帰メカニズムを導入して長期的な依存性を扱うことができ、テキスト生成のようなタスクにより適しています。
RoBERTa（Robustly Optimized BERT approach）：RoBERTaは、モデルアーキテクチャと訓練アプローチの主要なハイパーパラメーターを変更したBERTのバリエーションです。Next-sentence pretraining objectiveを削除し、はるかに大きなミニバッチと学習率で訓練します。
T5（Text-to-Text Transfer Transformer）：GoogleのT5は、すべてのNLPタスクを統一されたテキストto テキスト形式に投影するトランスフォーマーモデルです。これにより、モデルは翻訳、要約、分類などの異なるタスクを処理する場合でも、同じアプローチを使用することができます。
DistilBERT：これは、BERTのより小さく、より速く、より安価で、より軽いバージョンです。BERTの性能の95%を保持しながら、サイズが60%小さく、速度も60%になっています。
ALBERT（A Lite BERT）：ALBERTは、レイヤー間でパラメーターを共有することによりモデルサイズを削減する（しかしモデルのアーキテクチャは変更しない）BERTの別のバリエーションです。また、文の順序予測のための新たな自己教師付きロスを導入します。
リストは続きます……（Hugging Face、Lamaなど）

推論中に、トランスフォーマーモデルは入力シーケンス（例えば、自然言語の文）を取り込み、対応する出力シーケンス（例えば、異なる言語で翻訳された文）を生成します。トランスフォーマーモデルのAttention機構は、より正確な出力シーケンスを生成するために、入力シーケンスの最も関連性の高い部分に焦点を当てるのに役立ちます。

トランスフォーマーアーキテクチャは何から構成されていますか？

トークン：自然言語処理（NLP）とトランスフォーマーの文脈では、トークンはモデルが理解し処理できる最小の言語単位です。これらは、単一の文字から全単語、ある言語ではそれ以上まで範囲が広がります。
エンベディング：テキストがトークンに分割されたら、これらのトークンを数値的に表現し、モデルがそれらを処理できるようにする方法が必要です。これはエンベディングを通じて行われ、これは訓練中にモデルによって学習されます。エンベディングは、似たような単語が似たようなエンベディングを持つような高次元空間（この投稿の範囲をはるかに超えています！）でトークンをベクトルとして表現します。
位置エンコーディング：トークンのエンベディングに加えて、トランスフォーマーは単語の順序を捉えるために位置エンコーディングを使用します。これは重要です。なぜなら、RNNやLSTMのようなモデルとは異なり、トランスフォーマーはトークンを順序付けて処理しないからです。そのため、彼らは単語の順序を理解するための別の方法が必要です。
Self-Attention機構：これはトランスフォーマーアーキテクチャの重要な部分です。モデルが文中の他のすべてのトークンの文脈で各トークンの重要性を評価することを可能にします。モデルが、単語間の文脈と関係を理解するのを助けます。
レイヤー：トランスフォーマーモデルは、self-attention機構とfeed-forwardニューラルネットワークからなる複数のレイヤーで構成されています。一つのレイヤーからの出力は次のレイヤーへの入力として供給され、モデルがトークン間の複雑な関係を学習することを可能にします。
訓練とファインチューニング：トランスフォーマーは2つのステップで訓練されます。まず、一般的な言語理解を学ぶために大規模なデータセットで事前に訓練されます。この段階では、モデルは重みとエンベディングの両方を学習します。次に、タスク特化の小さなデータセットでファインチューニングされます。ファインチューニング中に、モデルは重みとエンベディングを更新して特定のタスクにより適合するようにします。
トークン制限：self-attention機構がトークン数に応じて計算コストを増加させるため、トランスフォーマーは最大のシーケンス長、つまりトークン制限を持っています。これはアーキテクチャの基本的な側面であり、これらのモデルを扱う際に考慮するべきことです。

パラメータ

トランスフォーマーを含む機械学習モデルのパラメータとは、モデル訓練中にデータから学習される部分のことを指します。トランスフォーマーには、主に重みとバイアスという2つのタイプのパラメータがあります。

重み：これは、各入力特徴、つまりこの場合はエンベディングの各要素の値が出力にどれだけ貢献するかを決定する値です。例えば、self-attention機構では、重みはattentionスコアを計算するために使用されます。これらのスコアは、他の単語に対するその単語の影響力を考慮したときに各単語に割り当てられる重みそのものです。訓練中にモデルの重みが調整され、モデルの予測と実際の値との差が最小になるようにします。
バイアス：これらは、入力の重み付き和の出力に追加される別のパラメータです。これにより、出力は入力値に関係なく定数値だけシフトすることが可能となります。重みと同様に、バイアスも訓練中に学習されます。

重みとバイアスの組み合わせがモデルの学習パラメータを形成します。学習過程では、これらのパラメータを反復的に調整して訓練データに対するモデルの誤差を減らします。モデルが訓練されると、これらのパラメータは新たな未見のデータに対する予測を行うために使用されます。

トランスフォーマーモデルでは、重みとバイアスはself-attention層やfeed-forwardニューラルネットワークなどの様々な部分に存在します。エンベディングもまた、訓練中に学習されるモデルのパラメータです。

大規模なトランスフォーマーモデルでは、パラメータは数億、あるいは数千億にも及ぶことがあります。これらの大量のパラメータは、モデルがデータの複雑なパターンを捉えることを可能にしますが、それと同時に訓練の計算コストを増加させ、過学習を避けるために大量のデータが必要となります。

最初のGPTモデルは2018年に導入され、パラメータは1億1700万でした。それ以降、OpenAIはGPT-2（パラメータ15億）、GPT-3（パラメータ1750億）、GPT-4（パラメータ50兆）など、より多くのパラメータと機能を持つGPTの改良版をいくつかリリースしています。その他の組織も、EleutherAIのGPT-Neo（パラメータ27億）、CerebrasのCS-1（パラメータ120兆）、SalesforceのEinsteinGPT（CRM向け）、BloombergのBloombergGPT（金融向け）など、自社のGPTインスパイアドモデルを作成しています。

トランスフォーマーは何故LLMsにとって画期的だったのか？

スケーラビリティ：トランスフォーマーの主な利点の一つは、そのスケーラビリティです。トランスフォーマーは複数のGPUに並列化することができるため、伝統的なリカレントニューラルネットワーク（RNN）と比較して、はるかに大規模なモデルの訓練が可能となります。トランスフォーマーは、機械翻訳、感情分析、質問応答システムなど、幅広いNLPタスクにおいて最先端のパフォーマンスを達成することにつながっています。

転移学習：（以下に示します）、（これについてはここで詳しく説明しています）トランスフォーマーは大量のテキストデータで事前訓練を行い、特定のタスクに対してファインチューニングを行うことができます。これにより、比較的少量のタスク特有のデータで、様々なアプリケーションに対して高性能なモデルを開発することが容易になりました。

その多様性が道を開いた：トランスフォーマーは、GPTやBERT（Bidirectional Encoder Representations from Transformers）のようなLLMの道を開きました。これらのモデルは、人間のようなテキストを理解し生成する驚くべき能力を示しています。
実世界への応用：トランスフォーマーは、チャットボット、仮想アシスタント、コンテンツ生成などの多くの実世界への応用を生み出し、それらをAIランドスケープの重要な一部にしています。

より良い判断を下すために

これらの詳細について理解（または深い知識）がなくても、言語モデルを開発することは確かに可能です。しかし、これらを理解していると、問題を解決し、より情報に基づいた決定を下し、より効果的なモデルを作成できる可能性があります。

自分の言語モデルを構築する予定がある、または事前訓練されたモデルから始める予定がある場合、トランスフォーマーのアーキテクチャを理解することは非常に役に立ちます。それが問題解決、パラメータチューニング、モデルのカスタマイズ、または最新のNLPに追いつくためであろうと、これらのモデルの内部構造を知ることで貴重な洞察を得ることができます。

さらに、もしもエンタープライズのデータを活用したい場合には、特定のデータに事前訓練されたモデルをファインチューニングしたり、最初からモデルを訓練したりすることができます。また、構造化データと非構造化データを組み合わせ、ナレッジグラフを作成したり、データの性質と具体的な使用ケースに応じてハイブリッドアプローチを採用したりすることも可能です。

LLMは、自然言語処理などの領域で驚異的な能力を示した強力なAIモデルです。その成功の大部分は、トランスフォーマーのアーキテクチャによるもので、これによりモデルはテキストのような順序データの長期依存関係を効果的に捉えることができます。

次の投稿では、LLMの事前訓練の種類と技術を見てみましょう。

翻訳者：Uehara Y.

View All

No Events found!

ストレージ Wiki

Dell Project Helix & Generative AI 101 Part 1: Key Concepts