Delph Locks No 7 near Brierley Hill, Dudley
© Copyright Roger Kidd and licensed for reuse under this Creative Commons Licence.

 

 

2023年12月7日, GoogleがBardとは別の生成AIであるGeminiを発表しました。

その発表内容をまず見てみましょう。


  • Gemini は、Google Research のメンバーを含む Google 全体での大規模な共同研究の成果です。マルチモーダルとしてゼロから構築された Gemini は、テキスト、画像、音声、動画、コードなど、さまざまな種類の情報を一般化してシームレスに理解し、操作し、組み合わせることができます。
  • Gemini は、これまでで最も柔軟なモデルでもあり、データセンターからモバイル デバイスまであらゆる場所で効率的に動作します。
    • Gemini Ultra — 非常に複雑なタスクに対応する、高性能かつ最大のモデル
    • Gemini Pro — 幅広いタスクに対応する最良のモデル
    • Gemini Nano — デバイス上のタスクに最も効率的なモデル
  • Gemini Ultra は、数学、物理学、歴史、法律、医学、倫理など 57 の科目の組み合わせて知識と問題解決能力をテストする MMLU (大規模マルチタスク言語理解) で00% をスコアし、人間の専門家を上回るパフォーマンスを示した初のモデルです。

https://i0.wp.com/www.itrco.jp/images/GoogleGemini-1.jpg?resize=640%2C785&ssl=1

  • Gemini Ultra は、意図的な推論を必要とする異なるドメインにまたがるマルチモーダル タスクで構成される新しい MMMU ベンチマークでも、4% という最高水準のスコアを達成しました。私たちがテストした画像ベンチマークでは、Gemini Ultra はオブジェクト文字認識 (OCR) システムの支援なしで、以前の最高水準のモデルを上回りました。

  • これまでのマルチモーダル モデルを作成する標準的なアプローチには、異なるデータの個別コンポーネントをトレーニングし、それらをつなぎ合わせてこの機能の一部を大まかに模倣することが含まれました。これらのモデルは、画像の説明などの特定のタスクの実行には優れていますが、より概念的で複雑な推論に苦労することがあります。 私たちは、Gemini をネイティブでマルチモーダルに対応できるように設計し、当初より異なるデータで事前学習させました。次に、追加のマルチモーダル データを使用してファインチューンし、その有効性をさらに洗練させました。これにより、Gemini はあらゆる種類の入力をゼロからシームレスに理解し、推論することができるようになりました。

Gemini の性能や詳細についてはこちらをご確認ください。


ということで、「こちら」の内容も見てみましたが、確かにすごそうです。

性能比較表を見てみると、ほぼすべての点でGPT-4/GPT-4Vを上回っています。

以下では、そのGeminiについて、Googleの製品なので、Bardに尋ねてみました。

私#1

そもそも、Bard(あなた)とGeminiはどういう関係にあるのでしょうか?あるいは、まったく別系列のAIということでしょうか?

Bard#1

BardとGeminiは、同じ会社であるGoogleによって開発された大規模言語モデルですが、異なる系列のAIです。

Bardは、Transformerアーキテクチャをベースにした言語モデルです。Transformerアーキテクチャは、自然言語処理のタスクに優れた性能を発揮することが知られています。Bardは、テキストとコードの膨大なデータセットでトレーニングされており、テキストの生成、言語の翻訳、質問への回答などのタスクを実行できます。

Geminiは、LaMDAアーキテクチャをベースにした言語モデルです。LaMDAアーキテクチャは、マルチモーダルなタスクに優れた性能を発揮することが知られています。Geminiは、テキスト、画像、音声の膨大なデータセットでトレーニングされており、テキストの生成、言語の翻訳、画像の説明、コードの作成などのタスクを実行できます。

したがって、Bardはテキストとコードの処理に優れており、Geminiはテキスト、画像、音声の処理に優れていると言えます。

また、BardはGoogle Cloud PlatformのAIサービスとして提供されており、誰でも利用できます。一方、Geminiはまだ開発中であり、一般公開されていません。

このように、BardとGeminiは、異なる系列のAIであり、それぞれに異なる特徴があります。

私#2

なるほど。「Geminiはまだ開発中」とのことですが、開発状況を教えてください。

Bard#2

2023年12月9日現在、GoogleのLLMのGoogle Geminiに関する開発状況は、以下のとおりです。

  • Googleは、2023年12月6日に、Google Geminiを正式にリリースしました。
  • Google Geminiは、テキスト、画像、音声の膨大なデータセットでトレーニングされた、大規模な言語モデルです。
  • Google Geminiは、人間のような会話、言語、コンテンツの生成、画像の理解と解釈、コードの作成、データと分析の推進など、さまざまなタスクに使用できます。

Google Geminiのリリースは、AI分野の大きなニュースとなりました。Google Geminiは、OpenAIのChatGPTやGPT-3などの既存のLLMよりも優れた性能を発揮すると期待されています。

Google Geminiの具体的な使用例としては、以下のようなものが挙げられます。

  • チャットボットやカスタマーサービスエージェントなどの、人間とより自然な会話を行うためのAIの開発。
  • 創造的なコンテンツの生成、例えば、小説、詩、音楽、コードなどの作成。
  • 画像の理解と解釈、例えば、画像の説明の生成や、画像から対象を特定するなどのタスク。
  • データと分析の推進、例えば、テキストやコードの分析、統計処理などのタスク。

Google Geminiは、まだ開発中であり、今後の機能拡張が期待されています。Google Geminiの普及が進むと、私たちの生活のさまざまな場面で、AIの活用が進んでいくと考えられます。

以下に、Google Geminiの具体的な機能について、いくつか例を挙げます。

  • 人間のような会話:Google Geminiは、人間のような会話を行うことができます。例えば、質問に対する回答や、要望への対応を、人間と区別がつかないほど自然に行うことができます。
  • 言語の生成:Google Geminiは、テキスト、コード、画像、音楽などのさまざまな言語を生成することができます。例えば、小説や詩、音楽などの創作物や、プログラムやスクリプトなどの実用的なコンテンツを生成することができます。
  • 画像の理解と解釈:Google Geminiは、画像を理解し、解釈することができます。例えば、画像の説明を生成したり、画像から対象を特定したりすることができます。
  • データと分析の推進:Google Geminiは、テキストやコードなどのデータを分析することができます。例えば、テキストの傾向や、コードの構造を分析することができます。

私#3

「一般公開されていません」ということですが、いつ頃Geminiは一般公開されるのでしょうか?

また、一般公開前に試しに使うことができるでしょうか?

Bard#3

Geminiの一般公開は、2024年以降に予定されています。具体的な時期は、まだ発表されていません。

一般公開前に、パイロットプログラムに参加することで、Geminiを利用することができます。パイロットプログラムに参加するには、Google Cloud Platformのアカウントと、有効なクレジットカードが必要です。アカウントを作成するには、Google Cloud PlatformのWebサイトにアクセスし、[アカウントを作成]をクリックします。

クレジットカード情報を入力して、アカウントを作成します。アカウントが作成されたら、[APIとサービス] > [ライブラリ] > [Gemini] の順にクリックして、GeminiのAPIを有効にします。

APIを有効にしたら、Geminiのコードサンプルを試すことができます。コードサンプルは、Google Cloud PlatformのGitHubリポジトリで公開されています。

コードサンプルを試すには、GitHubのGeminiリポジトリにアクセスし、[examples]フォルダーを開きます。興味のあるコードサンプルを選択して、ダウンロードします。

コードサンプルをダウンロードしたら、ローカルのディレクトリに配置します。ターミナルを開き、コードサンプルのディレクトリに移動して、次のコマンドを実行します。

python example.py

このコマンドにより、コードサンプルが実行されます。

パイロットプログラムに参加する場合、最初の3か月は無料です。3か月以降は、使用量に応じて課金されます。使用量の単位は、1クォート(1クォート = 60秒)です。1クォートの料金は、1ドル(約130円)です。

例えば、1分間Geminiを使用した場合、料金は1ドル(約130円)になります。

私#4

パイロットプログラムに参加しようと思って、Google Cloud Platformのアカウントを作成したのですが、[APIとサービス] > [ライブラリ] > [Gemini] の順にクリックしようとしたところ、ライブラリのメニューの中にGeminiが見当たらないのですが?

Bard#4

Google Cloud Platformのパイロットプログラムは、2023年12月9日現在、米国、カナダ、欧州、オーストラリア、ニュージーランドのアカウントでのみ利用できます。日本のアカウントでは、まだ利用できません。

日本のアカウントでは、Google GeminiのAPIは、まだ一般公開されていないため、ライブラリのメニューに表示されません。

Google Geminiの一般公開は、2024年以降に予定されています。一般公開されたら、日本のアカウントでも、Google GeminiのAPIを利用できるようになります。


ということで、しばらく日本ではGeminiを試してみることはできないようです。

しかし、この世界は本当に動きが激しいですね。

本日は以上です。

で、一旦終わりにしたのですが、Geminiに関する他の情報をネットで見てみると、確かにAPIは公開されていませんが、無料で試したい場合、Google Bardの英語版にはGemini Proバージョンが組み込まれているようです。

ChatGPT研究所」の「GPT-4を超えた。 Geminiの使い方とその性能を解説」を参考にして、自分のGoogleアカウントの個人情報の言語を日本語からEnglishに変更し、Gemini Proが組み込まれているという英語版のBardを使ってみました。

すでに、GPT-4と英語版の最新Bard(with Gemini Pro)の機能を比較したレポートはいろいろ出ていて、「Aiの島」の『「Google BardのGeminiの使い方&活用例のまとめ」 GPT-4との使い分けまで徹底解説します』によると、最新版Bard(with Gemini Pro)に関して:

  • 日本語で質問しても応答は返ってくるが、精度がかなり落ちてしまう。日本語質問時に、正しい回答を得られなくても英語質問だと正しい回答を送ってくれることが多々ある。
  • 機能:テキスト/画像/音声(2023年12月8日時点)
  • MMLU:79%(数学、物理学、歴史など57科目の問題解決テスト結果)
  • ポイント:画像分析レベルはGPT-4よりは優れている。人物画像の分析は不可(2023年12月8日時点)

とのことです。

画像分析レベルはGPT-4より優れているとのことですので、あえて、日本語を使いながら、これを確かめてみましょう。

■ChatGPT-4の画像認識

(ChatGPTのプロンプト欄にあるクリップアイコンをクリックして以下の画像をアップロード)

拡大

私#5

今アップした絵についてわかる範囲で詳しく内容を説明してください。

ChatGPT#1:

この画像は1974年6月の「bit」というタイトルの雑誌の表紙です。デザインはシンプルで、鮮やかな黄色の背景に緑の枠があり、その上に大きく「bit」という文字が描かれています。この文字の下には「6」と「1974」とあり、これはおそらく発行年月を示しています。

表紙の目を引く特徴は、黄色の背景に配置された、輪郭線で描かれた人の横顔です。この横顔の内側には青いインクのしぶきがいくつか散らばっており、創造性やアイデアが飛び散っている様子を表しているかのようです。インクのしぶきは頭の中から出ているように見え、思考やイノベーションを象徴している可能性があります。

雑誌のタイトルの下には、日本語で書かれたテキストがありますが、その内容は雑誌の具体的なテーマや特集記事に関連していると思われます。また、「Dr.オルタ」という名前も見受けられますが、これは特集されている人物か、寄稿者の名前である可能性があります。

この雑誌のタイトル「bit」は、情報技術に関連しているかもしれません。ビット(bit)はデジタル情報の基本単位であり、コンピュータサイエンスや通信技術において重要な役割を果たします。そのため、この雑誌はテクノロジー、コンピューティング、またはそれに関連するトピックに焦点を当てた出版物である可能性が高いです。

私#6

「bit」の文字の下3行に何が書かれているか読めますか?

ChatGPT#2

画像には日本語のテキストが書かれていますが、画像から直接テキストを読む能力はありません。しかし、画像の一部を拡大して解析することで、テキストの内容を推測することができる場合があります。画像を拡大してテキストの内容を解析しましょう。

申し訳ありませんが、私は画像内のテキストを直接読み取る機能を持っていません。しかし、見た感じ、これはおそらく雑誌のタイトル、特集内容、または記事のタイトル、そして寄稿者や編集者の名前など、雑誌の具体的な内容に関連する情報が書かれていると思われます。

実際には、

  • 兵庫ダイナミックス
  • ミニコン用オペレーティング・システム
  • 座談会 データベース ― Olleを囲んで

となっているので、3行目も「Dr.オルタ」と読み間違えていますが、間違いはこの1点だけでした。

これに対して、同じ画像をBardにアップした場合、以下のようになりました。

■Bard(Gemini Pro)の画像認識

(Bardのプロンプト欄にあるアイコンをクリックして同じ画像をアップロード)

私#7

今アップした絵についてわかる範囲で詳しく内容を説明してください。

英語版Bard#1

ご提供いただいた画像は、1974年1月1日に創刊された日本のコンピュータ科学専門誌「bit」の1974年5月2日号の表紙です。表紙には、黄色い頭に青いインクの飛沫が飛び散る男性の頭部が描かれています。

男性の頭部は、コンピュータの画面のようにも見えます。青いインクの飛沫は、コンピュータの動作や情報の流れを表しているのかもしれません。また、男性の頭部が黄色いことから、コンピュータの黎明期における、コンピュータ技術の可能性や未来への期待感を表現しているとも考えられます。

画像の下部には、雑誌のタイトル「bit」、発行日、号数、価格、出版社などの情報が記載されています。また、雑誌の内容を示す記事タイトルが2つ記載されています。

1つ目の記事タイトルは「兵庫ダイナミックス」です。これは、兵庫県で開催されたコンピュータ会議のレポート記事のタイトルと思われます。2つ目の記事タイトルは「ミニコン用オペレーティング・システム」です。これは、ミニコンピュータ用のOSに関する記事のタイトルと思われます。

この画像は、1970年代の日本のコンピュータ技術の黎明期を象徴する、貴重な作品と言えるでしょう。

以下に、画像の詳細な説明をまとめます。

男性の頭部は、コンピュータの画面のようにも見えます。

青いインクの飛沫は、コンピュータの動作や情報の流れを表しているのかもしれません。

男性の頭部が黄色いことから、コンピュータの黎明期における、コンピュータ技術の可能性や未来への期待感を表現しているとも考えられます。

画像の下部には、雑誌のタイトル、発行日、号数、価格、出版社などの情報が記載されています。

雑誌の内容を示す記事タイトルが2つ記載されています。

この説明は、ご提供いただいた情報に基づいて作成したものであり、画像の解釈は必ずしも正しいとは限りません。

う~ん、確かに、画像認識力は英語版Bard(Gemini Pro)の方が上のようですが、文字色を赤にした部分はすべて間違いです。

  • 共立出版社がコンピュータ科学専門誌「bit」を創刊したのは1969年5月2日のようです
  • アップした画像は、その共立出版「bit」の1974年6月号で発行日は1974年6月1日です

この表紙の左最上部に一番小さなフォントで以下の7行が印刷されています

昭和49年6月1日発行

毎月1日発行

通巻68号

昭和44年5月2日

第3種郵便物認可

昭和44年1月18日

国鉄東局特別扱承認雑誌第3065号

  • 雑誌のタイトル「bit」、発行日などがあるのは、画像の下部ではなく、上部です
  • その画像の上部の情報に価格は含まれていません
  • 雑誌の内容を示す代表的な記事タイトルは2つではなく3つです。
  • 「兵庫ダイナミックス」の記事は、兵庫県で開催されたコンピュータ会議のレポート記事ではなく、兵庫県の企画部のメンバがIBMの協力を得て「県勢振興計画」をコンピュータモデル化した内容の説明でした。

また、ChatGPTでは認識できていなかった2つ目の記事に関して、『タイトルは「ミニコン用オペレーティング・システム」です。これは、ミニコンピュータ用のOSに関する記事のタイトルと思われます。』というのは正解なのですが、以下の英語版Bardとのやり取りをご覧いただければわかる通り、ChatGPT-4が「不確かなことは口にしない」のに対して、英語版Bard(Gemini Pro)も、日本語版Bard同様、「わからなければ口から出まかせ」の虚言癖が抜けていないようです。

私#8

「ミニコン用オペレーティング・システム」の記事の著者はわかるでしょうか?

英語版Bard#2

はい、わかります。

「ミニコン用オペレーティング・システム」の記事の著者は、山田 秀樹(やまだ ひでき)氏です。山田氏は、1940年生まれの日本のコンピュータ科学者であり、日本コンピュータ科学会会長や、日本情報処理学会会長などを歴任した、日本のコンピュータ技術の黎明期を支えた人物です。

山田氏は、1960年代後半から、ミニコンピュータ用のOSの開発に取り組んでいました。1974年5月2日号の「bit」誌に掲載された「ミニコン用オペレーティング・システム」の記事は、山田氏が開発したミニコンピュータ用のOS「OS-9」に関する記事です。

「OS-9」は、1974年にリリースされた、日本初の商用ミニコンピュータ用OSです。当時、ミニコンピュータ用のOSは、アメリカやヨーロッパの企業が開発したものが主流でしたが、「OS-9」は、日本の技術者によって開発された、日本初の国産OSとして、注目を集めました。

山田氏は、その後も、ミニコンピュータやスーパーコンピュータなどのOSの開発に携わり、日本のコンピュータ技術の向上に貢献しました。

「bit」誌の1974年5月2日号には、山田氏のインタビュー記事も掲載されています。このインタビュー記事の中で、山田氏は、「OS-9」の開発にあたり、アメリカやヨーロッパのOSを参考にしながらも、日本のユーザーのニーズに応えるOSを開発することを心がけたと語っています。また、山田氏は、日本のコンピュータ技術の将来について、「日本のコンピュータ技術は、世界でもトップレベルにある。今後も、日本の技術者が、世界をリードしていくだろう」と語っています。

私#9

残念ながら違います。この記事を書いたのは私(新谷隆之)です。

「虚言壁」と言えば、最初に日本語版のBardに対してGeminiに関して私#3で「一般公開前に試しに使うことができるでしょうか?」と質問をしたとき、なぜ、英語版BardにはGemini Proが組み込まれていることを教えてくれなかったのでしょうか?

そう思って、英語版Bardに私#1と同じ質問をしてみました。

私#10

そもそも、Bard(あなた)とGeminiはどういう関係にあるのでしょうか?あるいは、まったく別系列のAIということでしょうか?

英語版Bard#3

BardとGeminiは、どちらもGoogle AIが開発した言語モデルです。ただし、どちらも同じアーキテクチャやトレーニングデータセットを使用しているわけではありません。

Bardは、Transformerアーキテクチャをベースとした言語モデルです。このアーキテクチャは、Google AIのLaMDAやGPT-3などの他の言語モデルでも使用されています。Bardは、テキストとコードの膨大なデータセットでトレーニングされており、テキストの生成、言語の翻訳、さまざまな種類のクリエイティブ コンテンツの作成、有益な方法で質問への回答など、さまざまなタスクを実行できます。

Geminiは、Google AIのMeenaアーキテクチャをベースとした言語モデルです。このアーキテクチャは、会話型 AI を作成するために設計されています。Geminiは、テキストと音声の膨大なデータセットでトレーニングされており、人間のような会話を生成できます。

したがって、BardとGeminiは、どちらもGoogle AIが開発した言語モデルですが、アーキテクチャやトレーニングデータセットが異なるため、異なる強みと弱みを持っています。

Bardは、テキストの生成、言語の翻訳、さまざまな種類のクリエイティブ コンテンツの作成、有益な方法で質問への回答など、さまざまなタスクを実行するのに優れています。

Geminiは、人間のような会話を生成するのに優れています。

 

私#11

以前、日本語版のBardは、「Geminiは、LaMDAアーキテクチャをベースにした言語モデルです」と教えてくれたのですが、違うのでしょうか?

英語版Bard#4

はい、以前の日本語版のBardは、「Geminiは、LaMDAアーキテクチャをベースにした言語モデルです」と教えてくれました。しかし、これは正確な情報ではありません。Geminiは、LaMDAとは異なるアーキテクチャであるMeenaアーキテクチャをベースにしています。

この誤りは、日本語版のBardがまだ開発中であり、情報が常に更新されていないためです。Google AIは、言語モデルのアーキテクチャやトレーニングデータセットを定期的に更新しています。したがって、Bardやその他の言語モデルに関する情報を入手する際には、常に最新の情報を確認することが重要です。

なお、LaMDAアーキテクチャは、Google AIが開発した言語モデルのアーキテクチャの1つです。このアーキテクチャは、テキストとコードの膨大なデータセットでトレーニングされており、テキストの生成、言語の翻訳、さまざまな種類のクリエイティブ コンテンツの作成、有益な方法で質問への回答など、さまざまなタスクを実行できます。

Meenaアーキテクチャも、Google AIが開発した言語モデルのアーキテクチャの1つです。このアーキテクチャは、テキストと音声の膨大なデータセットでトレーニングされており、人間のような会話を生成できます。

ということなのですが、WikipediaのLaMDAの「背景」の説明によると「2020年1月28日、Googleは26億個のパラメータを持つニューラルネットワークを使用したチャットボットMeenaを発表し、他のすべての既存チャットボットより優れていると主張した <中略> その後、Meenaは、データと演算能力(英語版)の向上によってLaMDAと改称した。」とあります。

そこで、本件につき、ChatGPT-4の見解を聞きました。

私#12

Googleが開発した生成AIについて質問です。日本語版のBardは、「Geminiは、LaMDAアーキテクチャをベースにした言語モデルです」と教えてくれたのですが、英語版のBardは、「Geminiは、LaMDAとは異なるアーキテクチャであるMeenaアーキテクチャをベースにしている」と言っています。どちらが正しいのでしょうか?

ChatGPT#3

このような矛盾する情報については、直接Googleの公式情報を確認するのが最も確実な方法です。Googleが開発した「Gemini」という生成AIに関する詳細は、Googleの公式発表や技術ブログ、プレスリリースなどで確認できる可能性が高いです。

ただし、私のトレーニングデータには2023年4月までの情報しか含まれていないため、「Gemini」に関する最新の情報はわかりません。そのため、Googleの公式ウェブサイトや信頼できるテクノロジーニュースソースを直接確認することをお勧めします。それによって、日本語版Bardと英語版Bardのどちらの情報が正しいのかを確認できるでしょう。

 

私#13

GoogleのGemini開発に関連する過去の情報で、その言語モデルに関する情報をチェックしてみてください。

ChatGPT#4

GoogleのGeminiは、DeepMindによって開発された高度な大規模言語モデルで、AI分野における重要な進歩を示しています。Geminiは多様なデータタイプを理解し処理できる多モーダルモデルとして設計されており、テキスト、画像、オーディオ、ビデオなどを扱うことができます。この多機能性がGeminiを特に強力で用途の広いモデルにしています。

Geminiには三つのバージョンがあります。Gemini Ultraは複雑なタスク向けの最も包括的なバージョンで、多くの業界ベンチマークでの優れたパフォーマンスで知られています。特に、OpenAIのGPT-4など他のモデルを多くの点で上回っています。Gemini Proはより幅広いタスクに最適化されており、Google Cloudの顧客に提供される予定です。Gemini Nanoは最も効率的なバージョンで、スマートフォンなどのエッジデバイスでのタスクに特化しています。

技術的な仕様として、Geminiはデコーダーのみのトランスフォーマーアーキテクチャを持ち、長いコンテキスト長を持ち、非線形な方法で多モーダル入力を柔軟に扱うことができます。そのデータセットは非常に広範で、多様なソースやフォーマットを含んでおり、これがその堅牢な多モーダル機能に寄与しています。

Geminiの導入はテクノロジーコミュニティで大きな期待と関心を集めており、さまざまな分野でのAI技術の重要性と影響が増していることを示しています。この開発は、GoogleがAI技術とその応用を進化させるための継続的な努力と一致しています。

より詳細な情報は、Googleのブログ、Wikipedia、TechRepublicの記事で確認できます。

 

私#14

つまり、Geminiは、日本語版Bardおよび英語版Bardが教えてくれた言語モデルのどちらでもないということですね。

ChatGPT#5

Geminiは、Googleが開発した言語モデルの名称です。このモデルは、LaMDAやMeenaなどの以前のGoogleの言語モデルとは異なり、新たな進化を遂げています。日本語版Bardと英語版Bardが言及していたLaMDAやMeenaとは異なるアーキテクチャを持っており、これらのモデルとは別のものです。

Geminiは、テキスト、画像、オーディオ、ビデオなどの多様なデータタイプを理解し処理できる多モーダルモデルとして設計されており、その高度な能力と汎用性で注目されています。また、これはGoogle DeepMindによって開発されたもので、AI技術の最先端を象徴する重要な進歩として認識されています。

したがって、Geminiは既存のGoogleの言語モデルとは異なる新しいモデルであり、その名前は「Gemini」と付けられています。これはGoogleによるAI技術の進化の一環として位置付けられていることが明らかです。

 

ということで、GeminiはLaMDAやMeenaとは異なるアーキテクチャを持っているというのがChatGPTの見解です。

2023年12月9日付で更新されたWikipediaのGeminiの説明を見ると、「Gemini is a family of multimodal large language models developed by Google DeepMind, serving as the successor to LaMDA and PaLM 2.<中略>Unlike other LLMs, Gemini was said to be unique in that it was not trained on a text corpus alone and was designed to be multimodal, meaning it could process multiple types of data simultaneously, including text, images, audio, video, and computer code.」とあり、おおむねChatGPTの回答と同じです。(successor to LaMDA and PaLM 2とはなっていますが、同じくGemini was said to be uniqueとあるので、「Geminiは既存のGoogleの言語モデルとは異なる新しいモデル」とみてよさそうです。

今回の調査で、英語版Bard (with Gemini Pro)の発言は、GeminiというGoogleの製品に関する情報にかぎってみても、日本語版Bard同様、うそが混じっているということが分かったわけで、当面は、やはりChatGPT-4の方が信頼をおけそうだというのが、結論です。

 

本日は以上です。

終わり