MENU

AIはサイゼの間違い探しを解けるのか!?画像認識精度を検証!

画像認識

あなたは「サイゼリヤの間違い探し」できますか?あの何気なく見ているメニュー表のズレや、フォークの数、テーブルに置かれたグラスの位置…よく見ると微妙に違う2つの絵を見比べて、間違いを探すあのゲームです。 実はこれ、高度な画像認識能力が必要とされるんです。

人間なら、子供でも「あ!ここ違う!」と見つけ出すことができる人も多いはず。では、今話題のAIならどうでしょう?今回は、世界中で注目を集めるAIモデル、Chat-GPT、Gemini、Claudeの3つにサイゼリヤの間違い探しに挑戦させてみました!果たして結果は…?

目次

身近な「間違い探し」で精度を検証!

AIの画像認識能力を測る方法は色々あります。専門的な画像データセットを使った専門的なテストもその一つです。しかし、今回はあえて、私たちにとって身近な「サイゼリヤの間違い探し」を使うことにしました。

その理由はズバリ、AIが私たちの日常生活でどれだけ役に立つのかを、よりリアルに感じてもらうため! 専門的なテストもいいですが、ちょっと難しくてイメージしづらいですよね? 一方、「サイゼリヤの間違い探し」なら、誰もが一度は経験したことがある親しみやすい題材なので、AIの能力をイメージしやすく、結果も面白くなると思ったんです!

今回使用した間違い探し

今回使用した間違い探し

今回の検証では、Chat-GPT、Gemini、Claudeの3つのAIモデルに、全く同じこちらのサイゼリヤの間違い探し画像を提示。「間違いを全て指摘してください」と指示し、それぞれのAIがどのように画像を分析し、回答を導き出すのかを観察しました。

一見するとほとんど同じように見える2つの絵。テーブルの上には、サイゼリヤでおなじみの料理やドリンク、フォークなどの食器が並んでいます。しかし…よく見ると、メニューの配置が変わっていたり、フォークの本数が違っていたり…まさに人間の観察眼が試される、絶妙な違いが隠されています。果たしてAIは、この違いを見つけることができるのでしょうか?

ちなみに回答はこちら。

答え

ChatGPT、Gemini、Claude…結果はいかに?! 各AIモデルの解答と分析結果を発表!

1. 【ChatGPT】自然言語処理の天才は、画像認識も得意?

1. 【ChatGPT 画像認識】自然言語処理の天才は、画像認識も得意?

まずは、高度な言語処理能力で知られるChat-GPT!人間と自然な会話をするチャットボットや、メール、記事作成、プログラミングまでこなす万能選手ですが…画像認識は得意なのでしょうか?

検証の結果、ChatGPTは「左上の男の子と帽子の色が異なる」「右側のバスケットに入っている木の実の量が異なる」など、画像全体の大きな変化を捉えることはできました。しかしより細かい部分の違いを見つけることはできませんでした。

これは、ChatGPTが主にテキストデータを使って学習しているAIであるためと考えられます。膨大な量のテキストデータを学習することで、人間のように自然な文章を生成したり、質問に対して適切な回答をしたりすることができますが、画像認識に関しては、まだ発展途上と言えるでしょう。

2. 【Gemini】Googleの最新AIは、間違い探しを解けるのか?!

2. 【Gemini 画像認識】Googleの最新AIは、間違い探しを解けるのか?!

続いては、Googleが開発した最新のマルチモーダルAI、Gemini 1.5pro!(最新モデル)テキスト、画像、音声など、異なる種類のデータを組み合わせて理解し、処理することができる、まさに次世代型のAIです。Google検索やGoogleフォトなど、私たちの身近なサービスにも、すでに導入されています。

Geminiは、今回の検証で1番出来が悪いかもしれません、、、「帽子をかぶってる男の子?」「オリーブオイルのラベル?」となってしまいましたね。

Geminiは、膨大な量の画像データとテキストデータを組み合わせて学習することで、画像に写っているものが何であるかを理解するだけでなく、その関係性や文脈まで理解できるよう設計されています。今回の検証では、GeminiはあくまでテキストベースのLLMであり、画像認識関してはまだ発展途上だったと言えるでしょう。

3. 【Claude】倫理観重視のAIは、精度と安全性のバランスをどう取る?

3. 【Claude 画像認識】倫理観重視のAIは、精度と安全性のバランスをどう取る?

最後は、Anthropicが開発した、安全性と信頼性を重視したAIモデル、Claude。倫理的に問題のある回答や、有害なバイアスを含む回答を生成するリスクを低減することに重点を置いて開発されました。

ClaudeはSonnet、Opas、Haikuという3つのモデルがあるのですが今回は1番処理能力が高いとされているOpusを使用しました。結果としてはChatGPTとGeminiの中間的な成績となりました。BBQグリルって何なんですかね、、、?

私たちには見えない何かが見えているようです。

これは、Claudeが安全性と信頼性を重視した学習データで訓練されているためと考えられます。倫理的に問題のある回答や偏見を含む回答を生成するリスクを最小限に抑えるために、慎重に選択されたデータセットで学習しているため、画像認識の精度においては、Chat-GPTに一歩及ばない結果となりました。

AIの画像認識は進化の過程!未来の可能性と課題とは?

AIの画像認識は進化の過程!未来の可能性と課題とは?

今回の検証を通して、AIの画像認識技術は進化を続けているものの、まだ完璧ではないこと、そして、AIモデルによって得意な分野、不得意な分野があることがわかりました。

Chat-GPTのように、すでに人間顔負けの画像認識能力を持つAIもあれば、Geminiのように、得意分野以外のタスクでは苦戦するAIもいます。そして、Claudeのように、倫理観と精度のバランスを重視するAIも存在します。

AI技術は日々進化しており、私たちの生活にますます浸透していくことは間違いありません。AIの進化を正しく理解し、それぞれのAIの特徴を活かしていくことが、これからの未来をより良いものにしていく鍵となるでしょう。

今回お借りした画像元のサイゼリヤ様:https://www.saizeriya.co.jp/entertainment/

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

営業畑出身のエンジニア気質。某大手企業で4ヶ月で営業成績1位を叩き出し、管理者に昇進。マネジメントとマーケティングの二軸を学び現在は株式会社WebCoでプロンプトエンジニアを主として勤務中。

目次