初学者向け マルチモーダル埋め込み – セミナー資料をSlideShare に公開しました

April 16, 2026

2026年4月15日に開催したセミナー「和菓子ECサイトの検索で考えるマルチモーダル埋め込みの威力」の資料を、SlideShare に公開しました。

https://www.slideshare.net/slideshow/ec-gemini-embedding-3/287035452

以下、スライドの内容をダイジェストでお届けします。

マルチモーダル埋め込みとは何か?

テキストだけでなく、画像も同じ「意味のベクトル空間」に変換できる埋め込みモデルです。

従来のテキスト埋め込みは文字列しか扱えませんでしたが、マルチモーダル埋め込みでは「商品説明のテキスト」と「商品写真」を同じ3,072次元の空間に配置し、コサイン類似度で比較できます。今回のセミナーでは、Googleが公開したばかりの gemini-embedding-2-preview を使い、和菓子ECサイトという具体的なシナリオで検証しました。

例題:和菓子ECサイトの検索

あなたは和菓子専門ECサイトの担当者です。桜餅を7品登録しましたが、商品名欄はすべて「桜餅」と入れてしまいました。

  • A1〜A4:道明寺(関西風、つぶつぶした食感)4品
  • B1〜B3:長命寺(関東風、クレープ状の皮)3品

ある日、お客様が「道明寺粉のつぶつぶした桜餅」と検索します。この検索、ヒットするでしょうか?

3段階で検証する

セミナーでは、同じ和菓子12品のデータを3つのステージで用意し、10個のクエリで比較しました。

ステージ何をしたか
Stage 1商品名だけ登録「桜餅」
Stage 2色・形・質感など商品説明を追記
Stage 3商品写真もインデックスに投入

見るポイントは「精度が何%上がったか」ではなく、「できない」が「できる」に変わる瞬間と、その仕組みです。

検証から見えた5つの仕組み

1. 同一テキストは区別不能 — Stage 1 で A系(道明寺)と B系(長命寺)は全品 0.847 の完全同率。同じ文字列は同じベクトルになるため、どれだけ賢いモデルでも原理的に分けられません。

2. 語彙の重なりがスコアを動かす — Stage 2 で「つぶつぶした道明寺粉」と商品説明に書くだけで、クエリと語彙が直接重なり、A系が上位に分離しました(ギャップ 0.048)。モデルもクエリも変えず、コーパスのテキストを書き足しただけです。

3. 世界知識による連想 — 「茶色い和菓子」というクエリに対し、コーパスに「茶色い」の一語もないのに、どら焼き・みたらし団子が上位にヒットしました。モデルが学習データから「どら焼き→茶色い焼き菓子」という連想を獲得しているためです。

4. 画像は視覚的特徴でベクトル化される — Stage 3 では、A1(濃いピンクの道明寺)の画像で検索すると、A2(薄ピンクの道明寺)が最も近いと判定されました。色・形・質感・構図がそのままベクトルに変換されます。

5. 画像検索は構図に引きずられる — A4(道明寺の断面写真)で検索すると、B3(長命寺の断面)が A3(道明寺の正面写真)より上位に来ました。モデルにとっては「断面写真同士」の方が「道明寺同士」より近いのです。画像検索は「同じ商品か」ではなく「見た目が似ているか」で動くため、ECで別アングルを確実にヒットさせるにはメタデータとの組み合わせが必要です。

画像+テキストの複合クエリ

マルチモーダル埋め込みの真骨頂は、画像とテキストを同時に投げられることです。

「A1の画像 + これに似てもっと白いもの」というクエリを投げると、画像A1のベクトル(濃いピンク・丸い・つぶつぶ)とテキスト「もっと白い」のベクトルが組み合わさり、A3(白っぽい道明寺)が3位でヒットしました。テキストだけでは全品同率だった世界が、マルチモーダルで一気に開けます。

EC担当者として、何をすべきか

やりたいこと必要なアクション
商品名で探させたい商品名を正しく登録するだけで十分
属性で絞り込ませたい商品説明に色・形・質感を明記する
サブカテゴリを区別させたい商品説明に差分を書く(書かなければ原理的に不可能)
見た目が似た商品を提案したい商品写真を検索インデックスに入れる
「こういうのが欲しい」に応えたい画像+テキストの複合検索を導入する

まとめ

  • マルチモーダル埋め込みは、テキストと画像を同じベクトル空間に配置する技術。gemini-embedding-2-preview で今日から試せる
  • 同じ商品名で登録された商品は、モデルが何であれ原理的に区別できない。商品説明を書くことが検索精度の土台
  • テキストで超えられない壁は画像で突破できるが、画像検索は「似て見えるか」で動くため、メタデータとの組み合わせが前提
  • 商品写真がすでにあるなら、それは最強の検索インデックス。使わない手はない