Part 3: 生成AI の基礎
Chapter 15: 生成AI とは
LLM の仕組みと主要モデルの比較
15.1 AI / 機械学習 / 深層学習の違い
「AI(人工知能)」「機械学習」「深層学習」「生成AI」という言葉は混同されがちですが、それぞれ異なる概念です。
- AI: コンピュータに「知的な」振る舞いをさせる技術全般。ルールベースのプログラムも含む
- 機械学習: データを与えることで、人間がルールを書かなくてもパターンを学習する手法
- 深層学習: 脳のニューロンをモデルにした「ニューラルネットワーク」を多層に重ねた機械学習の一手法
- LLM(大規模言語モデル): インターネット上の膨大なテキストで学習した深層学習モデル
- 生成AI: LLM などを活用して、テキスト・画像・コードなどを新たに「生成」するシステム
現在、開発現場で使われる「AI」の多くは LLM を使った生成AI を指しています。
15.2 大規模言語モデル(LLM)の仕組み
LLM がどのようにして「文章を生成する」のか、その基本的な流れを理解しておきましょう。
重要なポイント:
-
トークン化: LLM はテキストをそのまま処理するのではなく、「トークン」と呼ばれる単位(単語・サブワード・文字など)に分割します。英語で「1単語 ≈ 1〜2トークン」、日本語では「1文字 ≈ 1〜2トークン」が目安です
-
確率的な予測: LLM は次に来るトークンを「確率」で予測します。「最も自然な続き」を出力しようとするため、同じ入力でも毎回わずかに異なる出力が生まれます
-
文脈の理解: Transformer という仕組みにより、文章の前後関係(文脈)を考慮して推論できます。これが LLM の強みです
15.3 主要モデルの比較
現在、主要な LLM サービスは3つです。業務での利用時にどれを選ぶか判断できるよう、特徴を把握しておきましょう。
| モデル | 提供元 | 主なサービス | 特徴 |
|---|---|---|---|
| GPT-4o / o1 | OpenAI | ChatGPT | 汎用性が高く、日本語も高品質。最も利用者が多い |
| Claude 3.5 / 3.7 | Anthropic | Claude.ai | 長文・コード処理が得意。安全性への配慮が厚い |
| Gemini 1.5 / 2.0 | Gemini | Google サービスとの連携が強み。マルチモーダル対応 |
選択の目安:
- 日常的なコーディング補助 → どれでも可。使い慣れたものを選ぶ
- 長い仕様書やコードの一括処理 → Claude(コンテキストウィンドウが大きい)
- Google Workspace との連携 → Gemini
- 最新の情報検索が必要 → ChatGPT(Web 検索機能付き)
TODO: あとで実際のスクリーンショットに置き換え - ChatGPT、Claude.ai、Gemini のトップページのスクリーンショット比較
15.4 できること・できないこと
LLM は非常に高機能ですが、万能ではありません。正しく理解して使いましょう。
できること(得意なこと):
- 文章の作成・要約・翻訳
- コードの生成・説明・修正案の提示
- アイデアのブレインストーミング
- 質問への回答(一般的な知識)
- 表やリストの整理・変換
できないこと(苦手なこと):
- 学習データ以降の最新情報(2024年以降の出来事など)
- 正確な数値計算(計算ミスが起きることがある)
- 社内固有の情報(教えないと知らない)
- インターネットへのアクセス(基本モデルはオフライン)
- ファイルの永続保存(会話は基本的にリセットされる)
15.5 トークンとコンテキストウィンドウ
コンテキストウィンドウとは、LLM が一度の会話で処理できるテキストの最大量です。トークン数で表されます。
実用的な目安:
- 日本語 1 文字 ≈ 1〜2 トークン
- A4 用紙 1 枚のテキスト ≈ 500〜800 トークン
- 現在の主要モデルは 128,000〜200,000 トークン程度
コンテキストが重要な理由:
- 長いコードファイルをまるごと渡すことができる
- 長い会話を続けると古いやり取りは「忘れ」始める
- 一度の入力に大量のテキストを含めるとコストが増える
コンテキストウィンドウの上限を意識しながら、必要な情報だけを絞り込んで渡す習慣をつけましょう。