
LLM(大規模言語モデル)は、
膨大なテキストデータから学習し、
人間のような自然な言語を理解・生成するAIモデルです。
LLMは、テキスト生成に特化した生成AIの一種であり、
現代のAI技術において中心的な存在です。
以下AIと表現することにします。
AIは令和の昨今であれば目にする機会が無いことは無いと言えるほど、
社会に浸透していることが認知されているかと思います。
AIというのは我々人間の脳の回路を模した設計になっていまして、
本質的な違いは無いとされているようです。
セサミ フェイスProの動画を見るとAIというのはどういうものなのか?についてわかりやすく解説してくれています。
一方、AIの回答にはハルシネーション(Hallucination)が含まれています。
Hallucinationは幻覚という意味で用いられる言葉なのですが、
昨今のAI台頭でかなり多用されている言葉だと思います。
AIが幻覚を生むの?
ハルシネーションとは?
令和の今どきなので各社のAIにその疑問をプロンプト・エンジニアリングしましょう。
私が行ったプロンプト・エンジニアリングは下記となります。
-----------------------------------------------
AIのハルシネーションについて教えてもらえますか?
-----------------------------------------------
プロンプトエンジニアリングとしては短い言葉だと思います。
昨今、AIに対して役割を与えるペルソナという手法が持て囃されています。
これは、自分が望む答えを得るためにAIに対して役割を与えて、
それに対して推察をさせることで、
望む答えを得る一つの方法で有るとされています。
ペルソナを元にAIに対してプロンプト・エンジニアリングを行うことを仮定すると
-----------------------------------------------
貴方は、AIについてのスペシャリストです。
AIというのはハルシネーションという幻覚を持つとされていて、
その正確性がしばしば問題になることが挙げられていると思います。
私は、そのハルシネーションについて興味を持っていますので、
AIのハルシネーションについて教えてもらえますか?
-----------------------------------------------
という文章が挙げられるかもしれません。
ですが、私が行ったのは前者の
-----------------------------------------------
AIのハルシネーションについて教えてもらえますか?
-----------------------------------------------
を行いました。
これは、令和のこの瞬間の最新のAIに対して行う
最小限語のプロンプト・エンジニアリングのように思います。
ペルソナは確かに必要でした。
ですが、AIも日進月歩しておりまして、
エンジニア語で質問をすると的確な答えを出してくれるのではないでしょうか?
ペルソナはAIに対して制限を設ける言葉なのですが、
そもそも貴方は〇〇について素人ですが分かる範囲で教えてもらえますか?
というプロンプトエンジニアリングをすることはありますか?
我々ユーザーは常にインターネットに接続されているLLMの膨大な情報から
プロの回答を得たいと思っているのではないですか?
相手がプロなので、あえてペルソナをする必要はありますか?
私はAIとコーディングを行ってきまして、
ペルソナを用いたことはありません。
相手は私が求めた答えを回答してくれるプロのAIだと思っているからです。
-----------------------------------------------
閑話休題
ハルシネーションについて
-----------------------------------------------
AIのハルシネーションについて教えてもらえますか?
-----------------------------------------------
という問いに対して各社AIからの回答を共有します。
Gemini 2.5 Flash
-----------------------------------------------
AIのハルシネーションは、AIが事実に基づかない、または論理的ではない情報を生成してしまう現象です。これは、AIが学習したデータに基づいて、もっともらしいが虚偽の、または無意味な内容を作り出すことで起こります。
ハルシネーションの主な原因
ハルシネーションにはいくつかの原因が考えられます。
学習データの限界: AIが学習したデータセットに偏りがあったり、不正確な情報が含まれていたりする場合、その誤りを反映した応答を生成することがあります。
不適切な情報抽出: AIは、与えられたプロンプトから関連性の高い情報を抽出しようとしますが、その過程で誤った関連付けを行ってしまうことがあります。
文脈の不足: AIが十分な文脈情報を与えられずに回答を生成しようとする場合、不足している情報を「推測」で埋めてしまい、それがハルシネーションにつながることがあります。
モデルの過信: 大規模言語モデル(LLM)は、自身が生成する情報が正しいと「確信」しているように見えることがあります。これは、AIが内部的に持っている確率的な関連付けに基づいて、最も可能性が高いと判断した単語やフレーズを繋ぎ合わせていくためです。
対策と注意点
AIのハルシネーションを完全に無くすことは難しいですが、以下の対策が有効です。
ファインチューニング: 特定の分野に特化した高品質なデータでAIを再学習させることで、精度を向上させることができます。
プロンプトの工夫: 具体的な質問や、制約を設けたプロンプトを与えることで、AIが誤った推測をする余地を減らすことができます。
生成内容の検証: AIが生成した情報を鵜呑みにせず、常に事実確認を行うことが非常に重要です。
これは、先日お話ししたネクストエンジンとGoogleスプレッドシートのAPI接続における処理速度向上(25秒で3000行超の在庫情報取得)のように、AIモデルの性能が上がっても、その出力内容の正確性は常に検証する必要があるという点と似ています。AIの回答はあくまでツールであり、その結果の最終的な判断は人間が行うべきです。
-----------------------------------------------
AIでなく私が要約すると、
曖昧な質問に対しては曖昧に答えてしまう
ということでしょうか?
次は、Gemini 2.5 Proです
-----------------------------------------------
AIのハルシネーションとは、AIが事実に基づかない情報や、文脈に合わないもっともらしい嘘の情報を、あたかも事実であるかのように生成する現象のことです。人間でいう「幻覚」に似ていることから、この名前が付けられました。
生成AIは、膨大な量のテキストや画像データを学習し、そのデータに含まれるパターンや関係性に基づいて、新しいコンテンツを生成します。しかし、AIは人間のように物事を「理解」しているわけではなく、あくまで確率的に「次に来る可能性が最も高い単語」を予測して文章を作成しています。この仕組みが、ハルシTネーションを引き起こす主な原因となります。
なぜハルシネーションは起きるのか?
ハルシネーションが起こる主な原因は、いくつかあります。
学習データの質と量:
情報が古い・間違っている: AIが学習したデータに誤った情報や古い情報が含まれていると、それを基に間違った回答を生成してしまいます。
データ不足・偏り: 特定の分野に関するデータが不足していたり、偏った情報ばかりを学習したりすると、AIは知識の隙間を推測で埋めようとし、結果的に不正確な情報を生成します。
AIモデルの仕組み:
文脈の誤解: ユーザーの質問の意図や文脈を正確に理解できず、見当違いの回答をしてしまうことがあります。
過剰な一般化: 学習データから過度に一般化されたルールを学習してしまい、例外的な状況に対応できずに誤った情報を生成することがあります。
プロンプト(指示)の問題:
曖昧な指示: ユーザーからの指示が曖昧だと、AIは何を答えるべきか判断できず、不適切な回答を生成しやすくなります。
事実と異なる前提: そもそも事実に反する内容を質問に含めると、AIはそれに合わせて架空の話を作り出してしまうことがあります。
ハルシネATIONの具体例
実際に報告されているハルシネーションの例をいくつかご紹介します。
架空の判例を引用: アメリカで弁護士が裁判資料の作成にAIを利用した際、AIが生成した存在しない過去の判例を複数引用してしまい、問題となりました。
人物に関する嘘の情報: ある人物について質問したところ、AIがその人物が関わったとされる架空の事件や経歴を生成し、名誉毀損につながるケースがありました。
事実関係の間違い: 「日本で2番目に大きい湖は?」という質問に対し、1番大きい「琵琶湖」と答えるなど、単純な事実関係を間違えることがあります。
存在しない機能や製品を説明: 特定の製品について尋ねた際に、搭載されていない機能や発売されていないモデルについて、もっともらしく説明することがあります。
ハルシネーションへの対策
現状、ハルシネーションを完全に防ぐことは困難ですが、リスクを低減するための対策はいくつかあります。
利用者ができる対策:
ファクトチェックを徹底する: AIが生成した情報は鵜呑みにせず、必ず信頼できる情報源で裏付けを取ることが重要です。特に、重要な意思決定に利用する場合は必須です。
明確で具体的な指示を出す: AIに質問する際は、背景情報や文脈を伝え、できるだけ具体的に指示を出すことで、意図した回答を得やすくなります。
複数の情報源を参照する: 一つのAIだけでなく、複数のAIや検索エンジンなどを組み合わせて情報を多角的に検証することが望ましいです。
開発者側での対策:
学習データの品質向上: 高品質で多様性のある最新のデータを学習させることで、ハルシネーションの発生を抑制します。
ファインチューニング: 特定の専門分野に特化させてAIを再トレーニングすることで、その分野における回答の精度を高めます。
RAG(Retrieval-Augmented Generation): AIが回答を生成する際に、信頼性の高い外部データベースを参照する技術を組み合わせることで、回答の正確性を向上させます。
AIは非常に便利なツールですが、ハルシネーションというリスクもはらんでいます。その特性をよく理解し、賢く付き合っていくことが大切です。
-----------------------------------------------
FlashとProでは文章の答えが異なるものになりましたね。
これは回答の先頭に集約されていると思います。
2.5 Flash
-----------------------------------------------
AIのハルシネーションは、AIが事実に基づかない、または論理的ではない情報を生成してしまう現象です。これは、AIが学習したデータに基づいて、もっともらしいが虚偽の、または無意味な内容を作り出すことで起こります。
-----------------------------------------------
2.5 Pro
-----------------------------------------------
AIのハルシネーションとは、AIが事実に基づかない情報や、文脈に合わないもっともらしい嘘の情報を、あたかも事実であるかのように生成する現象のことです。人間でいう「幻覚」に似ていることから、この名前が付けられました。
生成AIは、膨大な量のテキストや画像データを学習し、そのデータに含まれるパターンや関係性に基づいて、新しいコンテンツを生成します。しかし、AIは人間のように物事を「理解」しているわけではなく、あくまで確率的に「次に来る可能性が最も高い単語」を予測して文章を作成しています。この仕組みが、ハルシTネーションを引き起こす主な原因となります。
-----------------------------------------------
Proの方がFlashよりも深く思考する傾向にありますので、ヘッダー文章の量が異なります。
Proの方がハルシネーションについてその原因について詳しく説明してくれています。
2025年9月24日のGoogle AIは
>しかし、AIは人間のように物事を「理解」しているわけではなく、あくまで確率的に「次に来る可能性が最も高い単語」を予測して文章を作成しています。
という事を行っているがために、ハルシネーション(幻覚)を作り出しているわけです。
じゃあAIは使えないの?と思う方も居るかと思いますが、
それは私の私見では誤りと思います。
他社のAIに質問した内容に続きます。
GPT-5
-----------------------------------------------
いいですね — 大事なテーマです。実用重視で、短く分かりやすく、かつすぐ使える対策つきで説明します。
AI(LLM)の「ハルシネーション」とは?
ハルシネーションとは、モデルが「自信を持って」しかし誤った、根拠のない、あるいは存在しない情報を出力する現象を指します。見た目はもっともらしくても事実と合っていないため、特に重要な判断や公開用の文章では危険です。
典型的な例(イメージ)
存在しない論文や書籍タイトルを挙げる。
架空の統計値や日付を示す。
参照(URL・論文・新聞記事)を具体的に「作る」。
画像説明で画面にない物体を断定する(視覚モデルの場合)。
なぜ起きるのか(要点)
確率的生成:モデルは次に最もらしい語を予測して出力するため、事実確認を必ずしない。
学習データの偏り・欠落:学習中に見ていない(または誤って学習した)事柄を補完してしまう。
コンテキストの曖昧さ:あいまいな指示だとモデルが埋め合わせに走る。
過剰な一般化/混同:似た情報を混ぜて「新しいが誤った」結論を生成する。
温度 (temperature) やデコード設定:ランダム性が高いと創作的(=誤情報化)になりやすい。
ハルシネーションの種類(簡易分類)
事実誤認型:日付、数値、事実が間違う。
参照捏造型:存在しない論文やURLを出す。
推論過剰型:根拠が薄いのに確定口調で結論を出す。
視覚ハルシネーション:画像に無い要素を述べる(画像入力モデル)。
実用的な検出方法(チェックリスト)
出力に日付・数値・固有名詞があるか? → あれば必ず検証。
「出典」「URL」「論文名」を示しているか? → 実際に存在するか検索して確認。
「~のはず」「~かもしれない」など不確実な語が無いか? → あれば要注意。
重要な決定(医療・法務・財務など)は二重検証を必須にする。
自動テスト:ランダムサンプルを取り、F1や正答率を評価する(評価データ必須)。
すぐ使える“Prompt”ワークフロー(手取り足取り)
A. 根拠を出させる(短いテンプレ)
この回答には必ず出典を付けてください。出典が無い場合は「出典なし」と明言してください。事実の確度が低い箇所は【不確実】と注記してください。
B. 事実確認(検証プロンプト)
以下の主張を3つの信頼できる情報源で検証し、各出典のURL(または論文情報)と、確度(高/中/低)を示してください:
1) ~
2) ~
C. 要約+裏取り(RAG向け)
外部ドキュメント(URL1, URL2...)を参照して要点を箇条書きにし、各要点の根拠となるページと該当テキストの抜粋行番号を示して下さい。
技術的な対策(実装寄り)
Retrieval-Augmented Generation (RAG):外部検索(知識ベース)で都度根拠を取得してから生成する。
ファクトチェッカー層:生成結果を自動で照合する別モデル(真偽判定器)を挟む。
低温度 (temperature) とビーム幅の調整:ランダム生成を抑えて事実寄りに。
出力形式の制約:JSONスキーマを強制して、生成ミスを検出しやすくする。
ヒューマン・イン・ザ・ループ:公開前に人が検閲・承認するワークフローを必須にする。
モデル微調整(fine-tune)やルール追加:誤りが多い領域は専門データで微調整。
運用ルール(企業・チーム向け短縮版)
重要情報は必ず二次ソースで検証する。
出力に出典がない場合は自動で「検証要」タグを付ける。
公開内容は人の承認を得てからデプロイ。
利用者に「生成は補助であり確証ではない」旨を明示する(透明性)。
定期的に“ハルシネーション率”を評価・報告する(メトリクス化)。
小さな実例(日本語)
悪い回答(ハルシネーション):
「2021年に行われた調査で、X社は市場シェア40%を記録しました(出典:Journal of Business 2021)。」
→ 出典が無ければ大疑問。
良い回答(抑止):
「公的なデータが見つかりません。X社の市場シェアについての一次出典(年・調査名・URL)があれば再度検証できます。現状では『出典不明』です。」
まとめ(短く)
ハルシネーションは完全には無くせないが、検証付き運用・RAGや検証器の導入・人的確認で現実的に抑えられる。
重要なら必ず外部確認(検索/公的データベース/専門家)を挟む。
モデルに「出典を出す」「出典が無ければ明言する」プロンプトを常に組み込むと被害を大幅に減らせる。
必要なら、実務で使える(1)検証プロンプト集、(2)RAG構成図(簡単なアーキテクチャ)、または(3)あなたのGASワークフローに組み込める“生成→自動検証→スプレッドシート記録”のサンプルコードを作ります。どれを先に作りましょうか?
-----------------------------------------------
この中で特筆すべき点は
なぜ起きるのか(要点)
確率的生成:モデルは次に最もらしい語を予測して出力するため、事実確認を必ずしない。
学習データの偏り・欠落:学習中に見ていない(または誤って学習した)事柄を補完してしまう。
コンテキストの曖昧さ:あいまいな指示だとモデルが埋め合わせに走る。
過剰な一般化/混同:似た情報を混ぜて「新しいが誤った」結論を生成する。
温度 (temperature) やデコード設定:ランダム性が高いと創作的(=誤情報化)になりやすい。
に挙げられるかと思います。
本質的にあっている回答をするのではなく、
確率的にあっている回答をするというのが含まれています。
もっともらしい回答を行っているということですね。
これはGeminiでも同一のように思います。
ただし、GPTは下記のように注釈しています。
-----------------------------------------------
A. 根拠を出させる(短いテンプレ)
-----------------------------------------------
これは、私がAIとコーディングを行いだして数週間して
自然に出てきた文言です。
例えば、ネクストエンジンとGoogleスプレッドシートをAPI接続するGASを開発していく中で、
数十行の商品マスタの情報を渡すことで在庫情報を取得できますか?
と問たところ100行まで取得可能です
という回答を得てプロジェクトを進めました。
ところが、ネクストエンジンエンドポイントを見ると1度に10000の取得が可能との記載がありまして・・・
そこで各社AIに問い合わせを行いました。
問い合わせを行ったAIの中で、その根拠を示してくれるAIが居たことから、
その根拠をプロンプト・エンジニアリングの中にいれる必要があるのだと学習しました。
改めて私はGASのコーディングについて関数を理解していません。
理解していませんがClaudeをコーディングパートナーとして活用することで、
試験を含めて2500行のGASの作成を行うことが出来ました。
コレは私一人では出来なかったことだと思います。
本命のClaudeに質問した内容です。
-----------------------------------------------
AIのハルシネーションとは、AIが事実ではない情報を、まるで事実であるかのように自信を持って生成してしまう現象のことです。
ハルシネーションの特徴
AIは学習データに基づいて応答を生成しますが、時として存在しない人物、出来事、データ、引用などを「創作」してしまいます。問題なのは、AIがこれらの虚偽情報を確信を持って提示することで、ユーザーが真実だと誤認してしまう可能性があることです。
よくあるハルシネーションの例
存在しない研究論文や統計データの引用
架空の歴史的出来事や人物の詳細
間違った技術仕様や製品情報
不正確な法律や規制の説明
虚偽の連絡先情報やURL
なぜハルシネーションが起こるのか
AIは「次に来る最も適切な言葉」を予測して文章を生成します。学習データにない情報について質問された場合でも、言語パターンに基づいて「それらしい」回答を作り出してしまうことがあります。また、曖昧な質問や、複数の解釈が可能な質問に対しても、ハルシネーションが発生しやすくなります。
対策と注意点
重要な情報については必ず複数の信頼できるソースで確認することが大切です。特に専門的な技術情報、法的事項、医療情報、財務データなどは、AIの回答をそのまま鵜呑みにせず、公式な情報源で検証することをお勧めします。
AIを便利なツールとして活用しながらも、その限界を理解して適切に使用することが重要ですね。
-----------------------------------------------
Claudeであっても統計的に処理した内容を答えるので
ハルシネーションが存在するという事だと思います。
ですが、Claudeには他社のAIに圧倒的に不足しているデバッグ能力が特化しているように思います。
コーディングパートナーとして、一番信頼をおけるClaude・・・
それを使いこなせるだけのプロンプト・エンジニアリングはこの3週間で学習したつもりです。
-----------------------------------------------
以上AIが根本的にもつハルシネーションの紹介でした。
-----------------------------------------------
結論
AIはハルシネーションを行う可能性が否定出来ない
このため、回答を常に人間が正確性を確認する必要がある
ハルシネーションを行わないようにするプロンプトエンジニアリングの一つとして、情報のソースを提示させる方法がある