COLUMNコラム

チャットGPTはなぜ嘘をつく? ハルシネーションが発生する4つの原因と5つの対策を解説

ライティング


近年、チャットGPTは目覚ましい進化を遂げており、より自然な対話や複雑な質問への対応が可能になっています。

しかし、その一方でチャットGPTが提示する情報は必ずしも正確とは限りません。実際、チャットGPTのテキストボックスにもその旨が注記されています。

なぜチャットGPTは嘘をついてしまうのでしょうか? この記事ではチャットGPTの嘘「ハルシネーション」が発生する原因と対策について解説します。

ハルシネーションはチャットGPTを活用していく上で避けられない現象です。理解しておかないと誤情報に基づく判断をしてしまうリスクがあります。

チャットGPTの活用を続けるには、ハルシネーションを通じてAIの限界を知っておくことも大切です。まだ情報をお持ちでない方はぜひ記事をご参照ください。

チャットGPTの嘘「ハルシネーション」とは

チャットGPTが嘘の情報を提示してしまうことを「ハルシネーション」といいます。ハルシネーションとは、本来「幻覚」という意味です。AIにおいては「幻覚を見ているかのように回答する」ことから、名付けられました。

たとえば、チャットGPT(ChatGPT3.5)に本当は存在しない適当に考えた映画「犬の惑星」の解説をするように指示してみます。

このようにチャットGPTは存在しない映画についてもっともらしい回答してしまいます。誤った情報を堂々と提供してしまうことで、一部のユーザーはチャットGPTの「嘘をつかれた」と感じてしまいます。

ハルシネーションが発生する5つの原因

なぜ、ハルシネーションは発生してしまうのでしょうか? ハルシネーションは、AIが不完全なデータやパターンから回答を生成し、根拠のない情報をあたかも正確なものとして提示することで発生します。ここでは、ハルシネーションが発生する原因を4つ紹介します。

誤ったデータを学習している

AIは与えられたデータを基に学習し、学習内容から質問や要求に対して回答を返します。しかし、与えられたデータが常に正しいとは限りません。学習する過程で間違った知識を習得してしまうことがあります。

たとえば、AIが「脊椎動物」に関する情報を学習する際に、本来は鳥類に属するペンギンが哺乳類であるという誤ったデータが与えられた場合、AIはペンギンを哺乳類として扱ってしまう可能性があります。

チャットGPTが誤った知識を学習してしまうことがあるのも、ハルシネーションが発生する原因です。

学習データが不足している。

チャットGPTは多種多様なトピックに対応できるように作られています。しかし、AIの学習データが集まるかは、話題の普及度や認知度に大きく影響されます。中には十分な学習データが確保できないトピックもあります。

学習データが不足しがちなトピックとしては、マイナージャンルや最新情報があげられるでしょう。チャットGPTは情報が不足しているトピックに対し、一般知識や憶測に基づいて回答する傾向があります。そのため、学習データが不足しているトピックは、ハルシネーションが発生する可能性が高くなります。

調べたいトピックに対してチャットGPTの学習データが不足していることもハルシネーションが発生する原因です。

最新データを学習していない

チャットGPTの過去の学習データに基づいて回答を生成されます。そのため、ユーザーに提供できる情報は、学習データの更新時期に大きく依存します。

バージョン別チャットGPTの学習データ更新時期を比較すると次の通りです。

ChatGPT Plus(GPT-4) 2023年4月まで
ChatGPT無料版(GPT-3.5) 2021年9月まで  

たとえば、「大谷翔平選手の2022年8月の打率成績」について尋ねた場合、ChatGPT Plusであれば2023年4月までの学習データを保有しているため正確な情報を提供できる可能性が高いです。一方で、ChatGPT無料版では2021年9月までのデータしか保有していないため、回答は古いデータに基づく予測になる可能性が高くなります。

学習データの更新時期より新しい情報に対応できないのも、ハルシネーションが発生する原因です。

命令文に不備がある

命令文に曖昧、もしくは誤字が含まれている場合、AIが内容を適切に理解できず、存在しない情報を生成する可能性があります。

たとえば「果物について教えて」という命令文は抽象的で範囲が広すぎる質問です。この場合、果物の種類やブランド名など情報が欠けているため、AIは誤った文脈で答えを返すことがあります。あるいは質問が不完全な場合も同様です。「このリンゴはどんな味がするの?」という質問をする際にどのリンゴについて質問しているのかの詳細がない場合、AIはランダムでリンゴの種類を推測し、不正確な情報を提供する可能性があります。

命令文の不備で解釈が広がることで適切な回答ができなくなるのも、ハルシネーションが発生する原因です。

信憑性より対話を優先してまう傾向がある

チャットGPTは情報収集ツールというよりも、自然なコミュニケーションをサポートする対話型AIとして設計されています。そのため、時には曖昧な指示に対しても、対話を止めないように推測して応答を生成してしまいます。

たとえば、先述のようにユーザーが存在しない映画についてと尋ねた場合、実際には学習データをなくても、AIは会話を途切れさせないため推測に基づいて嘘の解説をしてしまうことがあります。

コミュニケーションツールとして、情報の正確性よりもスムーズな対話を優先させてしまう傾向があるのも、ハルシネーションが発生する原因です。

基本的なハルシネーション対策

ハルシネーションが発生する原因を根本的に解決するにはまず不可能です。解決しようとするのではなく、対策してうまく付き合っていくことが大切でしょう。ここでは、個人でも実施できる基本的なハルシネーション対策を3つ紹介します。

偽情報や不正確な情報を回答することを念頭におく

基本として、誤情報が回答される可能性を念頭に置いておきましょう。あらかじめ「回答が正確とは限らない」と認識しておけばハルシネーションの発生に気付きやすくなり、被害を軽減できます。

やってはいけないのは、AIの情報を盲信することです。AIの文章は機械的で客観性の高い文調に見えるため説得力があります。しかし、実際は膨大なデータを基に推測を行うため、誤った情報や存在しない事実を生成する可能性が常にあります。

チャットGPTが誤情報を回答する可能性を認識して、他の情報源との併用などの対策を立てることが大切です。

扱うトピックの普及度を意識する

チャットGPTの回答すべてにハルシネーションが発生する可能性を考えるのはあまり効率的ではありません。発生しやすい状況を把握して、判断基準を決めておくことも大切です。

その指標の1つとして、扱うトピックの普及度です。
基本的に、ハルシネーションは普及度が低く、情報データが集まりにくいほど発生する確率が高くなります。逆に、普及度が高く、情報データが集まりやすいほど発生する確率は低くなります。

たとえば、基本的なSEO対策のように世界でも広く知られているトピックはハルシネーションを警戒する必要性はほとんどありません。一方で、日本でのみ公開されているドラマ・アニメなど、日本に限定されるトピックを扱う際はハルシネーションを警戒する必要性が高いといえます。

判断基準を作って、ハルシネーションへの警戒度合いを調節するのも大切です。

適切な命令文を作成する

ハルシネーションは適切な命令文(プロンプト)を作成することで発生確率を下げられます。

適切な命令文(プロンプト)を作成する上で特に重要なのは次の2つです。

・具体的な指示を出す
・質問の意図を明確にする

たとえば「SEO対策について教えてください」という命令文では、AIはユーザーがSEO対策の何を知りたいかを正確に判断できません。SEO対策の「基礎知識」が知りたいのか、それとも「実施するための具体的な手法」が知りたいのか、わからないまま推測に基づいて回答してしまいます。ハルシネーションを防止するためにも、出来るだけ具体的な指示を出すことが大切です。

また、なぜその情報を知りたいのか、など指示の意図を明確にすることも大事です。「プレゼンテーションで使うために」のように、質問の目的を明確にすることでAIの誤解を避け、より適切な回答を得られます。

AIが間違った解釈をしない具体的で明確な命令文を作成することが、ハルシネーションの発生確率を抑えます。

企業向けのハルシネーション対策


基本的な対策を個人で把握しておけば、ハルシネーションによる被害をかなり減らすことができるでしょう。その一方で、組織運営では多数に向けた対策に取り組むことも大切です。最後に、企業向けのハルシネーション対策を2つ解説します。

ガイドラインを作成する

企業では生成AIに関するガイドラインを作成しておくことも大切です。チャットGPTを始めとする生成AIを利用する際の注意事項を定めて全従業員に周知させておけば、ハルシネーションによる被害を軽減できます。

ガイドライン作成はAIの用途やリスクを明確にした上で、専門家や従業員から情報を集め、関係者と協議しつつ段階的に実装していきます。作成したガイドラインは社内ポータルサイトなどに配置し、従業員が常にアクセスできるようにしておきましょう。

RAGを利用する

RAG(Retrieval-Augmented Generation)は、生成AIが外部データベースから情報を取得し、それを基に応答を生成する技術です。この外部データにはネットの最新情報も含まれているため、学習データをリアルタイムで補完できます。これにより、検索能力が拡張され、より正確かつ事実に基づいた回答を生成できるようになります。

一方で、RAGの導入にはコストがかかります。外部データベースの構築や管理、システムの運用に伴う専門的な人材の雇用が必要になるからです。資金と技術の両方が求められるため、ハルシネーション対策としての導入には慎重な検討が必要です。

まとめ

チャットGPTが嘘をついているように見えるのは、ハルシネーションが発生しているためです。ハルシネーションは、質問内容に対して学習データや命令文などが不足していることで発生します。性質上、完全に防止することは難しいため、発生原因と対策方法を把握しつつ、被害を最小限に抑える必要があります。

チャットGPTは完璧ではありませんが、多様な質問に迅速に応答し、情報やアイデアを提供してくれる便利なツールです。活用するためにも、ハルシネーションを理解し、上手に付き合っていきましょう。