COLUMNコラム
BERTはSEOを変えたのか?検索への影響やChatGPTとの違いも解説!
BERTは、Googleが2018年に公開した自然言語処理モデルです。
BERTの搭載により、検索エンジンがWebページの文脈や文章構造をより精緻に理解できるようになりました。そのため、こうしたBERTの進化に対応して、SEOの形も変えていくべきではないかとお考えの担当者の方も少なからずいらっしゃることでしょう。
本コラムでは、BERTがGoogle検索に及ぼす影響やそこから見えてくる効果的なSEOの考え方について、さらにはChatGPTとの違いなどについてまで、幅広く解説していきます。
BERTの概要
これから、「BERTはSEOを変えたのか」をメインに解説していきます。
いきなり結構ヘビーなテーマではありますね。
こういう場合には、性急に結論に飛びつくのではなく、理解に欠かせない概念を一つ一つ確実に押さえながら考えていくのがおすすめです。
そこで、まずは議論の出発点として、BERTの概要をみていきましょう。
そもそもBERTって何?
BERT(Bidirectional Encoder Representations from Transformers)とは、Googleが開発した自然言語処理モデルの一つです。2019年の10月~12月実施の「BERTアップデート」よりGoogle検索エンジンのアルゴリズムに搭載され、今に至ります。
BERTの最大の特徴は、検索アルゴリズムとしての文脈理解性能の高さです。これまで文脈が把握しづらかった長い会話型クエリや助詞を多用した複雑な条件を含む検索クエリなどであっても、BERTによって、文章全体を通じて検索意図を汲み取れるようになりました。
BERTはまた、自然言語処理タスクの性能を客観的に評価する指標「GLUE」の多くの項目で最高スコアを獲得しています。Googleの検索結果にも多大な影響を与えており、真に質の高いWebページが正当に評価されるという好ましい状況の創出に寄与しているのです。
BERTは自然言語処理のひとつ
既にみたように、BERTは自然言語処理の一つです。この自然言語処理(Natural Language Processing、略称:NLP)とは、人間が日常的に使用する自然言語をAIが理解できるように、プログラム言語や数式に変換することを指します。
考えてみれば、自然言語は曖昧さを伴って使われることが珍しくありません。
たとえば、「赤いリボン付きのパンプス」というクエリでは、以下の2通りの解釈が可能です。
- 「赤い」がパンプスにかかる
→リボンの装飾が付いた、赤色のパンプス(リボンが赤色とは限らない)
- 「赤い」がリボンにかかる
→赤色のリボンが付いた、パンプス(パンプス自体が赤色とは限らない)
人間同士であれば、対話でのやりとりやイントネーションの感得などを通じて、どちらの意味で使っているのかが比較的たやすく分かり合えることでしょう。しかし、AIに、自然言語でしばしば生じる構造的曖昧性を理解させるのは簡単ではありません。
そこで、自然言語処理の出番です。まず、文章を名詞や助詞などの単語に分解します。次に、個々の単語の役割・関連性などの分析を基に文意や文脈を把握し、機械言語に変換します。これが、AIが自然言語を認識するための技術、自然言語処理の大まかなプロセスです。
自然言語処理技術は日進月歩で、近時は音声検索や機械翻訳などへの応用も進んでいます。BERTの発展形アルゴリズムと目される「MUM」の実装も、おそらく間近です。今後SNSを中心に、この技術が多方面で幅広く活用されていくことは間違いありません。
BERTはTransformerをベースに構築されている
BERTは、Googleが開発した深層学習モデルの一種である「Transformer」をベースに構築されています。そして、BERTが検索クエリの文脈を理解する際に核となるのが、シーケンスを前後半双方向から処理できる「双方向予測」と呼ばれる技術です。
この双方向予測は、Transformerが依拠する自己注意(Self-Attention)メカニズムに基づきます。本メカニズムは、シーケンスデータ同士の関連度合いを文章全体から判断する仕組みです。Transformerでは処理の並列化が可能なため、計算効率の大幅な向上が見込めます。
Transformerを活用した学習モデルは、既にBERT登場前からありました。しかし、それらは左右の片道方向にしか学習しない「一方向型」であったため、前後の文脈を把握しないと意味を特定できない単語や文章から成るクエリの処理精度が下がる難点があったのです。
Transformerに基づくBERTの実装により、離れて位置する単語同士の関連性を正しく見極められるようになりました。検索エンジンがクエリ全体の文脈的な関係性を高速かつ高精度で捉えられるようになり、より正確に検索意図を把握できる状況が生まれています。
なお、Transformerには大別してエンコーダとデコーダの2つの装置があります。ざっくり言えば、エンコーダは入力文の処理を、デコーダは出力文の生成を行います。BERTの機能は文字通りエンコーダのみです。一方で、かのChatGPTはデコーダ機能のみを有します。
この辺りの詳細は、後述するBERTとChatGPTとの違いの理解にも深く関わります。ここでTransformerについてあえて多く触れたのには、実はそういった理由もあったのです。
RankBrainとの違い
Googleは2015年、すなわちBERTの発表以前に「RankBrain」という名のAIアルゴリズムを採用しています。
RankBrainとBERT、両者の特徴をざっくり言えば、以下の通りです。
- RankBrain
AIが検索クエリに込められたユーザーの意図を的確に把握するためのアルゴリズム
新たに発見したクエリを字面を超えて実質的に解釈し、既知の検索キーワードと関連付ける
たとえば、「痩せる どうすればいい」というクエリからダイエット願望を読み取り、「ダイエット やり方」や「体重 減らす運動」などの設定キーワードで構成・執筆されたコンテンツも併せて検索結果に表示させることができる
- BERT
検索クエリに含まれる曖昧さの克服や微細なニュアンスの感得などを目的とするアルゴリズム
文脈における前後関係の双方向分析により、長い会話型クエリや助詞を多用した複雑な条件を含む検索クエリなどの背景にある検索意図を汲み取れる
単語ベースでクエリを解釈するRankBrainに対して、「文意も理解できる」点が決定的に異なる
次に、両者が検索エンジンに及ぼした影響をごく簡単に記します。
- RankBrainにより、ロングテールキーワードにおける検索意図把握の精緻化が進んだ
- BERTにより、多彩かつ複雑化した検索クエリも的確に読み取れるようになっている
最後に、以上を踏まえた両者の関係性についても触れておきましょう。
後発のBERTではあるが、それ故にRankBrainの後継アルゴリズムとみなすことはできない。
両者は異なる仕組みで動いており、それぞれが互いに補完し合いながら、検索エンジンに作用する関係にあると言える。
BERTが導入された背景
BERTが導入された背景としては、検索クエリの多様化や複雑化などの事情が挙げられるのが一般的です。
以下、順にみていきましょう。
検索クエリの多様化
BERT導入のきっかけの一つが、昨今著しい検索クエリ多様化の進展です。Googleによれば、検索される全クエリのうちの15%を全く新しいクエリが占めています。これはもちろん、スマホをはじめとするモバイル端末を使った検索の急速な普及と無縁ではありません。
疑問が湧いたらその場でググり、瞬時の解決を求めるのが昨今の検索ユーザーの典型的な姿です。とはいえ、1度の検索でニーズを満たせるケースはそう多くないでしょう。目的の情報が得られるまで、クエリを入れ替えながらの検索が繰り返されるのが一般的です。
こうした状況において彼らが繰り出すクエリは、多種多様であると同時に、一文字違っただけでそこに込められたニーズが変わることも稀ではありません。それらの一つひとつに適した検索結果を表示するためには、BERTのような高度なアルゴリズムが不可欠です。
検索クエリの複雑化
SiriやAlexa、スマートスピーカーなどのAIを活用した音声検索の普及も、BERT導入に向けた強力な後押しとなっています。
BERT以前の自然言語処理技術では、ユーザーが繰り出すさまざまな自然言語の完璧な理解は困難でした。多分に曖昧さを伴うクエリから、状況や文脈に応じてユーザーの検索意図を正確に把握する能力が、アルゴリズムとして備わっていなかったからです。
話し言葉でなされることが多い音声検索が普及しつつある今、クエリの複雑化傾向に拍車がかかっています。こうした状況でユーザーに納得のいく検索体験を提供するためには、検索意図の正確な把握と検索結果の最適化を可能ならしめるBERTの力が欠かせません。
BERT導入はまた、Googleが目指す「AIによる人知の超越」に向けた一里塚でもあるはずです。今後も続くであろうアルゴリズム改変を通じて、より満足度の高い検索体験が創出されていく様を目撃し、実感できるのは、ユーザーとしてこの上ない楽しみでもあるでしょう。
BERTの仕組み
BERTは「分散表現」を活用した事前学習モデルです。そして、この事前学習は「Masked Language Model」と「Next Sentence Prediction」という2つの手法の組み合わせにより進められます。
ざっくり言えばこんな感じですが、これだけでは何のことだかさっぱり分かりませんね。
ここでは、BERTの仕組みをできるだけ分かりやすく解説していきます。
前提:BERTは「分散表現」を活用した事前学習モデル
繰り返しますが、BERTは「分散表現」を活用した事前学習モデルです。
事前学習モデルとは、入力されたシーケンスを基に、別のシーケンスを予測する仕組みを指します。そして分散表現とは、シーケンスに含まれる本来単なる文字列に過ぎない単語をAIが活用できるよう、高次元のベクトルに変換する技術のことです。
分散表現により、ベクトル化された単語データは元々の意味がスコア化されます。そのため、意味や用法が似た単語データと同程度のベクトルを与える、その単語データとの関係性をベクトルで表わす、さらには単語データ同士を加減計算するなどの数値処理が可能です。
BERTの仕組みを単純化すれば、「ラベルが付与されていないシーケンスが入力された際にTransformerが分散表現により処理し、学習していくこと」と言い表せます。そして、この学習に使われるのが、Masked Language ModelとNext Sentence Predictionなのです。
以下、それぞれの仕組みについて、順に解説していきます。
Masked Language Model
Masked Language Modelは、確率論的手法を用いた文脈情報の学習モデルです。具体的には、入力文章中の一部の単語を隠し(Mask)、新たに現出した文章全体から隠された元の単語が何であるかを推測・ 照合することで単語間の関係性や文脈を把握していきます。
次の文章を見てください。
- うなぎは美味しい
- 私は〇〇が大好きだ
- だから、月に1度は必ず鰻屋に食べに行くことにしている
この例では、Maskされた〇〇に入る単語が、必ずしも「うなぎ」である必要はないでしょう。「すきやき」や「天ぷら」かもしれないですし、何だったら料理に限らず、「野球」や「カラオケ」といった趣味嗜好にまつわる単語でも構わないはずです。
しかし、ここでは確率的に「うなぎ」が入ると予測するのが、文意や前後の文脈からして最も自然かつ腑に落ちる解釈と言えるでしょう。そして、答え合わせによりその予測が正しいと確認されることで、文章全体における単語の役割をより明確化できます。
従来の自然言語処理モデルでは、左から右の単一方向にしか単語を処理できませんでした。BERTではシーケンスの「双方向予測」により処理していくため、入力されたクエリにおける単語と文脈との関係性把握の精度が大きく向上しています。
Next Sentence Prediction
Next Sentence Predictionは、文章同士の関係性把握を通じて、文脈理解をより確かなものにしていくための学習モデルです。
たとえば、次のそれぞれの2文における意味的なつながりの成否は、人間であればそう判断に手間取ることはないでしょう。
設例①
- 私はうなぎが大好きだ
- だから、月に1度は必ず鰻屋に食べに行くことにしている
→意味的なつながりが認められる
設例②
- 私はうなぎが大好きだ
- 横浜は、わが国屈指の港町として知られる
→意味的なつながりは、必ずしも認められない
しかし、AIが従来の自然言語処理モデルを用いて設例①と設例②における2文の意味的な関連性の成否を正しく見極めるのは、必ずしも簡単なことではありませんでした。
そこでBERTでは、2文のうちの片方を他の文に置き換えながら、それらのつながりを推測していくタスクが繰り返し実行されます。文同士のつながりや文章の全体構造を瞬時に把握できるBERTの類まれな能力は、こうしたプロセスを経て磨かれてきた訳です。
単語ベースで文脈情報の把握が目指されるMasked Language Modelでは、いかんせん文単位での学習が舌足らずなものになりかねません。Next Sentence Predictionはこのデメリットを補完し、BERTが文章全体から文脈情報を理解することに大きく貢献しています。
BERTの特徴~何が優れているのか
では、BERTは具体的に何が優れているのでしょうか。ここまでの解説でもそのいくつかは触れてきましたが、ここでBERTの特徴をざっくりとまとめておきましょう。
高度な自然言語処理ができる~正確な文脈理解に向けて
BERTの最も際立つ特徴は、検索クエリに関する文脈理解性能の高さです。
従来の単一方向型や浅い双方向型の言語処理モデルでは、次に来る単語のみを予測することしかできませんでした。対してBERTでは、双方向処理による精度の高い単語・文脈の解釈が可能です。
ここで、Googleが公表しているBERT導入の成果の一例をご紹介します。
検索クエリ:「2019 brazil traveler to usa need a visa」
ここでは、「ブラジルからアメリカに出かけようとする旅行者にビザが必要なのか」を知ることが本来の検索意図であるはずです。
しかし、BERT以前のモデルでは、前置詞として文意に大きく影響する「to」の役割を正しく処理できません。そのため、「ブラジルへのアメリカ人旅行者」に関する記事が上位表示されてしまい、ユーザーが求める情報になかなか辿り着けない状況が生じていました。
本ケースでは、BERTの働きにより、検索エンジンが「アメリカへのブラジル人旅行者」と正しく解釈できるようになりました。そのため、今ではアメリカ大使館がブラジル人旅行者向けに作成したビザ情報の紹介ページが上位表示されています。
以上引用元:Understanding searches better than ever before
BERTアルゴリズムの発効により、Google検索エンジンが検索意図を把握する精度が大きく向上しました。この点は、BERT導入がGoogle検索に及ぼす影響の箇所で、再度触れることにします。
汎用性が高い~さまざまな自然言語処理タスクに応用できる
汎用性の高さもBERTの特徴です。ここで言う汎用性の高さとは、具体的にはさまざまな自然言語処理タスクに応用できるという融通性を意味します。
従来のタスク特化型の処理モデルでは、課題が変わるたびにゼロから学習を開始する必要がありました。そのため、かつては、課題ごとに膨大な量の教師データを集める手間をかけることを余儀なくされていたはずです。
この点、BERTは他領域で学習したデータを転活用できるため、データ量の多さに関わらず効率的な処理が可能です。これは双方向予測性を備えるBERTが、大量のテキストデータによる事前学習を経て、教師データ要らずの汎用的な処理モデルを構築しているからです。
この「転移学習」と呼ばれる技術により、BERTでは、課題が変わるごとにモデルを修正しなくても質の高いタスク処理を継続して行っていくことができます。これはまさに、人が過去の経験を新たな物事の学びに活かしていくメカニズムに近似するものと言えるでしょう。
そして、こうした転移学習がもたらす汎用性の高さが、データが少ない場合でも高いパフォーマンスの発揮が期待できるというBERTのもうひとつの特徴にも深く関わってくる訳です。
次項では、この点について解説していきます。
データが少なくても高いパフォーマンスが期待できる
たとえば、大量の犬の画像データと少量の猫の画像データを基に、犬と猫それぞれの種類判別モデルを作成するというタスクを実行するとしましょう。
従来の処理モデルでは、犬と猫それぞれにおいて、別々のモデルを作成する必要がありました。そのため、犬に比べ元の画像データに乏しい猫の種類判別モデルは、一般にその判別精度が低くなりがちだったはずです。
これに対して、BERTでは、画像データが豊富な犬の種類判別モデルを構築する過程で得られた判別に関する確度の高い知識を猫の判別にもそのまま活用できます。そのため、本ケースの猫のように限られたデータからでも、精度の高い判別モデルを作ることが可能です。
現状では自然言語処理タスク用にラベルが付与されたデータは乏しく、入手も容易ではありません。事前学習を通じてWebに上がる大量のラベル未付与データを活用できるBERTの導入により、限られたデータを使用した効率的なタスク処理が実現しています。
BERT導入がGoogle検索に及ぼす影響
ここまでみてきたように、BERTの導入によりGoogle検索エンジンの性能が飛躍的に高まったことで、ユーザーエクスペリエンスの質もまた大きく向上しています。
Googleによれば、導入当初でも、米国における検索10回につき1回の割合でBERTアルゴリズムが働いていました。この数字から考えても、これまでの検索結果への影響は、決して小さいものではなかったはずです。
ここでは、前項で述べた特徴によってBERTが実際にGoogle検索にどのような影響を及ぼしたのかについて、次の2つの視点から解説していきます。
- 検索結果の精度向上~Rankbrainの補完
- 文章型クエリに対する、より関連性の高いコンテンツの上位表示化
検索結果の精度向上~Rankbrainの補完
そもそも時系列で言えば、2015年に導入されたRankBrainが、BERTに先行するアップデートでした。検索クエリをコンテンツとの関連性からより実質的に捉えていくことで、Googleによる検索意図の把握レベルがもう一段上がったことは間違いないでしょう。
とはいえ、RankBrainの射程範囲は、あくまで単語ベースの検索クエリの実質的解釈に留まります。そのため、クエリの長さや文脈の複雑さによっては、検索エンジンがユーザーの検索意図を正しくつかみきれないケースがままあったことは否定できません。
これに対して、RankBrainの4年後に導入されたBERTでは、意味や文脈ベースのより確度の高い検索意図の探索が可能です。BERTによってRankBrainの弱点が補完されたため、Google検索エンジンの検索意図把握レベルは格段の深化をみることになりました。
次項では、そうした両者の役割分担から生み出される成果について解説します。
文章型クエリに対する、より関連性の高いコンテンツの上位表示化
BERTの導入により、Googleがユーザーの検索意図をより精緻に把握するためのアルゴリズムは2本立てになりました。すなわち、単語ベースの短めのクエリにはRankBrainが、そして文章チックで長めのクエリにはBERTが、それぞれ活用されます。
こうした役割分担に基づくBERT導入の最大の成果は、音声検索でありがちな、構造的曖昧性を伴う文章型クエリに対する検索意図の解析力向上にあると言えるでしょう。一方で、RankBrainが機能するような短めのクエリに対するBERT導入の影響は少ないはずです。
検索意図に対する解析精度の向上は、これまで存在したランキングにおける矛盾の解消をもたらしました。BERTの導入によって、より関連性の高いコンテンツが上位表示されるようになり、ユーザーがより満足度の高い検索体験を得られる状況が生まれています。
質の高いWebページに対する正当な評価は、表示順位だけでなく、サイトトラフィックの増減にも影響するはずです。そのため、流入数の減少により、小手先のSEOによってこれまで上位表示されていたに過ぎない低質なサイトの淘汰が今後進む可能性もあります。
BERT導入後、講ずべきSEO対策に変化はある?~効果を上げるポイント
では、Google検索エンジンのアルゴリズムへのBERT導入によって、サイト運営者が講ずべきSEO対策にも変化があると考えるべきでしょうか。
ここでは、まず総論としてBERTを想定した特別なSEOは不要であることを述べ、続いてSEO的観点から良質なコンテンツを提供するためのポイントを5つに分けてご紹介していきます。
総論:BERTを想定した特別なSEOは必要ない
BERTが導入されたからと言って、従来に代わる特別なSEOを考える必要はありません。なぜなら、BERTは、多様化する検索クエリに込められた検索意図をGoogleが確実に把握し、その意図に適った質の高い検索結果を表示させるためのアルゴリズム改変だからです。
BERTにしろ、RankBrainにしろ、検索を通じたユーザーの悩みや疑問の解決に主眼が置かれており、その志向する先は異なりません。であれば、余計な策を弄するのではなく、良質なコンテンツの提供に徹することだけが今も最良のSEO対策であるはずです。
検索アルゴリズムが変わっても、Googleが掲げる評価基準自体にブレが生じた訳ではありません。よって、Googleが唱える「ユーザーに焦点を絞れば、他のものはみな後からついてくる」が、ここに至ってなお絶対的なSEOルールであることを再認識すべきでしょう。
とはいえ、ただ漠然とユーザーファーストを心がけるだけで、そうそう質の高い記事を書けるものでもありません。
そこで、以下では、導入時に「AIによる人知の超越」と称されもしたBERTにも通用すると考えられる、SEO的方策のいくつかをみていくことにしましょう。
検索ユーザーのコアニーズをとことんまで深掘りする
BERTが搭載された検索エンジンでは、ユーザーの検索意図に対する解析精度が格段に向上しています。そのため、SEO的観点からは、想定される検索キーワードに込められるであろうユーザーのコアニーズをとことんまで深掘りした記事を書くことが重要です。
コアニーズを正しく汲み取れていない記事は、たとえ詳細な内容が書かれていたとしても、検索エンジンから高く評価されることはありません。ユーザーは何かを知るために検索します。その何かに辿りつけない記事は、ユーザーにとり無価値に等しいと言えるでしょう。
余計なことには触れず、コアニーズを満たす内容を正確に、かつ網羅的に記事に盛り込むことが大切です。これを実現するためには、ユーザーが検索に臨む動機や背景の探索という、ある意味執筆自体よりも難易度の高い作業を事前に済ませておく必要があります。
E-E-A-Tを踏まえたWebページづくりを心がける
BERTの導入により、検索エンジンがより高次の自然言語処理をできるようになりました。検索クエリだけでなく、恐らくはコンテンツの質を見極める精度も向上しています。キーワードベースで安易に作られる類のWebページでは、上位表示は遠のくでしょう。
こうした状況においては、E-E-A-Tを踏まえたWebページづくりがより重要度を増すはずです。E-E-A-Tとは、近時Googleが重視する「経験」「専門性」「権威性」「信頼性」の4つの指標を指します。
可能な限り実体験に根差す内容を記事に盛り込みましょう。専門家へのインタビューやデータ元の記載などにより、コンテンツの専門性を高めることも大切です。また、信用度が高いサイトからの良質な被リンクの獲得は、権威性や信頼性の担保につながります。
シンプルな内容と理解のしやすい文章のコンテンツを作成する
今後は、検索エンジンがコンテンツのニーズ充足度を厳しく見極める傾向がさらに強まっていくことでしょう。BERTアルゴリズムにより、クエリに込められた検索意図をこれまで以上に精緻に察知できるようになっているからです。
コンテンツをユーザーニーズに適ったものにするためには、品質の高さだけでは足りません。ユーザーが一読して検索意図を満たせるよう、シンプルな内容と理解のしやすい文章で構成されたコンテンツを作成することも、品質の追求と同じくらい大切です。
一文一義を心がける、普段使わない難解な言葉を使用しない、接続詞を正しく用いるなどができているか、チェックしてみましょう。これらの対策は、ユーザーが読みやすくなるだけでなく、検索エンジンがコンテンツをより深く理解する助けにもなるはずです。
競合にない独自性のある内容を盛り込む
BERT導入による検索エンジンが検索意図を把握する精度の向上は、Googleがよりコンテンツの質の見極めに注力できる環境の整備につながります。そのため、SEO的観点からは、これまで以上にコンテンツの質を高める施策に注力していく姿勢が求められるでしょう。
コンテンツの質向上に欠かせないのが独自性です。ユーザーからすると、ありきたりの情報しか得られないのであれば、あえてその記事を読む意味がありません。競合にない独自性のある内容を盛り込んで、ユーザーに何らかの価値ある情報を提供していく必要があります。
コンテンツに独自性を帯びさせるコツは、自社の強みを正しく把握し、その強みをユーザーのコアニーズに適う形で記事に落とし込んでいくことです。独自性の向上は、E-E-A-Tの経験指標を高めるだけでなく、コピーコンテンツとみなされる弊害の回避にも役立ちます。
音声検索の重視~質問に対する問題解決型のコンテンツを用意する
BERT導入の背景には、近年の音声検索の急速な普及があります。先にも、話し言葉が使われることの多い音声検索では、ユーザーによって繰り出されるクエリが複雑化する傾向にあるという話をしました。
BERTを搭載した音声検索エンジンが、こうした複雑なクエリに込められた検索意図を的確に理解できるようになりつつあります。であれば、それに合わせて、Webサイトを運営する側にも音声検索からの流入を想定したコンテンツづくりが求められるはずです。
今後はSEOだけでなく、音声検索最適化(VSO=Voice Search Optimization)が、サイトへの流入を増やすための必須の施策になってくるに違いありません。そこでは、質問に対して答えを端的に返していく、問題解決型コンテンツの作成が奏効する可能性もあるでしょう。
BERTの活用事例
BERTが活躍する場は、検索エンジンに限られません。文脈理解に優れる特性からWeb上で提供されるさまざまなサービスに活用されており、それぞれにおける業務の効率化や生産性の向上に大きく貢献しています。
ここでは、活用事例の紹介を通じて、BERTが持つ強みや将来的可能性を探っていきましょう。
チャットボット
BERTは、チャットボットにも活用されています。たとえば、株式会社ユーザーローカル提供の「サポートチャットボット」という名の法人向けAI自動応答システムがそれです。
以前の自動応答システムの構築では、「どの質問にどのように回答すべきか」というロジックを問い合わせ履歴などを参照しながら設定していました。そのため、システム稼働後は個別回答の手間を省けるものの、準備段階では多くの手間と時間を要していたと言われます。
BERTの活用により、従来の処理モデルが異なると判断していた質問同士の意味的共通性の把握が可能になりました。導入先企業で実施していた教師データ分類などにかかる負担が軽減されると同時に、回答精度の向上により顧客満足度も向上しています。
FAQデータの作成
口語的なクエリが目立つ音声検索でBERTがとりわけ優れた能力を発揮するのだとすれば、BERTはまた、FAQデータの作成にも役立つに違いありません。なぜなら、FAQは疑問形式の質問と、それに対する端的な答えで構成されるものだからです。
そして、このBERTの強みをFAQデータの作成に活かした実例としては、株式会社サイシードが提供する「sAI FAQ Builder」が挙げられます。これは、企業が有する膨大な各種データから、AIが読み取れる形式のFAQデータを作り上げていくサービスです。
BERTの活用により、sAI FAQ Builderに実装されるチャットボットと検索エンジンの事前学習に必要なトレーニングデータを大幅に削減でき、学習期間も短縮が可能と言われます。多くの企業における、低コスト、かつ短期間でのFAQデータ作成に貢献しているはずです。
広告出稿
リスティング広告やSNS広告など、今はさまざまなWeb広告媒体を通じた宣伝活動が可能です。とはいえ、それらは特徴やかかるコストなどがそれぞれ異なるため、自社に最も適した広告媒体を人の手で選び出すのは必ずしも簡単なことではありませんでした。
BERTは、こうした広告出稿の場面でも、その威力をいかんなく発揮します。BERTの自然言語処理技術はとりわけテキストベースの広告で機能する特性があるため、そうした広告におけるパフォーマンスの向上に寄与できている訳です。
具体的には、BERTを搭載したAIの活用により、最適な出稿パターンや予算配分などの予測が可能になりました。そのため、さまざまな選択肢の中から自社に最も適した広告媒体を選ぶことで、費用対効果の高い広告出稿を実現できる状況が生まれています。
文章の要約や翻訳
BERTを実装したAIツールの活用により、文章の要約や翻訳の精度を向上させることも可能になりました。
文章の要約では、係り受け、すなわち文章中で使われている言葉同士の関係性の正確な把握が欠かせません。文脈や文章構造を把握する力に長けたBERTの働きにより、内容的な正しさが損なわれることのない、質の高い要約が実現しています。
翻訳でも、これまでの単語ベースで処理が行われるツールでは、日本語的に不自然な文章が返されるケースがままありました。BERTにより原文の意味やニュアンスを正確に捉えられるようになったため、こなれ感を伴った自然な翻訳が生み出されるようになっています。
「金融版BERT」~NTTデータによる金融業界特化型の言語モデル
金融分野においても、BERTの活用が本格化しています。NTTデータが2020年7月に開発計画を公表した「金融版BERT」がその一例です。金融版BERTは、金融文書に特化したBERTモデルとして開発されました。
NTTデータによれば、金融版BERTの採用により、自然言語処理を要する各種金融文書における精度の高い単語予測が実現可能です。その結果、たとえばコールセンターでのFAQ回答引き当てや、営業日報からの情報抽出などの処理精度も向上するとみられています。
NTTデータでは、金融版BERTモデルに関するこうした性能を客観的に評価するための事前検証を既に実施済みです。そして、いずれの検証においても、金融版BERTが有する金融文書に関する優れた自然言語処理性能が証明されたと結論付けられています。
金融版BERTに関する実証検証は、その後も継続しています。また、モデル構築にかかるコストの削減に寄与するとされる「ドメイン特化BERTフレームワーク」の開発も進行中です。さらなる仕組みの精緻化に基づく、本格的な実用化が待たれるところでしょう。
BERTとChatGPTの違い
BERTとChatGPTは、どちらも現在の自然言語処理(NLP)を代表するモデルです。とはいえ、両者が拠って立つ構造や活用目的には大きな違いがあります。
ここではこうした相違点にまず触れ、その後に、両者が近時しばしば比較される理由やそれぞれに対して有する優位性について解説していきます。
構造上の違い~TransformerはEncoderとDecoderから成る
BERT(Bidirectional Encoder Representations from Transformers)とChatGPT(Generative Pre-trained Transformer)のいずれも、その名の通り、Googleが開発したTransformerと呼ばれる深層学習モデルに基づく言語モデルです。
既にみたように、自己注意メカニズムを内包するTransformerの働きにより、文脈の把握を通じた文意の正確な理解が可能になりました。BERTにしろ、ChatGPTにしろ、Transformerという基盤なくして開発されることはなかったはずです。
ただし、Transformerには、以下のように役割が異なる2つの装置があります。
- Encoder
入力されたテキストなどの重要な特徴を抽出する
- Decoder
エンコーダが抽出した入力テキストの特徴を基に、文章を生成する
Transformerの箇所で触れたように、BERTはこのうちのEncoder機能のみを有します。そして、大量のテキストデータによる事前学習の後、ファインチューニングにより検索意図の把握をはじめとするさまざまなタスクに活用されるのが一般的です。
対して、ChatGPTはDecoder機能だけを持ち、入力されたテキストデータに続く自然な文章を生成することができます。ChatGPTでも、大量のテキストデータによる事前学習と下流タスクに向けたファインチューニングが実施される点では、BERTと異なりません。
両者の最大の違いは、テキストデータの処理手法です。BERTは、双方向予測により文脈を捉えて単語同士の関係性を把握します。一方のChatGPTでは、左から右への一方向予測による文脈の理解を通じて、最適化されたテキストが生成されていく仕組みです。
こうした構造上の違いは、活用目的の違いにも深く関わります。
次に、この点をみていきましょう。
活用目的の違い~文脈の理解か、文章の生成か
BERTとChatGPTは、それぞれがTransformerに備わる2つの機能のうち、異なる一方のみを有するモデルです。そのため、両者の一般的な活用目的にも差異がみられます。
ざっくり言えば、文脈の理解か、文章の生成かの違いです。
BERTは、文脈の理解に長けたアルゴリズムです。この特性は構造上の違いの説明で触れたように、単語同士の関係性や文章全体の意味・意図の正確な把握を可能にする、双方向予測処理の仕組みによりもたらされます。
そのため、BERTの能力が最も発揮されるのは、文脈理解の精緻化が特に求められるタスクです。実際BERTは、検索エンジンやチャットボット、FAQデータ作成などのさまざまなサービスにおける、文脈把握の精度向上や事前学習の効率化に大きく貢献しています。
対してChatGPTは、テキスト生成に特化したアルゴリズムであるGPTをベースに構築された大規模言語モデルです。文章の生成はもちろん、チャットサービス仕様のため、AIが対話を通じてユーザーの質問意図により適した答えを返せるようになりました。
ChatGPTが持つこうした特性は、文章関連タスクでとりわけ威力を発揮します。生成はもちろん、要約や校正などの効率化への寄与もすでによく知られたところです。また、近時は、データの集計や分析、アイデアの壁打ちなどへの活用も一般化しつつあります。
BERTにより精度の高い文脈理解が進みました。そして、ChatGPTはそうした高精度の文脈理解を基に、よりユーザーニーズに適った答えを迅速に返してくれるはずです。両者の特性に関する正しい理解が、それぞれの活用目的における成果の最大化につながります。
BERTとChatGPT:近時しばしば比較される理由
ここまでみてきたように、BERTとChatGPTとでは、タスクを処理する仕組みやそれぞれが有する特性が大きく異なります。では、両者はなぜ、近時しばしば比較されるようになったのでしょうか。
その理由としては、大規模言語モデルであるChatGPTの汎用性の高さが挙げられます。これまでBERTを用いていたタスクについても、BERTを凌ぐ規模のデータによる事前学習を経たChatGPTを活用すれば、さらに効率的に処理できる可能性が出てきているのです。
ここで、ChatGPT誕生の経緯をごく簡単に振り返ってみましょう。
初期のGPT系言語モデルでは、タスクごとに教師データと言語モデルを作る必要がありました。そこで、後にChatGPTで一世を風靡することになるオープンAIでは、異なるタスクにも対応可能な汎用性の高い大規模言語モデルの開発が目指されることになったのです。
一般に言語モデルの性能は、ディープラーニングの規模や複雑さに比例します。そのため、オープンAIでは、数年にわたり膨大なパラメータとデータセットを用いた学習が続けられました。そして、その成果は、2022年11月に登場するChatGPTの技術的な基盤となります。
ChatGPTは、文字通りチャットというインターフェースを実装した生成AIです。ディープラーニングに基づく文章生成能力や未知データに対する予測精度の高さに誰もが使いやすいUIやUXが加わったことで、タスク処理に活用される場面が急速に拡大しています。
昨今普及が進むChatGPTが、ビジネスシーンにおけるあれやこれやの業務に活用できないかを試されるのは極めて自然なことと言えるでしょう。単一のモデルですべてのタスク処理ができる方が、業務効率の点からも、コスパの点からも望ましいに違いないからです。
とはいえ、現段階では、先にみたBERTによる高精度の文脈理解をベースにしながら、ChatGPTに答えを作らせるやり方が基本的には望ましいでしょう。今のChatGPTには、タスクによっては、BERTに比べ処理精度が至らない面が多々あるからです。
ただし、AIによるブレイクスルーが続く現状からすれば、この関係性がずっと維持されるとは限りません。処理精度の点でChatGPTがBERTを上回ることになれば、従来の役割分担の形も恐らくは変わります。今後も両者の関係性を比較検証し続けていくことが大切です。
ChatGPTに対するBERTの優位性
技術的にChatGPTの活用が可能ではあっても、あえてBERTを処理モデルに採用するケースはまだまだ少なくありません。その主な理由としては、コストパフォーマンスの高さと処理効率の優位性の2つが挙げられることが多いです。
コストパフォーマンスの高さ
文字量に基づく従量課金制を採るChatGPTでは、処理文書が多くなるほどランニングコストがかかります。条件が変わらなければ、2年目以降も同様のコスト負担が必要です。
対して、従来手法でBERTを開発するケースでは、導入時こそ100万円〜1,000万円ほどの専用モデル開発費がかかるものの、2年目以降は保守費と計算費のみの負担で済みます。
継続的な文書処理を要する場合、ChatGPTだとランニングコストが膨大なものになりかねません。処理件数によっては、初年度でも開発費が高くつくBERTの総コストを軽く超えてしまう可能性があります。コスパでみると、BERTに軍配が上がるケースが多いでしょう。
処理効率の高さ
BERTに向いているタスクに関しては、基本的にBERTに任せた方が処理効率が高くなります。処理効率はタスク処理にかかる時間やGPU使用量に基づくコスト負担に直結するため、ないがしろにできません。
汎用性の高さが際立つChatGPTですが、反面タスク特化に向けたチューニングの効率性は低下傾向が窺えます。これは、タスク処理の質向上を重視しながらバージョンアップを果たしてきたことの悪しき副産物と言えるかもしれません。今後の改善が待たれるところです。
ここで、可視化が容易な、処理速度を比較したレビューの一例をご紹介します。
BERTであれば0.5秒で処理が完了するタスクが、最新型のGPT-4では30秒以上かかるケースが目立ちました。また、処理が比較的速いとされるGPT-3.5 Turboでも5秒以上かかり、多くの場合タスク処理の品質も期待されるレベルには達していません。
処理速度は処理効率に深く関わってくるため、近時特に重視されつつある指標です。BERTの使用が適するタスクに関する処理効率については、現段階ではChatGPTがBERTに劣後するケースがまだまだ多いと考えておく方がよいでしょう。
BERTに対するChatGPTの優位性
一方で、ChatGPTがBERTに優る面もあります。
ここでは、BERTに対するChatGPTの優位性について、テキスト生成タスクにおける汎用性の高さ、生成AIを活用した独自AIの開発の容易性の順にみていきましょう。
テキスト生成タスクにおける汎用性の高さ
テキスト生成タスクに対する汎用性については、ChatGPTの圧勝です。ChatGPTは、文字通りテキスト生成に特化したアルゴリズムであるGPTを基盤にしています。文章の生成はもちろん、翻訳や要約、アイデアの壁打ちなど、テキスト生成タスク全般に対応可能です。
一方のBERTは、テキスト生成までを射程に入れて開発されたアルゴリズムではありません。原理上テキスト生成は可能ですが、そのためには特殊なアダプタが必要です。今ではChatGPTで質の高いテキスト生成ができるため、あえてBERTを採用する実益に欠けます。
生成AIを活用した独自AIの開発への取り組みやすさ
チャットボットの自社構築や自社内でしか使われることがない営業リストの作成などに向けては、小規模な独自AIの開発が適しています。
こうしたAIをBERTで開発しようと思ったら、ごく単純なタスクでも一般に事前学習用の100件超のデータ収集が必要です。また、導入時には実装作業やデプロイが欠かせず、運用中はずっと保守業務を続けていかなければなりません。
この点、GPT-4をはじめとするChatGPTを活用すれば、Few-shotプロンプティングなどの初歩的なプロンプトの実行だけで独自AIを開発できる可能性があります。膨大なデータを学習済みのChatGPTには、開発案件に最適化された文章を生成できる能力があるからです。
こうしてみてくると、BERTとChatGPT、両者の優位性は、解決したいタスクの特性によって変わってくることが分かります。
そして、実際のAI開発の現場における大まかな傾向としては、テキスト生成が必要になるケースではChatGPTの活用が圧倒的に多いです。一方で、それ以外のタスクに関する事前設計が可能なケースでは、BERTが採用される傾向にあると言えるでしょう。
将来に向けたBERTの課題
これまでみてきたように、BERTが自然言語処理に大きな進化をもたらす画期的なアップデートであったことは間違いありません。しかし、そんなBERTにも克服すべきいくつかの課題が指摘されています。
本コラムの終章として、将来に向けたBERTの課題について考えていきましょう。
人による多様なコミュニケーションのすべてを理解しきれていない
BERTが自然言語処理の技術レベルを飛躍的に高めたことは確かです。しかし、現状では、検索エンジンが人による多様なコミュニケーションのすべてを理解できるまでにはなっていません。
BERTが特に苦手とするのが、方言やスラング、造語などが入り混じった文章の理解です。これらの言葉はそのすべてを事前に収集して学習しておくことが難しいため、現状では意味やニュアンスを取り違えてしまうケースも少なからず発生しています。
とはいえ、Googleがこうした欠点を放置しておくはずはありません。実際、「BERTよりも1,000倍強力」なアルゴリズムとされるMUMの導入に向けた準備も進行中です。検索エンジンが、これらの言葉を人間と同レベルに理解できるようになる可能性は十分あるでしょう。
事前学習データの収集に大容量計算リソースが必要になる
BERTでは、大量のテキストデータを使った事前学習が欠かせません。そして、そのためには大容量の計算リソースが必要です。こうした準備には当然コストがかかるため、これまでは中小規模の事業体やプロジェクトが開発する際の大きな足かせとなっていました。
学習精度の向上は、原則としてモデル自体の容量増加を招きます。そのため、パフォーマンスこそ向上するものの、一方では事前学習に長い時間を要したり、予期しないバグが発生しやすくなったりする弊害が起きやすい難点がこれまでのBERTにはあったのです。
そこで、2019年9月に、BERTの軽量化モデルである「ALBERT」がGoogleによって発表されました。
ALBERTでは、パラメータ化された学習データへのモデル容量の割り当てが、文脈に与える単語の影響度に応じて最適化されるよう設計されています。その結果、BERTと同レベルの文脈把握精度をほぼ維持しつつも、80%ものデータ容量削減が実現しました。
ユーザーニーズの向上に向けては、予算の多寡にかかわらず、BERT活用のメリットを受けられる状況を創出することが大切です。少ない計算リソースでも質の高い事前学習ができ、かつより多くのタスクに対応していける、さらなる改良版モデルの開発が望まれます。
複数の文脈を同時に処理できない
転移学習が可能なBERTでは、一つの言語モデルを事前に1度学習させるだけで、さまざまなタスクへの応用が可能です。しかし、こうした高い汎用性を持つBERTも文脈処理に関しては1度に一つしかできず、複数文脈を同時に処理したいタスクには向きません。
こうした制約により、BERTが適用できるタスクが限られてくる可能性があります。適用可能領域の拡大に向けて、複数の文脈を同時に処理できるマルチタスクモデルの開発が待たれるところです。
予測結果の根拠付けの仕組みがブラックボックス化しやすい
BERTの働きにより、機械学習における高精度の予測分析が可能になりました。とはいえ、AIは自身が行った予測についての根拠の説明が得意ではありません。そのため、BERTにおいても、予測結果の根拠付けの仕組みがブラックボックス化しやすくなっています。
AIが抱えるこうした「説明可能性」や「解釈可能性」の低さは、重大な意思決定に関わるケースで誤った判断が為された際に特に問題化するでしょう。予測の根拠を詳らかにできなければ原因が究明されず、AIに対する不信感を増幅させる原因ともなりかねません。
こうした課題の克服に向けては、XAI(Explainable AI)の1手法であるLIMEの導入が検討に値します。LIMEは、モデルが複雑化したニューラルネットワークによって出力された予測に関する、結果に至るまでの経緯や根拠などを明示するために考え出された手法です。
社会の多方面でAIの活用が進みつつある昨今、予測結果の根拠付けの仕組みに関する脱ブラックボックス化の要請が急速に高まっています。LIMEをはじめとするXAIの果たす役割が、今後ますます重要度を増していくことは間違いないでしょう。
まとめ
BERTの登場によって、別の新たなSEOが必要になることはありません。BERTはより正確に検索意図を把握するためのアルゴリズム改変であり、Googleが従来より掲げる「ユーザーファースト」の姿勢には、いささかのブレも生じていないからです。
BERT同様、ChatGPTもまた自然言語処理を代表するモデルです。とはいえ、両者は構造はもちろん、得意とするタスクや処理効率、コスパなどの点でも著しい差異がみられます。役割が完全に被るわけではないため、状況に応じて適切に使い分けていくことが大切です。
自然言語処理は現在最も旬のAI関連技術の一つであり、今後もさらなる発展が見込まれます。BERTに関する本コラムが、日頃SEOに携わる読者の皆さんが自然言語処理に対する理解を深めるうえでの何らかのお役に立てれば幸いです。