社内SEゆうきの徒然日記

社内SE歴20年以上の経験からIT全般についてつぶやきます

AIの歴史を変えた一日:GPTとBERTを生んだ「トランスフォーマー」革命、そのすべてを解き明かす

 

現代AIの「ビッグバン」

普段何気なく使っているChatGPTのような対話AI。その驚くほど自然な文章が、どのようにして生まれるのか不思議に思ったことはありませんか? 。実は、その技術の根源は、ゆっくりとした進化の末にたどり着いたものではなく、ある一つの「ビッグバン」とも呼べる革命的な発明にあります。

その爆心地となったのが、2017年にGoogleの研究者たちが発表した一本の論文、『Attention Is All You Need』(注意こそが、君のすべてだ)です 。この論文が世界に解き放ったのが、AIアーキテクチャ「トランスフォーマー(Transformer)」でした。もちろん、映画に出てくるロボットのことではありません。このトランスフォーマーこそが、今日の生成AIのほぼすべてのモデルに共通する祖先なのです 。

この記事では、あなたをAIの歴史を巡る旅にお連れします。この旅を通じて、以下の3つの謎を解き明かしていきましょう。

  1. なぜ、かつてのAIは言語の壁にぶつかっていたのか。
  2. トランスフォーマーは何がそれほど革新的で、強力だったのか。
  3. そして、その一つの発明が、いかにして「創造者」GPTと「理解者」BERTという、二つの伝説的な系譜へと分かれていったのか。

第1章:ブレークスルー以前の壁 - なぜAIは言葉に苦しんだのか

かつての主役:RNNとLSTM

トランスフォーマーが登場する前、自然言語処理の世界で主役を張っていたのは「再帰型ニューラルネットワーク(Recurrent Neural Network、RNN)」と呼ばれるモデルでした 。

RNNの仕組みは、人間が本を一語ずつ読むのに似ています。まず「その」、次に「猫は」、その次に「座った」というように、単語を順番に処理していきます。そして、今読んでいる単語を理解するために、それまで読んできたすべての単語を記憶しようと努めるのです 。

AIを縛り付けた2つの致命的な欠陥

しかし、この直感的なアプローチには、AIの進化を阻む2つの大きな欠点がありました。

  1. 「忘れてしまう」問題(長期依存関係の困難) 文章が長くなるにつれて、RNNは遠く離れた単語同士を結びつけるのが苦手でした。文の最初の方に出てきた重要な情報が、最後の方では「薄れて」しまうのです 。これは、500ページの本を読んでいるときに、5ページ目で紹介された登場人物の名前を思い出そうとするようなものです。重要な初期情報が失われてしまうため、長い記事の要約や、複雑な物語の伏線を理解するようなタスクでは限界がありました 。
  2. 「一つずつしかできない」ボトルネック(逐次処理) RNNは、その構造上、単語を必ず順番に処理しなければなりません。4番目の単語を処理し終えるまで、5番目の単語の処理には進めないのです。このため、本質的に処理が遅く、どれだけ強力なコンピュータを使っても、並列処理による大幅なスピードアップが不可能でした 。これは、AIが妥当な時間内に学習できるデータ量に、厳しい上限を設けているのと同じことでした 。

これらのRNNの限界は、単なる技術的な課題ではなく、そのアーキテクチャが抱える根本的な行き詰まりでした。RNNが機能するための根幹である「逐次的な記憶」という仕組みそのものが、最大の弱点でもあったのです。より良い文脈理解のためには長い文章を読み込ませる必要がありますが、そうするとモデルはより遅くなり、より忘れっぽくなるというジレンマに陥っていました。AIは袋小路にはまり込んでいたのです。AI研究者たちは、単に「より良いRNN」を探すのではなく、この逐次処理というパラダイム自体から脱却する、全く異なるアプローチを必要としていました。

第2章:革命 - トランスフォーマーは何が特別だったのか?

「ひらめき」の瞬間:Attention Is All You Need

トランスフォーマーの中心的なアイデアは、まさに革命的でした。それまでの常識だったRNNの再帰的な構造や、画像認識で活躍していたCNN(畳み込みニューラルネットワーク)の構造を完全に捨て去り、「アテンション(Attention)」と呼ばれる仕組みだけにすべてを賭けたのです 。

中核メカニズム:「自己注意機構(Self-Attention)」の解明

「自己注意機構(Self-Attention)」とは、文章中のすべての単語に「スーパーパワー」を与えるようなものです。各単語は、文中の他のすべての単語を瞬時に「見渡し」、自分自身の意味を理解するためにどの単語が最も重要かを判断します 。これは、パーティー会場で一人ずつ話しかけるのではなく、部屋にいる全員が瞬時にお互いの関係性を把握するようなイメージです。

具体的な例で見てみましょう。「彼はリンゴを食べた。それはとても美味しかった」という文章があったとします。自己注意機構によって、「それ」という単語は、どれだけ間に他の単語があろうとも、「リンゴ」という単語との間に高い「アテンションスコア(関連度)」を計算し、即座に指示対象を理解することができます 。これにより、RNNが苦手としていた長期依存関係の問題が解決されました。

少しだけ専門的な話をすると、この仕組みは「クエリ(Query)」「キー(Key)」「バリュー(Value)」という3つのベクトルで実現されます。図書館で本を探すのに似ています。ある単語のクエリは「自分は何に関連しているのか?」という「質問」です。他のすべての単語のキーは、本の「背表紙のタイトル」のようなものです。モデルはクエリをすべてのキーと比較して、最も関連性の高い本(単語)を見つけ出します。そして、最も一致した単語からバリュー(本の中身そのもの)を引き出し、自分自身の意味をより豊かなものにするのです 。

2つの画期的な帰結

この自己注意機構は、2つのゲームを変えるほどの大きな変化をもたらしました。

  1. 並列処理の解放 すべての単語が他のすべての単語と同時に処理されるため、順番を待つ必要がありません。文章全体を一度に、現代のGPU(画像処理装置)で並列処理できるようになったのです。これにより、RNNの「一つずつしかできない」というボトルネックは完全に打ち砕かれました 。
  2. 文脈の完全な把握 モデルは、テキスト内の単語間の関係性を、豊かで動的な地図のように構築します。これにより、複雑な文法を理解したり、「ホットドッグ(食べ物)」と「hot dog(暑がっている犬)」のような曖昧さを解消したり、段落をまたいだ関係性を追跡したりすることが可能になりました 。

重要な脇役たち

  • マルチヘッド・アテンション(Multi-Head Attention) これは、1組のQ, K, Vだけでなく、複数の組が並行して働く仕組みです。「文章を専門家の委員会で見るようなもの」と例えられます。ある専門家は文法的な関係に、別の専門家は意味的な関係に、また別の専門家は代名詞の指示対象に注目します。彼らの視点を組み合わせることで、はるかに豊かな理解が得られるのです 。
  • 位置エンコーディング(Positional Encoding) 「すべてを一度に処理するなら、単語の順番はどうやって知るのか?」という当然の疑問が浮かびます。その答えがこれです。モデルは処理を始める前に、各単語のベクトルにユニークな数学的「タイムスタンプ」あるいは「GPS座標」のような情報を加えます。これにより、モデルは単語の順番を見失うことがなくなるのです 。

トランスフォーマーの真の革命性は、自己注意機構というアルゴリズムそのものだけではありませんでした。その仕組みと、GPUのような並列処理を得意とするハードウェアとの間に生まれた完璧な相乗効果にこそ、本質があります。自己注意機構は、その計算のほとんどが巨大な行列計算であり、これはGPUが最も得意とするところです。RNNの逐次処理という縛りがなくなったことで、言語モデルのアーキテクチャは、初めてそれを実行するハードウェアと完全に噛み合いました 。

この完璧な組み合わせが学習時間を劇的に短縮し 、その結果、モデルのサイズ(パラメータ数)と学習データの量を桁違いに増やすことが現実的な戦略となったのです 。トランスフォーマーは、単にモデルを「賢く」しただけではありません。モデルを「巨大に」することを可能にし、その巨大さの中から、それまで見られなかった新しい能力が生まれる道筋をつけたのです。

第3章:運命の分岐点 - 一つの設計図が二つのAI超大国を生んだ

元祖の設計図:エンコーダ・デコーダ構造

オリジナルのトランスフォーマーモデルは、機械翻訳のために設計されており、2つの主要な部分から構成されていました 。

  • エンコーダ(The Reader / 読み取り機) その仕事は、入力された文章(例えば英語)を読み、その意味を深く文脈豊かな数値表現に変換することです。文章を「理解」する専門家と言えます 。
  • デコーダ(The Writer / 書き出し機) その仕事は、エンコーダが理解した内容を受け取り、新しい文章(例えば日本語)を単語ごとに生成することです。「創造」する専門家です 。

偉大なる発想:「トランスフォーマーの部品化」

次の大きなブレークスルーは、「多くのタスクでは、機械全体は必要ない」という気づきでした。片方の部品だけを取り出して使えば、特定の目的に特化した、非常に効果的なモデルが作れるのではないか。この発想が、AI開発における根本的な分岐点を生み出したのです 。

BERT(エンコーダのみ)とGPT(デコーダのみ)への分岐は、AIの戦略における極めて重要な転換点でした。それは、汎用的なアーキテクチャを一つ作るという考え方から、特化した部品をベースにした「事前学習とファインチューニング」という新しいパラダイムへの移行を意味します。研究者たちの天才的な発想は、トランスフォーマーを単一のモデルとしてではなく、分離可能な強力な部品からなるツールキットとして捉えた点にありました。

例えば、文章がポジティブかネガティブかを判断するようなタスクでは、新しい文章を「生成」する必要はありません。入力された文章を深く「理解」できれば十分です。そのためにはエンコーダだけで事足ります。これがBERTの誕生につながりました 。逆に、チャットボットや物語の執筆のようなタスクでは、プロンプト(指示)に基づいて新しい文章を「生成」することが目的です。そのためにはデコーダだけで十分です。これがGPTの道でした 。

この「部品化」は、AI開発の哲学を一変させました。タスクごとにゼロからモデルを構築する代わりに、すでに言語を深く理解している巨大な事前学習済みモデル(BERTやGPT)を持ってきて、それを特定のニーズに合わせてわずかに調整(ファインチューニング)するだけでよくなったのです 。これは圧倒的に効率的かつ効果的であり、現代の自然言語処理の標準的な手法となっています。

第4章:Aルート:BERT - 究極の言語探偵

BERTの登場

BERTは「Bidirectional Encoder Representations from Transformers」の略です 。これはトランスフォーマー・ファミリーのエンコーダのみを使う系譜であり、2018年にGoogleによって発表されました 。

BERTのスーパーパワー:真の「双方向性」

BERTの核心的な使命は、自然言語理解(NLU: Natural Language Understanding)です 。その最大の発明は、文章の左から右、右から左という両方の文脈を「同時に」学習することでした 。

BERTの学習方法は、大規模な「穴埋め問題」を解くようなものだと例えられます。「その男性は牛乳を買うために に行った」という文章があったとします。BERTは、(隠された単語)を予測するために、「その男性は牛乳を買うために」という前の文脈と、「に行った」という後ろの文脈の両方をヒントとして使います。両方向から手がかりを探すことで、「店」という答えを導き出すのです 。

BERTの得意なこと

文脈を深く理解する達人であるため、BERTは分析的なタスクでその真価を発揮します。

  • 検索エンジン:Google検索の能力を飛躍的に向上させ、単なるキーワードの一致だけでなく、ユーザーが入力する長く会話的な質問のニュアンスを理解できるようになりました 。
  • 感情分析:製品レビューが肯定的か否定的かを判断します 。
  • テキスト分類:ニュース記事を「スポーツ」や「政治」といったカテゴリに分類します 。

ただし、BERTはあくまでエンコーダ(読み取り機)なので、文章を生成するようには設計されていません。ChatGPTのように物語を書いたり、会話を続けたりすることはできないのです 。彼は読者であり、作家ではありません。

第5章:Bルート:GPT - 天才的なストーリーテラー

GPTの登場

GPTは「Generative Pre-trained Transformer」の略です 。こちらはデコーダのみを使う系譜で、2018年にOpenAIによって開拓されました 。

GPTのスーパーパワー:「自己回帰的」な生成

GPTの核心的な使命は、自然言語生成(NLG: Natural Language Generation)です 。その主な手法は「自己回帰的」、つまり「単方向」です。GPTは、次に来るたった一つの単語を予測するために、それより前に書かれたテキストだけを見ます 。

GPTは、天才的な即興作家やストーリーテラーに例えられます。彼は物語を一語ずつ紡いでいきます。「猫がマットの上に」まで書いた後、その文脈全体を使って、次に最も来そうな単語が「座った」であると予測します。そして「座った」を文脈に加え、さらにその次の単語を予測する…という連鎖反応を続けるのです 。

ChatGPTへの道:スケールの物語

GPTの歴史は、モデルの規模を拡大し続けた歴史でもあります。

  • GPT-1 (2018年):デコーダのみというコンセプトが有効であることを証明しました 。
  • GPT-2 (2019年):パラメータ数とデータ量を大幅に増やし、驚くべき能力を示しました。当初は悪用を恐れ、完全なモデルの公開が見送られたほどです 。
  • GPT-3 (2020年):パラメータ数を1750億個へと飛躍的に増大させ、人間のような文章生成能力と、特定の調整なしにタスクをこなす「Few-shot学習」能力を獲得しました 。
  • GPT-3.5 / ChatGPT (2022年):この強大な力を一般の人々が使えるようにしたモデルです。人間のフィードバックによって調整され、親切な対話パートナーとなりました 。

GPTの得意なこと

新しいテキストを創造することなら何でも得意です。チャットボット、文章作成支援、要約、コード生成など、その応用範囲は広がり続けています 。

表:BERT vs. GPT - 二つのトランスフォーマー物語

特徴 (Feature)

BERT (Bidirectional Encoder Representations from Transformers)

GPT (Generative Pre-trained Transformer)

基本アーキテクチャ

トランスフォーマーのエンコーダ部分のみ (Encoder-only)

トランスフォーマーのデコーダ部分のみ (Decoder-only)

主な目的

自然言語理解 (NLU) - 文章の意味を深く理解する

自然言語生成 (NLG) - 新しい文章を創造する

データの読み方

双方向 (Bidirectional) - 単語の前後関係を同時に見る

単方向 (Unidirectional/Autoregressive) - 左から右へ、次の単語を予測する

得意なタスク

文章分類、感情分析、質問応答、検索クエリの理解

対話、文章作成、要約、翻訳、プログラミング

代表例

Google検索のアルゴリズム

ChatGPT, GPT-4

結論:同じDNA、異なる運命

私たちの旅を振り返ってみましょう。AIはかつて、処理が遅く忘れっぽいRNNという壁に突き当たっていました。2017年、トランスフォーマーが「自己注意機構」と「並列処理」という武器を手に登場し、その限界を打ち破りました。

そして、その輝かしいほどモジュール化された設計思想は、モデルの「部品化」を可能にしました。その結果、分析的な探偵であり「理解」を極めたBERTと、創造的なストーリーテラーであり「生成」を極めたGPTという、二つの特化したファミリーが誕生したのです。

今日、私たちが目にする言語AIの目覚ましい進歩のほとんどすべてが、この一本の革命的な論文の肩の上に成り立っています。今まさに進行中のAI爆発は、トランスフォーマーが引き起こしたビッグバンの、今なお続くこだまと言えるでしょう。

Q&Aコーナー

Q1: トランスフォーマー以前のAIモデル(RNN)の最大の問題点は何でしたか? A1: 主に2つありました。1つ目は、長い文章になると最初の内容を忘れてしまう「長期記憶の苦手さ」。2つ目は、単語を1つずつ順番に処理するため計算が遅く、大規模な学習が困難な「並列処理ができない」点です 。

Q2: 「自己注意機構(Self-Attention)」を簡単な言葉で説明すると? A2: 文章の中のすべての単語が、他のすべての単語を一度に「見て」、どの単語が自分と最も関係が深いかを判断する仕組みです。これにより、単語の本当の意味を文脈全体から深く理解できます 。

Q3: トランスフォーマーはなぜRNNより学習が速いのですか? A3: RNNが単語を1つずつ順番に処理するのに対し、トランスフォーマーは自己注意機構のおかげで文章全体の単語を同時に(並列で)処理できるからです。これにより、計算時間を大幅に短縮できます 。

Q4: BERTとGPTの最も根本的な構造の違いは何ですか? A4: BERTはトランスフォーマーの「エンコーダ(読み取り機)」部分だけを使い、GPTは「デコーダ(書き出し機)」部分だけを使っている点です 。

Q5: なぜBERTは「双方向」と呼ばれるのですか? A5: ある単語の意味を理解するために、その単語の「前にある文脈」と「後ろにある文脈」の両方を同時に参考にするからです。文章全体を一度に見渡して意味を判断します 。

Q6: なぜGPTは文章生成が得意なのですか? A6: GPTは「すでにある文章の次に、最も自然に来る単語は何か」を予測し続けるように設計されているからです。この「次の単語予測」を連鎖させることで、自然な文章をゼロから作り出すことができます 。

Q7: Google検索が賢くなったのとBERTは関係がありますか? A7: はい、大いに関係があります。Googleは2019年に検索エンジンにBERTを導入し、単なるキーワードの一致ではなく、ユーザーが入力した文章の複雑な意図や文脈を理解できるようになり、検索精度が飛躍的に向上しました 。

Q8: ChatGPTの「GPT」は何の略ですか? A8: 「Generative Pre-trained Transformer(生成可能な事前学習済みトランスフォーマー)」の略です。新しいテキストを「生成」でき、膨大なデータで「事前学習」された、「トランスフォーマー」モデルであることを意味します 。

Q9: BERTはChatGPTのように会話できますか? A9: いいえ、できません。BERTは文章を深く理解することに特化したモデルであり、新しい文章を生成する能力は基本的にありません。会話のような生成タスクは、GPTの得意分野です 。

Q10: AIの歴史において「Attention Is All You Need」という論文が重要なのはなぜですか? A10: この論文が、現代のAIの基盤となっている「トランスフォーマー」アーキテクチャを初めて提唱したからです。これによりAIは、言語の文脈を深く、かつ高速に学習できるようになり、GPTやBERTといった後のすべての革新への道を開きました 。

引用文献

1. 話題沸騰!GPTの歴史とChatGPTの可能性、そして利用時に気をつけるべきこととは, https://gigxit.co.jp/blog/blog-8882/ 2. GPT-1→GPT-2→GPT-3→GPT-3.5→ChatGPT→GPT-4までの進化の軌跡と違いをまとめてみた - スタビジ, https://toukei-lab.com/gpt 3. [論文解説] Attention Is All You Needを解説する① - 株式会社SOARIG, https://www.soarig.co.jp/post/%E8%AB%96%E6%96%87%E8%A7%A3%E8%AA%AC-attention-is-all-you-need%E3%82%92%E8%A7%A3%E8%AA%AC%E3%81%99%E3%82%8B 4. 「Attention Is All You Need」論文の要約解説 | インディ・パ | 生成AI教育・研修・コンサルティング, https://indepa.net/archives/5849 5. 期待高まる国産生成AI(前編) AIの歴史的変遷と大規模言語モデルの動向, https://journal.ntt.co.jp/article/25744 6. 解説:空前のブーム「チャットGPT」はどこから生まれたのか? - MIT Tech Review, https://www.technologyreview.jp/s/299053/chatgpt-is-everywhere-heres-where-it-came-from/ 7. 【図解】誰でもわかるTransformer入門!凄さ・仕組みをわかりやすく解説 - すえつぐのNLP&LLM, https://nlpillustration.tech/?p=2171 8. 生成AIの革命を生んだ論文!「Attention Is All You Need」を紹介する - note, https://note.com/witty_avocet608/n/n37f3d2b0d527 9. 自己注意機構の解説 - AI用語解説 AIコンパス, https://ai-compass.weeybrid.co.jp/algorizm/understanding-self-attention/ 10. TransformerとRNN(Recurrent Neural Network)の違い - PyDocument, https://pydocument.hatenablog.com/entry/2024/01/27/154219 11. 【機械学習初学者向け】RNNからLSTMへ。そしてTransformerへ【初学者向け】 - Qiita, https://qiita.com/Life-tech/items/f7f34fdf5b1a863b2c62 12. なぜ Transformer は RNN よりも並列化しやすいって言われてるの? : r/deeplearning - Reddit, https://www.reddit.com/r/deeplearning/comments/14ad4of/why_is_it_said_that_the_transformer_is_more/?tl=ja 13. 【論文】"Attention is all you need"の解説, https://www.acceluniverse.com/blog/developers/2019/08/attention.html 14. Transformerとは?意味や仕組み、具体的に何ができるかをわかりやすく解説 - Jitera, https://jitera.com/ja/insights/51172 15. 注意メカニズムとは - IBM, https://www.ibm.com/jp-ja/think/topics/attention-mechanism 16. 論文解説 Attention Is All You Need (Transformer) - ディープラーニングブログ, https://deeplearning.hatenablog.com/entry/transformer 17. Transformerとは? 仕組みやメリットを初心者向けにわかりやすく解説 - Sky株式会社, https://www.skygroup.jp/media/article/4066/ 18. GPTは、なぜTransformerのデコード部分しか使用しないのか? | インディ・パ, https://indepa.net/archives/6006 19. 【入門】深層学習の革命児!Transformer を今こそ理解しよう | キカガクブログ, https://www.kikagaku.co.jp/kikagaku-blog/deep-learning-transformer/ 20. BERTとGPTの構造的な違い - Zenn, https://zenn.dev/m_nakano_teppei/articles/bc217942f05703 21. TransformerとGPTとBERTとEncoderとDecoderの関係を整理しておく - Qiita, https://qiita.com/munaita_/items/bd5513c75e18ae04c1e0 22. 【初学者に向けて】TransformerモデルとGPTの関係についてメモ - Qiita, https://qiita.com/Life-tech/items/5037a928bfaeb0d36720 23. BERTとは? 自然言語処理における革新と仕組みや応用方法を徹底解説 - クリスタルメソッド, https://crystal-method.com/blog/bert/ 24. BERT (言語モデル) - Wikipedia, https://ja.wikipedia.org/wiki/BERT_(%E8%A8%80%E8%AA%9E%E3%83%A2%E3%83%87%E3%83%AB) 25. BERTとGPTの違いとは?構造・学習・用途を徹底比較! - セイコンサルティンググループ, https://saycon.co.jp/archives/neta/bert%E3%81%A8gpt%E3%81%AE%E9%81%95%E3%81%84%E3%81%A8%E3%81%AF%EF%BC%9F%E6%A7%8B%E9%80%A0%E3%83%BB%E5%AD%A6%E7%BF%92%E3%83%BB%E7%94%A8%E9%80%94%E3%82%92%E5%BE%B9%E5%BA%95%E6%AF%94%E8%BC%83%EF%BC%81 26. BERTとは|Googleが誇る自然言語処理モデルの仕組み、特徴を解説 - Ledge.ai, https://ledge.ai/articles/bert 27. BERTとは?AIの言語理解を進化させた技術の特徴と仕組み - 株式会社ProFab, https://profab.co.jp/what-is-bert/ 28. 第10回:BERTとGPTの違いを徹底解説 - Shikata Ga Nai, https://cysec148.hatenablog.com/entry/2025/04/02/064903 29. Googleが誇る「BERT」とは?次世代の自然言語処理の特徴を解説 - AIsmiley, https://aismiley.co.jp/ai_news/bert/ 30. BERTについて勉強したことまとめ (2)モデル構造について - もばらぶエンジニアブログ, https://engineering.mobalab.net/2020/06/12/bert%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6%E5%8B%89%E5%BC%B7%E3%81%97%E3%81%9F%E3%81%93%E3%81%A8%E3%81%BE%E3%81%A8%E3%82%81-2%E3%83%A2%E3%83%87%E3%83%AB%E6%A7%8B%E9%80%A0%E3%81%AB%E3%81%A4%E3%81%84/ 31. 【GPTとは】ChatGPTのGPTの仕組みと歴史、活用方法を徹底解説! | VNEXT HOLDINGS, https://www.vnext.co.jp/v-journal/what-is-gpt.html 32. GPT(Generative Pre-trained Transformer)とTransformerは、こんなにも違うんだぞ - note, https://note.com/yoshiyuki_hongoh/n/n248837ad321f 33. 【比較】BERTとGPT-3はどちらがいいのか? - えん通, https://www.en2blog.com/bert-gpt3-diff

にほんブログ村 IT技術ブログ IT技術メモへ
にほんブログ村 IT技術ブログ セキュリティ・暗号化へ
.