なぜ他の対話型AIよりも普及したのか？「自然に対話する」ことに特化したChatGPTの仕組み

ChatGPTの自然さが対話型生成AIの精度を高めていく

問い掛ければ人間のように自然な対話をしてくれる対話型生成AI「ChatGPT」。米国ベンチャー企業のOpenAI社が2022年11月にリリースした同サービスは、リリースから2カ月ほどで1億ユーザーを突破。マイクロソフトの共同創設者ビル・ゲイツ氏が「（ChatGPTは）私たちの世界を変えるだろう」と言及したほか、2023年4月にはOpenAI社のCEOであるサム・アルトマン氏が自民党会合に出席するなど、大きな反響を巻き起こしている。第1回となる本稿では、自然言語処理を研究する一橋大学大学院ソーシャル・データサイエンス研究科の小町守教授に、ChatGPTと従来の対話型AIの違いやその仕組み、またChatGPTが導く未来像などを聞いた。

第1回
なぜ他の対話型AIよりも普及したのか？「自然に対話する」ことに特化したChatGPTの仕組み
第2回
リスクも含むChatGPT、日々進化するテクノロジーを使いこなすための留意点とは
第3回
重要なのはコミュニケーション能力？「ChatGPT」はビジネスシーンの革命児となり得るか
「社会を変える「ChatGPT」の可能性」に戻る

INDEX

対話をインターフェースとした大規模な言語モデル

「ChatGPTとは、『チャット』と冠する通り、対話をインターフェースとした大規模な言語モデルだ」と小町教授は説明する。OpenAI社が開発した大規模言語モデルの一つがGPT（Generative Pre-trained Transformer／最新版はGPT-4）であり、ChatGPTは人間が入力する言葉をインターフェース（機械や装置と交信する仕組み）として、問い掛けに対して対話形式で自然な答えを返すことが特徴だ。

従来の対話型AIとの違いとしては、ChatGPTは対話形式で質問に回答できるだけでなく、翻訳や文章の要約といったさまざまなタスクにも返答できるなど、汎用的な調整が施されている。そのため、ChatGPTはどんな質問に対しても“確からしい”情報を返してくれ、それが多くの人々に衝撃を与えた。

「人間は問いに対して自然な回答が返ってきたとき、それが一見正しいように見えれば、その答えを信じてしまいがちです。ChatGPTは、これまでの対話型AIのような一問一答の返答ではなく、自由な指示ができることで広く受け入れられました。その自然さによって、対話型AIがこれほどまで受け入れられるとは、OpenAI社の人たちにとっても想定外だったと思います」

: 文章のなめらかさが際立つChatGPTの回答

ディープラーニング（深層学習／データの背景にあるルールやパターンを、多層的なネットワーク構造を用いて学習させる方法の一つ）を採用する以前の対話型AIでは、例えば旅行であれば旅行に関する情報など、特定分野の膨大な知識を有した上で定型文のようなシナリオが用意され、ユーザーからその分野に関する情報が入力された場合に、シナリオが破綻しないように回答をするという構造になっていた。

しかし、GPTはGenerative Pre-trained Transformerの略で、「トランスフォーマー」と呼ばれるディープラーニングの手法を使って大規模なデータで事前学習（pre-train）することで、ユーザーの自由な入力に対して自然な返答をすることができるようになった。

「まずGPTを構築するにあたって、『単語の次に来る単語を予測させ、それが正解かどうかを判定する』という事前学習が行われています。いわゆる“自己教師あり学習”の手法（正解を自分でつくる＝自分が教師になる学習方法）です。その上で、OpenAI社は2022年1月に発表したInstructGPT（同社の過去のモデルに比べ、人間が好むような出力を生成しやすいように訓練された手法）という手法を用いて、次の単語を予測するだけでなく、その入出力に対してどちらがより適しているのかという出力チューニングを施しました。これはOpenAI社の研究者たちが自然言語での指示（プロンプト）によって行っていて、論文によれば数万ペアものチューニングをしているそうです。これによって、GPTは問いに対してもっともらしい答えを返せるようになったのです」

どんな話題に対してもそれらしい答えを自然に返せる仕組み

ここでニューラルネットワークやディープラーニング（深層学習）について、簡単に解説しておこう。ニューラルネットワークとは、ある入力に対して処理をした上でその情報を次に伝えていく巨大な網状の構造となっていて、生物の神経回路を模した数学モデルだ。

ニューラルネットワークは理論的に任意の関数を近似可能ということが証明されているが（普遍性定理）、近似の精度を上げるためには層を深くする必要がある。一方、層を深くするためには学習データが大量に必要となるものの、それを十二分に用意できないため、現実的には精度を上げることが難しい。

しかし、2010年以降、ウェブなどの巨大なデータを使ってAI自身が学習するモデルを構築することで、以前よりも深い層での処理が可能となった。この深層での学習が、ディープラーニングと呼ばれている。特に、ここ5年では“自己教師あり学習”という手法が採用されるようになった。

“自己教師あり学習”とは、例えばこれまで犬が写っている画像に対して、「ここに犬がいる」と人間がラベルを付けていたのに対し、犬の部分を隠した状態でAIが周辺のデータからそこに写っている対象を予測して、その予測が当たっているかどうかを判断していく。元々ある情報は隠されているだけなので、AI自身で正否の判断ができる。これによって、AIは自分自身を教師として、膨大な数のラベルデータを生み出すことが可能となったのだ。

こうして、学習のために膨大なデータが必要というニューラルネットワークの課題が解決され、AIは自身が生み出したデータを使ったディープラーニングを実現。GPTにおいても、新聞記事やウェブのテキストなどを大量に集めてディープラーニングを行うことで、自然な言葉を返すことができるようになったのだ。

こうした学習モデルの仕組み自体は、「従来の言語生成型AIとChatGPTでは大きく違わない」と、小町教授は話す。

「ChatGPTは、言語モデルであるGPTに加えて、まずは教師あり学習によってチューニングした上で強化学習を行うなど、3つほどのステップを踏んで、どういう出力がより適しているのかを学習させています。ChatGPTの一番の違いは、自然言語による指示に対する出力に注力してチューニングしているという部分なのです」

つまり、ChatGPTがここまで注目を集めているのは、ひとえに”どんな話題に対してもそれらしい答えを自然な言葉で返してくれる”という点であり、OpenAI社が教師あり学習などを通じて、多くの話題に対して無難な回答を返せるようなプロンプトで学習させているから、と言える。

「ChatGPTは、一人の人間のエキスパートに比べると、専門分野における知識やその正確性では勝てないかもしれません。しかし、あらゆる分野に精通して何を聞いても返してくれる、ということが大きな強みになっているのです。ChatGPTは見たことも聞いたこともない物事でも、膨大な学習データから自分で答えを予測して、もっともらしい返しをすることができる。専門用語で言えば、『ゼロショット学習』（訓練用のデータにはなかった未知のサンプルを、テキストなどの補助的な情報を用いて予測し、識別・検出する技術）と呼ばれることが可能となっているのです」

: 計算言語学・自然言語処理の研究をする小町教授

小町教授によれば、翻訳や文章の要約といった特定のタスクに関しては、それに特化したデータやモデルが既に存在しているため、正確性などを含めて、特化型AIの方が性能は良いという。

しかし、ChatGPTにはディープラーニングを経た結果、一種の推論能力が備わっており、これによって既存のデータにはない未知の問いに対しても回答できる可能性があるとしている。言い換えれば、ChatGPTは“自然な言葉”に特化して学習した結果、幅広い分野の知識を持って一般常識のようなものが備わっているように見えるのだ（ただし、内容の正確性や物事に対する着眼点を学習するような機能は備わっていない）。

知らぬ間に別の価値観に染まってしまう可能性も

一方で、ChatGPTでは返答する情報の正確性や倫理性といった問題も指摘されている。ChatGPTが引き起こす問題やわれわれの社会に与える影響について、小町教授は次のように指摘する。

「ChatGPTがこれほどまでに広がったことで、今後われわれ研究者が想像もしなかったような分野でもAIが活用されるようになると感じています。これまでの自然言語システムは、『人間ができていたことを効率化する』といった守りの領域で使われることが多かった。しかし、ChatGPTが登場したことで、今後はAIを使った新しいサービスを生み出してもうけていこうといった、攻めの領域でも使われるようになるでしょう。

とはいえ、ChatGPTがあれば何でもできるというわけではありません。ChatGPTは0から60、70程度のモノを作ることができるかもしれませんが、その出力されたモノを80、90のレベルに上げていくためには、専門知識やエンジニアリングが必要になります。そういった一般的な開発力は今後も重要となるはずです。

そして、ChatGPTのような対話型だけでなく、イラストや音声などの生成AIが普及することで、テキストや音声、画像を使ったマルチモーダル（複数の種類の情報を一度に処理する）な手法が広まっていき、今後は生成AIの存在を前提とした世代も登場します。その上で、われわれはAIを超えて何ができるのか？ということが問題となっていくのでしょう。

また、現在のChatGPTは学習データの大半が英語によるもので、その倫理性や価値観というのはある種、米国を基準としたものになっている、とも言えます。つまり、ChatGPTが出力した情報を通じて、知らず知らずのうちに米国的価値観に染まってしまう可能性もあるのです。現在、各国でAI開発が進んでいますが、倫理性や文化の違い、情報の真偽といった部分についても、生成AIを使う人間のリテラシー教育や法整備などの議論が必要となっていくのではないのでしょうか」

その自然さによって親近感をもたらし、幅広い層へとAIへの関心を広げたChatGPT。その可能性は今後どのように広がっていくのか。

第1回
なぜ他の対話型AIよりも普及したのか？「自然に対話する」ことに特化したChatGPTの仕組み
第2回
リスクも含むChatGPT、日々進化するテクノロジーを使いこなすための留意点とは
第3回
重要なのはコミュニケーション能力？「ChatGPT」はビジネスシーンの革命児となり得るか
「社会を変える「ChatGPT」の可能性」に戻る

: この記事が気に入ったら
いいね！しよう; Twitterでフォローしよう
Follow @emira_edit

text：須賀原みち　photo：古水良

取材協力：小町守

一橋大学大学院ソーシャル・データサイエンス研究科教授。2005年に東京大学教養学部基礎科学科科学史科学哲学分科卒業後、国立国語研究所でのプログラミングのアルバイトをきっかけに自然言語処理に興味を持つ。2010年に奈良先端科学技術大学院大学情報科学研究科博士後期課程修了。Microsoft Research、Appleなどでウェブ検索・日本語入力などの研究開発に携わる。2013年より首都大学東京（現・東京都立大学）システムデザイン学部准教授に就任、2022年4月より同学部教授。2023年4月より現職。