Skip to main content

生成AIとの出会い

2014年、「Generative Adversarial Nets」(GAN)という論文が発表されました。これが私の体験の中での「生成AI」の始まりです。このGANを、2017年くらいには、AI inside 社の画像認識技術、特に学習データの増幅の観点でこの技術を導入していたように記憶しています。まだたくさんの画像を合成したり、ノイズをシステマチックに生成したり融合したりして、数少ない学習データを増幅させる努力をしていた頃にあって、GANは非常に先進的な存在でした。

2018年になると、言語理解のための深層双方向トランスフォーマーの事前学習というテーマで「BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding」という論文が発表されました。これは、一般に「Transformersモデル」として知られることとなるのですが、正直、初めてBERTに触れた時に感じたのは、「高性能な自然言語モデルが出たな」という程度でした。これが実はその後のChatGPTの開発につながる革新的な進歩でした。

ChatGPTへの感情

GPTに触れた時の感動はBERTのそれとは全く異なりました。それはまさに「時代が変わった」と直感的に感じるほどの衝撃でした。2023年に入るとGバージョン4まで進化し、人々に広く受け入れられるようになりました。「ChatGPT」という新しいインターフェースのおかげで、ITとは縁遠かった人々でさえ、この技術について話し、興味を持つようになっていました。

米国では、イノベーションやバイアス、プライバシーに関する話題が増えていましたが、日本では「日本はどうすべきか」や「ChatGPTを活用することが日本の成功への道だ」という議論が主流、というかほぼ全てでした。これに対して私自身は、正直なところ、負け犬のような惨めな感情を抱きつつ、日本がまだGPTを生み出せていない上に、誰も米国企業に勝ちに行かない現状に悔しさを感じていました。

LLM:PolyShere-1開発に至る確信

しかし、ただ悔しさを感じるだけで終わるわけにはいきませんでした。個人的に開発と調査を進め、試行錯誤を重ねていました。その過程で、「OpenAIの課題はGPUの枯渇ではないか」という仮説に辿り着きました。つまり、能力が無制限に上がっているように見えるGPTにも実は見えない天井があり、コンピュータが足りなくなるであろう。さらにそこへユーザ数が急増することで、ユーザごとのリソースが割り算で減少することで、提供できるはずの機能が提供できない、という問題があるのではないかと思いました。実際に、入れられるTokenの長さが短い。確実にもっと長くできます。ファインチューニングの機能も提供していませんし、これらはとっくに実現できるけれど提供できず、後回しにしている機能だと思われます。

その仮定が正しいならば、テクノロジーとビジネスの観点からは「効率の良いアーキテクチャ」と「用途に適した規模」が求められ、機能的には「長いTokenやファインチューニングといったChatGPTにないもの」が求められると確信しました。

溢れかえるChatGPTと、PolyShere-1の発表

こうして考えを巡らせて、試行錯誤を行なっている間にも、多数の企業がChatGPTについてプレスリリースを行っていました。APIがまだ公開されていないにもかかわらず、少なくはない上場企業が「APIと連携しました」と発表するなど、ひどい混乱が見られました。それを各所で指摘できる人も少ない状況だったと思います。この期間中、私自身も頻繁に質問を受けました。「AI inside社はChatGPTやLLMに対してどのように考え、対応するのか?」という質問です。私の答えはこうでした。「バズワードを並べたプレスリリースをするつもりはありません。また、実際にはユーザーの使えないような、ただの連携を発表するつもりもありません。方針は、我々が価値が形にした時、初めて口に出します。」

そうして、社内でXResearchというチームを創設し、2023年6月8日に、私たちはAI insideのLLM、PolySphere-1を発表することに至りました。私は一貫して人類のために仕事をしてきましたが、今回は特に「強い日本を目指して、勝ちに行こう」という意気込みが強かったというのが正直な思いです。これ以上、「失われた30年」を延長するわけにはいかない、という決意も秘めていました。

PolyShere-1とは何か

PolyShere-1はChatGPTと何が違うのか。という質問を多くいただきます。そこでまず、PolySphere-1の基本的な特性について少し説明してみます。

パラメータ規模について

PolySphere-1は現状、汎用的な設計となっています。つまり、特定の目的に特化しているわけではなく、GPTと同様に様々なタスクに対応可能です。パラメータの数については、140億となっており、これはGPT-2の10倍、GPT-3の1/10くらいの規模に位置しています。現在のところ、社内では400億パラメータから、さらに多くのパラメータ数の拡大が、議論には上がります。実際に実現可能でしょう。

しかし、このパラメータの数というのは、「多ければ頭が良い」という単純なものではありません。適切な規模を保つことが、学習スピードや適用性の観点から重要となります。つまり、「ビジネスとして」最適なパフォーマンスを発揮するためには、ただ単にパラメータの数を増やすだけではなく、そのバランスや最適化が求められます。

セキュリティについて

投資家の皆様からのご質問で特に多いのが、セキュリティ、レスポンス精度、そしてレスポンス速度についてです。

まず、セキュリティについて。AI inside社は日本の上場企業であり、日本国内のサーバでPolyShere-1の処理を行っています。これは、日本の企業様にとっては受け入れやすい要素となるでしょう。これは既に達成しています。

さらに付け加えると、AI insideは2023年6月12日に「AnyData」という新サービスを発表しました。これはパブリッククラウドのサービスで、ユーザ各社が独自の環境を構築し、データや処理をプライベート環境で運用することが可能です。また、オートスケール機能も標準装備されています。このようなインフラ上で、例えばPolySphere-1のイメージコンテナを簡単に起動し、管理することができれば、AIの活用ハードルが大幅に下がると考えています。これは開発中で、まもなく実現します。

レスポンス速度について

速度についてもこの環境が左右します。共有環境であれば他ユーザの利用状況の影響を受けるため、安定性のことも考えなければなりませんが、プライベート環境を構築して運用できるなら、安定運用も可能で、リソースの用意次第で速度も早まります。レイテンシを気にするほどならリソースを強くし、遅くても良いなら遅く、安く運用するのが良いと考えます。

レスポンス精度について

レスポンス精度については、まだ初期段階であり、体感レベルで評価している段階です。かっこよく言えば一種の「チューリングテスト」のようなものと考えることもできるかもしれませんが。。以前、社内でテストした30億パラメータ時のモデルでは、会話は可能でしたが、実際の業務には適用できないレベルでした。しかし現状では、実際の業務でも十分利用可能なレベルにまで進化しています。更なる具体的な改善を目指しています。

次の目標としては、特定の業務を想定したシナリオで、他の大規模言語モデルとの精度差を定量的に測定し、その結果を基に改善を進めることも考えています。これは私たちのAI、「PolyShere-1」がただの会話をするだけではなく、「業務」も行うことを目指しているための差別化ポイントです。ただしこれは評価のためであって、実際に使うユーザとシナリオ、つまりUXがすべてと間違いなく言えます。

データ、アークテクチャについて

秘密です。

もちろん、我々のアーキテクチャはGPTとは異なっています。それは先ほど述べたような差別化を図るための戦略の一部です。しかしこれらの開発は絶えず進化し続けているので、必ず変化します。

これまでの経験から考えると、、1年後には、今日の我々の取り組みは、原始人が最初の火をつけた瞬間の程度のこと、小さく、重要なステップに見えるのではないでしょうか。(そうありたい)

XResearchの今後

LLMについては、モデル自体やチャット機能に着目されすぎています。実際には、ユーザーエクスペリエンス(UX)に焦点を当てるべきです。ユーザーが日常的にAIとどのように関わっているのか、その利便性や「日々使用する意味」を深く探ることが必要です。

最先端のテクノロジーをユーザーが極めて簡単に使用できる形にすること、これはまさにAI inside 社が得意とする領域であり、同時に大きなチャンスがあるところです。

XResearchチームは、生成AIのテクノロジーを探求するだけでなく、「それがどう受け入れられるか」にも目を向け、その範囲を超えた挑戦も行います。すでに、東北大学の吉田研究室とともに、宇宙の資源探索に関するAIの共同研究を進めています。我々の目指すところは常に、人類の進歩に貢献することです。