2023年11月6日にOpenAIは、初の開発者向けイベントであるOpenAI DevDayを開催しました。
日本時間でいうと夜中の3時くらいですかね?
眠い目こすって待機してましたw
このイベントはYouTubeを通じてオンラインで中継され、その内容をまとめています!
※そしてオンライン中継を元にして英語の発表内容を日本語に翻訳しているため、一部情報に誤りが含まれる可能性があります。
今後、誤りが判明した場合は適宜更新いたしますので、ご理解いただければと思います。
すでにOpenAIの公式ウェブサイトでリリース情報が掲載されています。より詳細な情報が必要な方は以下のリンクから確認してみてください!
正直花時が出るほどの衝撃を受けましたw
まずは1年間を振り返る
イベントは、まず1年間の成果を振り返るところからスタートしました。
この1年間に、こんなことがリリースされてきたと言われています。
・GPT3.5 / GPT4のリリース
・音声処理への対応
・Dalle3による画像生成
・エンタープライズプランの導入
・そしてVisionによる画像利用など
改めて考えると、1年前とは全く違いますよね。
この1年をきっかけに私はAIがさらなる飛躍を遂げると思っています。
新発表!その内容は?
そして、新たな発表内容に移ります!
GPT-4 Turboのリリース!
GPT-4 Turboは、GPTより高度なモデルとしてリリースされました!
GPT-4 Turboは、新たに公開されるChatGPT APIのことです!
簡単に説明します
簡単に主要なことを言ってしまうと、
アクセス可能な情報が2023年4月までのデータに対応することです。
さらに、
Context Lengthが最大128,000トークンまでサポートされ、英語では約300ページの本まで対応可能です。
そして価格についても、
以前のGPT-4と比較して、インプット(トークンあたり3倍安くなり)、アウトプット(トークンあたり2倍安くなり)を合わせると、2〜3倍のコスト削減が実現されました。
アクセス可能情報ももう半年前までに迫ってきていますよね。
これは正直かなり驚いています。まさかこんなにはやくくるなんて。。。
サポートされるトークン数も価格もかなり努力されていることが分かりますよね。
かなり使いやすくしてくれてるなといった印象です!
以下詳細です!
ほぼリアルタイムの情報にアクセス可能です。
現在は、2023年4月までの情報を持っているそうですが、
たびたび情報のアップデートを行うようなのでとりあえず今まで以上にリアルタイムに近い情報が提供されます!
・New Modalities
Dall-e 3、GPT-4、TTSのAPIが利用可能になりました。
特にTTSについては、会話がより自然で正確になり、6種類の声を選択できるようになりました。
加えて、Whisper v3の発表もされ、こちらもすぐにAPIになる予定だそうなので今後に注目です!
・Customization
GPT-4のファインチューニングモデルである「GPT-4 finetuning」が発表されました。
なお、16kバージョンの使用は本日から可能になっています。
・More Control
JSON modeの搭載。jsonファイルを作成してくれるモードなのかなと思ってます。
JSONモードが新たに追加され、JSONファイルを生成するモードとして利用できます。
APIの呼び出しも簡便になり、再現性のある出力(reproducible outputs)もサポートされています。
・Higher Rate Limits
GPT-4の利用上限が拡張され、
個別の利用状況に合わせて上限を調整できるリクエストも受け付けられるようになりました。
さらに、情報の保護を提供する「Copyright Shield」という仕組みも導入されています。
GPT-3.5 Turboのアップデートも!
16,000トークンの読み込みに対応するだけでなく、
以前に言及した「指示応答の向上」や「JSONモード」といった機能も搭載されることが発表されています。
また、これらの機能はGPT-4 Turboと同様です。
料金形態について(GPT-4 Turbo)
GPT-4 Turbo:
- 入力トークン ⇒ 1セント/1,000トークン
- 出力トークン ⇒ 3セント/1,000トークン
そして、GPT-3.5 Turboの価格も大幅に割引されました!
GPT3.5 Turbo:
- 入力トークン ⇒ 0.1セント/1,000トークン
- 出力トークン ⇒ 0.2セント/1,000トークン
詳細な料金情報は以下の表でご確認いただけます!
GPTsのリリース!
ユーザー自身がカスタマイズできるオリジナルなGPTモデルであるGPTsがリリースされました!
ユーザーは知識やスキルを追加したり、カスタマイズしたGPTを構築できるようになりました。
まあ要するに自分自身でAIエージェントを好きなように作成できるということですね。
何より嬉しいのが、全て自然言語でプログラムできちゃうということなんです!
これはいいですね!
ますます使いやすくなりそうです!
詳細は下記リンクからご覧ください!
Assistants APIのリリース!
自身で構築するアプリケーションにAIアシスタントの機能を簡単に追加できるAssistants APIのリリースも発表されました!
ユーザーの自然言語の入力に応じてさまざまなタスクを実行できるようです。
デモでは、旅行サイトに組み込まれたAIアシスタントがユーザーがアップロードしたファイルをもとに対話を行ったり、
Code InterpreterをAPIとして利用するデモも行われました。
詳細は以下のリンクでご確認いただけます!
API系の新機能
今回、複数の新しいAPIが発表されました!
それぞれ見ていきましょう!
GPT-4 Turbo with Vision
GPT-4 Turboについては既に述べましたが、さらに画像の入力に対応したとのことです!
価格は画像のサイズに依存しますが、例えば1080×1080ピクセルの画像の場合、0.00765ドルかかるとの情報があるそうです。
詳しくはリンクから!
DALL-E 3
DALL-E 3のAPIが公開され、
既にSnapchat、Coca-Cola、Shutterstockなどの企業によって利用されており、けっこう好評みたいです!
詳しくはリンクから!
Text-to-Speech(TTS)
OpenAIからもText-to-Speech(TTS)のAPIがついに提供されました!
このAPIでは6つの異なる音声が提供されており、多様な音声合成が可能です。
詳しくはこちらから!
Whisper v3のリリースとText2Speechの追加
音声にも充実の新機能です!
音声認識APIであるWhisperは、より高度な新しいバージョンがリリースされ、Text2Speech APIによるテキストの読み上げも可能になりました。
デモでは、英語のテキストが非常に自然な音声で読み上げられ、少なくとも英語では人間の発音に匹敵する精度を持っていると感じられました。
chatGPTはもうちょっと優秀な人ですw
GPT Storeが今月末にリリース予定!
GPT Storeは、AI版のアプリストアのような存在で、開発者は自分自身のGPTをリリースすることができるようになります。
開発者が提供するGPTに対してはRevenue Sharingの仕組みも提供される見込みで、非常に楽しみな発表です!
GPT-4のFine-tuningが可能に!
GPT-3.5でのファインチューニングに続き、GPT-4でもファインチューニングが可能になりそうです。
最初は実験的な提供とのことですが、将来の公式リリースも期待されます。
提供が開始されたら、ぜひ試してみたいと考えています!
その他
カンファレンスの途中で、Microsoftの代表であるSatya Nadella氏が登壇し、OpenAIとの連携強化を発表しました。
さらに、ChatGPTをインターフェースとしたAgentのような機能が紹介され、
Zapierを使用してカレンダーやコミュニケーションツールと連携するデモも行われました。
また、著作権問題に関する”copyright shield”についても言及があり、
これはEnterprise PlanやAPI利用者向けに提供されるとのことです。
正直AI元年にしてはやりすぎですw
頑張ってついていきましょう!
もうAIは信用できないとか言っている時代は終わりました。
時代とともに進化しています。
chatGPTは今後にも大注目です!