Multimodal Live API

Google 发布了一个 基于React的启动应用

开发者不需要从零开始编写代码

可以快速通过 Multimodal Live API尝试开发实时多模态应用

  • - 通过WebSockets与Multimodal Live API进行实时通信
  • - 支持音频流播放以及录制用户的音频/视频数据
  • - 集成了Google搜索功能
    -能够处理音频、视频和图形等多种输入/输出
  • - 可以开发如语音助手、视频分析等工具
    Image description![Image description](https://s.rmimg.com/2024-12-16/1734321871-549504-image.png)
    开始前先注册一个Gemini 2.0 Flash 的 Key:https://aistudio.google.com/apikey
    GitHub:https://github.com/google-gemini/multimodal-live-api-web-consoleImage description![Image description](https://s.rmimg.com/2024-12-16/1734321949-904290-image.png)