ChatGPT迎来多模态（看，听，说）重大更新

ChatGPT正式联网，能给出答案出处[/caption]

重磅！！OpenAI发布重大更新，宣布开始为 ChatGPT 推出新的语音和图像功能。允许用户与 ChatGPT 进行语音直接对话或展示他们正在讨论的内容。

例如，旅行时拍摄地标的照片，并在回家后与其进行实时对话，了解其有趣之处；拍摄冰箱和食品储藏室的照片，确定晚餐菜单，并询问逐步的食谱；或者通过拍摄照片、圈出问题集，帮助孩子解决数学问题。

看看这个图像聊天功能：

此外，新的语音功能由一个新的文本到语音模型提供支持，该模型能够从纯文本和几秒钟的样本语音生成类似人类的音频。现在，你可以用语音与助手进行来来回回的对话

OpenAI 还与专业配音演员合作创建了每种声音，并使用其开源的语音识别系统 Whisper 将用户的口头话语转录为文本。

OpenAI将在接下来的两周内向 Plus 和 Enterprise 用户推出 ChatGPT 中的语音和图像功能。

语音功能将在 iOS 和 Android 上提供（在您的设置中选择加入），并且图像将在所有平台上提供。

原文链接

https://openai.com/blog/chatgpt-can-now-see-hear-and-speak?continueFlag=2256ae192b9f2c975bc2b986f71f6a33

今天OpenAI放出的ChatGPT4的多模态语音和图像更新的模型其实叫GPT-4V(ision)。

ChatGPT正式联网，能给出答案出处[/caption]

OpenAI放出了19页的GPT-4V(ision)报告来解释这个模型，释放了大量信息，模型早在2022年就训练好了，现在才放出来主要是人工智能安全和合规考量：

GPT-4V是OpenAI开发的一个具有视觉能力的语言模型,能够分析用户提供的图像输入并指示GPT-4进行分析。它结合了文本和视觉两种模式,拓展了仅限文本的系统的影响力和风险范围。
OpenAI采取了渐进式部署方法,首先让一小部分用户试用,以获得反馈和洞察真实的交互方式。这有助于OpenAI认识到一些风险,如模型的误报和限制、人脸识别的隐私考量等。
OpenAI进行了定性和定量评估以了解系统,包括聘请外部专家进行军事化测试,并建立了评估模型拒绝率和性能准确性的指标。重点评估领域包括有害内容、代表性、分配和服务质量的风险、隐私、网络安全、多模态越狱等。
评估发现了科学、医学建议、刻板印象、没有根据的推断等方面的一些限制,需要采取缓解措施。
OpenAI采取了模型级和系统级的缓解措施,通过额外的安全训练数据增强了对非法行为和无根据推断请求的拒绝行为,并增加了针对包含文字的对抗图像的系统级缓解措施。
下一步OpenAI将继续关注是否应允许模型进行某些行为、提高全球用户使用的语言和图像识别能力、获取更高精度的人像处理能力等方面。

总之呢，OpenAI宣称这项研究早在2022年就首次探索在大规模语言模型中加入视觉能力,并采取负责任的方法进行安全性评估与风险缓解,为融合视觉与语言的多模态AI系统推进提供了开创性实践，2022年11月ChatGPT才刚发布，那时候很多人根本不知道大模型是什么，如此看来，OpenAI不愧为生成式AI领先玩家，说一句遥遥领先不过分。

完整报告：https://cdn.openai.com/papers/GPTV_System_Card.pdf

原创文章，作者：曾确令，如若转载，请注明出处：https://www.zengqueling.com/cyldmtktszdgx/

ChatGPT迎来多模态（看，听，说）重大更新

联系我们

15602395067

ChatGPT迎来多模态（看，听，说）重大更新

相关推荐

请登录

联系我们

15602395067