OpenAI开发者大会45分钟,说了点啥
45分钟,12部分,让我们回顾总结一下。
1. 未来已来:GPT-4的全新视界
- 开场问候:主持人感谢与会者的到来,并欢迎大家。
- 地点介绍:提到旧金山是OpenAI的发源地,对公司和整个科技行业都很重要。
- 过去一年的回顾:提到去年11月30日发布了ChatGPT,并在今年3月推出了更高能力的GPT-4。
- 新功能介绍:ChatGPT现在具备了语音和视觉功能,可以听、看和说话。
- DALL-E 3发布:介绍了最先进的图像模型DALL-E 3,它可以集成到ChatGPT中。
- 企业服务:推出了面向企业客户的ChatGPT Enterprise,提供更高的安全性、隐私保护和更快的GPT-4访问速度。
- 开发者和用户统计:约有200万开发者在API上构建应用,超过92%的财富500强公司在使用他们的产品,每周活跃用户约1亿。
- 用户反馈:通过用户的口碑传播,OpenAI成为了最先进、最广泛使用的AI平台。
接下来是一段视频,展示了人们如何使用这些产品,包括:
- 一位女士使用ChatGPT帮助她用塔加洛语向父亲表达情感。
- 一位用户表示ChatGPT给了他更多的自信。
- 一位创意工作者发现ChatGPT就像一个帮手,激发了他的创造力。
- 一位学生使用ChatGPT帮助她理解学术内容,减少了对家教的依赖。
2. 交互革命:ChatGPT的听觉与视觉突破
- 用户故事分享:介绍了一位因手术导致左手功能受限的用户,他通过语音输入和ChatGPT的对话功能,找到了适合自己的最佳界面。
- 对新技术的期待:主持人表示,听到用户如何使用技术的故事是他们工作的动力。
- 新功能发布:宣布推出新模型GP4 Turbo,并介绍了一系列改进。
- 改进点概述:
- 上下文长度:GP4 Turbo支持高达128,000个token的上下文,相当于300页标准书籍的内容,比之前的8k上下文长度长16倍。
- 更多控制:开发者可以通过新功能“JSON模式”获得更多对模型响应和输出的控制,确保模型以有效的JSON格式响应。
- 函数调用:模型在调用多个函数方面有所改进,更好地遵循指令。
- 可复现输出:通过传递种子参数,模型可以返回一致的输出,提供对模型行为的更高程度控制。
- 更好的世界知识访问:推出了检索功能,允许从外部文档或数据库中提取知识。
- 知识更新:GP4 Turbo的世界知识已更新至2023年4月,未来将继续改进。
- 新模式和API集成:
- DALL-E 3和GP4 Turbo现在可以通过API接受图像输入。
- 介绍了使用DALL-E 3通过程序生成图像和设计的客户案例。
- 安全系统:开发者可以利用安全系统保护应用程序不被滥用。
3. 企业新篇章:ChatGPT企业版的安全与效率
- 技术应用案例:介绍了“B My Eyes”技术帮助视障人士识别日常物品的案例。
- 新的文本转语音模型:展示了新的文本转语音模型,可以通过API从文本生成自然听起来的音频,提供六种预设声音。
- 语音识别模型更新:宣布推出改进的开源语音识别模型Whisper v3,并将很快集成到API中,该模型在多种语言上的性能有所提升。
- 定制化和微调:
- 微调API:对于GPT-3.5已经取得成功,现在将扩展到16k版本的模型。
- GP4微调实验访问计划:邀请活跃的微调用户申请参加。
- 定制模型计划:与公司紧密合作,使用OpenAI的工具为特定用例创建定制模型,包括模型训练过程的每个步骤的修改、特定领域的预训练和后训练过程。
- 更高的速率限制:为所有成熟的GP4客户提供双倍的每分钟token,使其更容易进行更多操作。
- 版权保护:引入“版权盾”服务,为客户在面临版权侵权法律索赔时提供保护和支付费用。
- 数据训练透明性:明确指出不会使用来自API或Chat GPT企业版的数据进行训练。
- 价格调整:讨论了GP4 Turbo的定价,强调其作为行业领先模型所带来的多项改进和智能。
4. 开发者天地:API生态的蓬勃发展
- 成本降低:讨论了开发者反馈GP4成本过高的问题,宣布GP4 Turbo的成本将比GP4降低,对于提示(token)的成本降低了3倍,对于完成(token)的成本降低了2倍。
- 新定价策略:GP4 Turbo的新定价为每千个提示(token) 1美分,每千个完成(token) 3美分,这将使得大多数客户的综合费率比使用GP4便宜超过2.75倍。
- 优先考虑价格:虽然需要在价格和速度之间做出选择,但首先决定优先考虑价格,同时也在努力提高速度。
- 速度提升计划:GP4 Turbo将变得更快,同时GPT-3.5 Turbo的成本也将降低。
- 更多模型的价格调整:GPT-3.5 Turbo 16k的输入(token)成本降低了3倍,输出(token)成本降低了2倍,这意味着GPT-3.5 16k的成本现在比之前的GPT-3.5 4k模型更便宜。
- 微调模型的价格:运行微调过的GPT-3.5 Turbo 16k版本的成本也比旧的微调4k版本更低。
- 模型改进的总结:希望这些改变能够解决用户的反馈,并对带来的所有改进感到兴奋。
- 特别嘉宾介绍:介绍了微软CEO萨提亚·纳德拉作为特别嘉宾,并讨论了OpenAI与微软的合作。
- 微软合作伙伴关系:纳德拉表达了对合作关系的看法,强调了OpenAI与微软合作的重要性,以及他们如何共同构建支持这些模型的系统。
5. 图像新纪元:DALL-E 3的创意无限
- 微软的开发者支持:微软CEO萨提亚·纳德拉强调了微软作为平台公司、开发者公司和合作伙伴公司的角色,并承诺支持OpenAI的API开发者。
- GitHub和GitHub Copilot:提到将为与会者提供GitHub Copilot的企业版,以便他们尝试使用。
- Azure基础设施:纳德拉表示微软将提供最佳的Azure基础设施来支持OpenAI的API,并将其带给所有开发者,包括Azure市场,以便开发者快速进入市场。
- 对AI未来的展望:纳德拉谈到了对合作伙伴关系和AI未来的看法,强调AI的真正用途在于能够赋能人们,就像在视频中看到的那样,人们通过AI实现了他们的目标。
- 安全性的重要性:纳德拉强调了安全性的重要性,提到安全性不是后期才考虑的事项,而是需要从一开始就重视。
- ChatGPT的更新:宣布ChatGPT现在使用GP4 Turbo,具有最新的改进和最新的知识截止日期,这些都已经上线。
- ChatGPT的新功能:ChatGPT现在可以在需要时浏览网页、编写和运行代码、分析数据、拍摄和生成图像等。
- 用户界面改进:根据用户反馈,移除了模型选择器,使用户不必在下拉菜单中点击选择,所有功能将自动协同工作。
6. 智能互联:API的无缝集成与应用
- AI作为助手:讨论了AI作为“代理”(agents)的概念,强调如果给人们更好的工具,他们会做出惊人的事情。人们希望AI更聪明、更个性化、更可定制,并能代表用户完成更多任务。
- 安全和迭代部署:OpenAI认为逐步迭代部署是解决AI安全挑战的最佳方式,尤其是在向“代理”这一未来发展方向谨慎迈进时。
- GPTs介绍:介绍了GPTs,这是为特定目的定制的ChatGPT版本。用户可以构建几乎任何东西的定制版本,包括指令、扩展知识和操作,并可以发布供他人使用。
- GPTs的优势:因为它们结合了指令、扩展知识和操作,所以可以在许多情况下更有帮助、工作得更好,并提供更好的控制。
- GPTs的易用性:GPTs可以直接在ChatGPT中使用,用户可以通过语言对话来编程GPT,使得定制行为变得简单,从而使构建它们变得非常容易。
- GPTs的应用示例:
- Code.org使用GPT来帮助教师为中学生提供更吸引人的体验。
- Canva构建了一个GPT,允许用户通过自然语言描述来开始设计。
- GPTs的集成和发现:将讨论如何分发和发现GPTs,以及开发者如何将这些类似代理的体验集成到自己的应用中。
- 实时演示:介绍了一个由Zapier构建的GPT,它允许用户跨6000个应用程序执行操作,解锁各种集成可能性。
7. 创新简化:构建自定义AI助手的新途径
- 合作伙伴和客户产品展示:讨论了与合作伙伴和客户共同努力,使他们的产品更加生动。
- 实时演示:展示了如何在Zapier AI动作中使用GPT,并如何将其与个人日历集成,以及如何通过GPT请求查看当天的日程安排。
- 安全性和权限:强调了在执行任何操作或共享数据之前,GPT会要求用户的许可,以确保安全性。
- GPT的决策和执行:GPT被设计为根据用户的指令决定调用哪个功能来执行操作,并为用户执行这些操作。
- 日程冲突识别:GPT能够连接到用户的日历,提取信息,并在发现日程冲突时提示用户。
- 通信协助:演示了如何使用GPT来通知联系人有关日程变更的信息。
- 开发者构建的可能性:展示了开发者如何使用GPT跨6000个应用程序执行操作,展示了集成的多种可能性。
- GPTs的创建和编程:讨论了如何通过对话来编程GPT,使得即使不懂编程的人也能创建GPT。
- 自然语言编程:强调自然语言将是未来人们使用计算机的重要方式之一,GPTs的创建过程是这种趋势的一个有趣示例。
- GPT构建器的使用:演示了如何使用GPT构建器来创建一个帮助创业者和开发者在开始新项目时提供建议的GPT。
- GPT的定制化:通过GPT构建器,用户可以告诉GPT他们想要的东西,GPT会开始思考并写出详细的指令。
- GPT的命名和预览:GPT构建器会与用户对话,提出名称建议,并在预览模式中显示GPT的构建过程。
8. 编程梦工厂:Assistance API的强大功能
- GPT构建过程:演示了如何通过上传特定内容(如讲座的文字记录)来构建GPT,并基于这些内容提供建议。
- 配置和定制:介绍了GPT构建器的配置选项,包括启用特定功能和添加自定义操作。
- 上传文件:展示了如何上传文件到GPT构建器,以及如何利用这些文件来提供定制化建议。
- 指令的添加:演示了如何向GPT添加具体指令,比如要求提供简洁和建设性的反馈。
- GPT预览和测试:通过预览标签,演示了如何测试GPT对特定问题的响应,如在早期阶段招聘员工时应考虑的因素。
- GPT的发布和共享:讨论了如何发布GPT,使其仅对自己可见,或者通过链接与他人共享。
- GPT商店的介绍:宣布将推出GPT商店,用户可以在其中列出和发现GPT,同时确保这些GPT遵循政策。
- 收入分享计划:提到了收入分享对于构建有用GPT的开发者的重要性,计划将部分收入分给他们。
- 生态系统的发展:表达了对通过GPT商店建立活跃生态系统的兴奋之情,并期待分享更多信息。
- API的代理体验:提到了开发者已经在API上构建类似代理的体验,例如Shopify Sidekick,它允许在平台上采取行动。
9. 知识无界:AI助手的文件处理与状态管理
- Discord的Clyde:介绍了Discord的Clyde,这是一个允许管理员为Discord创建自定义个性的功能。
- Snap的My AI:提到了Snap的My AI,这是一个可以添加到群聊中的定制聊天机器人,能够提供推荐。
- 构建难度:指出这些自定义助手体验虽然很棒,但构建起来很困难,有时需要数月时间和数十名工程师的团队。
- 新的Assistance API:宣布了新的Assistance API,旨在简化自定义助手体验的构建过程。
- Assistance API功能:
- 持久线程:不必处理长时间的对话历史。
- 内置代码解释器:在沙盒环境中工作的Python解释器。
- 改进的函数调用:之前讨论过的功能。
- 实时演示:Raman,开发者体验负责人,进行了一个演示,展示了Assistance API的工作方式。
- 开发者体验改进:强调了提升开发者构建辅助代理体验的重要性。
- GPT和DALL-E 3 API的应用:演示了如何使用GPT来提出旅行目的地的想法,以及如何使用DALL-E 3 API程序化生成插图。
- 添加简单助手到应用中:通过新的助手API和简单的代码,可以在应用中集成专门的助手。
- 助手的创建和集成:
- 创建助手很简单,只需给它一个名称、一些初始指令和选择一个模型。
- 使用新的API原语,如线程和消息,可以轻松集成助手。
- 功能调用的强大之处:功能调用非常强大,现在可以保证JSON输出,无额外延迟,并且可以同时调用多个函数。
- 助手与应用组件的交互:展示了助手如何与应用的组件和功能流畅交互,展现了AI和用户界面之间的和谐。
10. 声音的艺术:多语言TTS与实时互动
- 知识检索:演示了如何将PDF文件拖拽到对话中,AI助手会读取文件并显示信息。即使是长篇文档或复杂的产品规格,助手也能处理。
- 助手的文件处理能力:强调了助手能够处理长文档和复杂信息,这对于开发者来说通常很难实现,需要复杂的算法和大量的计算资源。
- API的状态管理:介绍了新的状态管理API,它简化了对话历史的处理和消息的序列化,降低了开发复杂度。
- 透明的API管理:虽然AI管理API,但开发者可以在开发者仪表板中看到工具的每一步操作,包括调用的函数和参数。
- 功能调用和代码解释器:介绍了代码解释器的功能,它可以即时编写和执行代码,甚至生成文件。
- 实时计算演示:演示了如何使用AI助手进行成本分摊计算,包括日期、朋友数量和汇率计算。
- 助手的功能扩展:展示了助手如何利用外部工具和自定义函数来执行任务,提高了灵活性和实用性。
- 语音助手的集成:演示了如何将语音助手集成到移动应用中,使用Swift编写的简单应用程序可以接收麦克风输入。
- 助手的实时反馈:通过手机屏幕和终端日志,展示了助手如何实时处理语音输入和后台操作。
11. 社会新篇章:AI作为技术和社会革命
- 助手API的实时演示:展示了如何使用助手API进行实时互动,例如在主持人在舞台上时,让助手向在场的开发者问好。
- 语音选项和多语言支持:介绍了API中提供的六种独特而丰富的声音选项,每种都支持多种语言,以便开发者为他们的应用找到最合适的声音。
- 后台日志和实时反馈:通过笔记本电脑上的日志,展示了幕后发生的事情,包括语音输入转换为文本、使用GPT-4 Turbo和新的文本到语音(TTS)API。
- 功能调用的扩展应用:讨论了助手如何连接到互联网并为用户执行实际操作,如随机选择开发者大会的参与者并赠送他们API信用额度。
- 助手API的公共测试:宣布助手API现已进入公共测试阶段,开发者可以开始使用它。
- GPT和助手作为代理的前身:讨论了GPT和助手如何成为更复杂代理的前身,这些代理将能够规划和执行更复杂的任务。
- 渐进式部署的重要性:强调了逐步迭代部署的重要性,以便人们开始构建和使用这些代理,以适应它们变得更加强大的世界。
- 基于反馈的系统更新:提到了根据用户反馈持续更新系统的承诺。
- 新功能介绍:介绍了GPTs、定制版本的ChatGPT,结合了指令、扩展知识和动作;以及为了更容易地在自己的应用中构建辅助体验而推出的助手API。
- GP4 Turbo模型和合作伙伴关系:介绍了提供改进的功能调用、知识、降低的定价、新的模式等的新GP4 Turbo模型;并宣布与微软的合作关系进一步加深。
- 团队致谢:感谢创造这一切的团队,强调了OpenAI拥有卓越的人才密度,以及实现这些成就需要大量的努力和协调。
12. 感恩与展望:对未来的无限期待
- AI作为技术和社会革命:讨论了AI将如何成为技术和社会革命,以及它将如何以多种方式改变世界。
- 对团队的感激:表达了对团队的感激之情,认为能够与他们一起工作是一种极大的荣幸。
- AI的使命和愿景:强调了OpenAI的使命是通过AI赋予人们更好的工具,以改变世界,并相信AI将在前所未有的规模上提升个人的能力和代理权。
- 人类的提升:相信AI将提升人类到一个前所未有的水平,使我们能够创造更多、做更多、拥有更多。
- 智能的广泛整合:预见到智能将被广泛整合到各个领域,我们所有人都将随需应变地拥有超能力。
- 对未来的期待:表达了对看到大家使用这项技术并共同构建新未来的兴奋之情。
- 对未来的展望:期待大家明年回来,届时今天发布的内容相对于他们正在为大家创造的新事物将显得非常简单。
- 致谢:感谢大家所做的一切,感谢大家的到来。
从发布会内容角度上,有哪些最激动人心的内容?
-
GPT-4的发布:作为目前最强大的模型,GPT-4的推出标志着OpenAI在自然语言处理领域的一个重大进步。
-
ChatGPT的增强能力:ChatGPT现在具备了听、说、看的能力,这大大扩展了其应用范围,使其能够更好地与用户交互。
-
DALL-E 3的介绍:作为最先进的图像模型,DALL-E 3的推出,为创造性内容的生成提供了新的可能性。
-
ChatGPT企业版:针对企业客户的ChatGPT企业版,提供了更高的安全性和隐私性,满足了商业应用的需求。
-
开发者API的增长:发布会提到了有200万开发者正在构建基于OpenAI API的应用,这显示了OpenAI技术的广泛吸引力和实用性。
-
助手API的公共测试:助手API的公开测试,为更广泛的开发者社区提供了接入和测试OpenAI技术的机会。
-
GPT和助手作为代理的前身:讨论了GPT和助手如何成为未来更复杂代理的基础,这些代理将能够规划和执行更复杂的任务。
-
与微软的合作深化:宣布与微软的合作关系进一步加深,这可能预示着更多的资源和技术整合,以推动AI技术的发展。
-
AI技术的社会影响:发布会讨论了AI如何成为技术和社会革命的驱动力,以及它将如何在多个层面上改变世界。
从发布会数据角度上,有哪些最激动人心的内容?
-
GPT-4的性能指标:GPT-4的推出伴随着对其性能的具体数据,如处理能力、理解复杂度和多语言支持等,这些数据展示了其在自然语言处理方面的显著提升。
-
ChatGPT的用户增长数据:提到了ChatGPT的周活跃用户已达到1亿,这个数字不仅展示了ChatGPT的受欢迎程度,也反映了其背后的大规模数据处理能力。
-
开发者社区的规模:有大约200万开发者在使用OpenAI的API,这个数据点说明了OpenAI技术的广泛接受度和其在开发者中的普及率。
-
企业级应用的数据保障:ChatGPT企业版提供了企业级的安全性和隐私性,这意味着它能够处理和保护大量的敏感数据。
-
API的实时性能展示:通过实时演示,展示了API处理各种请求的速度和效率,这些演示通常伴随着实时数据的生成和分析。
-
功能调用的数据处理能力:功能调用的强大之处在于它们能够保证JSON输出,无额外延迟,并且可以同时调用多个函数,这些都是数据处理能力的体现。
-
Assistance API的数据管理:新的Assistance API简化了对话历史的处理和消息的序列化,这减少了数据管理的复杂性。
-
收入分享计划:提到了收入分享对于构建有用GPT的开发者的重要性,这涉及到数据产品的商业化和收益模型。
结尾
45 分钟,全程干货,希望我们都能抓住这波AI机遇。
其他参考
-
- 1. 未来已来:GPT-4的全新视界
- 2. 交互革命:ChatGPT的听觉与视觉突破
- 3. 企业新篇章:ChatGPT企业版的安全与效率
- 4. 开发者天地:API生态的蓬勃发展
- 5. 图像新纪元:DALL-E 3的创意无限
- 6. 智能互联:API的无缝集成与应用
- 7. 创新简化:构建自定义AI助手的新途径
- 8. 编程梦工厂:Assistance API的强大功能
- 9. 知识无界:AI助手的文件处理与状态管理
- 10. 声音的艺术:多语言TTS与实时互动
- 11. 社会新篇章:AI作为技术和社会革命
- 12. 感恩与展望:对未来的无限期待
- 从发布会内容角度上,有哪些最激动人心的内容?
- 从发布会数据角度上,有哪些最激动人心的内容?
- 结尾