新利官方网站（中国）有限公司

以下文章来源于穿云寻恒星，作者Max

1. 从周五到周末ChatGPT已经疯传开来，其对话能力让人惊艳。从玩梗、写诗、写剧本，到给程序找bug，帮人设计网页，甚至帮你生成AIGC的提示词，一副无所不能的样子。可以去Twitter上看Ben Tossell梳理的一些例子，或者自己去试试！一位MBA老师让ChatGPT回答自己的管理学题目，结论是以后不能再布置可以带回家的作业了。很多人用了以后无法自拔，就如这位所见：

Musk问ChatGPT怎么设计Twitter(不得不说还挺有创意）：

2. 有人让ChatGPT参加了智商测试，得分83; SAT测试得分1020，对应人类考生52%分位。要知道ChatGPT并没有对数学方面做过优化，已经是相当不错的结果了。

3. ChatGPT的提升点

相比之前的GPT-3，ChatGPT的提升点在于能记住之前的对话，连续对话的感觉让人舒服。

ChatGPT可以承认错误，如果你认为他的回答不对，你可以让他改正，并给出更好的答案。

ChatGPT可以质疑不正确的前提，GPT-3刚发布后很多人测试的体验并不好，因为AI经常创造虚假的内容（只是话语通顺，但脱离实际），而现在再问“哥伦布2015年来到美国的情景”这样的问题，AI已经知道哥伦布不属于这个时代了。

ChatGPT还采用了注重道德水平的训练方式，按照预先设计的道德准则，对不怀好意的提问和请求“说不”；当然，尽管OpenAI非常小心，这种准则还是可能被聪明的提问方式绕开。

4. ChatGPT的训练方法

当下大模型的工作范式是“预训练-微调”。首先在数据量庞大的公开数据集上训练，然后将其迁移到目标场景中（比如跟人类对话），通过目标场景中的小数据集进行微调，使模型达到需要的性能。微调/prompt等工作从本质上对模型改变并不大，但是有可能大幅提升模型的实际表现。人类问问题方式对于GPT-3而言不是最自然的理解方式，要么改造任务，要么微调模型，总之是让模型和任务更加匹配，从而实现更好的效果。

ChatGPT是22年1月推出的InstructGPT的兄弟模型。InstructGPT增加了人类对模型输出结果的演示，并且对结果进行了排序，在此基础上完成训练，可以比GPT-3更好的完成人类指令。ChatGPT新加入的训练方式被称为“从人类反馈中强化学习”（Reinforcement Learning from Human Feedback，RLHF）。

ChatGPT是基于GPT-3.5模型，训练集基于文本和代码，在微软Azure AI服务器上完成训练。原先GPT-3的训练集只有文本，所以这次新增了代码理解和生成的能力。

5. 为什么ChatGPT的提升这么明显

除了带有记忆能力、上下文连续对话能带给人显著的交互体验提升，ChatGPT的训练方式也值得关注。上述提到的RLHF方法首见于22年3月发表的论文(Training language models to follow instructions with human feedback)，但根据业界的推测，RLHF并未用到InstructGPT的训练中。InstructGPT所用到的text-davinci-002遇到了一些问题，会呈现出模式坍塌(mode collapse)现象，不管问他什么问题，经常收敛到同样的答案，比如正面情绪相关的回答都是跟婚礼派对相关。

这次RLHF的方法得以在ChatGPT上应用，并取得了很好的效果。但RLHF实际上并不容易训练，强化学习很容易遇到模式坍塌，反馈过于稀疏这类问题，训练起来很困难。这可能也是为什么论文在3月发表，ChatGPT在12月才上线，中间需要大量的时间来调优。

此外，指令调整（instruction tuning）的贡献也很大。InstructGPT虽然在参数上比GPT-3少了100倍（13亿 vs 1750亿），它的输出效果比GPT-3以及用监督学习进行微调的模型都要好得多。

根据知乎用户“避暑山庄梁朝伟”的观点：“Instruction Tuning和Prompt方法的核心一样，就是去发掘语言模型本身具备的知识。而他们的不同点就在于，Prompt是去激发语言模型的补全能力，比如给出上半句生成下半句、或者做完形填空，都还是像在做language model任务，而Instruction Tuning则是激发语言模型的理解能力，通过给出更明显的指令，让模型去理解并做出正确的反馈。”

参考下图，以前大模型的提升重心更多放在了大模型（LLM）本身和Prompt Engineering上，而ChatGPT的迭代重点是右侧的闭环。

action-driven LLM训练流程图

最后，ChatGPT在过于保守不提供有效回答和提供虚假信息之间做出了较好的权衡。之前Meta用于科研的大模型Galactica上线仅3天就被迫下线，因为提供了过多虚假的信息。这跟Meta的宣传策略也有关，其本意是想帮助研究人员整理信息、辅助写作，但Meta将其模型宣传为“可以总结学术论文，解决数学问题，生成维基文章，编写科学代码，为分子和蛋白质做注解等”，过高期望带来了反效果，科研人员本来就是挑剔的。ChatGPT尽管不能完全避免虚假信息的问题，但可以看出在微调/Prompt方面做了足够细致的工作，一些自相矛盾的提问可以被甄别出来，让用户对其回答更有信心。

6. 商业策略也是重要一环

这次ChatGPT是免费不限量向公众开放，用户可以尽情在平台上尝试各种奇异疯狂的想法，而此前GPT-3是根据使用量(token)来收费的。在使用过程中，用户可以提供反馈，这些反馈是对OpenAI最有价值的信息。OpenAI并不急于创收也不缺钱，坊间传言最新一轮估值已经达到数百亿美金，还有金主爸爸微软。

对于AI发展来说，工程的重要性实际上大于科学，创建一个迭代反馈的闭环至关重要。OpenAI很注重商业应用，GPT-3已经拥有大量客户。这些客户跟OpenAI的反馈互动也是推动进步的关键一环。相比之下，谷歌的闭门造车就显得不合时宜，或许是缺乏商业化的文化，或许是受限于投入产出比，谷歌对于大模型的应用一直很“克制”，即便起点很高，但如果一直像Waymo做自动驾驶一样小规模迭代，早晚会被更为开放，获得更多数据的企业超越。

7. 后续提升点

RLHF是一种较新的方法，随着OpenAI不断摸索，结合ChatGPT搜集到的用户反馈，模型还有进一步提升的空间。尤其是在道德/alignment层面，需要屏蔽掉这几天大家试验出来的绕过系统限制产生负面信息的方法。

当然也别忘了，OpenAI还有WebGPT这样的工具，可以理解为高阶版网页爬虫，从互联网上摘取信息来回答问题，并提供相应出处。比如下面的问题How do neural networks work，WebGPT利用了GPT-3本身具备的语义理解能力和互联网公开信息，自己结合出了一份答案，不失为一种升级的搜索能力。

在MIT Technology Review对OpenAI科学家的采访中，他们提到了后续有可能将ChatGPT和WebGPT的能力结合起来。有网友挖掘出了ChatGPT内设的提示词，其中包含browsing:disabled，把浏览网页能力关闭了，也就是说后续有可能加入这个能力。可以设想，ChatGPT+WebGPT可以产生更为有意思的结果，信息可以实时更新，对于事实真假的判断将更为准确。

与WebGPT的这种结合，对应到上面 action-driven LLM训练流程图的左半部分，即连接外部的信息源和工具库。事实上网页搜索只是一种可能，还结合利用各种工具（比如各种办公软件、SaaS软件），实现更丰富的功能。

在产品层面，是不是有更好的界面和实现方式也值得讨论。同屏对话框形式容易让人产生过高的预期，因为要保障对话的流畅性。在这一点上，Github Copilot产品就做得很好，Copilot主打的是programming pair，以伙伴的身份提出建议。从用户角度，这个建议好就接受，不好就不接受；即便提出了很多不被接受的建议，但在随机时间间隔产生的有效建议带来的爽感就会让用户上瘾。如果ChatGPT后续成为写作助手、编剧助手、工作助手等等，类似Copilot的产品形态会容易让人接受。

写在最后

很多人惊叹于ChatGPT的能力，但其实真正惊艳的还在后面。OpenAI最厉害的不是他关于大模型的理解，而是其工程化、迭代反馈的能力，以及alignment(AI跟人类目标的统一）方面的工作。很欣赏OpenAI CEO Sam Altman的一句话：“Trust the exponential. Flat looking backwards, vertical looking forwards.” 我们就处在即将起飞的这个点上。

公司新闻

中科北纬江西第一站，开启深度战略合作新篇章

中科北纬 | 智慧应急解决方案

【北纬出品】坤然生态环境监测站 | 感知生态温度，洞悉山水脉动

中科北纬公司成功当选中国林业工程建设协会第五届理事会理事单位

中科北纬 | 应急产品解决方案

中科北纬诚邀您参加中国森林发展（博鳌）大会

中科北纬诚邀您参加第一届世界林木业大会

诚挚邀请 | 中科北纬邀您莅临2023第一届中国测绘地理信息技术暨北斗应用博览会

公司智能安防AI模型库与智能救援装备集中亮相淮南

中科北纬诚邀您参加首届京津冀晋生态旅游观鸟季启动仪式 暨“野鸭湖

喜报！我公司再获科学技术奖和青年测绘科技创新人才奖

奋进生态发展新征程 赋能生物多样大杨山

敬请关注 | 第四届植被病虫害遥感大会（2023）如约而至

喜报！我公司荣获2022年度自然资源科学技术奖

以虫治虫防治技术——花绒寄甲

林业系统工程自然保护区的研究

热解读｜指挥防沙治沙，习近平提的这四个字意味深长！

一图胜千言：空间分辨率如何决定遥感图像的细节？

我在，我一直都在！

野生动物监测体系能力提升解决方案

签订战略合作协议 | 握手中国四维测绘

信息技术助力野生动物保护事业发展

天枢-罂粟智能识别软件【惊喜】发布

红外相机AI识别工具发布【免费】

Web开发与GIS技术结合的产物 - WebGIS

陆生野生动物监测技术指南【试行】

红灯即将变绿，请起步！

Arcgis空间分析中的插值方法选择

松材线虫病 | 事关我国9亿亩松树的安危 说说松材线虫病的那些事儿

实地考察增了解 交流探讨促合作 | 北京京能地质工程有限公司莅临指导交流

浅谈设计模式的运维优势（一）

鸟类信息数据库 | 野生鸟类保护和疫病监测的基础

湿地履约 中国交出满意答卷

地球玩自拍：一段64亿公里的旅程

ChatGPT为什么这么强

张凤荣：解析中国耕地现状，落实耕地保护目标

卫星“瞰”湿地，颜值与实力并存

松材线虫病灾害经济损失评估软件研发

国家公园将引领我国自然保护地体系建设

AI+遥感，助力林业资源动态监测

高清遥感卫片监测森林资源对基层林业工作将会产生哪些深远影响

中国城市夜景卫星图，你的城市多发达？世界各国灯光地图，你的国家多繁华！

在我的世界中，B站UP主搭建世界首个纯红石神经网络，图灵奖得主Yann LeCun转赞

中关村人才协会林草资源信息人才联络处揭牌成立

从定性到定量，遥感技术“进阶式”

卫星遥瞰，国家公园的非凡十年

卫星影像下的洞庭湖、鄱阳湖已“瘦成闪电”！

遥感技术在洪涝灾害方面的应用

CCTV-17农业农村 | [中国三农报道]中国科学院植被病虫害遥感监测与预测系统升级版发布

第三届植被病虫害遥感大会||重点关注

提升自然资源调查效率，助力数字经济转型发展 |遥感智能解译技术（装备）创新峰会召开

遥感样本库建设还没头绪？不妨来这看看...

中国地理信息产业协会时空信息智能云服务工作委员会成立!

如何实时跟踪定位航班位置？

关于召开遥感智能解译技术（装备） 创新峰会的通知

视觉盛宴-2021年度自然资源科普微视频大赛获奖作品赏析

真香，当天枢遇上云平台！！

5天推进200公里，河南小麦收获已达8成

浅谈AI遥感解译在农业方面的应用

林业植物调运检疫可视化分析及技术实现

政策解读｜《北京市园林绿化局关于提升建设项目使用林地审核审批便利化服务的通知》

AI+遥感 | 城市井盖普查新思路

Sentinel-2卫星镜头下的高速目标---疾驰的京沪高铁

换个角度，来看天枢能为农业监测做什么

天枢（Learth）第四讲：AI助力大范围候鸟监测调查

北京市园林绿化局关于印发《建设项目使用林地行政许可事项服务程序》的通知

守正出新 砥砺奋进 | 中科北纬公司党支部圆满完成预备党员转正工作

天枢平台-以遥感解译助力松材线虫监测

一文看懂元宇宙

解读生命的密码——DNA

新版发布 | 天枢-遥感智能视觉平台v2.2 震撼亮相

北京市园林绿化局行政规范性文件清理结果

基于载人航天平台的林业遥感应用

一文看懂深度学习（白话解释+8个优缺点+4个典型算法）

一文看懂图灵测试（附图灵本人的精彩事迹）

专家解读 | 构建完善生物多样性保护空间网络

权威发布｜高分卫星运行与数据分发报告-2021年11月

注意安全！野外工作安全指南

新基建驱动产业转型升级 | AI赋能共创遥感新时代

中科北纬诚邀您参加首届京津冀晋生态旅游观鸟季启动仪式暨“野鸭湖

奋进生态发展新征程赋能生物多样大杨山

松材线虫病 | 事关我国9亿亩松树的安危说说松材线虫病的那些事儿

实地考察增了解交流探讨促合作 | 北京京能地质工程有限公司莅临指导交流

湿地履约中国交出满意答卷

关于召开遥感智能解译技术（装备）创新峰会的通知

守正出新砥砺奋进 | 中科北纬公司党支部圆满完成预备党员转正工作

你的改变我能够分辨 | 天枢平台之变化检测