【智能时代】美国模型篇:谷歌与OpenAI引领竞争,AGI等待开悟

发布日期:2024-09-18 21:24

来源类型:初衣胜雪 | 作者:玛丽亚·Z·威尔逊

【澳门金牛版正版资料大全免费】【新澳开奖记录今天结果】【2024年新澳门王中王资料】【管家婆最准一肖一码】【新澳彩开奖结果查询】【246天天天彩天好彩开奖】【4949澳门免费资料大全特色】【2024今晚澳门特马开什么号】【2024年新澳门天天】【2O24澳彩管家婆资料传真】
【494949澳门今晚开什么】 【2024新澳免费资料】 【二四六香港天天开好彩】


AI为核心的新一轮科技创新浪潮已至,AI将与互联网一样,带来新一轮范式革命,人类社会将进一步加速发展。我们精心准备,重磅推出【智能时代专题】,目前已规划85篇深度原创研报,将全方位梳理AI产业、技术、代表性公司等发展历史、现状、趋势,展望智能时代未来图景,挖掘投资机会。


智能时代专题:美国模型篇

免费版3,341字,预计阅读7分钟

完整版18,245字,欢迎付费解锁


一、2012年,深度学习革命与GPU算力革命,一起登上历史舞台,开启新一轮持续到现在的AI浪潮,并从学术界主导转为产业界主导,发展势头不仅没有丝毫减缓,反而一直在加速。


谷歌在AI领域布局多年,通过内生发展与外延收购,是智能时代重要开创者与先行者。2011年,谷歌率先布局深度学习领域并孵化Google Brain,开始涉足AI领域;2012年12月,以4,400万美元收购开启这轮深度学习革命的DNNresearch公司;2014年,以4亿英镑/5亿美元收购2010年成立的全球顶级AI研究机构DeepMind,在深度学习领域多年保持领先。


2012年6月,Google Brain公开谷歌猫项目研究成果,基于1.6万个CPU搭建神经网络,利用数百万份YouTube视频训练学习猫的关键特征,训练时间3天,识别准确率达到74.8%,对业界带来冲击。


2012年10月,深度学习三巨头之一、图灵奖得主Geoffrey Hinton,与两名学生Ilya Sutskever、Alex Krizhevsky组成团队,一起参加全球知名图片识别ImageNet竞赛,利用1,400万张图片、总计262千万亿次浮点运算,仅用2个英伟达Geforce GTX 580 GPU,训练时间7天,成功构建深度神经网络模型AlexNet,识别准确率达到80%,以压倒性优势取得冠军。


Ilya Sutskever表示,理论上,如果有足够大数据集与足够大神经网络,就会起作用;当时主要担忧在算力方面,不确定是否有足够算力训练足够大神经网络,直到Alex Krizhevsky编写出利用英伟达通用GPU并行计算架构CUDA非常快速训练卷积神经网络的算法,两人开始着手基于庞大的ImageNet数据集训练模型,AlexNet随之诞生。


作为对比,谷歌猫项目使用1.6万个CPU,AlexNet创新性使用具有高并行计算能力的2个英伟达GPU,在算力与算法上都取得突破性贡献,取得更优秀的成绩,在业界带来震撼性影响力,引来包括谷歌、微软、百度、DeepMind对Hinton团队组建DNNresearch公司的竞拍,最终是谷歌完成对DNNresearch公司的收购,对应Hinton三人团队人均估值1,467万美元,这也成为后续谷歌并购DeepMind的估值参考,深度学习革命由此正式开启,作为分水岭,以科技巨头为代表的产业界成为推动新一轮AI浪潮的标志性力量。


OpenAI为防止谷歌垄断AI领域而生,愿景是实现AGI。马斯克、Sam Altman、Greg Brockman、Ilya Sutskever、Peter Thiel等人,基于构建安全AI以造福人类的愿景,在谷歌收购DeepMind后,为避免谷歌在AI领域形成垄断,决定创建OpenAI。


2015年12月11日,OpenAI项目正式启动。OpenAI成立后,积极寻找路径,探索通过游戏、机器人等实现AGI,但效果一般,直到Transformer架构出现。


二、Transformer架构成为新一轮AI技术变革的起点,OpenAI坚信大力出奇迹,实现对谷歌与DeepMind的反超。OpenAI在大语言模型的成功,正是来自Ilya Sutskever坚信规模法则Scaling Laws,增加模型规模,将带来性能上提升。


2017年6月,谷歌发布论文《Attention is All you need》,首次提出Transformer架构,主要用于机器翻译任务。


OpenAI看到Transformer后如获至宝,直接导致大语言模型GPT-1面世。OpenAI联合创始人、首席科学家Ilya Sutskever,坚信规模法则Scaling Laws,更大规模神经网络,将带来更高性能,OpenAI继续扩大参数规模,推出GPT-2、GPT-3、GPT-3.5、GPT-4等系列惊人效果模型。


OpenAI联合创始人、首席科学家Ilya Sutskever表示,OpenAI在训练LSTM模型预测亚马逊评论过程中发现,当LSTM模型规模从500个LSTM细胞(是LSTM网络基本组成单元,协同工作控制信息流动与记忆更新),增至4,000个LSTM细胞时,其中一个神经元开始表示评论的情感,情感是语义属性,而非语法属性。


这是非常明确的证据,小的神经网络没有情感分析能力,但大的神经网络具有情感分析能力;OpenAI分析认为,在达到某个规模后,模型学习完所有关于语法知识,开始关注语义理解等其他东西。


Transformer有效解决长程依赖问题Long-Term Dependency,成为OpenAI研发GPT模型的起点。Ilya Sutskever表示,此前用于训练模型与语言序列的神经网络,如果序列越长,网络就越深,越难训练。但Transformer成功将深度与序列长度解耦,可用非常长的序列,得到可控深度的模型,这非常令人兴奋,直接导致GPT-1面世,后来OpenAI继续扩大参数规模,就得到GPT-2、GPT-3、GPT-4等系列模型。


Ilya Sutskever表示,确实认为随着模型不断变得更大、更好,就会解锁新的、前所未有的有价值应用。大模型会比小模型更好,但并非所有应用场景都需要使用高成本大模型,小模型将在不太有趣的应用领域占据一席之地。


虽然小模型在特定场景也能实现很好效果,但从大模型到小模型,丢失的是模型可靠性,而可靠性是模型真正广泛采用的最大瓶颈,从GPT-1~GPT-4,模型变得越来越可靠,越来越得到更广泛应用。


2020年1月,OpenAI团队发表论文《Scaling Laws for Neural Language Models》,提出规模法则Scaling Laws,大模型表现伴随模型参数量、数据集规模、计算量增长而增长,在运算量增加过程中,参数规模增加可起到更关键作用。在给定计算量,并且参数规模较小时,增大模型参数量对模型效果的贡献,远优于增加数据量与训练步数。


规模法则Scaling Laws,为后续推出的GPT-3、GPT-4等大模型奠定理论基础。


谷歌积极跟进OpenAI,发力大语言模型领域,双方激烈竞争,加速AI大模型发展。


三、OpenAI迎来ChatGPT时刻,成为AI大模型领域头号玩家。2022年11月30日,OpenAI发布基于GTP-3.5的生成式聊天机器人ChatGPT,引入基于人类反馈的强化学习RLHF等新训练方式,迅速风靡全球。


2023年3月14日,OpenAI推出第4代大型语言模型GPT-4,带动AI大模型进入多模态时代。


2023年11月6日,推出GPT-4迭代版本GPT-4 Turbo,将知识库更新至2023年4月,上下文窗口增至128k,推出GPT版应用商店,支持用户创造与分享GPTs,布局AI Agent领域。


OpenAI主要专注大语言模型,认为语言是压缩信息的好方法,与竞争对手拉开差距。Sam Altman表示,OpenAI团队认为,语言是压缩信息的好方法,是发展AI的关键因素,谷歌DeepMind等竞争对手错过这点,一直在追求其他研究策略推进AI发展,即使OpenAI通过GPT-3证明这点后,竞争对手仍没有认识到这点。


四、谷歌领先优势逐渐被OpenAI反超,致力通过Gemini重回巅峰。


OpenAI先后发布ChatGPT、GPT-4后,成为公认的最强大语言模型。


2023年4月20日,谷歌将DeepMind与Google Brain合并,组建Google DeepMind。


2023年12月6日,谷歌发布多模态大模型Gemini,模型规模从小到大分为Nano、Pro、Ultra版本。


谷歌Gemini Ultra版本,即将在2024年初向开发者与企业客户提供。


不同测试方法对模型测试效果有较大影响,谷歌Gemini Ultra在自研测试方法下超过GPT-4。谷歌宣称,在大语言模型研究与开发中广泛使用的32项学术基准中,Gemini Ultra性能有30项超过已有最先进水平。


但在大规模多任务语言理解MMLU中,Gemini Ultra采用谷歌自研CoT@32测试方法,使用思维链提示技巧,尝试32次选取最好样本,在CoT@32测试下,Gemini Ultra、GPT-4准确率分别为90.04%、87.29%。


传统行业通用标准测试下,Gemini Ultra性能不及GPT-4。在大规模多任务语言理解MMLU中,若沿用此前GPT-4采用的常用行业标准5-shot测试方法,通过提供5个相关样本,评估模型在有限样本下处理新任务的性能。


5-shot测试下,Gemini Ultra、GPT-4准确率分别为83.7%、86.4%。可以看出,相比常用5-shot测试方法,谷歌改用自研CoT@32测试方法后,GPT-4准确率小幅提升,Gemini Ultra准确率提升明显,从而达到宣称的目前最优水平。


微软指出Gemini Ultra性能数据存在误导,若采用微软自研测试方法,GPT-4在大量测试中表现超过Gemini Ultra。


2023年12月12日,微软发文表示,谷歌发布Gemini Ultra性能数据存在误导,Gemini Ultra使用更加复杂的提示词形式,如果仅使用标准提示词,Gemini Ultra表现比GPT-4差。


如果GPT-4使用微软刚刚提出的Medprompt方法,将超过Gemini Ultra准确率90.04%,达到目前最优性能准确率90.1%。


五、OpenAI面对谷歌Gemini竞争,宣布正在开发GPT-5。


《金融时报》2023年12月13日报道,OpenAI创始人、CEO Sam Altman接受采访时表示,正在开发下一代模型GPT-5,将需要更多数据进行训练,数据来自公开可用互联网数据集与OpenAI自有数据,暂未披露发布时间表。


六、更多美国科技巨头,自研或投资布局模型研发,把握AI智能时代最大机遇。


谷歌:通过投资OpenAI竞争对手Anthropic、Character.AI(计划投资),巩固在AI领域地位。


微软:通过投资深度绑定OpenAI,获得AI智能时代船票,并与Meta/Facebook开源模型LlaMA 2在云服务方面展开合作。


马斯克:成立xAI,将联合特斯拉、X推特、Neuralink等,致力成为AI世界第三极。


Meta:发布开源模型LLaMA,借助开源社区力量参与竞争,致力打造成大模型的安卓。


苹果:自研大语言模型Ajax GPT,计划将其融入Siri产品,在手机端运行,并通过即将在2024年发布的Vision Pro,将更多AI功能融入其中,从而在新的空间计算革命中继续保持竞争优势。


亚马逊:通过高溢价投资OpenAI竞争对手Anthropic,开始跟进参与激烈竞争。


七、AI大模型向多模态发展,变革生成式AI领域。文字、图像、视频生成领域,均迎来开悟时刻,随着大模型创新从单模态转向多模态,多模态预训练大模型将逐渐成为标配。


文字生成领域:从GPT-3开始,文本生成质量得到大幅提升。


图像生成领域:扩散模型DDPM,开启AI绘画浪潮。


视频生成领域:Runway Gen-2、Pika Labs Pika 1.0同样采用扩散模型,凭借生成视频效果成功出圈,但让生成视频动作有意义、提升清晰流畅度度仍需突破。


多模态大模型可接受文字、图像、语音等多种不同类型数据输入、处理、分析,并将结果以不同模态对外输出,实现异构模态数据协同推理,进一步迈向AGI。


相关研报:


人类未来文明三部曲之二:智能时代专题预售开启,奇点临近,未来已来


九宇资本赵宇杰:智能时代思考,认知思维,存在原生、降维、升维三波认知红利


九宇资本赵宇杰:智能时代思考,以史为鉴,科技浪潮,从互联网到AI


九宇资本赵宇杰:智能时代思考,宇宙视角,从碳基生物,到硅基智能体


人类未来文明三部曲之一:元宇宙专题预售开启,59期45万字


九宇资本赵宇杰:1.5万字头号玩家年度思考集,科技创新,无尽前沿


九宇资本赵宇杰:1.5万字智能电动汽车年度思考集,软件定义,重塑一切


【重磅】前沿周报:拥抱科技,洞见未来,70期合集打包送上


【重磅】六合年度报告全库会员正式上线,5年多研究成果系统性交付


【智能电动汽车专题预售】百年汽车产业加速变革,智能电动汽车时代大幕开启


【头号玩家第一季预售】:科技巨头探索未来,头号玩家梯队式崛起


【头号玩家第二季预售】:科技创新带来范式转换,拓展无尽新边疆


【首份付费报告+年度会员】直播电商14万字深度报告:万亿级GMV风口下,巨头混战与合纵连横


【重磅】科技体育系列报告合集上线,“科技+体育”深度融合,全方位变革体育运动


【重磅】365家明星公司,近600篇报告,六合君4年多研究成果全景呈现


九宇资本赵宇杰:CES见闻录,开个脑洞,超级科技巨头将接管一切


【万字长文】九宇资本赵宇杰:5G开启新周期,进入在线世界的大航海时代|GBAT 2019 大湾区5G峰会


九宇资本赵宇杰:抓住电子烟这一巨大的趋势红利,抓住产业变革中的变与不变


【IPO观察】第一季:中芯国际、寒武纪、思摩尔、泡泡玛特、安克创新等11家深度研报合集


【IPO观察】第二季:理想、小鹏、贝壳、蚂蚁、Snowflake、Palantir等12家公司深度研报合集


【IPO观察】第三季:Coinbase、Roblox、快手、雾芯科技等12家公司深度研报合集


【重磅】年度观察2019系列合集:历时3个多月,超20万字近500页,复盘过去,展望未来,洞悉变与不变


【珍藏版】六合宝典:300家明星公司全景扫描,历时3年,210万字超5,000页,重磅推荐


九宇资本赵宇杰:对智能电动汽车产业的碎片化思考


九宇资本赵宇杰:九宫格分析法,语数外教育培训领域的道与术


【2023回乡见闻录】90、00后小伙伴们万字记录,生活回归正轨,春节年味更浓


【2022回乡见闻录】20位90、00后2万字,4国13地,全方位展现国内外疫情防疫、春节氛围、发展现状差异


【2021回乡见闻录】22位90后2万字,就地过年与返乡过年碰撞,展现真实、立体、变革的中国


【2020回乡见闻录】20位90后2万字,特殊的春节,时代的集体记忆


【重磅】22位“90后”2万字回乡见闻录,讲述他们眼中的中国县城、乡镇、农村


六合君3周岁生日,TOP 60篇经典研报重磅推荐


下午茶,互联网世界的三国杀


5G助推AR开启新产业周期,AR眼镜开启专用AR终端时代


新商业基础设施持续丰富完善,赋能新品牌、新模式、新产品崛起,打造新型多元生活方式


【重磅】中国新经济龙头,赴港赴美上市报告合辑20篇


知识服务+付费+音频,开启内容生产新的产业级机遇,知识经济10年千亿级市场规模可期


从APP Store畅销榜4年更替,看内容付费崛起


新三板破万思考:新三板日交易量10年100倍?


九宇资本赵宇杰:科技改变消费,让生活更美好|2017 GNEC 新经济新消费峰会


九宇资本赵宇杰:创业时代的时间法则,开发用户平行时间|2016 GNEC 新经济新智能峰会


九宇资本赵宇杰:互联网引领新经济,内容创业连接新生态|2016 GNEC 新经济新营销峰会

请务必阅读免责声明与风险提示

艾玛·斯通:

8秒前:如果GPT-4使用微软刚刚提出的Medprompt方法,将超过Gemini Ultra准确率90.

安德雷·本杰明:

2秒前:6万个CPU,AlexNet创新性使用具有高并行计算能力的2个英伟达GPU,在算力与算法上都取得突破性贡献,取得更优秀的成绩,在业界带来震撼性影响力,引来包括谷歌、微软、百度、DeepMind对Hinton团队组建DNNresearch公司的竞拍,最终是谷歌完成对DNNresearch公司的收购,对应Hinton三人团队人均估值1,467万美元,这也成为后续谷歌并购DeepMind的估值参考,深度学习革命由此正式开启,作为分水岭,以科技巨头为代表的产业界成为推动新一轮AI浪潮的标志性力量。

郭少强:

2秒前:2012年6月,Google Brain公开谷歌猫项目研究成果,基于1.

Pataky:

1秒前:但Transformer成功将深度与序列长度解耦,可用非常长的序列,得到可控深度的模型,这非常令人兴奋,直接导致GPT-1面世,后来OpenAI继续扩大参数规模,就得到GPT-2、GPT-3、GPT-4等系列模型。