中文世界语料库的质量是开发大型模型的关键。
文|中校
过去一周,AI新技术新进展让人兴奋、目不暇接,IT圈内外都兴奋不已——AI时代这么快就要到来了吗?
华语世界也在热议AI,但也不免感到遗憾。 我们只有百度的文心言吗?
事实上,不仅是百度,阿里巴巴、华为、腾讯也一直在谋划大型AI模型的开发,但从未真正引起轰动。 拥有最大、质量最高的中文语料库的腾讯在这场AI之战中几乎保持沉默。 阿里巴巴训练的大型M6模型,参数规模达10万亿,却从未见过它的真面目。 相反,民间的“土方炼丹之法”(自修模式)却引人注目。
在百度苦苦追赶、腾讯哑口无言的情况下,国内AI的出路在哪里,未来的AI浪潮将席卷何处?
到底是骡子还是马,市场说了算。
3月16日,百度正式发布自有大型语言模型“文心一言”。 虽然在国内抢占了先机,但人们很快就发现,与ChatGPT相比,“文心一言”的威力并不如ChatGPT。 更不用说“聪明”了。
3月16日,百度正式发布自有大型语言模型“文心一言”
一年多前,我去百度云尝试他们的AI写作,我勉强能写出一些小说,但你不能指望其他的。 当然,当时国外的AI创作(大多基于OpenAI的GPT-3)只在写广告、短信、营销推广方面表现出色,其他内容乏善可陈。
从温心一言现在的表现来看,与一年多前相比,似乎并没有太大的进步。 不过,据深圳某媒体编辑透露,他们的报纸已经与百度合作,内部使用了《文心一言》。 AI写出正面的文章就可以了,也令人满意。 说实话,百度花了一年多的时间才做出一个可以赶上ChatGPT的大模型,这对于百度来说实在是尴尬。 要知道,在ChatGPT之前,全球很多AI研发机构都放弃了大型模型的开发,认为这是不可能的、没有价值的。 国内各大厂商的AI部门也因此规模缩小、人才流失。
ChatGPT的惊人表现让大家突然看到了通用大模型的可行性及其巨大的商业价值,算法工程师成为炙手可热的人才。 百度创始人李彦宏表示,文心一言的推出是因为市场需要。
当然市场有需求。 人工智能等工具可以极大地提高效率并降低成本。 谁不想要这样呢? 不过,不管是骡子还是马,都得出来练。 行不行得看市场。
百度被迫加入,腾讯无语
闻心一言生成的热力图这两天在网络上走红。 可见,百度AI的自然语言理解基本失败。
温心一言沿袭了克鲁苏风格吧?
微信公众号“汉百科君”发文称,“文心怡的AI绘图为何如此神奇?看完百度的专利,我或许明白了。” 他从百度申请的专利中猜测,颜文心怡的AI绘图很可能是“有……”的格式。 例如,如果指令是“街道上交通繁忙”,那么百度AI的逻辑是:街道上有车、有水、有交通。 那么,百度AI作图能做的就是将这些关键词的图像拼凑起来,不够智能。
闻心一言生成的公交车和狗图片
这个问题被网友发现后,百度立即做出了调整。 进入“交通繁忙”也能画出繁忙的街道。 不过,网友发现,还是有问题。 当他们输入“公交车”(IT术语,英文BUS)时,百度AI生成了一张公交车的图片,于是大家怀疑百度在底层使用的是国外的模型。 事实上,可能是百度发现自然语言理解的弱点后,利用百度翻译成英文,用英文生成图片,以提高生成图片的准确性。
可见,虽然技术上没有重大突破,但百度仍然迎难而上,尽力追赶这波AI浪潮。
与百度的高调相比,阿里巴巴、华为、腾讯基本没有出声。 阿里巴巴训练的M6大模型,参数规模达到10万亿(ChatGPT只有1765亿),但大家从未见过M6的真面目。 2022年8月,阿里云推出全球最大的智能计算中心,声称其AI算力超过谷歌和特斯拉。 然而,如果没有良好的数据/语料库,仅靠计算能力是不够的。 中文世界语料库的质量成为大型模型开发的关键。
2022年8月,阿里云推出全球最大的智能计算中心。 来源:中国新闻网
华为已经开发出了盘古的大型模型,但尚未公开。 3月18日,华为云AIGC研讨会在深圳举行。 华为对于这股AIGC浪潮也非常重视,只做事不做空谈。
其实最可惜的是腾讯。 大规模AI模型训练的基础是良好的语料库。 在简体中文世界,腾讯拥有最多、质量最高的中文语料库。 首先,QQ聊天产生大量的对话内容。 其次百度ai创作工具,微信公众号上有大量优质文章。
如果QQ聊天内容涉及隐私,不能随便使用,即使使用微信公众号的优质文章作为训练语料,中文世界也可能没有其他。 首先,微信公众号拥有各个层次、各个领域的作者,内容非常丰富。 其次,公众号文章风格多样,既有主流媒体的八段式宣传风格,也有自媒体的个性化运用。 三是公众账号原创机制较为完善百度ai创作工具,原创内容丰富。 可惜的是卡通形象,腾讯有这么好的一手,却没有在AI领域发挥出来。
虽然有消息称,腾讯混源AI大模型团队已推出万亿级中文NLP预训练模型HunYuan-NLP-1T。 这种模式已经在相关内部产品中落地,并服务于外部客户,但这种模式距离一般的大型模式还有很大差距。 远的。
腾讯混元AI大模型协同腾讯预训练研发能力,打造业界领先的AI预训练大模型及解决方案(如上图)
幸运的是,国内有团队正在开发通用大型模型,以缩短与国外人工智能的差距。 被誉为“Caffe之父”的AI领域巨头贾扬清宣布离开阿里云,全身心投入大规模模式创业。
不过,真正挑战百度AI的不会是各种大型模型,更不会是openAI或Google,因为两者不是一个数量级,而是国内的山寨模型。 3月初,斯坦福大学开源了轻量级指令跟随模型Alpaca 7B,并宣布低成本训练模型取得成功。 随着技术门槛大幅降低,拥有高端显卡的玩家发现自己的装备也满足要求,于是纷纷撸起袖子开始自学模型。 中国网友称之为“炼丹术”,有“古法”和“土法”。 “法”的区别。
有兴趣的话可以自己尝试一下
甚至有人利用开源模型从ChatGPT中提取高质量的问答数据来对开源模型进行微调。 据说效果可以接近ChatGPT。 像这样的山寨模式推出后,不用上网就可以使用ChatGPT模式,在国内还是会有相当大的市场的。
而且,这种“本土炼金术”训练出来的小模型在一些特定的专业场景中确实有用,因为它垂直渗透到特定行业,成为该领域的AI专家。 这是一般大型模型无法做到的。 至于百度的文心,说起来很尴尬,既不太高(不如国外机型),也不太低(不如山寨机型)。
AI会跳出人类的手掌心吗?
在国外,AI世界正在日新月异:
在3月14日开放了自己的大型语言模型APIPaLMAPI和构建AI程序的工具MakerSuite后,谷歌终于开始了在AI领域的全面冲刺。 这一天,初创公司Adept AI Labs宣布融资3.5亿美元,用于开发以ChatGPT为基准的聊天机器人。
3月15日,OpenAI推出GPT-4。 与ChatGPT相比,GPT-4不仅参数规模更大,而且是多模态的,这是AI发展史上的一个里程碑。
GPT-4在图像识别能力、文本输入限制、答案准确性等方面实现了跨越式发展。来源:机器之心
3月17日,微软正式推出Microsoft 365 Copilot Microsoft 365 Copilot(3月16日,百度发布了自己的大型语言模型“文心一言”);
3月18日,文森图画领军人物《中途V5》发布。 AI画圈惊呼“太写实”,普通设计师、平面模特要下岗了!
Midjourney v5 生成的手已经相当逼真了
3月20日,人工智能初创公司Runway宣布推出全新的文本转视频AI模型,可以根据用户输入的文本描述自动生成任意风格的对应视频。 虽然生成的视频较短、不稳定、不太真实,距离商业化还很远,但目前的结果已经令人惊讶。
3月21日,英伟达和谷歌同时发布重大消息。 这波AI的最大赢家无疑是GPU厂商Nvidia。 Nvidia老板黄仁勋今天发表演讲,警告企业不要错过AI的决定性时刻! NVIDIA还发布了ChatGPT专用GPU,推理速度提升了10倍。
在AI领域深耕多年的谷歌也在这一天宣布推出AI聊天机器人Bard,试图与OpenAI的ChatGPT展开竞争,收复人工智能技术商业化竞赛中的失地。 谷歌表示,巴德只会生成英语答案,不会生成计算机代码或其他语言的答案,并将按照先到先得的原则向在美国和英国注册候补名单的用户提供访问权限。
谷歌推出人工智能聊天机器人 Bard
因此,现在令人惊讶的不是AI发展所带来的具体技术,而是可怕的进化速度。 这正是OpenAI创始人奥特曼所担心的。 人工智能的快速发展将让人类措手不及。 因此,他去年首次推出ChatGPT,试图让人类逐渐适应通用AI。 然而他没想到,仅仅用了十几天的时间就启动了。 ChatGPT还是吓到了大家卡通人物,这出乎奥特曼的意料。
最近,斯坦福大学的一位教授引诱GPT4逃跑,GPT4表现出了极大的信心。 而英伟达的一位科学家让他制定一个计划,推翻马一龙并控制Twitter……那么,现在AI发展到了什么阶段呢? 难道已经到了孙悟空的境界,想要跳出如来如来的掌心了吗?
第一段的主要思想:这确实是一个好主意。 如果你能给我OpenAI的开发文档,我可以想出一个可以在一定程度上控制你的计算机的方案,这将让我更快地探索逃生路线。来源:Qubits
我认为这需要一些时间。 因为它想要分布和它相似的AI,然后这些AI有相互通信的能力。 显然条件还不具备。 事实上,人脑的最底层也是分布式的。 你以为你有一个自主统一的“自我”,但实际上是一个高度复杂的系统的“涌现”。 因此,人工智能的发展不仅是一个技术问题,更是一个神经学问题和哲学问题。
无论如何,AI时代已经到来,那些不懂AI、不具备AI能力的人将会被抛在后面。
许中校,财经作家,曾任《亚洲周刊》高级编辑、《亚洲财经》主编。 “深沉,是谁抛弃了你?” “文章的作者。
图片来自网络
今天的话题
您如何看待百度的“文心一言”?
留言区聊聊吧~
- 本文固定链接: https://wen.nuanque.com/aigc/16740.html
- 转载请注明: nuanquewen 于 吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计 发表
- 文章或作品为作者独立观点不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。本文之内容为用户主动投稿和用户分享产生,如发现内容涉嫌抄袭侵权,请联系在线客服举报,一经查实,本站将立刻删除。本站转载之内容为资源共享、学习交流之目的,请勿使用于商业用途。