首页 > AIGC > 百度ai搜索和文心一言的区别-百度文信的话效果如何?我们自己尝试过
2023
08-23

百度ai搜索和文心一言的区别-百度文信的话效果如何?我们自己尝试过

原始机器之心 机器之心

机器之心报告

机器之心编辑部

百度文心一言的作用是什么? 我们亲自尝试了一下,发现…

日前,GPT-4的发布可以说给全球科技巨头带来了巨大的压力。 就连谷歌似乎也面临着压力。

在中国,一直努力打造文学心的百度昨天站在了聚光灯下。

在GPT-4带来的压力下,百度昨天正式发布了知识增强型大语言模型“文心一言”。

在当天的演示环节,百度创始人、董事长兼首席执行官李彦宏展示了文心一言在文学创作、商业文案创作、数理逻辑计算、中文理解和多模态生成等五个方面的能力。

中国有句俗话说,骡子出来走,马出来走。 拿到测试资格后,机器之心立刻体验到了温心一言。

图:闻心一言对话界面

第一次体验的惊喜

获得体验资格后,很多读者期待我们用这些问题来测试文心一言。

下图是GPT-4为文心一言设计的试题。 它从文学、翻译、创作、逻辑推理等多个角度进行了检验,也在网络上广为流传。

那么结果如何呢? 我们挑选了几个有代表性的答案来看看。

首先是翻译问题,需要翻译成“美丽”的中国诗歌。 效果非常好。

然后是量子纠缠的科学问题。 从结果来看,智力答案效果很好。

最终逻辑推理问题:答案有缺陷。 但从结果中,我们可以清楚地看到,文心一言确实分析了,而且有一个思路,但结果却是错误的。

然后,我们又测试了ChatGPT上经常玩的一个梗,文心一个字都能搞定。

此外,文心一言还具备多模态生成能力,包括生成图片、生成语音(包括方言)、生成视频的能力。

以图片生成为例,我们请文心一言生成一幅湖心亭望雪的水墨画。 生成速度和效果都比较令人满意。

李彦宏Demo的直播视频生成能力给观众留下了深刻的印象。 不过目前还没有开放,期待后续更新。

经过一番体验,文心一言确实超出了我们的预期。 到目前为止百度ai搜索和文心一言的区别,头脑风暴问题的答案都很好; 翻译和文森特图效果非常好; 写代码的能力还有很大的提升空间。 虽然有些问题会像ChatGPT一样“废话”,但毕竟是全新的,相信后续迭代会有所改善。

专注于汉语理解与生成

揭秘文心一言背后的关键技术

体验完文心一言,我们来了解一下其背后的技术。 在昨天的发布会上,百度CTO王海峰总结并介绍了文心一言背后的关键技术。

整体来看,百度文心一言是基于知识强化千亿大模型ERNIE,同时借鉴了文心对话大模型PLATO。 这两项技术都在文心一言中得到了延伸,并且在训练过程中不断得到提升。

具体来说百度ai搜索和文心一言的区别,文心一言包含六大核心技术模块,分别是监督微调、人类反馈强化学习、提示与知识增强、检索增强、对话增强。 其中,前三类技术应用于大型对话模型,后三类技术是百度现有技术优势的再创新。 他们共同构建了《温馨一言》的技术基础,并在对话效果中得到了充分的释放和呈现。

持续优化大型对话模型通用技术

对于监督微调,除了标准的监督微调技术外,百度还做了针对性的优化。 首先,文心一言做了更多的中文标注数据,并且基于对中文语言文化和中文应用场景的理解来选择数据,因此对于中文任务来说更有用。 其次,服务应用。 百度在服务个人用户和企业客户中积累了大量的应用需求理解卡通形象,并起到了数据微调的作用。 最后,知识丰富。 除了将知识图谱应用到知识增强过程之外,还根据知识图谱生成大量经过验证的有效数据进行数据微调。

我们知道OpenAI在调优ChatGPT时采用了监督学习和强化学习相结合的方式,其中强化学习组件使用了人类反馈的强化学习(RLHF)训练机制,使得模型在训练时使用人类反馈来最大限度地减少无用和失真或有偏差的输出。

百度也非常重视RLHF机制在训练中的重要性,提出了一整套技术,也被证明是非常有效的。 首先接收人类反馈,然后利用反馈数据训练奖励模型卡通形象,最后进行强化学习策略优化。 但需要注意的是,由于文心一言刚刚上线,用户需求和反馈数据还不够充分,未来肯定会基于更真实的反馈而演变。

提示已经成为与大模型交互,尤其是对话大模型最自然、直观的方式。 超过千亿参数的大型模型往往包含极其丰富的数据和知识,如何快速、准确地发现和应用这些数据和知识变得至关重要。 这时,提示是否构造得好,将直接影响到语言模型的能力,因此《文心一言》在这方面下了很大的功夫。

当用户输入提示时,可以基于很多自动构建方法来提高效果,例如补充示例(解决问题时给出示例)、创建时给出大纲和规范等等。 另外,大语言模型也会出错。 这时,添加已知的准确知识点也可以提高答案的准确性。 最后,在构造提示时加入思路链,也会让答案更加合理,逻辑更加清晰。

独特的优势,奠定了文心一言的坚实基础

除了继续强化打磨大语言模型的通用技术外,百度还在知识增强、检索增强、对话增强三大已有优势上进行了重新创新。

知识增强是文心大模型的核心特征之一。 通过对海量知识和数据的整合和学习,模型可以获得更高的效率、更好的结果和更强的可解释性。 要做到这一点需要两种技术——知识内化和知识外化。 知识内化是基于从大规模知识和无标签数据中进行语义单元学习,利用知识构建训练数据,将知识学习成模型参数; 在此过程中,引入外部多源异构知识进行知识推理、提示构造等。

另外,通过知识图谱构建训练数据,达到知识内化的效果。 百度拥有全球最大的多源异构知识图谱,包含50亿个实体和5500亿个事实,并且在不断演进和更新。 除了基于知识图谱进行知识推理外,还可以基于知识构建提示。

百度在搜索领域拥有多项领先技术,每天响应数十亿真实用户需求。 如今,百度新一代搜索架构已经发展成为基于语义理解和匹配的架构。 其以文本为中心的大型模型分别理解用户输入和文档,形成双塔模型,然后基于理解进行匹配。

这套搜索架构自然离不开包括文心一言在内的大规模文心模式。 在制作生成模型时可以进行联合优化,将搜索中的一些有价值的结果(比如准确的信息)带入生成模型中。 过程。 通过引入搜索结果,为大型模型提供时效性、准确的参考信息,更好地满足用户需求。

百度在对话领域也有大量的对话技术和应用积累。 我们知道,对话往往不是问答,多轮带语境的对话才是常态,所以记忆机制和语境理解都很重要。 同时,长对话中还必须考虑对话策划。 只有将这些结合起来,才能实现更好的对话连贯性、合理性和逻辑性。

可见,打造一个优秀的大型模型并不是那么容易,需要在技术上不断创新。 AI研发就像烧一锅开水。 从0℃到99℃比100℃还要困难。 王海峰表示,文心一言是百度多年技术积累和产业实践的成果。

这一切都可以追溯到2010年。当时,在深度学习尚未普及之前,百度就开始全面布局人工智能。 是全球少数拥有全栈布局的人工智能公司之一。 从底层芯片到框架、模型、应用,百度拥有领先的自研技术和产品。 通过层层相互反馈、端到端优化提高效率,贯穿整个人工智能产业链。

尤其是飞桨深度学习平台与文心大模型的联合优化,为文心一言提供了坚实的技术支撑。 飞桨支持文心一言从开发、训练到推理部署的全流程。 在开发和训练层面,飞桨的动静态统一开发范式和自适应分布式架构,能够实现大型模型的灵活开发和高效训练; 层面上,Paddle支持大型模型的高效推理,并提供面向服务的部署能力,包括计算融合、软硬件协同的稀疏量化、模型压缩等。

同时,自2019年发布ERNIE 1.0以来,文心大模型全面覆盖NLP、CV、跨模态、生物计算、大规模行业模型,并推出AI画画产品文心一格和工业级搜索基于大型模型。 该系统经过深思熟虑。

飞桨深度学习平台和文心大模型是支撑文心这句话的底气。 文心一言还延续了文心大模型知识增强的特点,大大受益于理解能力和生成能力的融合。

作为国内搜索领域的第一名,在可预见的未来,百度或将凭借文心一言引领中国搜索市场的代际变革,为用户带来更加便捷、友好的搜索体验。 此外,以文心一言为契机的大语言模型和生成式AI也将助力金融、能源、媒体、政务等行业的智能化转型。

正如李彦宏在会上所说,“百度希望与大家一起推动人工智能技术的进步,让每个人都能使用最先进的生产力工具并从中受益。”

最后感慨一句,ChatGPT和GPT-4的相继发布,让我们担心中国的AI技术能否跟上海外上海的步伐。 在昨天的百度发布会上,我们可以看到一些人的调侃和抱怨,但我们也看到更多的人愿意对百度勇敢的第一步采取宽容的态度。 预计,经过百度这一步,更多的中国企业能够走得更远。

读者福利:机器之心已获得5个邀请码。 请留言您想与文馨互动的问题。 今天24:00前点赞的5位读者即可获得。

© 结束

最后编辑:
作者:nuanquewen
吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计