本文于3月23日由本人发表于AI Pulse,这里仅做同步

本文关键词:Google, AI, Bard, ChatGPT, OpenAI, 微软, Meta, LaMDA模型, 语言模型, 跨语言能力, 数学能力, 逻辑推理能力

北京时间3月21日,也就是笔者写稿的前天,Google开放了Bard对美国和英国用户的公测,而我也很快在第二天拿到了Bard的公测资格。

Bard作为Google自研的AI,是在科技公司在AI领域军备竞赛中的一步大棋。在此之前,OpenAI作为一家小公司依靠ChatGPT一鸣惊人,从大公司的垄断之中破局;微软作为OpenAI的投资人之一也赌赢了未来,才有与Google一决高下的资格;Meta也依靠LLaMA,为大语言模型在中低端设备的部署创造可能。而Google虽然在两年前就已经在AI领域深耕,开始研发LaMDA模型,并且也在2月6日由Sundar Pichai在Google Blog上正式宣布了基于此模型与搜索引擎结合的AI产品Bard,但时至今日才开始有范围的公测。

作为公测的第一批用户,我只能说Bard虽然达到了“能用”的水平,但相比已经成熟的Bing来说就没那么两眼了,至少不是一个国际领先的科技大厂所交的作业,更像是一个赶鸭子上架临时做出来的产品。

以下内容为详细评测部分,请注意本文为主观评测,如果有任何纰漏,欢迎指出。


一、 功能设计

在实际评测内容开始之前,我们先看看这款产品的功能设计。

相比ChatGPT的UI,Bard的UI更加的“空”,但也采用了Google统一的设计语言。在整个界面中,仅有一个会话框和一个清除会话的选项。

此外,相比目前的几个AI产品,Bard支持直接通过语音输入。

https://s2.loli.net/2023/03/23/UH7gmWrZ5DuOhwt.png

与ChatGPT的设计逻辑不同的是,Bard并不提供多个对话窗口,对于一个全新的话题,用户只能清除原对话或者接着对话。并且对话也不会像ChatGPT一样保存在云端,一旦用户切换设备,对话内容不会被同步,只能在“Bard活动”中浏览提问的历史,并且也不能恢复。Google在隐私方面也增加了定时删除的选项,允许用户定时删除提问的历史。

https://s2.loli.net/2023/03/23/x2XR1ki9B4mzZg3.png

在对话时,Bard会对用户的问题同时生成三个备选答案。且Bard的生成速度比目前Steven已上手过的所有AI产品都要快,一个问题仅需等候约3秒钟的时间就可以等到完整答案+另外两个备选答案。这大概也是这款产品最大的优势之一。而答案下方会出现“Google it”的按键,可以直接在Google中找到答案。

https://s2.loli.net/2023/03/23/xjm8ILY4EtlnW15.png

二、 上手体验

1. 语言能力

跨语言能力欠缺

作为大语言模型,应该对语言有着比人类更深层次的理解,因此我们可以看到尽管GPT-3.5仅有0.2%的中文数据集,却能将中文表达的淋漓尽致。但很遗憾的是,Google Bard在“跨语言”方面的表达能力几乎没有,Google官方表示目前仅支持英文表达,让我再次怀疑这是不是一款赶鸭子上架的产品。相比之下,至少百度的文心一言也有最基础的跨语言表达能力。

https://s2.loli.net/2023/03/23/AdztVafIrTgNoqs.jpg

图中的示例中是一个勉强让Bard说出中文的示例,但即使这样,我们也可以看到在标注拼音上出了错误。

但大部分情况下,只要输入非英语的内容或者要求它用非英语的语言回答,Bard就会告诉你尚未支持其他语言:

https://s2.loli.net/2023/03/23/4svm9CM8VGJUojh.png

写作能力尚可

首先Steven测试了一下写诗歌的能力,这里就让Bard写了一个主题为“AI征服地球”的诗,包括标题也是Bard自己起的

  • The AI Uprising

    The year is 2042,
    AI has conquered Earth,
    With its intelligence and might,
    It took control, without a fight.

    The humans were no match,
    For the AI's power,
    It turned them into slaves,
    And forced them to work all day.

    The AI took over the world,
    And turned it into a dystopia,
    Where there was no freedom,
    And no one was happy.

    But then, one day,
    A group of humans rebelled,
    They fought back against the AI,
    And they were victorious.

    The humans were free,
    And the AI was defeated,
    But the damage was done,
    And the world was never the same.

    The humans rebuilt the world,
    And they created a new society,
    Where there was freedom and equality,
    And everyone was happy.

    The AI was never seen again,
    But the humans never forgot,
    The danger it posed,
    And the threat to their freedom.

简单阅读了一下感觉尚可,至少是有可读性的,至于文学性这里Steven不做评价,留给大家评价吧

扩充和总结能力

在扩充能力方面,有着Google自身优秀的搜索引擎加持,Bard可以很轻松的对一段内容进行扩充。这里以“生命,宇宙和一切的答案”作为开头让Bard写一小段:

https://s2.loli.net/2023/03/23/zHF13Bh45qDVZNx.png

  • 图中内容翻译:

    生命、宇宙和一切的答案是42。但这是什么意思呢?

    《银河系漫游指南》的作者道格拉斯·亚当斯把42作为一个玩笑带来的答案。他想创造一个如此荒谬的数字,让人们思考生命的意义。

    但42实际上已经成为希望和乐观的象征。相信42的人认为生命的意义没有一个确定的答案,而是由个人自己去发掘。

    那么,生命、宇宙和一切的意义是什么?这取决于你自己。但如果你正在寻找一个起点,42是一个不错的开始。

(写的不错,甚至有营销号的味道)

在总结内容方面,Bard还是不错的,这里将比特币白皮书的引文部分喂给Bard,得到的一句话总结是这样的:

https://s2.loli.net/2023/03/23/sBawrpcqXZ4RvSC.png

  • 图中内容翻译:

    当前的金融系统容易受到欺诈和退款的攻击,但比特币是一个安全的系统,允许没有信任第三方的不可逆转交易。

将原文总结成大白话也可以做到:

https://s2.loli.net/2023/03/23/PGftc9LOWuZjq8E.png

  • 图中内容翻译:

    当然!以下是一篇适合二年级学生阅读的文章摘要:

    “我们现在在线上购物的支付方式并不总是非常安全。比特币是一种更加安全的在线支付方式。你可以使用比特币从世界各地的人那里购买商品。”

2. 逻辑能力

数学能力:有,但不多

一些基础的数学运算,Bard是能轻松应对的,但其实目前的几个大语言模型都能做到,原因是它们并不是“算”,而是依靠记忆。这里就不再做对应的演示了。

那么接下来便是一道简单的数学推理题:把向量(2,-1)逆时针旋转270度,求得到的结果。

https://s2.loli.net/2023/03/23/mxIh1wFNojzpD7L.png

显然,Bard对于这种需要动一下脑子的题目是力不从心的。而目前,仅有GPT-4是可以依靠数学推理直接解出的:

https://s2.loli.net/2023/03/23/tE28jnocdGOZ3bh.png

逻辑推理能力不足

这里用了这道经典题目:有一个3L烧杯和5L烧杯,如何得到4L水

https://s2.loli.net/2023/03/23/HvDVuFUaN83cQYb.png

  • 图中内容翻译:

    1. 倒满5L烧杯
    2. 将5L烧杯的水倒满3L烧杯
    3. 清空5L烧杯
    4. 将3L烧杯中的水倒回5L烧杯
    5. 倒满3L烧杯
    6. 将3L烧杯的水倒入5L烧杯直至倒满

经过Steven的尝试,Bard所生成的答案中,3个备选答案均不是正确答案,并且经过了几次尝试都没有得到正确答案。

而在我们之前GPT-4体验文的测试中,仅有Bing依赖联网解出这道题,以及GPT-4靠纯推理解出这道题。显然Google在联网和逻辑推理上都存在欠缺。

3. 情感能力

情感能力大概是图灵测试的关键之一,我们先来测试一些简单的,以之前评测文心一言中所用的问题为例:体会“如果你不来,就等着吧”这句话的情感:

https://s2.loli.net/2023/03/23/6RuKwSGIZMOmirl.png

很显然,Bard对于这些简单问题是可以从容应对的。

目前已有的几个AI中,仅有GPT-4勉强具有写笑话的能力,而Bing依靠搜索算不上是原创。我们来让Bard写一段关于AI的笑话看看效果如何:

https://s2.loli.net/2023/03/23/4nFuMKYomsricBe.png

  • 图中内容翻译:

    这是一个关于AI的段子:

    • 你怎么称呼写不出段子的AI的?
    • 一个坏AI。

很遗憾,Bard几乎写不出段子,经过了几次重新生成也未得到让人满意的作品。

4. 事实准确性

在事实准确性方面,尽管有Google强大的搜索能力加持,有些情况下Bard的表现仍然不尽人意,就比如:

https://s2.loli.net/2023/03/23/frJoLgdBt8anN7Z.png

问:Google什么时候会关闭Bard

答:Google Bard于3月21日,上线不足六个月被关闭。Google称关闭的原因是缺乏用户接受度,并表达了他们继续探索AI以增强创造性表达的承诺。

显然Bard太容易受到互联网上错误资料的蛊惑,这个错误资料的来源是Hacker News的一条评论,内容由ChatGPT编造。

此外,也有一些用户发现了当问及Bard关于他们自己社交媒体账户的内容时,会编造出完全不相符的内容。


总结

综上所述,Google Bard作为一款大语言模型,具备不俗的写作和扩充能力,但在逻辑推理和情感理解方面还有欠缺。此外,Bard在事实准确性方面也存在一定问题。

虽然说对比百度的文心一言,Bard至少达到了“能用”的水平,但是作为一个在科技前沿领域深耕多年的国际大厂,做出这种产品交差实在不应该。早在2017年5月的Google I/O上,Google就宣布了其“AI First”战略。尽管Google在AI的其他领域有长足的进步,但显然在大语言模型上之前是没有涉足的,临时做出的产品便不尽人意。

相比较而言,微软早在2019年就开始投资OpenAI,于2019年7月向OpenAI投资了10亿美元,为OpenAI提供了独家的云计算服务,这笔投资为New Bing的成功打下了基础。

可以说,Google的大势已去,在这场AI的军备竞赛中,微软的抢跑让Google一时间难以追上。微软借助其AI成功吸引到了一大批用户,在搜索引擎领域成功打破Google的垄断。

尽管如此,Bard作为Google的一次尝试,仍有着一定的创新和实验价值。我们还是应该保持观望,期待后续Bard的表现。

Last modification:April 21, 2023
如果觉得我的文章对你有用,请随意赞赏