从豆包到,为什么产品都在做浏览器插件
我的浏览器,已经被各种AI插件包围了。
它们不仅占据了右上角的工具栏,也聚集在右下方的浮窗,让极简主义者心头一紧。
从百模大战开始,一名成熟打工人的主要矛盾,就变成了增强生产力的美好需要和AI助手的选择困难之间的矛盾。
如此看来,另辟蹊径做插件很有必要。我的使用时长,其实也看哪个AI主动来找我。
更轻便的功能,更广泛的陪伴目前的AI浏览器插件,大概可以分成三类。
一类是基于自有大模型的伴生产品。
7月8日,Kimi智能助手推出了浏览器插件,我们第一时间写了体验文章。之前,第三方开发者也做过插件「KimiCopilot」,这次是官方亲自下场。
为什么推出插件?事实就是,我们没法在全屏对话的Kimi主站做完所有事情,但插件可以让你在任何网页随时可用AI功能。
想象一下,浏览新闻网页看文章时,术语看不懂,人名不认识,使用在线文档写作时,某个问题不确定,但我们不想打断此刻的状态,切换到其他页面搜索。
这时候,Kimi插件可以当即搜索、答疑解惑、总结全文……再不济,插件也起到引流作用,让你一键跳转到Kimi主站。
英雄所见略同,Kimi的竞争对手豆包,更早地推出了插件,Kimi能做的,它也都可以。阅读和创作的不同场景下,豆包插件的功能稍微有所差别。
在网页端选中一段话,豆包插件支持AI搜索、解释、追问、翻译等。
而打开在线文档选中一段话,除了以上功能,豆包插件还支持修正语法、调整语气。
最让我觉得实用的,其实是豆包领先Kimi的两个插件功能。
一个是视频总结、脑图、时间线梳理和跳转功能,YouTube和B站都适用,Kimi插件目前还不能总结视频内容。
还有一个是收藏功能,不管是刷到好玩的即刻、微博动态,还是看到文章里受益匪浅的段落,都能一键保存到豆包主站,并附上原文网址,方便之后查看。做产品,还得看字节。
AI浏览器插件的第二类,是基于既有模型的「套壳」产品,其中代表是Monica。
这是一个基于GPT-4o、Claude3.5等大模型,支持Google、Bing等搜索引擎的插件。
我们可以和它对话,让它搜索,写作,翻译和解释选中的文本,总结PDF、网页、邮件、YouTube视频……
简言之,一个能聊、能搜、能翻译、能总结的全能AI助手,以插件连接了一众AI产品,实现了「allinone」的体验。
不过,相比免费的Kimi和豆包插件,「白嫖」Monica有额度限制,解锁更多功能需要订阅。往好了想,总比单独订阅多个AI产品便宜。
还有一类AI浏览器插件,扎根垂直的赛道,满足小而美的需求。从我们科技编辑的角度看,比较常用的有两个。
首先是通义听悟,实现各种网页的语音转文字,支持开启实时双语字幕,结束录音之后可以总结内容和提取重点,很适合用来追发布会。
其次是沉浸式翻译,实现各种网页、视频甚至PDF的双语对照翻译,不像Google翻译那样覆盖原文,冲浪体验更好了,从豆包到,为什么产品都在做浏览器插件也更方便核查信息了。
同时,沉浸式翻译针对游戏网站、社交媒体等不同场景推出了专家翻译功能——本质上是一系列精心设计的提示词。我们也不必复制文本到ChatGPT,自己写提示词让AI以某种口吻、某个身份给我们翻译了。
Kimi团队说,Kimi插件像一个「轻量的小搜索」,帮你解决碎片化的小问题。这句话也适用于其他AI产品的浏览器插件形态。插件,是AI落地的轻巧尝试。
不管你是在阅读、写作还是看视频,不管你打开哪个网页,它们中的一个或者多个,都可以围绕人类的脑力活动,扮演好辅助的角色,弥补之前上网时不舒服的细节、不到位的体验。
存在感太强的插件,有时候是种干扰然而,就像去年的大模型、今年上半年的AI搜索一样,插件之间的竞争也很激烈,功能之间有重合,甚至已经开始打架了。
添加到工具栏之后,AI插件们基本都有强烈的跟随性,希望在用户面前秀存在感。
它们招之即来,可用快捷键唤起,以悬浮按钮出现在屏幕一角,以侧边栏出现在网页右侧,还在你选中某个句子的时候争相跳出,想为你提供服务。
▲选中句子,Monica、豆包、Kimi都会出现
不过,它们也可以挥之即去。Kimi是否显示悬浮按钮,以及是否在你选择文字后跳出按钮,都是可选的。豆包和Monica,也都支持隐藏按钮。
围绕生产力的通用型AI插件,功能大而全,基本满足了以下几个需求:划线解释、辅助创作、内容总结……
用户上网的核心需求,可能就这几个,如果同时由几个AI插件满足,会让你陷入选择困难。其中,豆包和Monica尤其容易狭路相逢。
看YouTube视频,豆包、Monica都会帮你总结亮点和时间线。
用Google进行传统搜索的时候,豆包、Monica都会在结果页面右侧回答问题。比如,Google搜索「豆包简介」,豆包介绍了自己,Monica介绍了叫作豆包的美食。
不过,豆包比Monica还多了一个功能:鼠标选中一条链接,但不点击,豆包也会帮你总结内容,然后你可以再打开链接看详情。
至于辅助创作,就更加夸张了,几乎任何一个输入框,包括ChatGPT、微博、豆瓣,Monica的「紫色小点」都会出现。
点开之后是「写作助手」,AI问你需不需要写些什么,是求职信还是邮件,内容生成之后可以直接插入输入框。
类似地,豆包也有个「帮我写」功能,输入主题,帮你生成小红书、抖音等风格的文案,然后一键插入到输入框。
古人言,凡有井水饮处,即能歌柳词。现在这句话可以有互联网的版本了:需要生成文案的空白处,都可以留下AI生成的大作。
但可能,我们只是想自己写个吐槽,或者和ChatGPT聊聊天,这时候,图标就显得有些打扰,需要你手动关闭。
这些表演欲极强的插件,有点像2000年前后教新用户用Office的微软吉祥物「大眼夹」。当时,你新建文档,或者打出「Dear」写信,大眼夹都会不由分说地突然出现。
大眼夹的问题是,能帮上的忙很有限,在OfficeXP上线后就失业了,微软觉得,产品本身已经足够简单和易用。
而插件的问题是,有用,但功能大同小异,如果没有涉及刚需,偶尔会让人觉得有「侵入感」。
就像之前我问一位同事,能不能推荐一个YouTube翻译的好用插件。他一时给不出答案,因为类似的插件太多,不置顶到工具栏,就会把它们忘掉。
AI成了信息入口,哪里不会点哪里的浏览器来了AI产品自己的衍生插件已经泛滥,同时,也有为AI产品服务的第三方插件。
其中一款是Google插件AIHomeTab,功能很简单,但理念很有意思。
它可以把你喜欢的AI主站设为浏览器主页,同时也可以换回默认主页。
这个插件最主要的作用,其实是潜移默化地改变我们上网的习惯。
为了成为Safari的默认搜索引擎,Google每年都会向苹果支付巨额费用。可见,「默认」对用户习惯的养成,就像地心引力一样强大。
如果我们的信息入口直接变成了各个AI搜索工具,或许我们也会越来越习惯,也越来越擅长,通过搜索框和AI交流得到答案,而不是在Google输入网址找到AI搜索。
不过,AI的幻觉仍然需要警惕,一款叫作SeekAll的插件就为此而生。
这是一个浏览器多屏助手,支持一键打开多个搜索引擎,对比搜索结果,同时支持AI搜索和传统搜索,目前最多同时支持三个搜索。
更多的插件,更直接的入口,未来,我们的上网体验,或许真的会变成「哪里不会点哪里」。
这个专业术语是什么意思?这个文档里的句子怎么优化?这个YouTube字幕能转写成文字吗?都可以等AI跳出来帮你解答。豆包插件最近甚至可以总结小宇宙播客了。
反过来,从AI初创公司的角度看,开发插件有些像摸着石头过河。虽然AI的产品层出不穷,但他们还在寻找更多的细分场景,积累更多的用户数据,训练更强大的模型。
浏览器是我们上网必备的工具,探索AI可以满足用户的哪些高频需求,灵活融入网页的浏览器插件或许会是一个比较理想的测试形态。
先不要设定边界,然后才看到更多可能。
未来,上网时的用户界面长什么样子,我们和AI的交互形式是怎样的,尚且没有明确的定义。但小步快跑、轻盈迭代的插件们,让我们离一个AIGC加持的浏览器更近。
邮箱8