换句话说,即便今天没有AI大模型★■★◆★,也不影响携程推出一份“携程口碑榜”。两者之间没有任何因果关系,以及强关联性。
本文为澎湃号作者或机构在澎湃新闻上传并发布★◆◆◆★,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台◆◆。申请澎湃号请用电脑访问■◆◆◆。
最后我们告诉携程问道■★◆■■◆,想住在中山公园附近,让他推荐几家酒店。可能由于没有精确的告诉它是上海中山公园,所以携程问道给我推荐了天南地北,各个地方中山公园附近的酒店。这就很迷■★★◆◆,咱们和携程问道聊了半天,不一直都在聊上海旅游的事么?这点前后文语义的识别也这么困难么★★★■?
短短三四个问题,我们看到携程问道一直沉浸在AI幻觉中,离需要准确性的AI Agent还有不少距离★◆■◆■。诚然◆■■,造成AI幻觉的的原因有很多,从数据质量差到算法缺陷,再到缺乏接地和过度拟合,都会导致AI幻觉■◆■。
实验证明■◆◆★■,各家模型产生的AI幻觉半斤八两★◆★◆。在答案来源不是的情况下,每个模型的平均回答事实性都较低。当然◆★★,从另一个维度看,没有AI幻觉,大模型就没有发展可言。
我们又问了下武康路到底有点什么独特魅力,究竟能玩点啥■◆★★?得出的结论是Citywalk。然后我们告诉携程问道,如果不想在上海Citywalk,是否有更好的行程推荐。
但在目前这种AI幻觉泛滥的环境下★★◆★■,用户想要一个规划行程的Agent,或是某个行业的最新资讯和报告◆★◆,幻觉就是致命缺陷。很明显在这种情况下,以AI Agent为目标的AI旅游大模型,目前基本都是悖论。最多只是一个网络素材整合工具。
比如说想在上海玩■★★◆◆,AI会搜索历史数据和信息★■◆■◆,告诉你外滩■◆★、石库门◆★、武康路、东方明珠、豫园、淮海路你都值得逛逛★★★。但如果需要一个符合自己喜好的专属行程,AI提供不了◆◆★★★。你只能在AI提供的信息资料里做二次的人工筛选。
然而★■◆,所有这些原因的核心是★■◆◆:AI 模型的输出取决于它们的输入,或它们为处理所述输入而设计的方式。归根结底,AI 模型无法自我推理★■★★■◆、研究或事实核查。因此★★■◆★■,需要准确性的AI Agent■■,在当下还无法完美实现◆■■◆★。
我有个犟种朋友,喜欢各类科技花活■◆◆★★■,每次网上有新东西他都要试试。这个十一他要尝试的是靠旅业垂直大模型——携程问道,实现AI旅游◆★。
实际上这个“上海豪华酒店榜■◆■■★”★★★■★,就是携程自己推出的◆◆◆★“携程口碑榜”其中一部分■◆■★★◆,会根据口碑、销量等几个维度来筛选■◆◆◆,还有一些下榜规则★■★■。不过携程点评现在避免不了人工干预成分在,且目前来看,下榜规则执行的也并不严格。
比如9月份刚被曝出来◆■◆★★■“1天2次6700元★★”事件的长春高新益田福朋喜来登,目前仍在◆■★◆“长春豪华酒店榜”名列第14,并没有下榜。
携程问道基于“上海豪华酒店榜”得出结论◆■,前滩香格里拉大酒店是上海最好的酒店。
事实上,对于AI旅游大模型来说★★◆◆◆■,真的可用的Agent一定不是简单模块组合可实现的,如果有,也只是昙花一现。AI大模型催生了Prompt Engineer的工作角色,AI Agent理应催生Flow Engineer一类岗位◆■,需要一批兼具产品和编程思维能力的角色。
这种窘态不止出现在携程问道身上。字节的豆包、百度的文心一言等等■◆,在AI旅游的表现上都挺一般。尤其是在理解复杂用户需求和提供精准个性化服务方面。要么行程过于空洞,不知无谓。要么AI幻觉爆发,自己加戏太多,甚至一些AI模型连门票价格都会报错■★★。
但在携程的公开招聘中■◆◆,目前没有看到明显具有Flow Engineer性质的岗位。
但很明显,此AI Agent并非AI大模型行业的AI Agent,说穿了不过是类似数字人的奇技淫巧★■■。
理想状态下的AI Agent是★■,大多数时候你只需给它一个最终你想要达成的目标,它能直接交付结果,过程你啥都不用管。
也就是携程集团联合创始人梁建章所谓的★◆◆◆◆:利用携程自己长年积累的数据和榜单■■,为用户做推荐★◆◆■■■。直白点说就是,这些东西携程的用户玩了都说好,相信你也会觉得好。至于个性化◆★◆,暂且不聊。
大模型行业里有个词叫“AI幻觉★◆”◆★,即人工智能系统(自然语言处理模型)生成的内容与真实数据不符,或偏离用户指令的现象。
目前行业的共识是,基于大模型的发散性产生的AI幻觉是没法解决的,所以必须要通过恰当的微调形成行业专用的深模型★★◆★★★。但当下,即使在ChatGpt的GPTs应用或是字节的Coze平台■★,也很少有真正可用的,更好解决问题的Agent◆■★★。
而在所有可公开查询到的信息中,携程距离AI Agent最近的一次,则是今年二季度财报的时候,携程集团联合创始人★★◆、董事局主席梁建章,CEO孙洁、CFO王肖璠等公司高管,首次以AI Agent形象,在财报会议上与投资人交流◆◆◆★■。
如果你想玩的更local一点■★★◆■,比如想找一家有品位的精酿吧★◆,演绎水平高的剧本杀店◆■,小姐姐多套路少的夜店■■■★,AI更推荐不出来。也就是说,携程问道目前成不了AI Agent。
于是我们直接进入测试,让携程问道出一个10月2号—10月6号在上海的行程规划★◆◆■。结果携程问道只帮我们把行程规划到了10月4号,10月5号和10月6号的行程它让我们自己发挥。嗯......我上一个00后实习生,是领导家亲戚,也差不多是这个味儿。
略让人惊讶,因为这酒店我住过。不差,只不过马桶有点智能了,智能到半夜会自己工作。很卷★■,但瑕不掩瑜。可要说在一众奢华酒店云集的上海◆★■■,前滩香格里拉是TOP1◆■★■■◆,这个确实有点出乎意料。
因为用户在所谓的靠AI旅游这件事上,需要的是一个AI Agent(AI智能体/助理/助手)。而AI Agent要求的是精确性■★,但目前AI大模型的发散性大于精确性■◆,因此AI旅游在当下还是一个悖论◆◆★。
实际上在整个AI服务流程中★■★◆◆★,携程并没有体现出来其所谓的,◆◆★★◆“通用AI大模型所没有的旅游产品资源库优势”。这份■★★★■■“携程口碑榜”也从一开始就弥漫着一股浓郁的商业气息,看不出与大众点评必吃榜◆■■★、必玩榜有什么明显的产品差异。
于是我让他问问这个★■◆“上海豪华酒店榜■■★”是什么机构评定的★◆■■,基于什么标准评定的?结果得出了一个比较好笑的结论。
如果AI Agent无法基于用户目标形成个性化推荐◆■,AI旅游大模型又当如何■★?携程问道目前在这上面抖了一个小聪明■■■,即提供了一个涵盖酒店、景点★■■★、餐饮及夜生活等多维度的◆◆◆■★“携程口碑榜”,供用户出游参考。
整个大模型行业目前公认的事实是,AI大模型在发散性的内容上可能会超出预期,但在实际规划和落地的任务上■★★◆★◆,基本只能处于copilot的角色,人力还是主导。问吃喝、本地游玩、出规划,还不如大众点评、小红书高效。