当前位置：首页 > 数码 > 正文内容

阿里通义千问与GPT-多模态大模型之争 (阿里通义千问APP)

admin2年前 (2024-04-22)数码245

2024 年，大模型领域将迎来一场激烈的竞争。各家大厂都在押注不同的方向，而多模态是大势所趋。

多模态大模型的兴起

多模态大模型能够泛化并无缝地理解、操作和组合不同类型的信息，包括文本、代码、音频、图像和视频。这是因为它们具有强大的图像语义理解能力，并能够充分利用更多种类的感官。

GPT-4 V、Gemini 和 Qwen-VL-Max

在多模态大模型领域，OpenAI 的 GPT-4 V、谷歌的 Gemini 和阿里的 Qwen-VL-Max 是目前最具代表性的三个模型。

GPT-4 V 在语言方向取得了里程碑式的突破，而 Gemini 是第一个原生的多模态大模型。Qwen-VL-Max 则是阿里最新发布的通义千问视觉语言大模型，在多个测评基准上取得了好成绩。

通过实际测评，我们可以看到 Qwen-VL 的整体能力已经达到了媲美 GPT-4 V 和 Gemini 的水平，在多模态大模型领域实现了业内领先。

Qwen-VL 的发展历程

通义千问的视觉理解大模型已经经历了几轮迭代。2023 年 8 月，阿里发布了 Qwen-VL 的第一个版本，随后又陆续推出了 Plus 和 Max 两大升级版本。

Qwen-VL 支持以图像、文本作为输入，并以文本、图像、检测框作为输出，让大模型真正具备了「看」世界的能力。

Qwen-VL 的能力展示

Qwen-VL 具有强大的图像识别、文本生成、视觉推理等能力。它能够轻松进行对话，识别名人、地标，生成文本内容，并进行视觉定位和区域问答。

例如，我们给 Qwen-VL 一张上海外滩的照片，它可以识别出这是上海外滩，介绍黄浦江的景色，以及上海海关大楼等特定建筑物。

结语

2024 年，大模型领域的竞争将聚焦于多模态。阿里 Qwen-VL-Max 作为国内领先的多模态大模型，具备强大的能力和广阔的应用前景。我们可以期待它在未来做出更多突破，推动大模型技术的不断发展。

Qwen-VL 官方推文
通义千问官网
阿里云灵积平台（DashScope）
OpenCompass

通义千问怎么接入详情

在手心游戏日报游戏中，通义千问怎么接入详情是游戏中玩家需要了解的一个重点，但玩家需要找到正确的方法才能找到通义千问怎么接入，让我们看看通义千问怎么接入详情吧。通义千问怎么接入详情4月7日，阿里云在其官方公众号中宣布，大模型“通义千问”开始邀请测试。目前，“通义千问”已开放企业邀请测试，官网地址为点击进入通义千问官网，可以看到下方有“申请体验”和“使用邀请码”两个按钮，用户可使用邀请码登录或通过阿里云APP/支付宝/钉钉账号注册提交体验申请。在此番大模型官宣之前，阿里已经先行推出了“体验版”语音助手。 4月4日，脱口秀演员鸟鸟在微博展示了自己的分身——“鸟鸟分鸟”，并与这个数字分身进行了多次互动，多轮对话。鸟鸟在视频中介绍称，这个分身为阿里训练出的类ChatGPT语音助手，能够模仿她的音色、语气以及文本风格。 2023阿里云峰会将于4月11日在北京召开，包括阿里巴巴董事局主席兼 CEO 张勇，阿里云智能首席技术官周靖人、阿里云智能全球商业总裁蔡英华在内的主要负责人将出席主论坛。消息人士称，阿里将在11日推出大模型，18日推出行业应用类模型，接下来还有各类的行业应用类模型会面世。以上内容就是雪农小编为你点来的通义千问怎么接入详情全部内容了，只要你按照小编的攻略去研究，那么就能够轻松的上手这款游戏在，在这款游戏中成为高玩。 <

内测了一下阿里云的通义千问,有点超出预期!

阿里云的通义千问效果不错。

通义千问将功能模块分成了三类：效率/生活/娱乐。

使用下来的感受是，它的功能不止这三类，之所以分类，大概率是为了以后公测后ToC的时候方便没接触过自然语言AI的用户大致了解这个东西能做什么。

在这一点上，新手教程挺友好的：有一个输入示例，前几次点进去以后会按照示例进行回答，后来就没有了，应该也是新手教程的一部分。

通义千问在子分类下让它回答其他子分类的问题，跨分类回答的时候似乎没那么智能，针对不同分类应该是做出了设定。但这种限制并没有限制死，比如在它的分类里面并没有逻辑类问题，但我提出了一个逻辑问题，稍加引导后通义千问还是给出了答案。

在首页提问的框里提问可以获得更智能的回答，但在类似于新人引导的具体分类下则会有回答方向上的限制。

把今天热榜上的一个脑洞类问题复制了一下，如果蝙蝠侠和蜘蛛侠互换到对方的城市，那么你觉得谁会更惨一些。得到的结果和我预想中的差不多：明显通义千问也是受到了现实规则的强束缚，这种束缚在设定上要超过网友真人的回答，在更换关键词后依旧如此。

搜索一个在目前中文互联网上很难查到答案的超级小众问题，wiu游戏机在开启wii模式后，为什么同时插着内存卡和移动硬盘的时候会卡住，在github上有一些文章提到过答案。

这个问题的答案的确是通义千问给出的第一个，即拔掉wiiu格式化后的硬盘，避免冲突。但更正确的回答其实是将硬盘插入到前面，避免wiiu进入wii模式后的前后储存设备仍然处于数据转移准备模式。

更正确的答案仅在一些国外小众论坛上有原理描述，从这一点来看，通义千问的语料还不是很充足，不过用gpt4也得需要多次引导才能出现差不多正确的答案。

还测试了故意给出错误的设定让通义千问来回答检测它的纠错能力的问题。

第一次对于我提问中“假定为真”的设定，通义千问是进行了纠错的，但当我再次引导后，假定为真的设定被作为了很显性的结果，不过这个表现其实比文心一言刚发布的时候要强，至少不会在论据中强行胡诌。

对于中文互联网上语料具有很大争议性的问题，比如舔狗应该怎样的问题，通义千问则采取了避而不谈的方式，这方面的语料质量很低，大概率阿里选择了没将这些话题列入语料。

测试了写作，提问里加了很多设定性的描述，比如请帮我写一篇短文，在这个以悲伤为基调的短文里，主角是一个少年，猫作为其中的重要因素多次出现，但每次出现都要保证剧情的推进，最终指向少年的成长的具有隐喻含义的故事。

第一次其实结果并不满意，因为在提问里设定了猫需要多次出现，但给出的作品中只出现了一次，而且对于剧情推动作用几乎没有；第二次、第三次再尝试结果好了很多。

再问一个涉及物理学和生物学的综合性的问题，鸡鸭鹅分别从一万米的高空坠落，会安全着陆吗。通义千问给出的答案不太可能，并且分析了原因。

前几天测试“今天是几号的”时候，网络的文心一言给出的答案更加本土化，会加上更本土化的回答，比如农历日历里的宜忌之类的，所以也问了一遍通义千问。

第一次回答是“我不关心”、第二次的回答超出了我的理解能力，“我能回答今天是几天前或者今天是几个月前”。

总的来说，因为文心一言发布初期的各种问题，但通义千问的表现还是比较让我惊喜的，但又因为GPT4珠玉在前，其实也没感受到太多新东西，本土化的表现也有。

对于关注自然语言AI的人来说，用过GPT4的话，其他自然语言能提供的新的特点其实真不多，从行业角度值得关注的新信息也不是很多。但是，从AI行业角度来讲，最近阿里是有大动作的。

比如阿里最近发布的不仅是类GPT的AI，还有多个版本的AI大模型，而这些大模型将成为我国首个AI统一底座的基础。

这样的大模型其实才更符合阿里在AI上早已开始的布局（毕竟其实ChatGPT这类自然语言处理AI的概念去年底才火，而互联网大企业布局AI是前几年就开始的事情）。

去年9月，达摩院发布了通义大模型，通义-M6已经从2020年6月的3亿参数基础模型逐渐发展到2021年10月的10万亿参数全球最大预训练模型再到2022年1月的业界首个通用统一大模型M6-OFA。

而今年三月，阿里在“魔搭”上线了“文本到视频生成扩散模型”，实现视频生成功能。在这些个模型里，应用范围极其广，两张图就能看出阿里的目标从来就不只是自然语言AI。

值得注意的是，这些不止是停留在纸面上的“讲故事”，而是已经得到了广泛的应用，深入到电商、设计、医疗、法律、金融等行业，服务超过200个场景。

我一直认为，其实对于国家与国家之间的科技竞赛中，自然语言AI是极其重要的一环，必须得有，但对于企业来说，无论是什么类型的AI，都要符合自己主要业务的使用场景，而因为具体的使用场景往往比通用使用场景小。

所以先满足“能用”就ok，而不是一位追求极其细分领域的技术上的绝对领先，这种资源梭哈式的投入对于企业来说并不是最优解，国外的微软谷歌也是如此的商业策略，OpenAI只有一个，OpenAI的勇气值得赞叹，但并不适合大企业直接照抄。

目前来看，其实网络的文心一言发布后到如今，无论是网络还是阿里的类ChatGPT都是能用的水平，距离GPT4为基准的好用有差距，但网络的压力应该更大，毕竟阿里的应用场景是基于自己业务发展出来的，但是网络的搜索引擎业务是有被自然语言AI直接替代的可能性的。

四年前，通义千问和其它类型的AI开始启动研发进程，四年后，只要这些AI能互相协调在阿里的商业布局中起到整体性的促进作用，毕竟四年前的web3.0和元宇宙概念差点只剩一地鸡毛，幸好孵化出来了AI这个已被证实具有极大潜力的应用类型。

免责声明：本文转载或采集自网络，版权归原作者所有。本网站刊发此文旨在传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题，请联系本网，我们将在第一时间删除。同时，本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证，请读者仅作参考，并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失，本网站不承担任何责任。

标签: 多模态大模型