AI训练数据的争夺战一触即发-谷歌Gemini被指抄袭百度文心一言 (AI训练数据是什么)
美东时间12月6日,谷歌推出了迄今为止规模最大,能力最强的大模型Gemini。其原生多模态的能力,通过一条约6分钟的展示视频,展现得淋漓尽致,让人不得不感慨它的强大,就连马斯克都评论说,(Gemini)令人印象深刻。
谷歌在领域的成就有目共睹,尽管之前推出的Bard表现不尽人意,让谷歌市值一夜蒸发了1000亿美元。但经过一年沉淀,加上和DeepMind联合研发,所以Gemini(双子星)可是被寄予了厚望。
视频造假质疑
但是,Gemini发布后仅一天,就有人指控谷歌造假。除了在数据对比上没有使用相同条件,展示视频效果也是经过剪辑的。逼得谷歌不得不给出文档承认视频是经过加工的。
百度夺舍疑云
12月14日,视频造假事件还没降温,谷歌就宣布对外免费开放GeminiPro的API。让不少人高兴得奔走相告。因为相较于收费版才能拥有的视觉模型,GeminiPro可以直接给平民AI玩家体验AI视觉能力的机会。
但就在API开放后不久,就有用户发现,在Poe上使用GeminiPro时,如果用简体中文连续询问你好和你是谁这两个问题时,GeminiPro会直接说出我是百度文心大模型这样的回答,给网友都看呆了。谷歌Gemini被百度文心一眼夺舍了?
微博大V阑夕就发博展示了这样的效果,就连进一步询问你的创始人是谁时,它也很干脆地回答:李彦宏。难道Gemini被百度夺舍了?
不少人怀疑这是因为博主在对话前面设置了提示词,让Gemini扮演文心一言,但这位博主强调,没有任何前置对话。
本着求真的态度,我们也去Poe上试用了一下,结果真的可以复现。
会不会是Poe平台上的接口用错了?不过Poe平台可不是什么野鸡套壳网站,它是美版知乎Quora推出的AI聊天机器人平台,你所熟知的、Claude等知名AI都可以在上面使用。
而且如果你使用英文提问Gemini,它就会立刻恢复正常。并且单就从作案动机上来讲,Poe也没有必要这么做。
除此之外,还有用户在谷歌自己的VertexAI平台上,使用中文对话,也出现了这种情况。因此,Poe的接口使用出错,这个可能基本可以被排除,问题应该出在Gemini本身。
AI数据污染
使用AI生成的数据进行训练已不新鲜这样看下来,要么就是谷歌使用了百度文心一言的语料进行训练,要么就是它所使用的语料已经被AI污染了。
其实大模型训练使用其他大模型生成的语料这件事情已经不是第一次发生,并且谷歌还是有前科的。在上一代Bard时,谷歌就曾被曝出使用ChatGPT的数据进行训练,并且根据TheInformation报道,这件事情还造成了JacobDevlin从谷歌离职。
就在上周末,字节跳动也被禁止使用API接口,原因也是因为说字节在使用GPT训练自己的AI,违反了使用条例。
如果按照现在每个模型堆训练数据量的操作来看,互联网上的人类原生的数据很快就会用完,并且各个模型之间也将会很相似。因此,获取一些未被别人拿去训练的数据,是模型之间保持差异化的一种方法。
因此,有些AI公司会向一些拥有专属数据的公司购买数据。例如OpenAI就曾表示愿意每年支付高达八位数的费用,用以获取彭博社自有的历史和持续的金融文件数据访问权限。
另一个思路,就是选择使用AI合成的数据来进行训练。香港大学、牛津大学和字节跳动的几名研究院就曾尝试过使用高质量AI合成图片,来提升图像分类模型的性能,结果发现效果还不错,甚至比真实数据训练还要好。
AI生成的内容正在污染互联网而从另一方面来看,AI生成的内容污染互联网也是一个不得不重视的问题了。尤其是生成式AI大爆发的今年。在文字、图像、视频还有音频等领域,AI生成的内容都正在污染互联网上数据内容。
就在上个月,一些网友发现,在谷歌搜索上输入已故夏威夷歌手IsraelKamakawiwoʻole的歌曲《SomewhereOvertheRainbow》时,出来的结果是一首AI生成的歌曲,并且演唱者信息被误认为是IsraelKamakawiwoʻole。这说明,AI生成的内容已经开始对互联网上的数据内容造成了影响。
结语
谷歌Gemini的两次危机,不仅暴露了大模型训练中使用AI生成数据的道德问题,也反映了AI生成的内容污染互联网的潜在风险。未来,随着AI技术的不断发展,我们势必需要找到解决这些问题的办法。否则,AI很有可能成为一场互联网的灾难。
Gemini是什么模型
谷歌Gemini进入谷歌浏览器,搜索后进入即可问答使用。
谷歌的Gemini是一个大型AI模型,能够在不同平台上运行,包括数据中心和移动设备,Gemini包括一套三种不同规模的模型:Gemini Ultra、Gemini Pro和Gemini Nano,分别针对不同需求和任务。
Gemini Ultra被定位为GPT-4的竞争对手,是首个在“大规模多任务语言理解”(MMLU)领域超越人类专家的模型。它功能强大,能处理复杂、多样和非结构化的数据;Gemini Pro是一款中端型号,能够击败GPT-3.5,可扩展多种任务;Gemini Nano用于特定任务和移动设备。
谷歌Gemini使用技巧
1、确定使用场景:首先需要确定Gemini模型的使用场景,例如自然语言处理、机器翻译、文本生成等,根据不同的场景,选择适合的模型和参数设置。
2、准备数据集:为了训练和测试Gemini模型,需要准备充足的数据集,数据集的质量和数量都会影响模型的性能和准确性。
3、调整参数:在训练和测试过程中,可以根据需要调整模型的参数,例如学习率、批次大小、训练轮次等,这些参数的设置会影响模型的训练速度和效果。
谷歌gei怎么用
谷歌Gemini进入谷歌浏览器,搜索后进入即可问答使用。
谷歌的Gemini是一个大型AI模型,能够在不同平台上运行,包括数据中心和移动设备,Gemini包括一套三种不同规模的模型:Gemini Ultra、Gemini Pro和Gemini Nano,分别针对不同需求和任务。
Gemini Ultra被定位为GPT-4的竞争对手,是首个在“大规模多任务语言理解”(MMLU)领域超越人类专家的模型。它功能强大,能处理复杂、多样和非结构化的数据;Gemini Pro是一款中端型号,能够击败GPT-3.5,可扩展多种任务;Gemini Nano用于特定任务和移动设备。
谷歌Gemini使用技巧
1、确定使用场景:首先需要确定Gemini模型的使用场景,例如自然语言处理、机器翻译、文本生成等,根据不同的场景,选择适合的模型和参数设置。
2、准备数据集:为了训练和测试Gemini模型,需要准备充足的数据集,数据集的质量和数量都会影响模型的性能和准确性。
3、调整参数:在训练和测试过程中,可以根据需要调整模型的参数,例如学习率、批次大小、训练轮次等,这些参数的设置会影响模型的训练速度和效果。
免责声明:本文转载或采集自网络,版权归原作者所有。本网站刊发此文旨在传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题,请联系本网,我们将在第一时间删除。同时,本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证,请读者仅作参考,并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失,本网站不承担任何责任。