APP开发公司 苹果、英伟达等巨头被爆违法使用YouTube数据检修模子
包括苹果、英伟达、Salesforce和Anthrophic在内的一些大型科技公司,被曝在检修AI模子时使用了来自谷歌旗下视频网站YouTube的未授权数据。
这些公司使用了一个由第三方提供的数据集Pile,其中包含从YouTube上捏取的大齐视频字幕文本,违背了YouTube退却从平台上未经许可捏取实质的功令。
比赛开始后,中国队相较于前两场季前赛进入状态更快,但马刺依然凭借更强的天赋占据主动,第一节中国队20-29落后。第二节,廖三宁连续得分,帮助中国队单节净胜6分。第三节,中国队进攻短路,单节只得到7分,马刺趁机拉开分差。第四节,马刺依然牢牢掌握主动,最终,中国男篮67-89不敌马刺。
报说念指出,这些科技公司在检修AI模子时齐使用了一个名为“YouTube Subtitles(YouTube字幕)”的数据集,大小为5.7GB,APP开发资讯包含4.89亿个单词,来自Youtube上超越4.8万个频说念中的17.35万个视频。
该数据集由视频字幕的纯文本构成,包括视频博主上传的部分和Youtube自动转录的文本,除了英语外,频繁还附带日语、德语和阿拉伯语等谈话的翻译。
Pile在各大科技公司中还是颇受追捧,举例苹果就使用Pile来检修其OpenELM AI模子,而两年前发布的Salesforce AI模子亦然使用Pile进行检修的,当今下载量已超越86,000次。
驰名科技博主Marques Brownlee在X(原推特)平台上示意:“苹果从几家公司赢得了他们AI所需的数据,其中一家从YouTube视频中捏取了大齐数据/转录文本,包括我的视频。从时代上来说苹果莫得‘犯错’,他们莫得主动捏取数据。但这将是一个永恒存在的问题。”
小程序开发在笔者看来,数据、算法、算力是撑持着东说念主工智能的发展,三者不可偏废。大模子的检修需要海量的、有价值的数据喂养,如斯之大的海量数据的开头也成为大模子企业的困扰,可是,这并弗成为不错松驰赢得数据的接口。
不错说,这次事件让东说念主们又一次关心到AI检修背后的数据问题。
(8848866)APP开发公司