OpenAI 创建“GPTBot”,从网站扫描数据,用于下一代 ChatGPT
OpenAI 承认在网络上收集数据或爬行,使用“GPTBot”在线收集数据用于 AI 训练,国际媒体也猜测 GPT-5 很可能是用 GPTBot 的数据进行训练的
蜘蛛或网络爬虫是爬行网站的行为。最常用的是 Googlebot,它会自动抓取网络,以便 Google 对其进行排名并显示在搜索结果页面上。这会影响网站的访问者数量
不过,OpenAI 表示,网站运营商可以阻止 GPTBot 出于训练目的在网站上获取数据。因为互联网上有训练大型语言模型(LLM)的数据,例如OpenAI的GPT模型或Google的Bard。
阻止 GPTBot 可能是 OpenAI 允许互联网用户选择退出训练语言模型的第一步。
与此同时,关于收集人工智能训练数据的争论仍在继续,Reddit 和 Twitter 等网站都在推动规范人工智能公司以及作家和创意人员对用户帖子的使用,并已因未经授权使用信息而提起诉讼。
据美国新闻网站 Axios 报道,Adobe 等公司提出了对事物进行标记的想法,以表明数据不用于训练。OpenAI、微软、谷歌、Meta 等。它还与白宫将开发一种水印系统,在人工智能生成内容时通知用户,但并未表示将停止使用互联网数据进行训练。
原文网址: h t t p s : / / w w w . t h a i r a t h . c o . t h / m o n e y / t e c h _ i n n o v a t i o n / t e c h _ c o m p a n i e s / 2 7 1 6 0 7 8