很多大型语言模型的训练数据包含了大量受版权保护的作品,书籍、文章、歌词、代码等等。从技术角度看,模型通过学习这些文本的统计规律来生成回答,这个过程被称为“训练”,但在版权持有者看来,未经许可使用其作品进行商业模型训练,本质上就是“洗版权”。
你付费的会员费,对于模型公司来说,确实是重要的收入来源。这些钱可能会被用于:支付高昂的算力成本购买部分合规的数据集或与版权方达成授权协议(少数公司开始这样做)应对潜在的法律诉讼以及……继续扩大模型规模,这往往意味着需要更多数据。
当资本和信心高涨时,很多模糊地带被掩盖;一旦增长放缓、监管收紧或诉讼落地,“裸泳”的公司就会出现。
“让子弹飞一会儿”是非常理性的态度。目前全球范围内,关于AI训练数据的版权规则还在博弈中:欧盟《人工智能法案》要求训练数据要公开摘要信息美国有多个集体诉讼正在进行(如《纽约时报》诉OpenAI)日本、新加坡等地的法律相对宽松,鼓励AI发展
作为普通用户,你可以选择:暂时观望:不急于为AI服务付费,等法律和伦理框架更清晰支持有明确数据来源声明的模型(虽然很少)继续用旅行和真实的体验充实自己.那些是任何模型都无法“洗”走的.