维基百科向AI爬虫“投降”:调整政策应对服务器过载危机
来源:每日消费报
商业
每日消费报4月29日消息,近期,维基百科基金会披露,其服务器因大量AI公司爬虫的频繁抓取而持续超负荷运行,导致运营成本激增和访问稳定性下降。据统计,2023年维基百科的爬虫流量占比已超全站流量的50%,其中多数来自用于训练大语言模型(如ChatGPT、Gemini等)的自动化程序。
应对措施:
- 限制非人类流量:维基百科将优先响应真人用户请求,对高频爬虫实施速率限制或封禁。
- 推出官方数据集:为避免重复抓取,维基媒体基金会计划提供定期更新的开放数据集,供AI企业直接下载。
- 呼吁行业合作:基金会建议AI公司采用“道德爬取”标准,并捐赠部分算力或资金以支持非营利性知识库的维护。
业界反应:部分AI公司已表态愿协商合作,但仍有匿名爬虫持续发起请求。专家指出,此事件凸显了生成式AI繁荣背后公共数据资源的可持续性危机。
后续影响:维基百科的妥协方案或成为其他开放内容平台的参考,未来网络知识共享与AI商业化之间的平衡机制亟待建立。
【免责声明】
免责声明: 1.本站平台目的在于分享更多信息,不代表本站的观点和立场;信息仅供参考,不构成投资及交易建议。投资者据此操作,风险自担。