美國社交平台Reddit阻擋「網路爬蟲」蒐集資料，AI公司遭控竊取內容訓練模型如何解？

綜合《路透社》、《CNET》報導，美國知名社交平台Reddit今日（當地時間25日）宣布將更新其網站使用規範，以阻擋外部程式在Reddit上自動搜尋資料。上週，多家草創人工智慧（artificial intelligence）公司被披露曾繞過相關限制，在多個網站上違規蒐集資料。

在Reddit宣布更新使用規範的同時，許多AI公司遭指控在未經內容發布者允許、未標記來源下抄襲相關資料，產生AI生成的內容，再度引發外界對AI發展與著作權保障間平衡的辯論。

防止AI自動蒐集資料，Reddit更新網站使用規範

上個月，Reddit曾在網站上發布了全新的《公開內容政策》（Public Content Policy），試圖在網路開放性與使用者隱私間取得平衡。

Reddit指出，他們相信網路是開放的，也認為隱私是使用者的權利。

然而，越來越多商業機構在未經授權或不當使用的情況下大幅地蒐集Reddit上的資料。這些機構認為他們能毫無限制的使用這些資料，完全不在乎使用者的隱私權，也忽略了合理的法律、安全相關要求。

因此，Reddit決定發布《公開內容政策》，要求Reddit的商業夥伴尊重使用者隱私，不得使用Reddit上的資料辨識出特定使用者，也不得對使用者進行背景調查、人臉辨識或協助政府機關進行情報蒐集等。

與《公開內容政策》的精神相符，Reddit在今日宣布將更新網站後端（backend）的相關技術規範，從系統上阻止外部機構取得Reddit上的資料。

Reddit指出，在接下來的幾週中，他們將更新網站上的《機器人排除協定》（Robots Exclusion Protocol，通稱「robot.txt」），嚴格限制自動爬蟲（crawling）程式在網站上可以及不得存取的範圍。

根據網際網路工程任務組（IETF）的「徵求意見稿」（Request for Comments, RFC），《機器人排除協定》在1994年被設計出來，讓網站擁有者控制網站內容得以如何被自動化客戶端（爬蟲程式）存取。

除了「robot.txt」外，Reddit也將持續對外部程式設下速率限制（rate-limiting），限制外部機構對網站發出請求的數量，同時也會阻擋來路不明的機器人與爬蟲程式。

Reddit表示，後端使用規範的更新對絕大部分的Reddit使用者不會有任何影響，而研究者、公益組織等外部機構也能在非商業使用的情況下繼續存取Reddit上的資料。

模型訓練擅用網路資料，著作權保障與科技發展恐失衡

在AI大幅進步的時代，各界對AI發展與AI如何在網路上被使用的辯論一直沒有停過。產業分析師曾警告，各家科技公司都在以過快的速度在自家產品上加入AI工具。

近期以來，不只是Reddit，許多內容發布者都在使用「robot.txt」來防止科技公司擅自取用資料，用來訓練自己的AI模型，「robot.txt」已成為了內容發布者們用來阻擋科技公司擅自取用資料的一個重要手段。

初創內容授權公司TollBit曾在上週披露，許多AI公司都在規避相關網路使用規範，不合理的在網路上蒐集資料以訓練模型，讓AI發展與資料隱私權、著作權等衝突的議題再次浮上檯面。

許多人對AI公司如何建立模型這件事抱持著疑問，懷疑這些公司是否在未經允許的情況下使用了受著作權保障的內容。

日前，《連線》（Wired）、《富比士》（Forbes）兩家媒體雙雙指出，初創AI公司Perplexity正在竊取他們網站與其他來源上的資料，把這些資料餵給自己的AI模型。

《連線》表示，Perplexity在未經允許的情況下，造訪了他們與母公司康泰納仕（Condé Nast）旗下其他網站數千次。《連線》曾拿與AI不應取得的獨特內容相關的問題來詢問Perplexity的AI聊天機器人，即便Perplexity的聊天機器人產出了不太準確的回覆，它的回覆仍大致與這些獨特內容相關。

《連線》指出，Perplexity很有可能繞過了「robot.txt」的限制，不當取得《連線》網站上的內容。

《富比士》則指控，Perplexity在沒有明確標註來源的情況下竊取了他們的原創報導。《富比士》表示，他們可能會考慮對Perplexity採取法律行動。

Perplexity的首席執行長斯里尼瓦斯（Aravind Srinivas）表示，他們「從未竊取過任何人的內容」，並指出Perplexity是「資訊的整合者」（aggregator of information）。

一位Perplexity的公司代表則指出，他們致力於找尋與媒體公司合作的方法，為所有利害關係人創造一致的誘因。他表示，Perplexity正在開發一項與媒體公司共享利潤的計畫，也讓媒體公司能無償使用Perplexity的工具。

代表超過2千2百家美國新聞媒體的「新聞媒體聯盟」（News Media Alliance）擔憂，科技公司忽略「禁止爬蟲」的警示可能會對媒體產業造成嚴重的影響。

「在沒有能力阻止大規模爬蟲的情況下，我們無法貨幣化我們珍貴的內容，付錢給記者們，」新聞媒體聯盟總裁柯菲（Danielle Coffey）表示，「這可能會嚴重傷害我們的產業。」

TollBit指出，許多AI公司都在繞過「robot.txt」的限制，Perplexity並非唯一的一家公司。

2023年，《紐約時報》（The New York Times）曾控告OpenAI與微軟（Microsoft）未經許可使用他們的資料來訓練機器人。OpenAI當時回應道，《紐約時報》的指控「毫無法律依據」，並表示OpenAI的系統受到著作權法「公平使用」條款的保障。

OpenAI在今年初向英國國會表示，由於著作權法保障了部落格貼文、照片、論壇貼文、程式碼與文件等事物，科技公司「不可能在沒有使用著作權材料的情況下訓練今天的領先AI模型。」

與《紐約時報》控告OpenAI與微軟的案子類似，蓋蒂圖像（Getty Images）也曾於2023年控告Stability AI，指控這家初創的圖像生成公司在未經允許下複製了超過1千2百萬張蓋蒂圖像的照片。

Stability AI隨後承認使用了蓋蒂圖像的照片來訓練AI模型，但表示這些照片只被「暫時複製」來訓練模型，AI生成出仍是「全新且原創合成的圖片。」

科技公司激進的AI策略已經席捲了整個網際網路的核心服務。

日前，Google曾推出了全新的AI概覽（AI Overview）服務，為使用者自動摘要網路上的搜尋結果。然而，在這項服務推出後不久，許多使用者便發現Google的AI概覽會散布種族歧視言論，也會散布不實且危險的健康建議，如建議尋求健康飲食的使用者在披薩上加上膠水、吃石頭等。

生產力軟體公司Adobe也同樣面臨了使用者的反彈。Adobe曾推出了新的使用條款（ToS），允許Adobe在未經使用者明確允許的情況下使用他們的創作來訓練自己的AI引擎。在收到來自社群的反彈後，Adobe承諾他們只會在使用者的明確授權下使用這些作品。

部分內容發布者，如《紐約時報》與蓋蒂圖像，選擇狀告AI公司違反著作權相關法律，其他內容發布者則選擇與AI公司簽訂授權合約，以有償的方式授權AI公司使用資料，但雙方也經常因對材料價值的評估不合而有所衝突。

許多免費取得資料的AI開發者都指出，他們並未違反任何法律。

新聞來源

延伸閱讀

【加入關鍵評論網會員】每天精彩好文直送你的信箱，每週獨享編輯精選、時事精選、藝文週報等特製電子報。還可留言與作者、記者、編輯討論文章內容。立刻點擊免費加入會員！

責任編輯：陳昭宏
核稿編輯：翁世航