Image by StartupStockPhotos from Pixabay

أخبار

مواقع ويب رئيسية تمنع برامج الذكاء الاصطناعي من الوصول إلى محتواها

By فريق راديو صوت العرب من أمريكا

September 05, 2023

يقوم ما يقرب من 20% من أفضل 1000 موقع ويب في العالم بحظر الروبوتات الزاحفة التي تجمع بيانات الويب لخدمات الذكاء الاصطناعي، وفقًا لبيانات جديدة أصدرتها “Originality.AI”، وهو كاشف محتوى الذكاء الاصطناعي.

ففي غياب قواعد قانونية أو تنظيمية واضحة تحكم استخدام الذكاء الاصطناعي للمواد المحمية بحقوق الطبع والنشر، تتولى مواقع الويب الكبيرة والصغيرة زمام الأمور بنفسها، وفقًا لما نشره موقع “Axios“.

قدمت شركة “OpenAI” زاحف “GTTBot” الخاص بها في أوائل أغسطس، معلنة أن البيانات التي تم جمعها “قد يتم استخدامها لتحسين النماذج المستقبلية”، ووعدت باستبعاد المحتوى المحمي بنظام حظر الاشتراك غير المدفوع، وأصدرت تعليمات لمواقع الويب حول كيفية حظر الزاحف.

وبعد فترة وجيزة، بدأت عدة مواقع إخبارية رفيعة المستوى، بما في ذلك نيويورك تايمز ورويترز وCNN، في حجب GTTBot، وتبعتها مواقع أخرى كثيرة منذ ذلك الحين، ومن بين أكثر 1000 موقع ويب زيارةً في العالم، ارتفع عدد المواقع التي تحجب روبوت “ChatGPT” الخاص بـ “OpenAI” من 9.1% في 22 أغسطس إلى 12% في 29 أغسطس.

أكبر المواقع التي تحظر روبوت “ChatGPT” هي Amazon وQuora وIndeed، وتظهر البيانات أن مواقع الويب الأكبر حجمًا من المرجح أن تكون قد حظرت بالفعل روبوتات الذكاء الاصطناعي.

يتم حظر برنامج Common Crawl Bot – وهو زاحف آخر يجمع بانتظام بيانات الويب التي تستخدمها بعض خدمات الذكاء الاصطناعي – بنسبة 6.77% من الوقت عبر أفضل 1000 موقع. ويمكن أيضًا “نسخ” أي صفحة يمكنك الوصول إليها من متصفح الويب بواسطة الزاحف الذي يعمل تمامًا مثل المتصفح ولكنه يخزن المادة في قاعدة بيانات بدلاً من عرضها للمستخدم.

هذه هي الطريقة التي تجمع بها محركات البحث مثل جوجل معلوماتها، وكان لدى مالكي المواقع دائمًا القدرة على نشر تعليمات تخبر برامج الزحف هذه بالتوقف، ولكن التعاون طوعي تمامًا، ويمكن للجهات الفاعلة السيئة تجاهل التعليمات.

ترى شركة جوجل وشركات الويب الأخرى أن عمل برامج زحف البيانات الخاصة بها هو استخدام عادل، لكن العديد من الناشرين وأصحاب الملكية الفكرية اعترضوا منذ فترة طويلة، وواجهت الشركة دعاوى قضائية متعددة بشأن هذه الممارسة.

وقد أدى ظهور نماذج اللغات الكبيرة والذكاء الاصطناعي التوليدي إلى دفع هذا السؤال مرة أخرى إلى دائرة الضوء، حيث ترسل شركات الذكاء الاصطناعي برامج الزحف الخاصة بها لجمع البيانات لتدريب نماذجها وتوفير المواد اللازمة لروبوتات الدردشة الخاصة بها.

رأى بعض الناشرين على الأقل بعض القيمة في السماح لبرامج زحف البحث بالوصول إلى مواقعهم منذ أن أرسلت جوجل ومواقع البحث الأخرى المستخدمين إلى مواقعهم المدعومة بالإعلانات.

ولكن في عصر الذكاء الاصطناعي، يقوم الناشرون بحظر برامج الزحف بشكل أكثر قوة لأنه لا يوجد أي جانب إيجابي في الوقت الحالي في تسليم بياناتهم إلى شركات الذكاء الاصطناعي، فيما تجري العديد من شركات الإعلام حاليًا محادثات مع شركات الذكاء الاصطناعي حول ترخيص بياناتها لشركات الذكاء الاصطناعي مقابل رسوم، لكن هذه المحادثات لا تزال في مراحلها الأولى.

في غضون ذلك، تتخذ بعض مواقع الويب وأصحاب الملكية الفكرية أو يفكرون في اتخاذ إجراءات قانونية ضد شركات الذكاء الاصطناعي التي ربما استخدمت بياناتهم دون إذن.

يقال إن OpenAI تسير على الطريق الصحيح لتحقيق إيرادات تزيد عن مليار دولار خلال العام المقبل، فيما تكافح شركات الأخبار على وجه التحديد لإيجاد التوازن الصحيح بين تبني الذكاء الاصطناعي ومقاومته، لا سيما وأن إدخال الذكاء الاصطناعي في سير عمل غرفة الأخبار، في وقت حيث وصلت الثقة في شركات الأخبار إلى أدنى مستوياتها تاريخيا، يطرح أسئلة أخلاقية صعبة.

إذا قام جزء كبير من الويب بحظر برامج زحف الذكاء الاصطناعي، فقد يجد أصحابها صعوبة في تحسين منتجات الذكاء الاصطناعي الخاصة بهم وتحديثها، ويصبح العثور على البيانات الجيدة أكثر صعوبة.