एआई कंपनियों का यूट्यूब के संग्रह पर भाषा मॉडल को प्रशिक्षित करना निजी वीडियो गोपनीयता के लिए जोखिम

एआई कंपनियों का यूट्यूब के संग्रह पर भाषा मॉडल को प्रशिक्षित करना निजी वीडियो गोपनीयता के लिए जोखिम

  •  
  • Publish Date - June 28, 2024 / 04:57 PM IST,
    Updated On - June 28, 2024 / 04:57 PM IST

(रयान मैकग्राडी और एथन ज़करमैन, यूमैस एमहर्स्ट)

एमहर्स्ट (अमेरिका), 28 जून (द कन्वरसेशन) प्रस्तावित कृत्रिम बुद्धिमत्ता क्रांति के लिए डेटा की आवश्यकता है। बहुत और बहुत ढेर सा डेटा। ओपनएआई और गूगल ने अपने टेक्स्ट-आधारित एआई मॉडल को प्रशिक्षित करने के लिए यूट्यूब वीडियो का उपयोग करना शुरू कर दिया है। लेकिन यूट्यूब संग्रह में वास्तव में क्या-क्या होता है?

मैसाचुसेट्स एमहर्स्ट विश्वविद्यालय में डिजिटल मीडिया शोधकर्ताओं की हमारी टीम ने उस संग्रह के बारे में अधिक जानने के लिए यूट्यूब वीडियो के यादृच्छिक नमूने एकत्र किए और उनका विश्लेषण किया। हमने उस डेटासेट के बारे में 85 पेज का एक पेपर प्रकाशित किया और उन शोधकर्ताओं और पत्रकारों के लिए ट्यूबस्टैट्स नामक एक वेबसाइट स्थापित की, जिन्हें यूट्यूब के बारे में बुनियादी जानकारी की आवश्यकता है।

अब, हम बेहतर ढंग से समझने के लिए अपने कुछ और आश्चर्यजनक निष्कर्षों पर करीब से नज़र डाल रहे हैं कि ये अस्पष्ट वीडियो शक्तिशाली एआई सिस्टम का हिस्सा कैसे बन सकते हैं। हमने पाया है कि कई यूट्यूब वीडियो व्यक्तिगत उपयोग के लिए या लोगों के छोटे समूहों के लिए हैं, और एक महत्वपूर्ण अनुपात उन बच्चों द्वारा बनाया गया है जो 13 वर्ष से कम उम्र के लगते हैं।

यूट्यूब की अनुशंसित और गैर अनुशंसित सामग्री

अधिकांश लोगों का यूट्यूब का अनुभव एल्गोरिथम द्वारा तैयार किया गया है: उपयोगकर्ताओं द्वारा देखे जाने वाले 70% तक वीडियो साइट के एल्गोरिदम द्वारा अनुशंसित होते हैं। अनुशंसित वीडियो आमतौर पर प्रभावशाली स्टंट, समाचार क्लिप, व्याख्याकार वीडियो, यात्रा व्लॉग और वीडियो गेम समीक्षा जैसी लोकप्रिय सामग्री होती है, जबकि अनुशंसित नहीं की जाने वाली सामग्री अस्पष्टता में रहती है।

कुछ यूट्यूब सामग्री लोकप्रिय रचनाकारों का अनुकरण करती है या स्थापित शैलियों में फिट बैठती है, लेकिन इसमें से अधिकांश व्यक्तिगत है: पारिवारिक उत्सव, संगीत पर सेल्फी, होमवर्क असाइनमेंट, बिना संदर्भ के वीडियो गेम क्लिप और बच्चों का नृत्य। यूट्यूब् का अस्पष्ट पक्ष – प्लेटफ़ॉर्म पर बनाए और अपलोड किए गए अनुमानित 14.8 अरब वीडियो में से अधिकांश – को कम समझा गया है।

यूट्यूब – और आम तौर पर सोशल मीडिया – के इस पहलू पर प्रकाश डालना मुश्किल है क्योंकि बड़ी तकनीकी कंपनियों की शोधकर्ताओं के प्रति नाराजगी बढ़ती जा रही हैं।

हमने पाया है कि यूट्यूब् पर कई वीडियो कभी भी व्यापक रूप से साझा करने के लिए नहीं थे। हमने हजारों लघु, व्यक्तिगत वीडियो का दस्तावेजीकरण किया है, जिन्हें कम देखा गया है, लेकिन ज्यादा जुड़ाव है – लाइक और कमेंट – जिसका अर्थ है कि एक छोटा लेकिन अत्यधिक जुड़ा हुआ दर्शक वर्ग। ये स्पष्ट रूप से मित्रों और परिवार के छोटे दर्शकों के लिए थे। यूट्यूब् के ऐसे सामाजिक उपयोग उन वीडियो के विपरीत हैं जो अपने दर्शकों को अधिकतम करने का प्रयास करते हैं, यूट्यूब का उपयोग करने का एक और तरीका सुझाते हैं: छोटे समूहों के लिए वीडियो-केंद्रित सामाजिक नेटवर्क के रूप में।

ऐसा लगता है कि अन्य वीडियो एक अलग तरह के छोटे, निश्चित दर्शकों के लिए हैं: महामारी-युग के आभासी निर्देश से रिकॉर्ड की गई कक्षाएं, स्कूल बोर्ड की बैठकें और कार्य बैठकें। हालाँकि ऐसा नहीं है कि अधिकांश लोग इसे सामाजिक उपयोग के रूप में सोचते हैं, उनका तात्पर्य यह भी है कि उनके रचनाकारों की वीडियो के लिए दर्शकों के बारे में उस तरह की सामग्री के रचनाकारों की तुलना में एक अलग अपेक्षा है जिसे लोग उनकी अनुशंसाओं में देखते हैं।

एआई मशीन के लिए ईंधन

इसी व्यापक समझ के साथ हमने द न्यूयॉर्क टाइम्स एक्सपोज़ पढ़ा कि कैसे ओपनएआई और गूगल ने अपने बड़े भाषा मॉडल को प्रशिक्षित करने के लिए डेटा के नए भंडार खोजने की दौड़ में यूट्यूब की ओर रुख किया। यूट्यूब प्रतिलेखों का एक संग्रह पाठ-आधारित मॉडलों के लिए एक असाधारण डेटासेट बनाता है।

ऐसी अटकलें भी हैं, जो ओपनएआई की मुख्य प्रौद्योगिकी अधिकारी मीरा मुराती के गोलमोल जवाब से प्रेरित हैं, कि वीडियो का उपयोग ओपनएआई के सोरा जैसे एआई टेक्स्ट-टू-वीडियो मॉडल को प्रशिक्षित करने के लिए किया जा सकता है।

न्यूयॉर्क टाइम्स की कहानी ने यूट्यूब की सेवा की शर्तों और निश्चित रूप से, कॉपीराइट मुद्दों के बारे में चिंता जताई, जो एआई के बारे में अधिकांश बहस में व्याप्त हैं। लेकिन एक और समस्या है: कोई कैसे जान सकता है कि दुनिया भर के लोगों द्वारा अपलोड किए गए 14 अरब से अधिक वीडियो के संग्रह में वास्तव में क्या है? यह पूरी तरह से स्पष्ट नहीं है कि गूगल जानता है या चाहे तो जान सकता है।

सामग्री निर्माता के रूप में बच्चे

हम बच्चों को प्रदर्शित करने वाले या जाहिर तौर पर उनके द्वारा बनाए गए बहुत से वीडियो देखकर आश्चर्यचकित रह गए। यूट्यूब के लिए आवश्यक है कि अपलोड करने वालों की आयु कम से कम 13 वर्ष हो, लेकिन हमने अक्सर ऐसे बच्चों को देखा है जो उससे कहीं अधिक छोटे प्रतीत होते हैं, आमतौर पर नाचते, गाते या वीडियो गेम खेलते हुए।

हमारे प्रारंभिक शोध में, हमारे कोडर्स ने निर्धारित किया कि कम से कम एक व्यक्ति का चेहरा दिखाई देने वाले लगभग पांचवें यादृच्छिक वीडियो में 13 वर्ष से कम उम्र का कोई व्यक्ति शामिल हो सकता है। हमने उन वीडियो को ध्यान में नहीं रखा जो स्पष्ट रूप से माता-पिता या अभिभावक की सहमति से शूट किए गए थे।

हमारा 250 का वर्तमान नमूना आकार अपेक्षाकृत छोटा है – हम एक बहुत बड़े नमूने को कोड करने पर काम कर रहे हैं – लेकिन अब तक के निष्कर्ष हमने अतीत में जो देखा है उसके अनुरूप हैं। हमारा लक्ष्य गूगल की आलोचना नहीं है। इंटरनेट पर आयु सत्यापन अत्यंत कठिन और भयावह है, और हमारे पास यह निर्धारित करने का कोई तरीका नहीं है कि ये वीडियो माता-पिता या अभिभावक की सहमति से अपलोड किए गए थे या नहीं। लेकिन हम इस बात को रेखांकित करना चाहते हैं कि इन बड़ी कंपनियों के एआई मॉडल में क्या शामिल है।

छोटी पहुंच, बड़ा प्रभाव

यह मानना ​​आकर्षक है कि ओपनएआई अपने मॉडलों को प्रशिक्षित करने के लिए प्लेटफ़ॉर्म पर पोस्ट किए गए अत्यधिक उत्पादित प्रभावशाली वीडियो या टीवी न्यूज़कास्ट का उपयोग कर रहा है, लेकिन बड़े भाषा मॉडल प्रशिक्षण डेटा पर पिछले शोध से पता चलता है कि एआई मॉडल के प्रशिक्षण में सबसे लोकप्रिय सामग्री हमेशा सबसे प्रभावशाली नहीं होती है। तीन दोस्तों के बीच वस्तुतः न देखी गई बातचीत एक चैटबॉट भाषा मॉडल को प्रशिक्षित करने में लाखों व्यूज वाले एक संगीत वीडियो की तुलना में कहीं अधिक भाषाई रूप से सार्थक हो सकती है।

दुर्भाग्य से, ओपनएआई और अन्य एआई कंपनियां अपनी प्रशिक्षण सामग्री के बारे में काफी अपारदर्शी हैं: वे यह निर्दिष्ट नहीं करते हैं कि क्या शामिल है और क्या नहीं। अधिकांश समय, शोधकर्ता एआई सिस्टम के आउटपुट में पूर्वाग्रहों के माध्यम से प्रशिक्षण डेटा के साथ समस्याओं का अनुमान लगा सकते हैं।

लेकिन जब प्रशिक्षण डेटा पर हमारी नज़र पड़ती है, तो अक्सर चिंता का कारण होता है। उदाहरण के लिए, ह्यूमन राइट्स वॉच ने 10 जून, 2024 को एक रिपोर्ट जारी की, जिसमें दिखाया गया कि एक लोकप्रिय प्रशिक्षण डेटासेट में पहचाने जाने योग्य बच्चों की कई तस्वीरें शामिल हैं।

बड़ी तकनीकी कंपनियों के स्व-नियमन का इतिहास सदा से बदलता रहा है। ओपनएआई विशेष रूप से अनुमति के बजाय माफी मांगने के लिए कुख्यात है और सुरक्षा पर लाभ को प्राथमिकता देने के लिए इसे बढ़ती आलोचना का सामना करना पड़ा है।

एआई मॉडल के प्रशिक्षण के लिए उपयोगकर्ता-जनित सामग्री के उपयोग पर चिंताएं आम तौर पर बौद्धिक संपदा पर केंद्रित होती हैं, लेकिन गोपनीयता के मुद्दे भी हैं। यूट्यूब एक विशाल, बोझिल संग्रह है, जिसकी पूरी समीक्षा करना असंभव है।

पेशेवर रूप से निर्मित वीडियो के सबसेट पर प्रशिक्षित मॉडल संभवतः एआई कंपनी का पहला प्रशिक्षण कोष हो सकते हैं। लेकिन मजबूत नीतियों के बिना, कोई भी कंपनी जो अधिक सामग्री का इस्तेमाल करती है, उसमें ऐसी सामग्री शामिल होने की संभावना है जो संघीय व्यापार आयोग के बच्चों के ऑनलाइन गोपनीयता संरक्षण नियम का उल्लंघन करती है, जो कंपनियों को बिना किसी सूचना के 13 वर्ष से कम उम्र के बच्चों से डेटा एकत्र करने से रोकती है।

एआई पर पिछले साल के कार्यकारी आदेश और व्यापक गोपनीयता कानून के लिए मेज पर कम से कम एक आशाजनक प्रस्ताव के साथ, ऐसे संकेत हैं कि अमेरिका में उपयोगकर्ता डेटा के लिए कानूनी सुरक्षा अधिक मजबूत हो सकती है।

जब वॉल स्ट्रीट जर्नल की जोआना स्टर्न ने ओपनएआई सीटीओ मीरा मुराती से पूछा कि क्या ओपनएआई ने यूट्यूब वीडियो पर अपने टेक्स्ट-टू-वीडियो जनरेटर सोरा को प्रशिक्षित किया है, तो उन्होंने कहा कि वह निश्चित नहीं थीं।

क्या आपने अनजाने में चैटजीपीटी को प्रशिक्षित करने में मदद की है?

किसी यूट्यूब अपलोडर के इरादे उतने सुसंगत या पूर्वानुमानित नहीं होते जितने किसी किताब को प्रकाशित करने, किसी पत्रिका के लिए लेख लिखने या गैलरी में कोई पेंटिंग प्रदर्शित करने वाले के होते हैं। लेकिन भले ही यूट्यूब का एल्गोरिदम आपके अपलोड को अनदेखा कर देता है और इसे कभी भी एक-दो से अधिक बार नहीं देखा जाता है, इसका उपयोग चैटजीपीटी और जेमिनी जैसे मॉडलों को प्रशिक्षित करने के लिए किया जा सकता है।

जहां तक ​​एआई का सवाल है, आपका पारिवारिक वीडियो उतना ही महत्वपूर्ण हो सकता है जितना प्रभावशाली दिग्गज मिस्टर बीस्ट या सीएनएन द्वारा अपलोड किया गया कोई वीडियो।

द कन्वरसेशन एकता