خضعت نماذج الذكاء الاصطناعي لتدريب متكرر باستخدام بيانات مُنتَجة أصلاً بهذه التقنية، قبل أن تبدأ بعرض محتويات متضاربة بصورة متزايدة، وهي مشكلة يتناولها عدد كبير من الدراسات العلمية.
النماذج القائمة على أدوات الذكاء الاصطناعي التوليدي مثل برنامج "تشات جي بي تي" والتي تتيح إنتاج مختلف أنواع المحتوى بناءً على طلب بسيط بلغة يومية، تحتاج إلى التدريب من خلال كميات هائلة من البيانات.
وغالباً ما يتم الحصول على هذه البيانات من شبكة الانترنت التي تنتشر فيها كميات متزايدة من الصور والنصوص المُنَتَجة بواسطة الذكاء الاصطناعي.