ابتكر الناس في Google الذكاء الاصطناعى القادر على التنبؤ بنماذج التعلم الآلي التي ستحقق أفضل النتائج. في ورقة منشورة حديثًا (" تقييم خارج السياسة عبر تصنيف خارج السياسة ") وفي مدونة ، يقترح فريق من الباحثين في Google AI ما يسمونه "تصنيف خارج السياسة" ، أو OPC ، الذي يقيّم أداء نظام AI العوامل عن طريق التعامل مع التقييم باعتباره مشكلة تصنيف.
يلاحظ الفريق أن أسلوبهم - وهو متغير من التعلم التعزيزي ، والذي يستخدم المكافآت لدفع سياسات البرنامج نحو الأهداف - يعمل مع مدخلات الصور ومقاييس المهام ، بما في ذلك استيعاب الروبوت القائم على الرؤية. يقول أليكس إيربان ، مهندس برامج Google ، "تعلم التعزيز الكامل خارج السياسة هو البديل الذي يتعلم فيه الوكيل بالكامل من البيانات القديمة ، وهو أمر جذاب لأنه يتيح التكرار النموذجي دون الحاجة إلى روبوت فعلي". "مع RL خارج السياسة بالكامل ، يمكن للمرء تدريب العديد من النماذج على نفس مجموعة البيانات الثابتة التي تم جمعها من قبل الوكلاء السابقين ، ثم اختيار الأفضل".