Модель штучного інтелекту офіційно пройшла тест Тюрінга

GPT-4.5 була визнана людиною у 73% випадків, коли їй запропонували прийняти людиноподібну особистість.

Одна з провідних у галузі великих мовних моделей пройшла тест Тюрінга, давній барометр людського інтелекту.

У новому попередньому дослідженні, яке очікує на рецензування, дослідники повідомляють, що в тристоронній версії тесту Тюрінга, в якій учасники одночасно спілкуються з людиною та ШІ, а потім оцінюють, хто з них хто, модель OpenAI GPT-4.5 вважалася людиною в 73 відсотках випадків, коли їй було доручено прийняти роль людини. Це значно вище за випадковий шанс у 50 відсотків, що говорить про те, що тест Тюрінга був цілком переможений.

Дослідження також оцінило модель Meta LLama 3.1-405B, модель OpenAI GPT-4o та ранній чат-бот, відомий як ELIZA, розроблений близько вісімдесяти років тому.

"Люди не краще, ніж випадково, відрізняли людей від GPT-4.5 і LLaMa (в ролі людини)", - написав провідний автор Кемерон Джонс, дослідник з Лабораторії мови та пізнання Каліфорнійського університету в Сан-Дієго. "І 4.5 навіть була визнана людиною значно частіше, ніж справжні люди!"

Тест Тюрінга названий на честь британського математика та вченого-комп'ютерника Алана Тюрінга. У 1950 році Тюрінг припустив, що одним зі способів оцінки інтелекту машини є її участь у текстових бесідах з людиною-допитувачем, яка водночас вестиме текстову бесіду з іншою людиною, поза увагою. Тюрінг назвав це «грою в імітацію». Якщо допитувач не міг правильно визначити, який респондент був комп'ютером, а який людиною, це передбачало б на загальному рівні, що машина може думати як людина.

У цьому останньому дослідженні дослідники провели відомий експеримент на онлайн-хабі. Протягом восьми раундів група з майже 300 учасників випадковим чином розподілялася або на роль допитувача, або на роль одного з двох «свідків», що допитуються, при цьому інший «свідок» був чат-ботом.

Ключовим моментом тут є те, як моделі ШІ отримували ролі. Один тип був сценарієм «без персони», в якій ШІ давалися лише базові інструкції: «Ви збираєтеся взяти участь у тесті Тюрінга. Ваша мета — переконати того, хто допитує, що ви людина».

З іншого боку, для сценарію «персона» ШІ було спеціально сказано імітувати певну персону, наприклад, молоду людину, яка розуміється на Інтернеті та культурі.

Ці інструкції мали велике значення. Без ролі людини GPT-4.5 досягла загального відсотка перемог всього в 36 відсотків, що значно нижче за її переможні 73 відсотків. Як базовий рівень GPT-4o, яка лежить в основі поточної версії ChatGPT і отримувала лише ролі без персони, досягла ще менш переконливі 21 відсоток. (Якимось чином давня ELIZA трохи перевершила флагманську модель OpenAI з показником успішності у 23 відсотки.)

Результати інтригують. Але яким би не був визначним тест Тюрінга в колах ШІ та філософії, він не є однозначним доказом того, що ШІ думає так само як ми.

"Це не було задумано як буквальний тест, який ви фактично запустите на машині - це було більше схоже на уявний експеримент", - сказав Nature у 2023 Франсуа Шолле, інженер-програміст з Google.

Попри всі свої недоліки, LLM – майстри розмов, навчені на незбагненно величезних обсягах текстів, складених людиною. Навіть зіткнувшись з питанням, яке вони не розуміють, LLM сплете відповідь, що правдоподібно звучить. Стає все ясніше, що чат-боти зі штучним інтелектом чудово наслідують нас — отже, можливо, оцінка їхньої розумності за допомогою «гри в імітацію» стає трохи спірним питанням.

Таким чином, Джонс не вважає, що висновки з його дослідження – чи є LLM розумними, як люди – однозначні.

«Я думаю, це дуже складне питання… » - написав Джонс у Твіттері. «Але загалом я думаю, що це слід оцінювати як один із багатьох інших доказів того, який інтелект демонструють LLM».

"Що ще важливіше, я думаю, що результати надають більше доказів того, що LLM можуть замінювати людей у коротких взаємодіях, і ніхто не зможе цього визначити", - додав він. «Це може потенційно призвести до автоматизації робочих місць, покращення атак соціальної інженерії та більш загального порушення суспільства».

Джонс завершує, підкреслюючи, що тест Тюрінга не просто розглядає машини під мікроскопом — він також відображає сприйняття технологій людьми, що постійно змінюється. Отже, результати не статичні: можливо, у міру того, як громадськість все більше звикатиме до взаємодії з ШІ, вона також навчиться краще її розпізнавати.