Искусственный интеллект вызывает интерес и страх у многих людей. Некоторые боятся, что ИИ сможет перехитрить человечество и угрожать его существованию, как это показывают в популярных научно-фантастических фильмах. Однако такой сценарий крайне маловероятен, ведь текущие итерации ИИ всё ещё не обладают самосознанием, а лишь умеют предсказывать текст на основе изученных данных. Хоть и выглядит это зачастую очень правдоподобно .
Для того, чтобы понять, как работает ИИ, не нужно пытаться проникнуть в его психологию. Гораздо эффективнее анализировать его выходные данные с помощью вероятностей. Такой подход уже принёс свои плоды: группа учёных из Университета Калифорнии в Беркли смогла выяснить больше информации о продуктах OpenAI, чем раскрывает сама компания.
ИИ решает, что выводить, в зависимости от того, какие данные он получил на входе. Как утверждают исследователи, по тому, как ИИ отвечает на пользовательские запросы, можно сделать выводы о том, какие данные он использовал для обучения. Проведя некоторый анализ данных, учёные пришли к выводу, что современные генеративные модели, в частности, ChatGPT, – действительно обучаются на защищённых авторским правом произведениях. Об этом говорили и раньше, но сейчас этому есть вполне определённые доказательства.
Учёные обнаружили, что модели OpenAI были “накормлены” преимущественно научной фантастикой и фэнтези. Специалисты понемногу сходятся во мнениях, что для обучения нейросетей лучше использовать открытые наборы данных, чтобы итоговая модель была менее предвзятой в своих ответах. Но также запрет на использование защищённой литературы касаются того, что чат-боты, хоть и не специально, могут нарушать авторские права, копируя оригинальные части конкретных произведений в своих ответах.
Если оригинал какого-либо произведения защищён авторским правом, с ним можно делать только то, что разрешает владелец авторских прав. Но обучение нейронной сети создаёт математический набор связей выбранного произведения, перемешивая его с другими такими же данными. И даже если итоговый результат не будет сильно похож на оригинальное произведение, можно ли назвать его уникальным, не нарушающим авторское право? Возможно. Однако правообладатели так точно не считают.
С другой стороны, современные LLM-модели довольно творческие, они быстро учатся и улучшаются, а всевозможные юридические проволочки могут лишь замедлить их развитие. Вполне возможно, за последние полгода люди так сильно привыкли, что в их жизни есть такие умные помощники, как чат-боты, улавливающие контекст общения и способные реально ускорить рутинную работу, что человечество скорее выберет развитие нейросетей, поступившись авторским правом. Ведь за ними будущее.