Debian обсуждает будущее моделей ИИ в своей экосистеме

Debian-GNU-Linux

В Debian есть объявил, что он имеет открыл новую общую резолюцию (GR) так что их разработчики решают могут ли модели ИИ (искусственного интеллекта) быть частью основного хранилища и при каких условиях.

Хотя фаза голосования еще не началась, период обсуждения между разработчиками проекта уже идет, кто будет решать иНаправление, которое выберет Debian в отношении моделей машинного обучения. В голосовании имеют право принять участие около тысячи разработчиков с правом голоса, отвечающих за поддержку пакета и общую инфраструктуру проекта.

В основе дебатов лежит вопросМогут ли модели ИИ, распространяемые по открытым лицензиям, действительно считаться свободными, если они не включают данные и инструменты, необходимые для их обучения с нуля? предложение в обсуждении утверждает, что нет, иутверждает, что эти модели несовместимы с рекомендациями Debian по свободному программному обеспечению (ДФСГ). В случае одобрения такие модели будут исключены из основного репозитория, без рассмотрения (по крайней мере, на данный момент) их включения в такие разделы, как несвободные.

Возражения указывают на центральный момент свободного программного обеспечения: способность изменять, изучать и улучшать программу. В случае моделей ИИ это возможно только при наличии доступа к обучающим данным и инструментам, используемым при их построении. Сторонники резолюции утверждают, что без этих элементов изменение модели практически невозможно. Даже простые действия, такие как изменение токенизатора для добавления поддержки новых языков, становятся сложнейшей задачей, если процесс обучения невозможно воспроизвести.

Правовые риски и риски безопасности

Опасения касаются не только философии и этики дистрибуции, поскольку они также возникают серьезные проблемы с безопасностью. Непрозрачность, вызванная отсутствием исходных данных, делает невозможной проверку законности данных, используемых в обучении. Этот открывает двери для потенциальных нарушений лицензии, Например, если данные GPL использовались без надлежащего указания источника, то невозможно определить, была ли модель обучена на конфиденциальной или защищенной авторским правом информации.

Кроме того, Без доступа к исходному материалу обнаружение ошибок или уязвимостей становится задачей почти исключительно первоначального автора.. Это увеличивает зависимость пользователя от конкретного поставщика и усложняет внедрение исправлений или патчей. Хуже того, это делает невозможным надлежащий аудит модели, поэтому бэкдоры или скрытые предубеждения в ее поведении могут остаться незамеченными.

Дискуссия в сообществе разработчиков ПО с открытым исходным кодом

Вопрос о том, что на самом деле означает «открытость» системы ИИ, активно обсуждается в экосистеме свободного программного обеспечения, а не только в Debian. В октябре 2023 года Open Source Initiative (OSI) опубликовала предварительное определение того, что следует считать открытым исходным кодом ИИ. Это определение устанавливает, что система ИИ должна позволять ее использование, изучение, модификацию и распространение без ограниченийи включает в себя такие требования, как полная документация модели, используемые данные и методология обучения.

Тем не менее, Определение OSI не требует публикации данных обучения как таковых, а только «подробную информацию» о них. Это упущение подверглось резкой критике со стороны таких организаций, как SFC, которые утверждают, что без исходных данных невозможно в полной мере реализовать основные свободы внесения изменений и изучения.

OSI признает этот момент, но обосновывает свое решение Исходя из практических реалий: многие данные, используемые при обучении современных моделей, подлежат коммерческим лицензиям, содержат конфиденциальную информацию или просто не могут быть законно распространены. По их мнению, включение пункта, требующего публикации, сделает все существующие модели несовместимыми с любым определением открытости, оставив концепцию свободного ИИ в недостижимом подвешенном состоянии.

Какой путь выберет Debian?

Разрешение который сейчас обсуждается в Debian может иметь далеко идущие последствия, если будет принят, поскольку это означало бы твердую позицию: без обучающих данных или инструментов для воспроизведения модели нет настоящей свободы, и, следовательно, нет места в ядре Debian. Это строгое толкование свободы может привести к исключению многочисленных широко используемых моделей из основного распространения, включая некоторые академические или деловые разработки, которые, хотя и опубликованы по открытым лицензиям, не соответствуют этому стандарту прозрачности и воспроизводимости.

Решение, принятое разработчиками Debian, может создать прецедент в области свободного программного обеспечения и определить уровень стандартов, которым должны соответствовать системы искусственного интеллекта, чтобы считаться действительно свободными.

Наконец, если вы интересно узнать об этом больше, вы можете проверить подробности в по следующей ссылке.