Några dagar sen SFC gjorde officiell sin nya definition av "Open Source Artificial Intelligence" till vilken Bradley M. Kuhn, ledare för Software Freedom Conservancy (SFC), har uttryckt oro om nämnda definition.
Kuhn nämner att hans avsikt att ogiltigförklara nämnda villkor det är för att Aktuella "Open AI"-kriterier kan få allvarliga konsekvenser genom att späda på värdet av termen "öppen källkod" och dela upp gemenskapen. En av punkterna som har skapat konflikt är uteslutningen av kravet på att publicera data som används för att träna AI-modeller.
Och, enligt OSI, skulle inkludering av detta krav göra det omöjligt för de flesta nuvarande språkmodeller att betraktas som öppna, eftersom deras träningsdata till största delen är privat.
Kuhn anser att denna definition godkändes i all hast, utan samma uttömmande och långa process som gav definition till traditionell "öppen källkod". Enligt hans åsikt borde OSI ha kvalificerat denna nya vägledning som en "rekommendation" snarare än en "definition", med tanke på att AI-system fortfarande är i sina tidiga utvecklingsstadier.
Sammanfattningen här, enligt min mening, är enkel: OSAID kräver inte offentlig reproducerbarhet av den vetenskapliga processen för att bygga dessa system, eftersom det inte fastställer tillräckliga krav på licensiering och offentliggörande av utbildningsset för så kallad "öppen källkod" system. OSI avböjde att lägga till detta krav på grund av ett grundläggande fel i dess process; De beslutade att "det var meningslöst att publicera en definition som inget befintligt AI-system för närvarande kunde uppfylla."
Samtidigt OSI hävdar att definitionen kommer att bidra till att undvika tvetydig användning av termen "öppnad" i samband med AI, eftersom många tillverkare märker sina modeller som öppna endast för att de tillåter åtkomst till vissa komponenter, såsom viktningskoefficienter, men begränsar deras användning eller inte avslöjar alla implementeringsdetaljer.
La OSI har konstaterat att ett öppet AI-system bara behöver erbjuda information detaljerad information om de uppgifter som används i din träning, utan att kräva att uppgifterna är offentliga. Kuhn menar dock att denna begränsning hindrar AI-modeller från att uppfylla den reproducerbarhet som krävs i programvara med öppen källkod, där full tillgång till data och kod är väsentligt.
I sin kritik nämner Kuhn att, genom att kringgå åtkomst till träningsdata, OSI har begränsat definitionen till ett rent tekniskt tillvägagångssätt, utan att erkänna AI som ett komplett och reproducerbart system, vilket enligt honom strider mot principerna för öppen källkod.
Jag vet verkligen inte säkert (ännu) om det enda sättet att respektera användarrättigheter i ett LLM-stödt generativt AI-system är att endast använda träningsuppsättningar som är allmänt tillgängliga och licensierade under fri mjukvarulicenser. Jag tror att det är det idealiska och föredragna sättet att modifiera dessa system.
La definition av "öppet AI-system" godkänd av OSI har skapat kontroverser eftersom det bara garanterar två av de fyra friheterna grundläggande av programvara med öppen källkod: förmågan att använda och distribuera. Men friheten att studera och modifiera modellen är inte helt säkerställd, främst på grund av bristen på tillgång till utbildningsdata. Detta utelämnande komplicerar också upptäckten av möjliga bakdörrar som infogas i AI-modeller.
Ur OSI:s synvinkel, Begränsningen av publicering av uppgifter förstås, eftersom det ofta beror på faktorer utanför utvecklarnas kontroll, såsom skydd av konfidentiell data, upphovsrätt eller licensavtal med tredje part. Men kritiker, inklusive Bradley Kuhn och medlemmar av Debian-gemenskapen, hävdar att dessa utmaningar inte motiverar en definition som försvagar principerna för öppen källkod. Enligt dem minskar frånvaron av tillgång till träningsdata värdet av öppen AI och hotar att späda på innebörden och integriteten hos öppen källkodsrörelsen.
Kuhn nämner att han planerar att delta i det kommande OSI-ledarvalet att försöka återkalla denna definition och främja dess klassificering endast som en rekommendation, och inte en standard. Dessutom utvecklar andra organisationer som Open Source Foundation sin egen definition av gratis AI, som kommer att innehålla ett krav på datatillgänglighet, även om de erkänner etiska undantag för vissa typer av data, såsom medicinska eller personliga uppgifter.
Slutligen om du är intresserad av att veta mer om detkan du kontrollera detaljerna I följande länk.