OpenSearch 3.0: Furca Elasticsearch deschide calea pentru inteligența artificială și extragerea de date

OpenSearch

Acum câteva zile, cel Software-ul OpenSearch Fundația, susținută de Fundația Linux, a anunțat, printr-un anunț, lansarea OpenSearch 3.0, o versiune care marchează evoluția proiectului născut ca o ramură a Elasticsearch și Kibana.

Încă de la înființarea sa în 2021, OpenSearch s-a poziționat ca o alternativă cu adevărat open-source la ecosistemul Elastic, operând sub licența Apache 2.0, spre deosebire de trecerea Elasticsearch la licența AGPLv3.

Funcții noi cheie în OpenSearch 3.0

Cea mai notabilă noutate a acestei versiuni este încorporarea motorului vectorial OpenSearch, un motor proiectat pentru a gestiona datele utilizate în sistemele de învățare automată și căutare semantică. Acest motor permite căutări vectoriale accelerate de GPU, obținând îmbunătățiri semnificative ale performanței: indexare de 9.3 ori mai rapidă și o reducere de 3.75 ori a costurilor de operare în comparație cu soluțiile bazate exclusiv pe CPU.

Sistemul suportă și protocolul MCP (Protocolul de context al modelului), care vă permite să integrați OpenSearch cu agenți de inteligență artificială și LLM-uri, inclusiv Anthropic, LangChain și OpenAI, deschizând calea către noi cazuri de utilizare axate pe inteligența artificială și sistemele conversaționale.

OpenSearch 3.0 încorporează mai multe optimizări care îmbunătățesc performanța generală a motorului, iar una dintre cele mai notabile este... Interogări de interval îmbunătățite, acum cu 25% mai rapide datorită unei strategii mai eficiente în gestionarea câmpurilor numerice și a datelor. Pentru cazurile cu cardinalitate ridicată, au fost introduse indicii de execuție pentru agregări, ceea ce a dus la o reducere cu 75% a latenței p90 în testele de referință comparativ cu versiunile anterioare.

Pe lângă aceasta, separarea traficului de indexare și de căutare Este una dintre funcțiile cheie pentru clusterele cu stocare la distanță, deoarece vă permite să scalați independent, Izolați erorile și optimizați configurațiile doar pentru citire folosind noua API _scale. În plus, suportul pentru structurile de tip arbore stelar îmbunătățește agregările în scenarii cu cardinalitate ridicată, permițând reducerea volumului de muncă în interogări de până la 100 de ori.

Îmbunătățiri ale tipurilor de căutare

În Căutare vectorială, a fost adăugat un nou parametru de explicație pentru Faiss, care vă permite să defalcați scorurile interogărilor k-NN, ajutându-vă să înțelegeți cum sunt prioritizate rezultatele. Aceasta se adaugă la o actualizare a funcției de scor BM25, care folosește acum BM25Similarity în mod implicit pentru a se alinia cu optimizările actuale Apache Lucene. În plus, optimizarea dimensiunii segmentului a contribuit la o reducere cu 20% a latențelor de coadă.

În căutarea hibridă, au fost implementate tehnici de normalizare statistică, cum ar fi normalizarea scorului Z și noi praguri min-max, care ajută la generarea de rezultate mai consistente și la evitarea amplificării scorurilor irelevante.

Printre alte îmbunătățiri, OpenSearch 3.0 include:

  • Limbajul PPL a fost extins cu comenzi de tip join și subquery, îmbunătățind explorarea datelor prin corelarea înregistrărilor și filtrare avansată.
  • Noua API Live Query permite monitorizarea în timp real, în timp ce experiența de observabilitate este îmbogățită cu fluxuri optimizate pentru detectarea anomaliilor, facilitând declanșarea lor contextuală din tabloul de bord principal.
  • Managerul de securitate tradițional Java a fost înlocuit de un agent Java, care interceptează apelurile privilegiate și verifică permisiunile mai eficient. Acest lucru îmbunătățește performanța clusterului și reduce cheltuielile interne.
  • O nouă cheie publică PGP a fost adăugată pentru a consolida verificarea artefactelor începând cu versiunea 3.0.
  • Lucene a fost actualizat la versiunea 10, care îmbunătățește procesarea paralelă și indexarea full-text.
  • Suport pentru Java Platform Module System, cu Java 21 ca versiune minimă necesară, permițând modularizarea componentelor sistemului.
  • Suport nativ pentru MCP, care consolidează integrarea agenților AI în fluxurile de business.
  • Introducerea modului de extragere directă a datelor din fluxuri precum Apache Kafka și Amazon Kinesis, facilitând analiza în timp real.
  • Un agent de planificare-execuție-reflecție, conceput pentru a aborda sarcini complexe prin pași iterativi, foarte util în medii autonome sau sisteme self-service.
  • Activarea implicită a modului de paralelizare pe segmente pentru vectorii k-NN, cu o creștere de până la 2.5x a performanței interogărilor.

În cele din urmă, dacă sunteți interesat să aflați mai multe despre asta puteți verifica detaliile în următorul link.