OpenSearch 3.0: la bifurcació Elasticsearch obre camí per a la IA i extracció de dades

OpenSearch

Fa pocs dies, la OpenSearch Software Foundation, recolzada per la Linux Foundation, va donar a conèixer, mitjançant un anunci, el llançament d'OpenSearch 3.0, una versió que marca l'evolució del projecte nascut com a bifurcació d'Elasticsearch i Kibana.

Des de la seva creació el 2021, OpenSearch s'ha posicionat com una alternativa veritablement lliure a l'ecosistema d'Elastic, mantenint-se sota la llicència Apache 2.0, en contrast amb el gir cap a la llicència AGPLv3 que va adoptar Elasticsearch.

Principals novetats d'OpenSearch 3.0

La novetat més destacada daquesta versió és la incorporació de l'OpenSearch Vector Engine, un motor dissenyat per manejar dades utilitzades en sistemes d'aprenentatge automàtic i cerca semàntica. Aquest motor permet fer cerques vectorials accelerades per GPU, aconseguint millores significatives en el rendiment: 9.3 vegades més ràpida en indexació i una reducció del cost operatiu en 3.75 vegades davant de solucions basades exclusivament en CPU.

el sistema també suporta el protocol MCP (Model Context Protocol), el que permet integrar OpenSearch amb agents de IA i LLMs, incloent Anthropic, LangChain i OpenAI, obrint les portes a nous casos dús centrats en intel·ligència artificial i sistemes conversacionals.

OpenSearch 3.0 incorpora diverses optimitzacions que impulsen el rendiment general del motor i una de les més destacades, és la millora a les consultes de rang, ara un 25 % més ràpides gràcies a una estratègia més eficient en el maneig de camps numèrics i dates. Per a casos d'alta cardinalitat, s'han introduït suggeriments d'execució per a agregacions, cosa que ha permès reduir en un 75% la latència p90 en proves comparatives amb versions anteriors.

A més d'això, la separació del trànsit d'indexació i cerca és una de les funcions clau per a clústers amb emmagatzematge remot, ja que permet escalar de forma independent, aïllar errors i optimitzar configuracions de només lectura mitjançant la nova API _scale. Així mateix, el suport a estructures d'arbre estrella millora les agregacions en escenaris d'alta cardinalitat i permet reduir el treball de consulta fins a 100 vegades.

Millores en els tipus de cerca

En l' cerca vectorial, s'ha afegit un nou paràmetre d'explicació per a Faiss, Permet desglossar les puntuacions de les consultes k-NN, ajudant a entendre com es prioritzen els resultats.

A la recerca híbrida, s'han implementat tècniques de normalització estadística, com ara la normalització de puntuació Z i els nous llindars mínims-màxims, que contribueixen a generar resultats més coherents ia evitar l'amplificació de puntuacions irrellevants.

Entre altres millores, OpenSearch 3.0 inclou:

  • El llenguatge PPL ha estat ampliat amb ordres d'unió i subcerca, millorant l'exploració de dades mitjançant correlació de registres i filtratge avançat.
  • La nova API de consultes en viu permet una monitorització en temps real, mentre que l'experiència d'observabilitat s'enriqueix amb fluxos optimitzats per a detecció d'anomalies, facilitant-ne l'activació contextual des del panell principal.
  • S'ha substituït el tradicional Java Security Manager per un agent Java, que intercepta trucades privilegiades i verifica permisos de manera més eficaç. Això permet millorar el rendiment del clúster i reduir la sobrecàrrega interna.
  • S'ha incorporat una clau pública PGP nova per reforçar la verificació d'artefactes a partir de la versió 3.0.
  • Actualització de Lucene a la versió 10, que millora el processament paral·lel i la indexació de text complet.
  • Suport per a Java Platform Module System, amb Java 21 com a versió mínima requerida, cosa que permet modularitzar components del sistema.
  • Compatibilitat nativa amb MCP, que reforça la integració dagents dIA en fluxos empresarials.
  • Introducció del mode d'extracció directa de dades des de fluxos com Apache Kafka i Amazon Kinesis, facilitant anàlisis en temps real.
  • Un agent de planificació-execució-reflexió dissenyat per abordar tasques complexes mitjançant passos iteratius, molt útil en entorns autònoms o sistemes d'autoservei.
  • Activació per defecte del mode de paral·lelització de cerca per segments en vectors k-NN, amb un increment del rendiment de consulta de fins a 2.5 vegades.

Finalment, si estàs interessat en poder conèixer més a l'respecte pots consultar els detalls al següent enllaç.