OpenSearch 3.0: форк Elasticsearch прокладає шлях для штучного інтелекту та аналізу даних

OpenSearch

Кілька днів тому в Програмне забезпечення OpenSearch Фонд, що підтримується Фондом Linux, оголосив через оголошення про запуск OpenSearch 3.0, версія, що знаменує собою еволюцію проєкту, що виник як відгалуження Elasticsearch та Kibana.

З моменту свого створення у 2021 році OpenSearch позиціонує себе як справді відкрита альтернатива екосистемі Elastic, працюючи під ліцензією Apache 2.0, на відміну від переходу Elasticsearch на ліцензію AGPLv3.

Ключові нові функції OpenSearch 3.0

Найпомітнішою новою особливістю цієї версії є включення векторного двигуна OpenSearch, двигун, розроблений для обробки даних, що використовуються в системах машинного навчання та семантичного пошуку. Цей механізм дозволяє виконувати векторний пошук із прискоренням на графічному процесорі, що значно покращує продуктивність: індексація в 9.3 рази швидше, а експлуатаційні витрати знижуються в 3.75 раза порівняно з рішеннями, що базуються виключно на центральному процесорі.

Система також підтримує протокол MCP (Протокол контексту моделі), який дозволяє інтегрувати OpenSearch з агентами штучного інтелекту та LLM, включаючи Anthropic, LangChain та OpenAI, відкриваючи двері для нових варіантів використання, зосереджених на штучному інтелекті та розмовних системах.

OpenSearch 3.0 включає кілька оптимізацій, які підвищують загальну продуктивність движка, і однією з найбільш помітних є Покращені запити діапазону, тепер на 25% швидші завдяки ефективнішій стратегії обробки числових полів та дат. Для випадків з високою кардинальністю було введено підказки щодо виконання агрегацій, що призвело до зменшення затримки p75 на 90% у бенчмарк-тестах порівняно з попередніми версіями.

На додаток до цього, розділення індексації та пошукового трафіку Це одна з ключових функцій для кластерів з віддаленим сховищем, оскільки дозволяє масштабуватися незалежно, Ізолюйте несправності та оптимізуйте конфігурації лише для читання за допомогою нового API _scale. Крім того, підтримка структур «зіркового дерева» покращує агрегації у сценаріях з високою кардинальністю, що дозволяє скоротити обсяг запитів до 100 разів.

Покращення типів пошуку

В Векторний пошук, для Faiss додано новий параметр пояснення, що дозволяє розбити оцінки запитів k-NN, допомагаючи зрозуміти, як результати пріоритетизовані. Це доповнення до оновлення функції оцінювання BM25, яка тепер за замовчуванням використовує BM25Similarity для узгодження з поточними оптимізаціями Apache Lucene. Крім того, оптимізація розміру сегмента сприяла зменшенню затримки хвоста на 20%.

У гібридному пошуку було впроваджено методи статистичної нормалізації, такі як нормалізація Z-оцінки та нові мінімально-максимальні порогові значення, які допомагають генерувати більш узгоджені результати та уникати посилення нерелевантних оцінок.

Серед інших покращень, OpenSearch 3.0 включає:

  • Мову PPL було розширено командами об'єднання та підзапиту, що покращує дослідження даних завдяки кореляції записів та розширеній фільтрації.
  • Новий API Live Query дозволяє здійснювати моніторинг у режимі реального часу, а досвід спостереження збагачений оптимізованими потоками для виявлення аномалій, що дозволяє легко запускати їх контекстно з головної панелі інструментів.
  • Традиційний менеджер безпеки Java був замінений агентом Java, який перехоплює привілейовані виклики та ефективніше перевіряє дозволи. Це покращує продуктивність кластера та зменшує внутрішні накладні витрати.
  • Починаючи з версії 3.0, для посилення перевірки артефактів було додано новий відкритий ключ PGP.
  • Lucene оновлено до версії 10, що покращує паралельну обробку та повнотекстову індексацію.
  • Підтримка системи модулів платформи Java, з Java 21 як мінімально необхідною версією, що дозволяє модуляризацію компонентів системи.
  • Вбудована підтримка MCP, яка посилює інтеграцію агентів штучного інтелекту в бізнес-потоки.
  • Впровадження режиму прямого вилучення даних із потоків, таких як Apache Kafka та Amazon Kinesis, що полегшує аналіз у режимі реального часу.
  • Агент планування-виконання-відображення, призначений для вирішення складних завдань за допомогою ітеративних кроків, дуже корисний в автономних середовищах або системах самообслуговування.
  • Увімкнення за замовчуванням режиму посегментного паралелізації для k-NN векторів, що збільшує продуктивність запитів до 2.5 разів.

Нарешті, якщо вам цікаво дізнатись більше про це Ви можете перевірити деталі в наступне посилання.