BlazingSQL деректерді өңдеуді жеделдету үшін GPUS пайдалану үшін бастапқы кодын шығарды

Ашық бастапқы коды бар жаңа жоба аналитиканы келесі деңгейге шығарғысы келеді және бұл артта тұрған адамдар Жақында BlazingSQL өзінің SQL қозғалтқышының бастапқы кодын шығарғанын мәлімдеді, ол деректерді өңдеуді жеделдету үшін графикалық процессорларда қолданылады. BlazingSQL толық ДҚБЖ емес, бірақ ол Apache Spark-пен салыстыруға болатын үлкен мәліметтер жиынтығын талдауға және өңдеуге арналған қозғалтқыш ретінде орналасқан.

BlazingSQL-ді білмейтіндер білуі керек бұл RAPIDS экожүйесінде құрылған GPU жеделдетілген SQL қозғалтқышы бұл GPU-да ақпараттар талдауы мен деректану құбырларын іске қосуға арналған бағдарламалық жасақтаманың ашық көзі.

Команданың айтуы бойынша BlazingSQL пайдаланушылар үлкен жиындарда жұмыс жасау кезінде кездесетін шығындар, күрделілік және баяу қарқындарды шешу үшін жасалған мәліметтер. BlazingSQL кестелік форматтарда сақталған (мысалы, журналдар, NetFlow статистикасы және т.б.) үлкен деректер жиынтығында (ондаған гигабайт) жеке аналитикалық сұраныстарды орындауға жарайды.

GPU-мен жұмыс істеу үшін RAPIDS кітапханаларының жиынтығы ab қолданыладыКейбіреулері NVIDIA-ның қатысуымен дамыған, бұл GPU жағында толығымен жұмыс істейтін деректерді өңдеу және талдау қосымшаларын құруға мүмкіндік береді (төменгі деңгейлі CUDA примитивтері мен параллель есептеулерді қолдану үшін Python интерфейсі беріледі).

BlazingSQL API орнына SQL қолдану мүмкіндігін ұсынады RAPIDS пайдаланатын cuUDF деректерін өңдеу (Apache Arrow негізінде). BlazingSQL - cuDF үстінде жұмыс жасайтын және cuIO кітапханасын дискіден деректерді оқу үшін қолданатын қосымша қабат.

SQL сұраулары болып табылады деректерді GPU-ға жүктеуге мүмкіндік беретін cuUDF функционалдық қоңырауларға аудару және олар бойынша біріктіру, жинақтау және сүзу операцияларын орындау. Мыңдаған графикалық процессорларды қамтитын таралған конфигурацияларды құруды қолдайды.

Пайдалану SQL RAPIDS-ті жазбаша процессорларсыз аналитикалық жүйелермен біріктіруге мүмкіндік береді қосымша ДҚБЖ-ға аралық деректерді жүктеуге жүгінбей, RAPIDS-тің барлық бөліктерімен толық үйлесімділікті сақтай отырып, қолданыстағы функционалдылықты SQL-ге аударып, cuDF деңгейіндегі өнімділікті қамтамасыз етеді. Машиналарды оқыту және талдау міндеттерін шешу үшін XGBoost және cuML кітапханаларымен интеграциялауды қолдайды.

BlazingSQL CSV және Apache Parquet форматындағы жалпақ файлдардан сұраныстарды орындай алады нәтижені тікелей GPU жадына жіберетін HDSF және AWS S3 сияқты желілік және бұлтты жүйелерде орналасқан.

Графикалық процессордағы параллельдеу операцияларының және жылдамырақ жады қолданудың арқасында BlazingSQL-да сұраныстың орындалуы Apache Spark-қа қарағанда 20 есе жылдам.

BlazingSQL деректермен жұмыс істеуді едәуір жеңілдетеді - жүздеген cuDF функционалдық қоңыраулардың орнына сіз оны бір SQL сұранысының көмегімен жасай аласыз.

«BlazingSQL клиенттердің бұл мәселелерін керемет жылдам, таратылған SQL GPU қозғалтқышымен ғана емес, сонымен қатар қарапайымдылыққа деген құлшыныспен де қарастырады», - деп жазды келесі блогында BlazingSQL бас директоры Родриго Арамбуру. «Бірнеше код жолымен, BlazingSQL қай жерде болса да, сіздің бастапқы деректеріңізді сұрап, қолданыстағы RAPIDS және аналитика стегімен жұмыс істей алады.»

BlazingSQL қолданушыларға GPU DataFrame (GDF) ретінде GPU жадында тікелей деректер көлігінің деректер жиынтығын сұрауға мүмкіндік береді. GDF - бұл GPU қосымшалары арасындағы өзара әрекеттесуге қолдау көрсететін жоба. Ол жалпы GPU жадының деректер қабатын анықтайды.

«Apache Arrow-ді графикалық процессорларда қолдану және Dask-пен интеграциялау арқылы BlazingSQL ашық дереккөздердің функционалдығын кеңейтеді және жылдам ғылыми экожүйеде өзара әрекеттесудің келесі толқынын қоздырады.»

Қызығушылар үшін мұны білу керек код пайдаланушыларға арналған Python интерфейсімен C ++ тілінде жазылған және ашық көзі Apache 2.0 лицензиясында.

Сілтеме бұл.


Мақаланың мазмұны біздің ұстанымдарымызды ұстанады редакторлық этика. Қате туралы хабарлау үшін нұқыңыз Мұнда.

Бірінші болып пікір айтыңыз

Пікіріңізді қалдырыңыз

Сіздің электрондық пошта мекен-жайы емес жарияланады. Міндетті өрістер таңбаланған *

*

*

  1. Деректерге жауапты: Мигель Анхель Гатан
  2. Деректердің мақсаты: СПАМ-ны басқару, түсініктемелерді басқару.
  3. Заңдылық: Сіздің келісіміңіз
  4. Деректер туралы ақпарат: заңды міндеттемелерді қоспағанда, деректер үшінші тұлғаларға жіберілмейді.
  5. Деректерді сақтау: Occentus Networks (ЕО) орналастырған мәліметтер базасы
  6. Құқықтар: Сіз кез-келген уақытта ақпаратты шектей, қалпына келтіре және жоя аласыз.