SEED RL, אַן אָפֿן מקור פריימווערק פון Google פֿאַר קינסטלעך סייכל מאָדעלס

די גוגל פאָרשער באפרייט די נייַעס וועגן זיין אַנטוויקלונג פון אַ נייַע פריימווערק וואָס יקסטענדז טריינינג פֿאַר קינסטלעך סייכל מאָדעלס צו טויזנטער פון מאשינען. דער רעזולטאַט איז גערופן זוימען רל (סקאַלאַבלע עפעקטיוו טיף ריינפאָרסמאַנט לערנען).

דאס איז אַ פּראַמאַסינג אַנטוויקלונג ווייַל איך זאָל אַלאַוינג טריינינג קינסטלעך סייכל אַלגערידאַמז צו מיליאַנז פון בילדער פּער סעקונדע און רעדוצירן די קאָס פון דעם טריינינג מיט 80%, Google האט געזאגט אין אַ פאָרשונג פּאַפּיר.

דער טיפּ פון דאַונסייזינג קען העלפֿן די פּלייינג פעלד פֿאַר סטאַרטאַפּס. אַז ביז איצט האָבן נישט געווען ביכולת צו קאָנקורירן מיט די הויפּט ווי Google אין די פעלד פון אַי. דער פּרייַז פון טריינינג סאַפיסטיקייטאַד מאַשין לערנען מאָדעלס אין די וואָלקן איז סאַפּרייזינגלי הויך. Google פאָרמאַלייז די עפן פון די SEED RL קאָד, אַ פּרויעקט אַימעד צו אָפּטימיזירן די קאָסטן / פאָרשטעלונג פאַרהעלטעניש פון ריינפאָרסמאַנט לערנען.

ריינפאָרסמאַנט לערנען איז אַ זייער ספּעציפיש נוצן-פאַל צוגאַנג אין וואָס אַגענץ לערנען וועגן זייער סוויווע דורך עקספּלעריישאַן און אַפּטאַמייז זייער אַקשאַנז צו באַקומען די מערסט ריוואָרדז.

אין »SEED RL: סקאַלאַבלע און עפעקטיוו טיף-רל מיט אַקסעלערייטיד סענטראַל ינפעראַנס", מיר באַקענענ אַן RL אַגענט וואָס וואָג צו טויזנטער פון מאשינען, וואָס קענען טריינינג אין מיליאַנז פון ראָמען פּער סעקונדע און ימפּרוווד קאַמפּיוטיישאַנאַל עפעקטיווקייַט באטייטיק. דאָס איז אַטשיווד מיט אַ נייַע אַרקאַטעקטשער וואָס נוצן די אַקסעלערייטערז (GPU אָדער TPU) אין וואָג דורך סענטראַלייזינג מאָדעל ינפעראַנס און ינטראָודוסינג אַ שנעל קאָמוניקאַציע שיכטע.

מיר באַווייַזן די SEED RL פאָרשטעלונג אויף פאָלקס RL בענטשמאַרקס אַזאַ ווי Google פאָרשונג פוטבאָל, Arcade Learning Environment און DeepMind Lab, און ווייַזן אַז דאַטן עפעקטיווקייט קענען זיין געוואקסן דורך גרעסערע מאָדעלס. די קאָד איז געעפנט געווארן אויף Github צוזאמען מיט ביישפילן צו לויפן אויף Google Cloud מיט GPU.

SEED RL איז באזירט אויף די טענסאָרפלאָוו 2.0 פריימווערק y אַרבעט מיט אַ קאָמבינאַציע פון ​​גראַפיקס פּראַסעסינג וניץ און טענסאָר פּראַסעסינג וניץ צו סענטראַלייז די ינפעראַנס פון מאָדעל. ינטערפיראַנס איז דורכגעקאָכט סענטראַלי מיט אַ לערנען קאָמפּאָנענט וואָס טריינז די מאָדעל.

די וועריאַבאַלז און שטאַט אינפֿאָרמאַציע פון ​​די ציל מאָדעל זענען סטאָרד לאָוקאַלי און אַבזערוויישאַנז אויף זיי זענען געשיקט צו די תּלמיד אין יעדער בינע פון ​​דעם פּראָצעס. SEED RL ניצט אויך אַ נעץ ביבליאָטעק באזירט אויף די וניווערסאַל RPC פריימווערק פֿאַר עפֿענען-מקור צו מינאַמייז לייטאַנסי.

די גוגל ריסערטשערז האָבן געזאָגט אַז די לערנען קאָמפּאָנענט דורך SEED RL קענען זיין יקספּאַנדיד צו טויזנטער פון קאָרעס, בשעת די נומער פון אַקטערז צו זיין ריפּיטיד צווישן מעזשערמאַנץ אין די סוויווע און דורכפירן אַן ינפעראַנס פון די מאָדעל צו פאָרויסזאָגן די ווייַטער קאַמף, קענען זיין סקיילד אַרויף צו טויזנטער פון מאשינען.

גוגל עוואַלואַטעד די יפעקטיוונאַס פון SEED RL דורך קאַמפּערינג עס צו די פאָלקס אַרקאַדע לערנען סוויווע, Google Research Football סוויווע און פאַרשידן דיפּמינד לאַב ינווייראַנמאַנץ. ראָמען פּער סעקונדע ניצן 2,4 טשיפּס פון די וואָלקן טענסאָר פּראַסעסינג אַפּאַראַט.

עס איז וועגן 80 מאָל פאַסטער ווי פריערדיקע ראָמען.

"דאָס איז אַ באַטייטיק צייט אַקסעלעריישאַן, ווייַל אַקסעלערייטערז זענען פיל טשיפּער פּער אָפּעראַציע ווי קפּוס, די קאָס פון יקספּעראַמאַנץ זענען דראַסטיקלי רידוסט." מיר גלויבן SEED RL און די דערלאנגט רעזולטאַטן אַז ריינפאָרסמאַנט לערנען האט ווידער געכאפט די רעשט פון טיף לערנען אין טערמינען פון אַקסעלעראַטאָר באַניץ, "שרייבט Lasse Espeholt, פאָרשונג ינזשעניר אין Google Research.

מיט אַן אַרקאַטעקטשער אָפּטימיזעד פֿאַר נוצן אין מאָדערן אַקסעלערייטערז, עס איז נאַטירלעך צו פאַרגרעסערן די גרייס פון דעם מאָדעל אין אַן פּרווון צו פאַרגרעסערן דאַטן עפעקטיווקייַט.

Google האָט געזאָגט אז די SEED RL קאָד איז אָפֿן מקור און בארעכטיגט אויף Github, ווי געזונט ווי ביישפילן וואָס ווייַזן ווי אַזוי צו אַרבעטן אויף Google קלאָוד מיט גראַפיקס פּראַסעסינג וניץ.

לעסאָף, פֿאַר יענע וואָס זענען אינטערעסירט אין דעם נייַע פריימווערק, זיי קענען גיין צו די ווייַטערדיק לינק און געפֿינען מער אינפֿאָרמאַציע וועגן אים. דער לינק איז דאָס. 

מקור: https://ai.googleblog.com/


דער אינהאַלט פון דעם אַרטיקל אַדכיר צו אונדזער פּרינציפּן פון לייט עטיקס. צו מעלדונג אַ טעות גיט דאָ.

זייט דער ערשטער צו באַמערקן

לאָזן דיין באַמערקונג

אייער בליצפּאָסט אַדרעס וועט נישט זייַן ארויס.

*

*

  1. פאַראַנטוואָרטלעך פֿאַר די דאַטן: Miguel Ángel Gatón
  2. ציל פון די דאַטן: קאָנטראָל ספּאַם, קאָמענטאַר פאַרוואַלטונג.
  3. לעגיטימאַטיאָן: דיין צושטימען
  4. קאָמוניקאַציע פון ​​די דאַטן: די דאַטן וועט נישט זיין קאַמיונאַקייטיד צו דריט פּאַרטיעס אַחוץ דורך לעגאַל פליכט.
  5. דאַטן סטאָרידזש: דאַטאַבייס כאָוסטיד דורך Occentus Networks (EU)
  6. רעכט: צו קיין צייט איר קענט באַגרענעצן, צוריקקריגן און ויסמעקן דיין אינפֿאָרמאַציע.