Scaoil Google cód foinse a AI "TAPAS"

 

D’fhógair Google go scaoilfí an cód foinse “TAPAS” (TAble PArSing), líonra neural (intleacht shaorga) a forbraíodh go hinmheánach d’fhonn ceist a fhreagairt i dteanga nádúrtha agus faigh an freagra ó bhunachar sonraí coibhneasta nó scarbhileog.

D’fhonn na torthaí is fearr a fháil i TAPAS, thiomnaigh na forbróirí atá i gceannas ar an tionscadal oiliúint a chur ar an líonra neural le 6.2 milliún péire tábla go téacs tógtha as Wikipedia. Chun a fhíorú, b’éigean don líonra neural focail a bhí in easnamh a chur ar ais sna táblaí agus sna téacsanna nár cuireadh oiliúint orthu. Ba é an cruinneas téarnaimh ná 71,4% mar léirigh tástáil tagarmhairc go soláthraíonn an líonra neural freagraí cruinne nó inchomparáide ná halgartaim iomaíocha sna trí shraith sonraí.

Maidir le TAPAS

Go bunúsach is é fócas an tionscadail seo a bheith in ann dul i gcomhairle, próiseáil agus taispeáint faisnéise bhain sé le téarmaí an fhiosrúcháin a rinne an t-úsáideoir i dteanga nádúrtha, ag éascú ar scála mór faisnéis a fháil.

Sampla bunúsach d’úsáid TAPAS is ea más mian le húsáideoir sonraí díolacháin, ioncam, a mheas iarratais, i measc rudaí eile. Chomh maith le sin caithfidh tú é sin a chur san áireamh Ní amháin go bhfuil TAPAS teoranta do fhaisnéis a fháil ó bhunachar sonraí, ach tá sé in ann ríomhanna a dhéanamh freisin, féachann an algartam ar an bhfreagra sna cealla tábla, go díreach agus trí bhreisiú, meánú agus oibreoirí eile, sa bhreis air sin is féidir leis an freagra a lorg idir roinnt táblaí ag an am céanna.

Deir Google go ndéanann Tapas Níos Fearr nó Meaitseálann na Trí Algartam Foinse Oscailte is Fearr chun sonraí coibhneasta a anailísiú. D’fhéadfadh cumas Tapas eilimintí ar leith a bhaint as stórtha móra sonraí é féin a fheabhsú chun cumais freagartha a fheabhsú.

Underhood, Fostaíonn Tapas athrú ar theicníc próiseála teanga nádúrtha BERT a úsáidtear i gcuardach a dhéanann inneall Google.

Soláthraíonn BERT cruinneas níos mó ná cineálacha cur chuige traidisiúnta toisc go gceadaíonn sé do AI seicheamh téacs a mheas, ní hamháin ó chlé go deas nó ó dheis go clé mar is gnách, ach déanann sé an dá rud ag an am céanna.

Ligeann an leagan a chuir Google i bhfeidhm le haghaidh TAPAS do AI machnamh ní amháin ar an gceist a chuireann úsáideoirí agus na sonraí a theastaíonn uathu a cheistiú, ach freisin struchtúr na dtáblaí coibhneasta ina stóráiltear na sonraí.

Conas TAPAS a shuiteáil ar Linux?

Dado que Go bunúsach is samhail BERT é TAPAS agus dá bhrí sin tá na riachtanais chéanna aige. Ciallaíonn sé seo gur féidir samhail mhór a oiliúint le fad seicheamh 512 a mbeidh TPU ag teastáil uaidh.

Chun a bheith in ann TAPAS a shuiteáil ar Linux éilímid an tiomsaitheoir prótacail, atá le fáil i bhformhór na ndáileadh Linux.

I Debian, Ubuntu agus díorthaigh díobh seo, is féidir linn an tiomsaitheoir a shuiteáil leis an ordú seo a leanas:

sudo apt-get install protobuf-compiler

I gcás Arch Linux, Manjaro, Arco Linux nó aon díorthach eile de Arch Linux, déanaimid suiteáil le:

sudo pacman -S protobuf

Anois le go mbeimid in ann TAPAS a shuiteáil, ní mór dúinn ach an cód foinse a fháil agus an tiomsú a dhéanamh leis na horduithe seo a leanas:

git clone https://github.com/google-research/tapas
cd tapas
pip install -e .

Agus chun an tsraith tástála a reáchtáil, úsáidimid an leabharlann tocsainí is féidir a reáchtáil trí ghlaoch ar:

pip install tox
tox

Ón áit seo beidh ar an AI a bheith oilte sa réimse spéise. Cé go cuirtear roinnt samhlacha oilte ar fáil i stór GitHub.

Ina theannta sin, is féidir leat roghanna cumraíochta éagsúla a úsáid, mar an rogha max_seq_length chun seichimh níos giorra a chruthú. Laghdóidh sé seo cruinneas ach déanfaidh sé an tsamhail GPU-in-traenáilte freisin. Rogha eile is ea méid an bhaisc a laghdú (train_batch_size), ach is dóigh go mbeidh tionchar aige seo ar chruinneas freisin.

Mar fhocal scoir más mian leat tuilleadh a fháil amach faoi Maidir leis an AI seo, is féidir leat sonraí úsáide, forghníomhaithe agus faisnéise eile a sheiceáil Sa nasc seo a leanas.


Cloíonn ábhar an ailt lenár bprionsabail eitic eagarthóireachta. Chun earráid a thuairisciú cliceáil anseo.

Bí ar an chéad trácht

Fág do thrácht

Ní thabharfar do sheoladh r-phoist a fhoilsiú. Réimsí riachtanacha atá marcáilte le *

*

*

  1. Freagrach as na sonraí: Miguel Ángel Gatón
  2. Cuspóir na sonraí: SPAM a rialú, bainistíocht trácht.
  3. Legitimation: Do thoiliú
  4. Na sonraí a chur in iúl: Ní chuirfear na sonraí in iúl do thríú páirtithe ach amháin trí oibleagáid dhlíthiúil.
  5. Stóráil sonraí: Bunachar sonraí arna óstáil ag Occentus Networks (EU)
  6. Cearta: Tráth ar bith is féidir leat do chuid faisnéise a theorannú, a aisghabháil agus a scriosadh.