Root NationВестиИТ вестиИБМ је креирао Пројецт ЦодеНет скуп података: 14 милиона узорака кода ће научити АИ да програмира

ИБМ је креирао Пројецт ЦодеНет скуп података: 14 милиона узорака кода ће научити АИ да програмира

-

Јединица ИБМ- истраживања вештачке интелигенције (АИ) представила је скуп података од 14 милиона узорака за развој модела машинског учења који могу да помогну у програмским задацима. Скуп података под називом Пројецт ЦодеНет, узима име по ИмагеНет-у, познатом спремишту слика које је револуционисало компјутерски вид и дубоко учење.

Програмери откривају нове проблеме и истражују различита решења, користећи многе механизме свесног и подсвесног размишљања. Већина алгоритама за машинско учење захтева добро дефинисане задатке и велике количине означених података за развој модела који могу да реше исте проблеме.

ИБМ Пројецт ЦодеНет
Пројецт ЦодеНет је огроман скуп података од ~ 14 милиона примера кода разбацаних по десетинама програмских језика.

Много труда је уложено у креирање скупова података и мерила за развој и евалуацију система АИ-за-код од стране експертске заједнице. Али, с обзиром на креативну и отворену природу развоја софтвера, веома је тешко створити савршен скуп података за програмирање. Са Пројецт ЦодеНет, ИБМ истраживачи су покушали да креирају вишенаменски скуп података који се може користити за обуку модела машинског учења за различите задатке. Креатори ЦодеНет-а га описују као „веома велики, разнолик и висококвалитетан скуп података за убрзање алгоритамског напретка у АИ за код“.

Скуп података садржи 14 милиона примера од 500 милиона линија кода написаних у 55 различитих програмских језика. Узорци кода су добијени из скоро 4000 предатих задатака постављених на АИЗУ и АтЦодер платформама за онлајн кодирање. Примери кода садрже и тачне и нетачне одговоре на дате задатке.

Такође занимљиво:

Једна од кључних карактеристика ЦодеНет-а је количина напомена додатих примерима. Сваки од задатака кодирања укључених у скуп података има текстуални опис, као и ЦПУ време и ограничења меморије. Свако подношење кода садржи десетак информација, укључујући језик, датум подношења, величину, време извршења, прихватање и типове грешака. ИБМ-ови истраживачи су се такође потрудили да осигурају да је скуп података избалансиран у односу на низ параметара, укључујући програмски језик, прихватљивост и типове грешака.

ИБМ Пројецт ЦодеНет

ЦодеНет није једини скуп података за обуку модела машинског учења на задацима програмирања. Али постоји неколико карактеристика које га издвајају. Први је сама величина скупа података, укључујући број узорака и разноликост језика. Али можда су важнији метаподаци који долазе са узорцима кода. Богате напомене додате ЦодеНет-у чине га погодним за разнолик скуп задатака, за разлику од других скупова података кодирања који су специјализовани за специфичне задатке програмирања.

Постоји неколико начина да се користи ЦодеНет. Један од њих је превод језика. Пошто сваки задатак кодирања у скупу података садржи репрезентације различитих програмских језика, научници података могу да га користе за изградњу модела машинског учења који преводе код са једног језика на други. Ово може бити згодно за организације које желе да пренесу стари код на нове језике и учине их доступним новим генерацијама програмера.

Прочитајте такође:

Пријави се
Обавести о
гост

2 Коментари
Новије
Они старији Најпопуларнији
Ембеддед Ревиевс
Погледај све коментаре
Викторе
Викторе
пре 2 година

Традиција и наслеђе треба да се поигравају са различитим размишљањима, са најмлађим генерацијама неуронских алгоритама и МЛ-метода постављања проблема, међусобно унапређујући једни друге.

Аасд
Аасд
пре 2 година

Временом ће се ниво програмера још више смањити (у поређењу са садашњим). Односно, моћи ће да се пише искошен, крив код на „језику гована“. А онда ће се машина оптимизовати, и на крају ћете моћи да добијете оптимизовани код професионалног асемблерског програмера (или још боље).

Претплатите се на ажурирања