Јединица ИБМ- истраживања вештачке интелигенције (АИ) представила је скуп података од 14 милиона узорака за развој модела машинског учења који могу да помогну у програмским задацима. Скуп података под називом Пројецт ЦодеНет, узима име по ИмагеНет-у, познатом спремишту слика које је револуционисало компјутерски вид и дубоко учење.
Програмери откривају нове проблеме и истражују различита решења, користећи многе механизме свесног и подсвесног размишљања. Већина алгоритама за машинско учење захтева добро дефинисане задатке и велике количине означених података за развој модела који могу да реше исте проблеме.
Много труда је уложено у креирање скупова података и мерила за развој и евалуацију система АИ-за-код од стране експертске заједнице. Али, с обзиром на креативну и отворену природу развоја софтвера, веома је тешко створити савршен скуп података за програмирање. Са Пројецт ЦодеНет, ИБМ истраживачи су покушали да креирају вишенаменски скуп података који се може користити за обуку модела машинског учења за различите задатке. Креатори ЦодеНет-а га описују као „веома велики, разнолик и висококвалитетан скуп података за убрзање алгоритамског напретка у АИ за код“.
Скуп података садржи 14 милиона примера од 500 милиона линија кода написаних у 55 различитих програмских језика. Узорци кода су добијени из скоро 4000 предатих задатака постављених на АИЗУ и АтЦодер платформама за онлајн кодирање. Примери кода садрже и тачне и нетачне одговоре на дате задатке.
Такође занимљиво:
- Хабл је ушао у безбедан режим због софтверске грешке на рачунару на возилу
- Још једна невоља за ЦД Пројект: Хакери прете да пропусте изворне кодове игара на мрежу
Једна од кључних карактеристика ЦодеНет-а је количина напомена додатих примерима. Сваки од задатака кодирања укључених у скуп података има текстуални опис, као и ЦПУ време и ограничења меморије. Свако подношење кода садржи десетак информација, укључујући језик, датум подношења, величину, време извршења, прихватање и типове грешака. ИБМ-ови истраживачи су се такође потрудили да осигурају да је скуп података избалансиран у односу на низ параметара, укључујући програмски језик, прихватљивост и типове грешака.
ЦодеНет није једини скуп података за обуку модела машинског учења на задацима програмирања. Али постоји неколико карактеристика које га издвајају. Први је сама величина скупа података, укључујући број узорака и разноликост језика. Али можда су важнији метаподаци који долазе са узорцима кода. Богате напомене додате ЦодеНет-у чине га погодним за разнолик скуп задатака, за разлику од других скупова података кодирања који су специјализовани за специфичне задатке програмирања.
Ово је паметно.
Са ГПТ-3 направио сам генератор распореда где само описујете било који изглед који желите и он генерише ЈСКС код за вас.
ШТА сликаtwitter.цом/в8ЈкрЗО4лк
- Схариф Схамеем (@схарифсхамеем) Јула КСНУМКС, КСНУМКС
Постоји неколико начина да се користи ЦодеНет. Један од њих је превод језика. Пошто сваки задатак кодирања у скупу података садржи репрезентације различитих програмских језика, научници података могу да га користе за изградњу модела машинског учења који преводе код са једног језика на други. Ово може бити згодно за организације које желе да пренесу стари код на нове језике и учине их доступним новим генерацијама програмера.
Прочитајте такође:
- ИБМ је представио прву 2нм технологију производње чипова на свету
- ИБМ развија вештачку интелигенцију како би пронашао нове антибиотике
Традиција и наслеђе треба да се поигравају са различитим размишљањима, са најмлађим генерацијама неуронских алгоритама и МЛ-метода постављања проблема, међусобно унапређујући једни друге.
Временом ће се ниво програмера још више смањити (у поређењу са садашњим). Односно, моћи ће да се пише искошен, крив код на „језику гована“. А онда ће се машина оптимизовати, и на крају ћете моћи да добијете оптимизовани код професионалног асемблерског програмера (или још боље).