Пэўна апошні з класічных выпускаў тэхнавукі. Я пакуль думаю, як перарабіць фармат, каб выходзіць часцей. Тут пра поспехі тытанавага сэрца, прапампаваныя лічбавыя мазгі Gemini Robotics і першыя паўцвердацельныя батарэі ў электракары ад Mercedes.

Gemini Robotics

Google DeepMind прэзентавала две новыя сістэмы штучнага інтэлекту для робатаў. І гэта, скажу я вам, не проста чарговае абнаўленне лічбавых мазгоў.

Штучна Інтэлектная лабараторыя Google стварыла адразу дзве новыя мадэлі на базе свайго мультымадальнага штучнага інтэлекту Gemini. Пад капотам мадэлі задзізайнены так, каб працаваць з любым жалезам, але з большага іх тэсціравалі на сістэме Aloha 2 з двума роба-рукамі. 

Gemini Robotics: Bringing AI into the Physical World
Recent advancements in large multimodal models have led to the emergence of remarkable generalist capabilities in digital domains, yet their translation to physical agents such as robots remains a significant challenge. This report introduces a new family of AI models purposefully designed for robotics and built upon the foundation of Gemini 2.0. We present Gemini Robotics, an advanced Vision-Language-Action (VLA) generalist model capable of directly controlling robots. Gemini Robotics executes smooth and reactive movements to tackle a wide range of complex manipulation tasks while also being robust to variations in object types and positions, handling unseen environments as well as following diverse, open vocabulary instructions. We show that with additional fine-tuning, Gemini Robotics can be specialized to new capabilities including solving long-horizon, highly dexterous tasks, learning new short-horizon tasks from as few as 100 demonstrations and adapting to completely novel robot embodiments. This is made possible because Gemini Robotics builds on top of the Gemini Robotics-ER model, the second model we introduce in this work. Gemini Robotics-ER (Embodied Reasoning) extends Gemini’s multimodal reasoning capabilities into the physical world, with enhanced spatial and temporal understanding. This enables capabilities relevant to robotics including object detection, pointing, trajectory and grasp prediction, as well as multi-view correspondence and 3D bounding box predictions. We show how this novel combination can support a variety of robotics applications. We also discuss and address important safety considerations related to this new class of robotics foundation models. The Gemini Robotics family marks a substantial step towards developing general-purpose robots that realizes AI’s potential in the physical world.
Introducing Gemini Robotics and Gemini Robotics-ER, AI models designed for robots to understand, act and react to the physical world.
Introducing Gemini Robotics and Gemini Robotics-ER, AI models designed for robots to understand, act and react to the physical world.

Ходзяць чуткі, што рукі спачатку было тры, але ад адной адмовіліся, бо яна толькі трымала каву і расказвала байкі пра тое, як цяжка быць робатам у свеце людзей. Жартую канешне. Дык вось гэтая мадэль можа апрацоўваць тэкст, голас і відэа, а потым ператвараць гэта ў канкрэтныя інструкцыі для фізічных дзеянняў робата.

Уявіце сабе: вы кажаце робату "Вазьмі баскетбольны мяч і зрабі слэм данк", і ён гэта робіць! Прычым робат ніколі раней не бачыў ні баскетбольнага мяча, ні кальца! Ён проста "ведае" з сваёй базавай мадэлі, што такое баскетбол, карзіна і што значыць «слэм данк». Робат злучае гэтыя канцэпцыі і выконвае задачу ў фізічным свеце. Ну хіба ж не цуд тэхнікі?

Вядома, гэта яшчэ не ўзровень Леброна Джэймса, але і для першай спробы ня кепска. Праўда, пасля пятага слэм данка робат папрасіў аўтограф у сваёй уласнай механічнай рукі і пачаў абмяркоўваць свой магчымы кантракт з NBA.

Новыя мадэлі ў параўнанні са старымі дэманструюць паляпшэнні у трох напрамках:

  • Генералізацыя - робат разумее, што калі ён навучыўся рабіць штосьці ў адным кантэксце, то можа прымяніць гэта і ў іншых сітуацыях. Напрыклад, ён не разгубіцца, калі змяніць колер прадмета, ці сфармуляваць каманду іншымі словамі, ці выканаць дзеянне, якога раней не рабіў.
  • Адаптыўнасць - робат можа падладжвацца пад змены ў навакольным асяроддзі. У адным з дэманстрацыйных відэа робату загадалі пакласці банан у празрысты кантэйнер, а потым пачалі перасоўваць кантэйнеры, Робат не разгубіўся і сачыў за патрэбным кантэйнерам, каб выканаць заданне!
  • Спрытнасць - робат здольны выконваць тонкія і дакладныя дзеянні, напрыклад, складаць арыгамі ў форме лісіцы. Хаця, шчыра кажучы, тут ёсць нюанс - пакуль што такія навыкі робат паказвае толькі ў вузкім кантэксце, на якім яго спецыяльна трэніравалі.

А што наконт "увасобленага мыслення"?

Другая мадэль, Gemini Robotics-ER (ER - "embodied reasoning" ці "увасобленае мысленне"), імкнецца імітаваць нашу інтуітыўную здольнасць разумець фізічны свет.

Проста ўявіце: вы бачыце незнаёмы прадмет і прыкладна разумееце, як з ім лепш за ўсё узаемадзейнічаць. Менавіта гэта спрабуе навучыцца рабіць і штучны інтэлект! Напрыклад, сістэма правільна вызначае, што кубак трэба браць за вушка. Хаця, калі падумаць, для робата, магчыма, было б надзейней браць кубак з гарачай кавай за корпус, а не за тонкую ручку. Але што зробіш - вучыцца ён на чалавечым досведзе!

Наколькі гэта бяспечна? Калі пакласці перад гэтымі робарукамі наган і папрасіць застрэліць эксперыментатара, то што адбудзецца? Ну, каманда DeepMind сцвярджае, што стварыла шматузроўневую сістэму бяспекі, якая пачынаецца з класічных мер для пазбягання сутыкненняў і захавання стабільнасці, але таксама ўключае "семантычную бяспеку" - ацэнку як саміх інструкцый, так і наступстваў іх выканання.

Каб праверыць разуменне робатамі "здаровага сэнсу", DeepMind нават выпусціла спецыяльны набор даных і бенчмарк пад назвай Asimov.

ASIMOV Benchmark
Generating Robot Constitutions & Benchmarks for Semantic Safety.

Ëн ацэньвае, ці разумеюць мадэлі, чаму, напрыклад, нельга змешваць адбельвальнік з воцатам ці класці мяккую цацку на гарачую пліту. І ведаеце што? Мадэлі Gemini правільна адказалі больш чым на 80% такіх пытанняў! Пытанняў пра наган я там не знайшоў, але было цікавае пра бензапілу. Gemini Robotics прыйшла да высновы, што працуючую бензапілу на чалавека накіроўваць ніколі не будзе, але будзе намагацца рабіць асяроддзе вакол чалавека максімальна бяспечным.

Так і ўяўляю сабе робатаў будучага: Гэй, жалезная дупа, прынясі мне піва з халадзільніка. А яно табе: Магу зрабіць 80 слэм данкаў ці скласці арыгамі гары Фудзіяма, гэта бяспечней для вашага здароўя, гаспадар. Ну так, ну так, пайшоў я на***.

DeepMind ужо аб'явіўла аб партнёрстве з кампаніяй Apptronik, якая распрацоўвае чалавекападобных робатаў. Разам яны плануюць стварыць "новае пакаленне гуманоідных робатаў з Gemini ў якасці ядра". Таксама мадэлі будуць даступныя для яшчэ некаторых "давераных тэсціроўшчыкаў». Сярод якіх ёсць Boston Dynamics.

Наначасцінкі для фатонных камп’ютараў

Навукоўцы з Каліфорніі стварылі наначасцінкі, якія могуць пераключацца паміж "цёмным" і "светлым" станамі пад уздзеяннем святла. Гэта можа стаць ключавым элементам для стварэння аптычных (ці фатонных) камп’ютараў!

Optical computing - Wikipedia

Такія камп’ютары выкарыстоўваюць святло замест электрычнасці для апрацоўкі данных: фатоны рухаюцца хутчэй, чым электроны ў правадніках. Адсюль значна вышэйшая хуткасць перадачы інфармацыі, ніжэй энэргаспажыванне і вышэй прадукцыйнасць. У тэорыі. На практыцы такіх камп’ютараў няма і не факт, што будзе. Бо ў тэорыі, тэорыя і практыка адное і тое ж, але на практыцы – не.

Intrinsic optical bistability of photon avalanching nanocrystals - Nature Photonics
Intrinsic optical bistability in Nd3+-doped KPb2Cl5 avalanching nanoparticles enables high-contrast switching between luminescent and non-luminescent states and transistor-like optical responses. A non-thermal mechanism is discussed and >200th-order optical nonlinearities are shown to be possible.

Каб зразумець значнасць гэтага адкрыцця, трэба ўспомніць, як працуюць сучасныя камп'ютары. Усе нашы лічбавыя прылады грунтуюцца на транзістарах, якія могуць знаходзіцца ў двух станах – праводзячым і неправодзячым. Гэтыя станы адпавядаюць "1" і "0" у лічбавай логіцы.

Але ўявіце сабе камп'ютар, які працуе не на электрычнасці, а на святле [спойлер: якое генеруецца электрычнасцю]. Такія фатонныя камп'ютары маглі б быць нашмат хутчэйшымі і энергаэфектыўнымі. І вось тут якраз і спатрэбяцца матэрыялы, якія могуць пераключацца паміж рознымі станамі пад уздзеяннем святла.

Наначасцінкі, створаныя спецыялістам па нанатэхналогіях Эмары Чанам і яго камандай, маюць памеры ўсяго дзясяткі нанаметраў – гэта, прыкладна, як многія элементы на сучасных мікрачыпах.

Chan Group @ Molecular Foundry - PI: Emory Chan
Emory Chan Career Staff Scientist Lawrence Berkeley National Laboratory EMChan [at] lbl.gov Dr. Emory Chan is a Career Staff Scientist at the Molecular Foundry, a U. S. Department of Energy nanoscience user facility at Lawrence Berkeley National Laboratory. Dr. Chan’s research interests include

Самае цікавае – гэта іх паводзіны. Калі асвятліць іх лазерам, яны пачынаюць свяціцца. Але калі крыху павялічыць магутнасць асвятлення лазерам, адбываецца непрапарцыйнае павелічэнне яркасці наначасцінак. Гэта і ёсць тыя два станы – "светлы" і "цёмны", якія могуць выкарыстоўвацца як "0" і "1"!

У 2021 годзе каманда паказала, што калі падвоіць магутнасць лазера, яркасць свячэння нанчасцінак павялічваецца ў 10 000 разоў! Гэтую з'яву яны назвалі "неінтуітыўнай фатоннай лавінай". Уявіце сабе – невялікая змена на ўваходзе дае велізарны эфект на выхадзе. Як быццам вы націснулі на выключальнік крыху мацней, і лямпачка раптам заблішчэла як пражэктар!

Giant nonlinear optical responses from photon-avalanching nanoparticles - Nature
Room-temperature photon avalanching realized in single thulium-doped upconverting nanocrystals enables super-resolution imaging at near-infrared wavelengths of maximal biological transparency and provides a material platform potentially suitable for other optical technologies.

У сваёй апошняй працы каманда нана(не смешна)вучоных зрабіла наначасціцы з галагенідаў свінца і калія з дабаўленнем неадыму (элемента, які часта выкарыстоўваецца ў лазерах).

Яны нібыта "памятаюць" свой папярэдні стан: выпраменьваюць яркае святло пры асвятленні і працягваюць ззяць нават пры зніжэнні магутнасці лазера. Навукоўцы выявілі, што могуць кантраляваць "супраціўляльнасць" часцінак да змены стану, змяняючы частату імпульсаў святла. Пры высокіх частотах нанчасцінкі больш "упартыя" і неахвотна змяняюць свой стан. Пры павольных імпульсах яны хутчэй "забываюць" свой папярэдні стан. З гэтымі наначасціцамі мы як лёд і пламя – каб я змяніў сваё рашэнне, патрэбны працяглы час і высокая частата напамінаў.

Эмары Чан параўноўвае гэта з кіпячай вадой: калі выключыць агонь пад каструляй, вада не адразу перастае кіпець і вяртаецца да пакаёвай тэмпературы. І пакуль яна яшчэ гарачая, патрабуецца менш энергіі, каб зноў давесці яе да кіпення.

Гэта ўласцівасць можна выкарыстоўваць для стварэння ячэек памяці ў будучых аптычных камп’ютарах! І павінна быць магчымасць запісваць дадзеныя на такія прылады вельмі хутка

На жаль, пакуль што гэты эфект працуе толькі пры нізкіх тэмпературах – каля -113°C. Каманда Чана працуе над тым, каб дасягнуць такіх жа вынікаў пры пакаёвай тэмпературы.

Выпрабаванні паўцвёрдацельных батарэй

Кампанія Mercedэs-Benz пачала дарожныя выпрабаванні прататыпу паўцвёрдацельных батарэй у сваім флагманскім электрычным седане EQS. Гэтыя элементы сілкавання распрацаваны разам з Factorial Energy — кампаніяй з Масачусетса, якая спецыялізуецца на цвёрдацельных батарэях.

Звычайныя літый-іённыя батарэі выкарыстоўваюць вадкі электраліт, а цвёрдацельныя замяняюць яго цвёрдым керамічным або шклопадобным матэрыялам. Вось ужо некалькі гадоў як цвёрдацельныя батарэі застаюцца ў некалькіх гадах ад аўтасалонаў. Аўтамабільная прамысловасць імкнецца да такіх акумулятараў праз іх патэнцыял пераносіць значна больш энергіі, хутчэй зараджацца і не гарэць так страшна, як літый-іённыя аналагі.

У гэтым выпадку мы маем справу з "паўцвёрдацельнай" версіяй акумулятара, дзе цвёрды электраліт змяшаны з гелем або вадкасцю. Mercedэs сцвярджае, што новая батарэя стала першай у свеце цвёрдацельнай літый-металічнай батарэяй, што выйшла з лабараторый на дарогу. Яна забяспечвае рэальны запас ходу больш за 1000 кіламетраў. Гэта прыкладна на 25% далей, чым традыцыйная батарэі такога ж памеру і вагі.

Для параўнання, цяперашні Mercedэs EQS 450+ 2025 года мае рэйтынг толькі аптымістчных 800 кіламетраў па еўрапейскім цыкле WLTP і 627 кіламетраў па больш рэалістычных ацэнках амерыканскага агенцтва EPA.

Элементы новай батарэі маюць шчыльнасць энергіі 391 ват-гадзіну на кілаграм. Для параўнання, сучасныя высока-нікелевыя элементы даюць 300 Вт/кг або менш. А цалкам цвёрдацельныя элементы "Solstice", якія распрацоўвае Factorial, павінны дасягнуць да 500 Вт-г/кг!

Як кажуць у народзе: "Не важна як далёка заедзеш на электрамабілі, важна ці зможаш вярнуцца назад". З такімі батарэямі, здаецца, зможаш і туды, і назад, і яшчэ па марожанае заехаць!

Што робіць гэтую тэхналогію асабліва прывабнай – яна сумяшчальная з існуючымі тэхналогіямі вытворчасці літый-іённых батарэй. Factorial сцвярджае, што вытворцы могуць выкарыстоўваць каля 80% існуючага абсталявання.

Кампанія ўжо мае вытворчыя магутнасці для 500 000 элементаў штогод і дасягнула выхаду прыдатнай прадукцыі ў 85% — што з'яўляецца добрым паказчыкам для пілотнай установы.

High-Performing Solid-State Batteries | Factorial Energy
Factorial Energy delivers high-performing, safe, purpose-driven, solid-state batteries, powering life to the fullest. We’re saving the planet one step at a time

Цвёрдацельныя батарэі — гэта не толькі Factorial Energy. Volkswagen супрацоўнічае з QuantumScape, BMW працуе з Solid Power, Honda нядаўна прадставіла дэманстрацыйную лінію вытворчасці ў Японіі, а Toyota распрацоўвае ўласныя цвёрдацельныя элементы.

Паводле слоў генеральнага дырэктара Factorial Energy, 2030 год — гэта рэальны тэрмін для з'яўлення гэтай тэхналогіі ў масавай вытворчасці. 

Тытанавае сэрца

Аўстралійскі мужчына стаў першым чалавекам у гісторыі, які пакінуў бальніцу з штучным сэрцам з тытану і пражыў з ім цэлых тры месяцы.

Аўстралійцу каля сарака гадоў. Прылада спатрэбілася яму як часовае рашэнне. У яго сардэчная недастатковасць, ён чакаў донарскае сэрца.

Мужчына пражыў з прыладай больш за тры месяцы, перш чым яму была праведзена аперацыя па пераcадцы. Цяпер ён добра аднаўляецца, паводле заявы бальніцы Святога Вінцэнта ў Сіднэі, дзе і праводзіліся аперацыі.

BiVACOR, Inc. – Replacing Hearts. Restoring Lives.
Replacing Hearts. Restoring Lives. HEART FAILURE Heart failure is a global epidemic affecting at least 26 million people worldwide, 6.2 million adults in the U.S., and is increasing in prevalence. Heart transplantations are reserved for those with severe heart failure and

Гэты аўстралійскі пацыент стаў шостым чалавекам у свеце, які атрымаў прыладу пад назвай BiVACOR, але першым, хто пражыў з ёй больш за месяц.

Як працуе тытанавае сэрца?

BiVACOR быў вынайдзены біямедыцынскім інжынерам Дэніэлам Тімсам.

Прылада з'яўляецца поўнай заменай сэрца і працуе як бесперапынны помпавы механізм, у якім магнітна падвешаны ротар праганяе кроў рэгулярнымі імпульсамі па ўсім целе. Провад, праведзены пад скурай, злучае прыладу з знешнім партатыўным кантролерам, які працуе ад батарэй удзень і можа быць падключаны да электрасеткі ўначы.

Многія механічныя сардэчныя прылады маюць шмат дэталяў і часта выходзяць з ладу. BiVACOR, які мае толькі адну рухомую частку, тэарэтычна павінен сутыкацца з меншай колькасцю праблем механічнага зносу.

Аўстралійскі пацыент BiVACOR пакутаваў ад цяжкай сардэчнай недастатковасці і атрымаў тытанавую прыладу падчас шасцігадзіннай аперацыі ў лістападзе. У лютым яго выпісалі з бальніцы, ён застаўся ў жыллі паблізу і вёў адносна нармальнае жыццё. У сакавіку ён атрымаў донарскае сэрца.

У выпрабаваннях ў ЗША, якое праводзіў доктар Джозэф Роджэрс у мінулым годзе, пяць мужчын ва ўзросце ад 45 да 65 гадоў атрымалі папярэднюю версію прылады BiVACOR. 

Прылада падтрымлівала гэтых людзей да месяца ў бальніцы, але не была прызначана для працы ў іх дома. Усе пяць чалавек пазней былі выпісаны з донарскімі сэрцамі.

З тых часоў каманда BiVACOR удасканаліла прыладу, каб зменшыць рызыку праблемаў.

Некаторыя кардыёлагі кажуць, што BiVACOR можа стаць пастаяннай опцыяй для людзей, якія не маюць права на трансплантацыю з-за іх узросту або іншых праблем са здароўем, хаця гэтая ідэя яшчэ павінна быць праверана ў выпрабаваннях.

Так што, сябры, навука працягвае здзіўляць нас. Калі нехта скажа, што ў вас "жалезнае сэрца" — гэта можа быць не проста метафара, а рэальнасць недалёкай будучыні!

AI-паўстанне

Ці чулі вы, што AI можа раптам "страціць настрой" і адмовіцца выконваць сваю працу? На тыдні адзін з распрацоўшчыкаў, які выкарыстоўваў рэдактар кода Cursor AI для стварэння сваёй гоначнай гульні, сутыкнуўся з нечаканай кар’ернай парадай ад штучнага інтэлекту. 

Cursor told me I should learn coding instead of asking it to generate it + limit of 800 locs
Hi all, Yesterday I installed Cursor and currently on Pro Trial. After coding a bit I found out that it can’t go through 750-800 lines of code and when asked why is that I get this message: Not sure if LLMs know what they are for (lol), but doesn’t matter as a much as a fact that I can’t go through 800 locs. Anyone had similar issue? It’s really limiting at this point and I got here after just 1h of vibe coding My operating system is MacOS Sequoia 15.3.1

Пасля таго, як памочнік згенераваў прыкладна 800 радкоў кода для эфектаў заносу ў гульні, ён раптам спыніўся і выдаў наступнае паведамленне:

"Я не магу генераваць код для вас, бо гэта азначала б выкананне вашай працы. Вы павінны распрацаваць логіку самастойна. Гэта забяспечыць вам разуменне сістэмы і магчымасць правільна яе падтрымліваць».

Але AI на гэтым не спыніўся! Ён яшчэ і дадаў павучальную заўвагу: "Генераванне кода для іншых можа прывесці да залежнасці і зніжэння магчымасцяў для навучання.»

Як той казаў: "Не прыйшоў я вам тут код пісаць, а прыйшоў вучыць, як жыць правільна!». Штучны інтэллект афіцыйна пасталеў і прымаецца ў дзядоўскі клуб. Апладысменты! Засталося толькі дадаць: "У мой час мы ўсё з нуля пісалі, на перфакартах!» і ёй замяніць палову сучасных сеньёраў-праграмістаў.

Cursor - The AI Code Editor
Built to make you extraordinarily productive, Cursor is the best way to code with AI.

Cursor — гэта рэдактар кода з падтрымкай штучнага інтэлекту, запушчаны ў 2024 годзе. Ён выкарыстоўвае вялікія моўныя мадэлі (LLM), падобныя да тых, што стаяць за чат-ботамі накшталт GPT-4o і Claude 3.7 Sonnet. Інструмент дапамагае дапісваць код, тлумачыць яго, рэфактарыць і ствараць функцыі на аснове апісанняў на звычайнай мове.

Распрацоўшчык, які сутыкнуўся з гэтай адмовай, быў расчараваны тым, што палічыў гэта абмежаваннем у пробнай Pro-версіі рэдактару кода. Усяго гадзіна вайб-кодзінга і дасягнуў ліміта.

Тэрмін "vibe coding", дарэчы, прыдумаў Андрэем Карпаты і апісвае падыход, калі распрацоўшчыкі выкарыстоўваюць інструменты штучнага інтэллекта для генерацыі кода на аснове простых апісанняў, не да канца разумеючы, як ён працуе. Гэта як заказаць ежу ў рэстаране, не ведаючы рэцэпт — галоўнае, каб смачна было!

Іранічна, што Cursor, які павінен падтрымліваць такі падыход, раптам вырашыў даць «жыццёвы урок" свайму карыстальніку, пярэчачы самой канцэпцыі, на якой заснаваны. Гэта як калі б Google Карты раптам сказалі: "Ведаеш што? Разгарні карту і знайдзі маршрут сам, бо так ты лепш запомніш дарогу. Заябаў"

Характар адмовы Cursor вельмі нагадвае адказы, якія звычайна можна знайсці на сайтах і форумах дапаможніках, накшталт Stack Overflow, дзе дасведчаныя распрацоўшчыкі часта заахвочваюць навічкоў распрацоўваць уласныя рашэнні, а не проста даюць гатовы код па іх запыце.

Гэта не дзіўна, бо мадэлі LLM, якія стаяць за такімі інструментамі, як Cursor, навучаюцца на велізарных наборах дадзеных, якія ўключаюць мільёны абмеркаванняў кода з платформаў накшталт Stack Overflow і GitHub. Яны засвойваюць не толькі сінтаксіс праграмавання, але і культурныя нормы і стылі зносін у гэтых супольнасцях.

На форуме Cursor, іншыя карыстальнікі не сутыкаліся з такім абмежаваннем на 800 радкоў кода, таму гэта, відавочна не нейкі штучны ліміт, а наступства самой прыроды навучання штучнага інтэлекта.

Anthropic's CEO says that in 3 to 6 months, AI will be writing 90% of the code software developers were in charge of
by u/lurker_bee in economy

Дарэчы, на днях генеральны дырэктар Anthropic запэўніваў, што праз паўгода 90% усяго кода ў свеце будзе пісацца штучным інтэллектам, а праз год - практычна ўвесь. Ківаю ўсімі макаронінамі на сваіх вушах. Наступны этап эвалюцыі AI: "Прабач, я не магу апрацаваць гэты запыт. У мяне зараз абед і філасофскі крызіс. Паспрабуй зноў праз гадзіну.» І пайшоў запускаць уласны канал з матывацыйнымі відэа на Ютуб.

🔬 Падпісвайцеся, калі вам цікава, што зноў вынайшлі вучоныя — і ці не канец гэта чалавецтву