|
本帖最后由 twq19810302 于 2023-12-22 14:05 编辑 . {6 v" C. ?& E- c, Z: B; Z0 P. ]8 a2 p- l
4 w4 ]$ e1 y1 O- ]* v9 m
让GPT-4操纵人形机器人,事先不做任何编程or训练,能搞成啥样儿?
. R @" s! t8 ~' p+ [6 ?
/ J2 r& J: T& K, s" g7 {答案是:太 猎 奇 了!, M, z4 s9 Z. T* \% X
0 H/ \. X0 |& o# P r这不,要求机器人表演“在昏暗电影院里狂炫爆米花,却突然发现吃的是隔壁陌生人的😅”。
7 W2 B+ Z, \$ x+ N7 A" ?4 N A. s2 q' x! Y
在GPT-4的操纵下,机器人笑容凝固,“尴尬”得摇头扶额后仰:$ W6 z" c7 X. W5 B4 S( ~ b1 H) q
7 p+ i; {4 p2 g2 U; i) D3 F# o
% w6 ]+ S; ?% i" A4 O6 y; t
$ c- C& o, B% z1 _: g1 { 但在尴尬之余,竟然还不忘再抓一把塞嘴里???又像是要求机器人“弹吉他”。+ K l& Y7 r9 }9 n) }3 e; ]
3 t$ @$ N h& V9 F) @
GPT-4略思考一番,开始操控机器人活动一番手指、随后疯狂甩头,好像是有点摇滚内味儿。但仔细一看,甩头的时候,手指就完全不动了……7 w; [$ _: v V; z' ~; b p' y
) M3 k0 Z3 i- {4 W$ ~. o- _
4 e, K Y( `! Z% u m
你要说这是神叨叨的地摊先生在掐指一算,好像也没什么不对(手动狗头)。
- J0 p8 r( `4 j! Q5 Y& S7 o L3 Q1 ?4 V" R }
总结一系列动作来看——
' v, l ^3 x& B' x& y! u0 e* x; C) r' E* t# U5 i: T6 j
相比波士顿动力人形机器人,一举一动均由人为程序精细操纵,这个GPT-4直接操控的机器人,表情狰狞,动作诡异,但一切行为又符合prompt的要求。% q- V0 V* w; y0 L# U: s
4 f/ \* d" \2 }0 Z9 C8 [3 K& V
, @" F0 R9 m$ a A$ U( u6 |( c2 a
3 l3 Y# O2 q- ~9 |/ @ 这一连串GPT-4操控机器人的视频po到网上后,不少网友直呼“恐怖谷效应犯了”:
U. n5 S( q1 l! d9 v2 v. n( ~3 M, D! a+ p- M. K
原来,这是首个由GPT-4驱动人形机器人的研究,来自东京大学和日本Alternative Machine公司。
; F" d, w" N& T
! H+ ^' K! {' Y R$ A5 b; [$ W
" C9 p. _) ^( N$ q* n 依靠这项研究,用户无需事先给机器人编程,只需语言输入、也就是动动嘴皮和GPT-4聊上一会儿,就能让机器人根据指令完成行动。
0 D u r6 t5 ^9 i: ?$ q' R
2 h2 x) b% ~1 u# r- x1 O7 w0 e, X! X1 R) u# w2 D0 J6 S' V4 D. q
6 ?+ E6 P# u# s& H 来具体讲讲把GPT-4和Alter3集成到一起,是如何实现的。
3 {+ r% @& F& C- S5 f
0 d# [4 y+ V( O, C4 \大体可以分为两个步骤:
& }" u# ^- {7 g/ U( ~8 u3 G5 f" d! ~5 [
首先,先用prompt描述一下,想要Alter3能够完成什么行为或者动作,比如“咱来张自拍吧”“自拍的时候胳膊再举高一点”。
; W1 J0 f% P% ], ?4 a0 y. l! V& E
- |" e M- S+ d( Q% D/ E接收到输入的GPT-4会生成一系列的思考步骤,这些步骤详细地阐述了要完成这个动作,需要先后完成些啥。
+ r) z( ]* [4 U( L7 e: B8 ^: t. m, m5 E2 j0 }% ~3 C' L4 l
这个过程被研究团队称为CoT的一部分,即将一个复杂任务分解为一串更简单的思考步骤。2 g! ?, h& N& L- n3 t
* q5 X! A- ?8 e0 q) |6 Z然后,研究者们再祭出另一个prompt,把分解后的详细步骤转化为Alter3可以听懂的动作指令。$ @- W- c: s& _0 G8 C' V
" s5 `4 C$ C. l1 i) V+ f
简单理解就是把人们的指令描述转化为Python代码,这些代码可以直接用来控制Alter3的各个身体部位的具体运动参数。' {& D. X3 G% l# {2 E. p
0 }- b% K. k! h u$ w. A
有了转化后的代码,Alter3想挤眉弄眼就挤眉弄眼,想撇嘴就能撇嘴
! L9 f& U* ?+ A) Z+ C. h' W- W/ n2 o1 L3 b7 _# { Q
研究团队把这第二步也看成CoT的一部分,因为它完成的是“把一个抽象描述转化为具体操作”。
" @4 W9 y& ] r8 l) K; R
$ j& v9 }. \/ H' N2 P. I# Y7 n0 {, i5 E- `' x& W' X% b6 h, p
: I8 A/ p( o8 V5 `9 c1 ~ 团队表示,CoT让GPT-4能够有效控制Alter3,命令它做各种复杂动作,且不用额外的训练或者微调。
) @5 g0 G5 y& _- G# Y7 ?& ~; G+ w( e) w4 `
多说两句,除了上述的两个Prompt搞定机器人控制外,研究团队还顺手完成了一些其它研究。/ ]* I! ]3 }6 n4 E: T
; a" s s( P/ ?! H' D$ _8 _比如掰开了看Alter3在对话中的行为,主要针对其对话轨迹和语义时间演化。
0 F y! x# W$ E- R0 R) X L* b! G. B0 R! ^/ s: n r# l @
针对对话轨迹,研究团队使用了一种叫UMAP(Uniform Manifold Approximation and Projection)的方法。团队把对话内容嵌入二维空间,从而方便观察这个简化版的对话发展过程。' A( Z3 T0 v* w9 |# g, x
9 u2 E7 R: Y, l' `- c0 A! z
他们发现,当对话顺序固定时,对话轨迹会呈现循环模式,也就是老在重复同样的话题。
# G; ?9 e" r4 O$ i) [) s" `2 J% B# O' N
而当对话顺序随机时,对话内容更有发散性or创造性。
$ b& q6 S" r a1 Q0 W0 l) N
h- \5 m+ z; K# u a4 E贼有趣的一点,研究发现GPT-4聊久了过后,会倾向于反复说“再见”。如果你不来点儿人为干预,它就会沉迷于想办法跟你说再见。
1 R5 c; T1 ]8 i1 t8 f: m1 `
7 _* s$ [ ~5 V y5 x: ^! s而做语义时间演化分析的过程中,团队观察了随着时间变化,聊天内容的变化。
- `: X) Z A9 G% q7 p& _
8 @, m" e/ I4 O A他们发现,对话初期的一些关键词,比如“艺术”或者“学习”啥的,会聊着聊着就被GPT-4忘了,取而代之的是诸如“文化”“人类”“抑制”之类的词。 H6 I. Z7 a; }4 Y! j4 F
" A& M. e8 T$ G5 n3 L这表明对话内容是在逐渐发展变化的。
! l" b9 _8 J; e6 q* {) F
o0 ~0 x* i% X( t! p% s当然,如果你开始跟GPT-4说“再见”,它就几乎一心一意只想跟你说byebye~(doge)9 h4 q6 J: x6 p: @+ ]. [8 H
- ~/ W+ ?1 j/ ^; L% P这项火爆全网的研究,来自东京大学和日本Alternative Machine公司。
: R# O- ~/ n' C9 d {
8 L4 C2 ~$ J: Z一作Takahide Yoshida,来自东京大学通用系统科学系。
8 r" C; h+ F! l2 m. ^ ?4 F# y" P% \) R: H& ^
另外两位作者升森敦士(Atsushi Masumori)和池上高志(Takashi Ikegami),都是既在东京大学,又属于Alternative Machine公司。: x+ S! v6 l' m& D1 {1 S
. M/ N8 ]9 }) M C9 ?3 q! w1 H" j
8 }" `3 _! {; q# F) F
" s2 }; I" Y/ r8 j4 X& `& P) q' ]& w 最后,不得不提到本次研究内容的主人公Alter3,它的幕后研究者也来自东京大学,由东京大学AI研究学者池上高志和日本“机器人之父”石黑浩联袂打造。6 u! A2 @5 z3 l8 E) `# [4 [- R
8 D2 a6 Z3 u! fAlter3出生于2020年,是同系列机器人第三代产品。
( V% j5 V) _; }. W3 J" P Z$ k; {/ a7 ~) c
据了解,Alter系列的两次迭代都是在歌剧演唱中完成的。第3代的初亮相就是在东京新国立剧场指挥管弦乐队并参加其他现场表演。
# n# `- R8 n' }5 U% ~! z$ g! C* ]% R0 S; J) U, I0 F2 \5 N
" \! r' j/ J3 n& m+ `) H- e: K& }+ j6 I4 K
那个时候它的特色是增强了传感器,并改善了唱歌的表达能力和发声系统。* w9 y% F! S; E* R" ^! o
. t! s4 E, U9 D5 p) _) F
以及身体里那粒能够最终驱动43个气动装置的CPG。2 H, @6 J3 Y; O: I
& k; {8 B% e9 s2 |: t9 fCPG对数据的分析灵敏到什么程度呢?就是如果Alter3呆的房间里如果温度骤降,Alter3会因此打个冷颤,表示自己有被冷到。' ]7 P+ J( q0 `1 P w
5 D# B. z+ [& T$ X- C! G( M/ e3 M6 w* n, g: ^- K" _9 B p& q0 Z
这或许也为现在接入GPT-4当脑子后的它,能够活灵活现做表情、完成动作提供了一些基础吧。
7 U f: \9 J# z3 V! Y, r2 }& H6 G) {
5 Q/ E' P4 Q/ J1 a; S+ a. [
|
|