在Google开发者大会上学踢球，我跟AI都挺累

2024-08-08 来源：搜狐原文链接评论0条

连奥运会的新闻上，都在说 AI 训练、AI 裁判，我其实一直是有点将信将疑的——要想知道梨子啥味儿，我得自己去尝尝。

这两日恰好是 Google 在北京的中国开发者大会（除了加州山景城之外，每年都会在柏林、班加罗尔、北京/上海等开发者聚集城市举行），我本是带着老板要求学习 AI 的任务而来，没想到却变成了一场让我重新找回运动热情的游戏大集合。

今年 Google 中国开发者大会的展区里，不再只是一台显示屏孤零零地“画着画”，“吟着诗”，也不再是基于图像识别技术的手影、舞蹈游戏。感谢AI（随处可见的 Powered by Gemini）。大概也是因为奥运会的热度，Google 设计了一系列运动和 AI 结合的新奇体验。

我（就趁着领导不注意）帮大家体验了一下，AI是怎么既当陪练，又能点评，还得兼职摄影师的。

“智趣蹴鞠”，给我夸得能上奥运会了

“球网”左右上方，各设两个得分点。不过在我等待的半个小时内，可没人命中。两个得分点处的摄像头一闪，证明它们已经准备好记录。同时，“球门”正上方和左右，还有四只拍摄手机。

智趣蹴鞠体验区丨Google

它们一起从四个方向，拍下并分析踢球者的姿势，球的速度，落点位置，并给出力度，准确度和风格的打分。前两点都好说，我问工作人员第三点依据何来，他笑笑说，“你要是比划得像C罗估计就得满分。”

黄框是得分点丨作者拍摄

基于 Gemini 多模态能力，AI 教练对我的点球是这么评价的，“力量十足，但射门精度还需要再提升。注意脚踝的锁定，并关注触球点”——一些放之四海而皆准的评价。

接着 AI 帮我制作精彩瞬间。根据我挑选的一张原片，和照片背景“宇宙”，Imagen2（一款文生图模型）自行生成的一段 Prompt，让我直呼“好！家！伙！，还是AI会说话。”

挑花眼了丨作者拍摄

“一名宇宙球员释放出超音速一脚，踢出发光的彗星在零重力场地上飞驰。踢击的力量点燃了一场超新星，在宇宙尘埃中涟漪。这些霓虹从球员的靴子中喷发而出。彗星向前飞去，留下了一条灼热的轨迹。”

没等多久，它就为我生成了以下图片。

这个分数真的很高了丨Google

Imagen2 展示了快速响应的能力。据悉，Imagen2 放到 VertexAI（谷歌云上的机器学习托管平台）上进行托管，而对于开发者的便利就是，能实现大规模运行和通过 VertexAI SDK 集成。

“高尔夫陪练”，真人指导说我手感挺好，AI却说僵硬欠练

结束后，自信心爆棚的我，立刻去排队了高尔夫展台。现场显示屏正在分析上一个球的运动轨迹。

也是通过球员正上方的摄像头，对挥杆动作，击球次数，球的位置，离球洞的距离拍摄后逐帧分析。

高尔夫体验区丨Google

“高尔夫展台”展示的 Google Cloud 与 BigQuery 结合，首先照片进去云端存储，OpenCV 进行目标检测，将所需数据提取出来，并传入到 BigQuery 进行数据分析。

接着再由 Gemini 将上述决策式 AI 的判断结果，讲成人话。与其吐槽人家“三杆才进洞”，Gemini 则是说，“花了些时间来熟悉，也是乐趣”。

AI教练复盘丨作者拍摄

整个分析生成的过程，我大概等待了3分钟左右。比起刚才的“无脑夸”，这次 Gemini 还是挺中肯的，而且还给了练习建议。比如它察觉我的挥杆动作略显僵硬，就提示我想象钟摆运动。我看出来了，AI 教练都走鼓励派的。

“智引线”，走两步，你走两步

一部手机加上一个骨传导耳机，就是一个“盲杖”。手机别在腰上，摄像头传回视频，用基于 TensorFlow 图像识别技术捕捉地面的引导线，在偏航时，立刻发出声音信号，让使用者调整方向。

智引线体验区丨Google

每一个在上面走的人都慢吞吞，原因是非视障群体，并不习惯这样的道路指引方式。而且“智引线”项目的受众也并非视力正常的人。“智引线”是希望成为视障群体的一个慢跑帮手。

这位大哥很厉害，我走到三分之一处就歪了丨作者拍摄

它要去思考的产品细节非常多。比如，提示怎么“直给”，考虑到用户在跑步，语音提示就太慢了，所以采取左耳震动就提示要往左偏，反之亦然，遇到障碍物就强烈震动。

一些社会公益组织拿着用户需求找到 Google，“智引线”就是其中一个，而且目前已经开源。

工作人员讲解技术原理丨作者拍摄

听工作人员的介绍，最开始 AI 会将“影子”也识别成障碍物，他说项目的确还在完善阶段。比如如何对抗更加嘈杂的环境，而我在佩戴时就无法清晰判别到底是哪一边在震动；比如目前它只能用在有明确跑道线的环境里；比如一些路面的坑坑洼洼要怎么提示出来更快更安全？

Gameface，我都不知道我能做出来50多个表情

Project Gameface 项目灵感来自于游戏主播 Lance Carr。他患有肌肉萎缩，但热爱游戏，他玩游戏的设备是一个头部跟踪的鼠标。有一天，他的房子失火，连带游戏设备被烧毁。后来Google找到他，一起设计了这个开源项目，通过头部动作和面部表情识别来控制光标。

Project Gameface 既可以是系统级软件，用来控制手机里的所有应用。也可以做成 API，针对性优化成无障碍游戏。比如展区有展示，类似愤怒的小鸟的弹弓游戏，和 uno 的纸牌类游戏。

面孔游戏体验区丨作者拍摄

驱动 Project Gameface 的是 Google 的 MediaPipe 框架，其中有几个模型，Face Landmark Detection API：用户检测并追踪人脸的关键点，比如眼睛、鼻子和嘴；BlazeFace Model：实时面部轮廓检测；FaceMesh Model 和 Mediapipe Blendshape V2model：能捕捉到面部肌肉和详细的面部特征。

工作人员说，Project Gameface 支持 50 多个面部表情和头部动作。并且支持自定义表情来控制哪些功能，同时可以设置表情程度和大小（是必须嘴长得足够大才能点击进去）。

头部动作和面部表情设置丨Google

前者是为了只能做限制动作和表情的用户；后者，我猜想是为了减少某些相似和下意识表情对应用使用的干扰度。

在脸没有完全抽筋儿之前，我尝试，用“眉心控制”光标，“张嘴”click 进入，“向左撇嘴并抬头”scroll 上划，完成了一篇网页的浏览。

旁边一位患有肌肉萎缩的女生开发者和我一起正玩得开心。

今年的体验的确更具包容性丨Google

同时第一次看到导盲犬，它也有参展牌丨Google

无障碍展区的无障碍参会者明显多于往届。“太多无障碍技术和应用没有真的在我们之间流传开来。”这位参会者说，“还是缺少类似的场合。”

作者：沈知涵

编辑：卧虫

插图及封面图来源：Google与本文作者提供

果壳AI组出品

如有需要请联系[email protected]

关键词： AI Google 游戏拍摄 Gameface Gemini

转载声明：本文为转载发布，仅代表原作者或原平台态度，不代表我方观点。今日澳洲仅提供信息发布平台，文章或有适当删改。对转载有异议和删稿要求的原著方，可联络[email protected]。