快手乌镇黑科技揭秘：深度结合产品，让人工智能“接地气”

2018-11-26 来源： 36氪原文链接评论0条

关注并标星36氪

每天3次，打卡阅读

更快更深刻洞察互联网商业

━━━━━━

一直以来，作为短视频平台，快手在大众视野中似乎与人工智能技术并无关联，但在乌镇互联网世界大会上，等待体验快手人工智能技术的参展观众排成了长长的队伍，成为展区的焦点。

快手乌镇黑科技揭秘：深度结合产品，让人工智能“接地气” - 1

现场观众主要对快手的三个展示内容产生了兴趣：1.通过扫描自己的脸，可以搜索到快手平台上的“双胞胎脸”，找到“世界上另一个你”；2.“快手平安系统”——国家预警信息即时推送系统；3.类似苹果“Animoji”效果，能让卡通形象富有人脸表情的快手“萌面”魔法表情。那么这三个功能是如何实现的呢？

其实在这些展示的背后，是快手人工智能技术的支撑。而研发这些技术的正是快手的多媒体内容理解部门（MultiMedia Understanding），简称MMU。据该部门负责人李岩介绍：团队由近百名算法工程师和应用工程师构成，聚焦在多媒体内容的理解与应用，服务于视频创作、推荐、搜索、版权及商业化。

快手乌镇黑科技揭秘：深度结合产品，让人工智能“接地气” - 2

揭秘：乌镇黑科技是如何实现的？

本次乌镇展会上，快手多媒体内容理解部门提供了展区三项展示的关键技术支撑。 “遇见世界上的另一个你”项目通过人脸识别在海量的视频库中找到与测试者长相相似的用户，让测试者如同找到了“平行世界的自己”，而这背后是快手基于多年积累的深度学习技术，使用数十亿量级的公开人脸数据让机器来学习人脸的特征表达。目前，快手在自建的数十亿级人脸检索平台上可以达到实时精准匹配。

快手乌镇黑科技揭秘：深度结合产品，让人工智能“接地气” - 3

每当自然灾害发生时，总会有快手用户在第一时间上传一线现场视频，快手的“平安系统”项目，通过快手的多媒体理解技术，能够分析海量视频内容中出现的场景、物体等，利用特征表达技术聚合相关内容，过滤与事件无关的内容，自动聚合筛选用户上传的灾情、突发事故相关视频，助力防灾救灾的信息收集与方案制定。

快手乌镇黑科技揭秘：深度结合产品，让人工智能“接地气” - 4

快手的“萌面”智能魔法表情，则通过人脸关键点检测、实时重建人脸三维模型等技术，代替iPhone X等手机的3D结构光摄像头，在普通安卓手机上实现苹果手机的“Animoji”卡通表情的效果，在不暴露脸部信息的同时展现细微的表情变化，实现了通过改进软件突破硬件的限制。

快手乌镇黑科技揭秘：深度结合产品，让人工智能“接地气” - 5

快手乌镇黑科技揭秘：深度结合产品，让人工智能“接地气” - 2

根植于业务的实力AI团队

作为国民级的短视频APP，如今快手拥有超过70亿的视频，1.5亿日活，每天新增1500万视频。面对如此多的数据，快手需要面对两个问题，一是处理海量的新增视频内容，二是兼顾到上亿用户的看见和被看见的需求，“被看见”这一需求特别要包括生产“长尾视频”的用户，而不仅仅是生产爆款视频的网红。

为此，快手构建了一套基于 AI 的技术解决方案，包括从视频内容生产、到视频理解、用户理解，以及最后的分发系统的每个环节。

为了实现这套方案，快手多媒体内容理解部门也组建成立。目前团队主要通过对人脸、图像、音乐、视频四个维度实现对多媒体内容的感知，并融合感知内容和知识图谱，实现对视频高层语义及情感的理解，从而让机器高效看懂海量内容。这些核心技术服务于快手在内容安全、原创保护、视频创作、视频推荐、视频搜索及商业化等方面的业务需求。

MMU部门如今有近百名成员，由算法工程师、应用工程师构成，部分核心成员毕业于卡耐基梅隆、京都大学、清华、中科院等知名院校。快手平台海量的数据以及由数千块GPU构成的强大算力，为团队成员研发提供了坚实的基础。

比较特别的是，通常各家用内容数据来训练模型，而MMU部门在其基础上，融合用户行为数据。在综合训练后，能获得比纯内容模型更好的性能，对视频有了更好的理解，对多媒体内容理解和分析的算法有较大提升。

快手乌镇黑科技揭秘：深度结合产品，让人工智能“接地气” - 2

让技术落地，用AI技术解决真实业务问题

也许有人好奇快手是什么时候开始进入Al赛道的?据36氪了解，快手在8年前就开始在机器学习和大数据处理方面进行积累。而与BAT的通用型Al不同的是，快手深扎在多媒体领域，很早就在利用Al技术来提升短视频体验，将Al贯穿在整个产品使用流程中。从短视频内容生产、消费和分发的各个环节上，都应用了快手的Al技术。

随着近年人工智能技术的发展浪潮，业内普遍达成了这样的共识：人工智能产业缺乏的不是算法，而是如何找到最适合最有效的场景，且更好地转化成工程手段。在快手，最核心的业务就是视频，不同于图片信息，对视频的理解是一个多模态的问题，再加上海量用户的行为数据就更是一种更加复杂的多模态问题。所以多模态的研究对于快手来说是非常重要的课题，这也是MMU部门研发的重要方向。

一方面，多模态技术将实现更好的记录。如今快手在利用语音识别打造字幕生成、通过语音合成实现个性化配音、根据视频内容自动生成音乐、通过2D图像驱动3D建模实现Animoji特效等方面已经取得了诸多成果。

快手希望通过多模态技术，让过去只存在于专业拍摄、剪辑工作室的技术特效，可以在手机端轻松实现，真正让技术的进步惠及普通用户，使记录的过程变得更加便捷、有趣。

另一方面，多模态技术也将通过精准理解视频，让用户发布的视频能够被更多感兴趣的人看到，实现更好的分享。在视频理解方面，快手有两个重点，第一是强调音频和视觉的多模态综合的建模，而不是仅仅是单独的视觉或者音频。举例而言，一个男子表演口技的视频中，如果关闭声音，仅凭画面信息并不能理解他是在做什么，可能会觉得是在唱歌或唱戏，这说明人们对世界的理解一定是多模态的理解，而不仅仅是视觉的理解。

第二，快手有非常多的用户数据，快手通过融合行为数据和内容数据进行综合建模，同样大小的数据标注量，利用海量的用户行为数据，能够获得比纯内容模型更好的性能，进而在多媒体内容理解和分析方面的算法研究获得非常大的进展，实现更好的理解视频。

李岩说：“基于场景去研究Al，思考也会更加深刻。通过Al与实际业务相结合，将业务中遇到的真实问题通过Al去解决，不仅提高了部门效率，更能释放出Al在公司中的价值。”

快手CEO宿华曾指出，希望构建一个以Al等前沿科技为核心的基础设施，用科技去提升每个人独特的幸福感；促进记录和分享，促进创造和交流，促进表达和共鸣，促进理解和成长。让每一个人都有被看到的机会。

对于快手的愿景，也许已经如我们看到，在加速落地中。

快手乌镇黑科技揭秘：深度结合产品，让人工智能“接地气” - 8

转载声明：本文为转载发布，仅代表原作者或原平台态度，不代表我方观点。今日澳洲仅提供信息发布平台，文章或有适当删改。对转载有异议和删稿要求的原著方，可联络[email protected]。

今日评论网友评论仅供其表达个人看法，并不表明网站立场。