最好看的新闻,最实用的信息
04月18日 19.0°C-21.4°C
澳元 : 人民币=4.66
布里斯班
今日澳洲app下载
登录 注册

快手乌镇黑科技揭秘:深度结合产品,让人工智能“接地气”

2018-11-26 来源: 36氪 原文链接 评论0条

关注并标星36氪

每天3次,打卡阅读

更快更深刻洞察互联网商业

━━━━━━

一直以来,作为短视频平台,快手在大众视野中似乎与人工智能技术并无关联,但在乌镇互联网世界大会上,等待体验快手人工智能技术的参展观众排成了长长的队伍,成为展区的焦点。

快手乌镇黑科技揭秘:深度结合产品,让人工智能“接地气” - 1

现场观众主要对快手的三个展示内容产生了兴趣:1.通过扫描自己的脸,可以搜索到快手平台上的“双胞胎脸”,找到“世界上另一个你”;2.“快手平安系统”——国家预警信息即时推送系统;3.类似苹果“Animoji”效果,能让卡通形象富有人脸表情的快手“萌面”魔法表情。那么这三个功能是如何实现的呢?

其实在这些展示的背后,是快手人工智能技术的支撑。而研发这些技术的正是快手的多媒体内容理解部门(MultiMedia Understanding),简称MMU。据该部门负责人李岩介绍:团队由近百名算法工程师和应用工程师构成,聚焦在多媒体内容的理解与应用,服务于视频创作、推荐、搜索、版权及商业化。

快手乌镇黑科技揭秘:深度结合产品,让人工智能“接地气” - 2

揭秘:乌镇黑科技是如何实现的?

本次乌镇展会上,快手多媒体内容理解部门提供了展区三项展示的关键技术支撑。 “遇见世界上的另一个你”项目通过人脸识别在海量的视频库中找到与测试者长相相似的用户,让测试者如同找到了“平行世界的自己”,而这背后是快手基于多年积累的深度学习技术,使用数十亿量级的公开人脸数据让机器来学习人脸的特征表达。目前,快手在自建的数十亿级人脸检索平台上可以达到实时精准匹配。

快手乌镇黑科技揭秘:深度结合产品,让人工智能“接地气” - 3

每当自然灾害发生时,总会有快手用户在第一时间上传一线现场视频,快手的“平安系统”项目,通过快手的多媒体理解技术,能够分析海量视频内容中出现的场景、物体等,利用特征表达技术聚合相关内容,过滤与事件无关的内容,自动聚合筛选用户上传的灾情、突发事故相关视频,助力防灾救灾的信息收集与方案制定。

快手乌镇黑科技揭秘:深度结合产品,让人工智能“接地气” - 4

快手的“萌面”智能魔法表情,则通过人脸关键点检测、实时重建人脸三维模型等技术,代替iPhone X等手机的3D结构光摄像头,在普通安卓手机上实现苹果手机的“Animoji”卡通表情的效果,在不暴露脸部信息的同时展现细微的表情变化,实现了通过改进软件突破硬件的限制。

快手乌镇黑科技揭秘:深度结合产品,让人工智能“接地气” - 5

快手乌镇黑科技揭秘:深度结合产品,让人工智能“接地气” - 2

根植于业务的实力AI团队

作为国民级的短视频APP,如今快手拥有超过70亿的视频,1.5亿日活,每天新增1500万视频。面对如此多的数据,快手需要面对两个问题,一是处理海量的新增视频内容,二是兼顾到上亿用户的看见和被看见的需求,“被看见”这一需求特别要包括生产“长尾视频”的用户,而不仅仅是生产爆款视频的网红。

为此,快手构建了一套基于 AI 的技术解决方案,包括从视频内容生产、到视频理解、用户理解,以及最后的分发系统的每个环节。

为了实现这套方案,快手多媒体内容理解部门也组建成立。目前团队主要通过对人脸、图像、音乐、视频四个维度实现对多媒体内容的感知,并融合感知内容和知识图谱,实现对视频高层语义及情感的理解,从而让机器高效看懂海量内容。这些核心技术服务于快手在内容安全、原创保护、视频创作、视频推荐、视频搜索及商业化等方面的业务需求。

MMU部门如今有近百名成员,由算法工程师、应用工程师构成,部分核心成员毕业于卡耐基梅隆、京都大学、清华、中科院等知名院校。快手平台海量的数据以及由数千块GPU构成的强大算力,为团队成员研发提供了坚实的基础。

比较特别的是,通常各家用内容数据来训练模型,而MMU部门在其基础上,融合用户行为数据。在综合训练后,能获得比纯内容模型更好的性能,对视频有了更好的理解,对多媒体内容理解和分析的算法有较大提升。

快手乌镇黑科技揭秘:深度结合产品,让人工智能“接地气” - 2

让技术落地,用AI技术解决真实业务问题

也许有人好奇快手是什么时候开始进入Al赛道的?据36氪了解,快手在8年前就开始在机器学习和大数据处理方面进行积累。而与BAT的通用型Al不同的是,快手深扎在多媒体领域,很早就在利用Al技术来提升短视频体验,将Al贯穿在整个产品使用流程中。从短视频内容生产、消费和分发的各个环节上,都应用了快手的Al技术。

随着近年人工智能技术的发展浪潮,业内普遍达成了这样的共识:人工智能产业缺乏的不是算法,而是如何找到最适合最有效的场景,且更好地转化成工程手段。在快手,最核心的业务就是视频,不同于图片信息,对视频的理解是一个多模态的问题,再加上海量用户的行为数据就更是一种更加复杂的多模态问题。所以多模态的研究对于快手来说是非常重要的课题,这也是MMU部门研发的重要方向。

一方面,多模态技术将实现更好的记录。如今快手在利用语音识别打造字幕生成、通过语音合成实现个性化配音、根据视频内容自动生成音乐、通过2D图像驱动3D建模实现Animoji特效等方面已经取得了诸多成果。

快手希望通过多模态技术,让过去只存在于专业拍摄、剪辑工作室的技术特效,可以在手机端轻松实现,真正让技术的进步惠及普通用户,使记录的过程变得更加便捷、有趣。

另一方面,多模态技术也将通过精准理解视频,让用户发布的视频能够被更多感兴趣的人看到,实现更好的分享。在视频理解方面,快手有两个重点,第一是强调音频和视觉的多模态综合的建模,而不是仅仅是单独的视觉或者音频。举例而言,一个男子表演口技的视频中,如果关闭声音,仅凭画面信息并不能理解他是在做什么,可能会觉得是在唱歌或唱戏,这说明人们对世界的理解一定是多模态的理解,而不仅仅是视觉的理解。

第二,快手有非常多的用户数据,快手通过融合行为数据和内容数据进行综合建模,同样大小的数据标注量,利用海量的用户行为数据,能够获得比纯内容模型更好的性能,进而在多媒体内容理解和分析方面的算法研究获得非常大的进展,实现更好的理解视频。

李岩说:“基于场景去研究Al,思考也会更加深刻。通过Al与实际业务相结合,将业务中遇到的真实问题通过Al去解决,不仅提高了部门效率,更能释放出Al在公司中的价值。”

快手CEO宿华曾指出,希望构建一个以Al等前沿科技为核心的基础设施,用科技去提升每个人独特的幸福感;促进记录和分享,促进创造和交流,促进表达和共鸣,促进理解和成长。让每一个人都有被看到的机会。

对于快手的愿景,也许已经如我们看到,在加速落地中。

快手乌镇黑科技揭秘:深度结合产品,让人工智能“接地气” - 8

转载声明:本文为转载发布,仅代表原作者或原平台态度,不代表我方观点。今日澳洲仅提供信息发布平台,文章或有适当删改。对转载有异议和删稿要求的原著方,可联络[email protected]
今日评论 网友评论仅供其表达个人看法,并不表明网站立场。
最新评论(0)
暂无评论


Copyright Media Today Group Pty Ltd.隐私条款联系我们商务合作加入我们

电话: (02) 8999 8797

联系邮箱: [email protected] 商业合作: [email protected]网站地图

法律顾问:AHL法律 – 澳洲最大华人律师行新闻爆料:[email protected]

友情链接: 华人找房 到家 今日支付Umall今日优选