首页 > 一路宝活动

百度大脑5.0重磅发布 AI技术全面升级 视觉语义化平台步入2.0时代

文章作者:来源:www.16bao.com时间:2020-06-28



7月3日,百度AI开发者大会上,百度脑5.0大举发布,在算法层面实现了“质量飞跃”,并取得了多项技术突破。视觉技术就是其中之一。百度脑论坛,百度视觉技术部,增强现实技术总监吴忠勤正式发布百度视觉语义平台2.0,实现互动升级和软硬件集成的突破,告别世界,从世界到了解世界,迎来1.0时代在“互动”时代。

5G时代对AI视觉技术有更高的要求。例如,实时要求带来了巨大的计算复杂性并且需要更高的计算效率;更多形式和多模式互动可以使演示和反馈更自然;更多物联网设备通过部署边缘计算,需要高效的信息处理。百度视觉语义平台2.0可以进一步满足这些需求。

视觉语义平台引入了两种强大的交互技术,包括集成的人机交互技术和大规模的物理世界交互技术。在集成的人机交互系统中,它从面部,肢体,手势和环境四个方面为用户带来丰富的交互体验。它结合了视觉定位和增强现实技术,以实现广泛的虚拟信息和物理世界。精确叠加在AI时代创建一个新的交互系统。

在集成的人机交互系统中,依靠高精度的面部关键点和人脸检测算法,可以实现精细面部特征和皮肤水平的实时跟踪,实现3D贴纸和道具,3D动画表情和面部特征。触发器和其他丰富的交互功能。在肢体方面,它支持多达59个肢体骨骼点,用于实时检测和跟踪,以及全身覆盖。在环境感知和理解方面,可以实现物理世界1:1真实场景的实时分割,包括人像分割和天空分割,可以实现非常丰富的环境互动和特效。该系统适用于实现实时效果,小视频,特效和AR效果的其他程序,并已应用于百度的各种视频应用。

除了娱乐互动,集成的人机交互系统可以广泛应用于智能生活中。例如,在智能车场景中,系统可以实现疲劳驾驶提醒,并与头部姿势,手势和表情相互作用。目前,百度与奇瑞联合推出了“奇瑞星程”轿车,该轿车配备了一体化的人机交互系统。

除了专注于人机交互技术外,基于VPAS(视觉定位和增强服务)的大规模物理世界交互系统可以带来全新的交互式体验。百度首次通过视觉定位与AR技术的突破性结合,将虚拟信息与真实地理位置精确结合,标志着AR技术在中国的发展和应用取得突破 - 从简单的空间物体贴装体验到基础高度沉浸式混合现实体验,精确感知物理空间。

在硬件和软件的结合方面,吴忠勤结合了Paddle Slim,FaceID多模态人脸识别组件和AI摄像头技术及应用,展示了该领域的新升级。 Paddleslim是飞桨平台中功能强大的模型压缩工具,支持业界领先的压缩方法和效果。在面部技术的情况下,几乎没有精度损失,Paddle Slim可以将模型的速度提高近9倍,模型压缩的开发效率提高5倍,这使得端到端应用的体验非常高平滑。

FaceID是一款适用于百度及其合作伙伴共同开发的百度大脑的相机。它支持RGB单眼,3D结构光和近红外模式。其特点是:全过程,多模式,以及领先的模型量化和压缩技术的应用,搭载业界领先的人脸识别算法,可实现硬件和软件的集成,即插即用的使用模式,可以大大帮助开发人员节省研发费用。目前,这些产品已登陆公共旅游,教育,零售,金融,政务等多个行业,涉及设备1200多万套。

同时,百度视觉技术团队还开发了一系列人工智能摄像头,集硬件和软件于一体,优化了领先的人工智能视觉技术和智能芯片技术。它实现了终端上的AI视觉计算,并介绍了各种AI相机产品。它可以实现人脸检测,跟踪,人体分析,车辆分析等功能。该产品在稳定性,功耗和综合效果行业中处于领先地位。基于这些人工智能摄像头,百度还开发了一套智能视频监控程序,可以实现客户会员身份识别,店内热力图,流线分析,客流统计等功能。如今,它已应用于3C商店,手机品牌专卖店,通讯营业厅,便利店等场景。

这种视觉技术的重大升级是百度大脑技术能力的长期积累。此前,百度的视觉技术在国际比赛中赢得了许多冠军,展示了百度强大的人工智能技术的实力。在6月刚刚结束的CVPR顶级视觉学术会议上,百度的视觉技术取得了六项世界第一,包括物体检测,图像增强,智能城市,视频理解,ICME面临关键点竞争,DAWN深度学习基准速度。成本也在世界上取得了良好的效果。

在即将到来的5G时代,越来越多的物理设备将连接到高可靠性,低延迟的网络空间,这将彻底改变人们与环境和设备的交互方式。这个新发布的Visual Semantic Platform 2.0正在推动视觉技术的推广,从“视觉清晰”到“互动”。百度将通过百度大脑生态系统向开发者和合作伙伴开放这些功能。希望通过帮助开发人员,我们将实现开放和双赢的结果,建立一个更强大的AI生态系统,并使复杂的世界更加简单。