探索尖端技术-深度学习驱动的人体姿态估计 (尖端技术有哪些)
引言
人体姿态估计是计算机视觉领域的重要研究方向,旨在通过对图像或视频中人体姿势的分析和理解,推测出人体的关节点位置和姿态信息。近年来,随着深度学习技术的进步和应用,基于深度学习的人体姿态估计方法逐渐成为主流。
基于深度学习的人体姿态估计技术的发展现状
人体姿态估计技术经历了从传统方法到基于深度学习的方法的转变。传统方法通常依赖于手工设计的特征提取器和姿态模型,如边缘检测、人体部分检测和关节连接等。这些方法往往对光照、遮挡和姿势变化等因素敏感,且难以适应复杂场景和多人姿态估计。
基于深度学习的人体姿态估计方法的出现,极大地改变了传统方法的局限性。这些方法通常利用卷积神经网络(Convolutional Neural Networks,CNN)或其变种结构,通过端到端的学习方式直接从图像或视频中学习人体姿态信息。典型的深度学习模型包括Stacked Hourglass、OpenPose和HRNet等。这些方法不仅能够提高姿态估计的准确性,还能够适应复杂场景、多人姿态估计和实时应用需求。
基于深度学习的人体姿态估计技术的常见实现方法
数据集准备
基于深度学习的人体姿态估计方法需要大量标注的训练数据集。通常使用带有关节点标注的人体姿态数据集,如COCO、MPII Human Pose和Challenger等。这些数据集中包含了各种不同姿态和场景下的人体图像,用于训练和评估姿态估计模型。
网络结构设计
基于深度学习的人体姿态估计方法通常采用卷积神经网络(CNN)或其变种网络来设计姿态估计模型。常见的网络结构包括ResNet、Hourglass、HRNet等。这些网络结构可以通过层叠、残差连接和多尺度特征融合等方式来提高姿态估计的准确性和鲁棒性。
损失函数设计
为了训练姿态估计模型,需要设计合适的损失函数来度量预测结果与真实标签之间的差异。常用的损失函数包括均方误差(Mean Square Error,MSE)、关节位置误差(Joint Position Error,JPE)和PCK(Percentage of Correct Keypoints)等。
基于深度学习的人体姿态估计技术在实际应用中的意义和挑战
实际应用意义
基于深度学习的人体姿态估计技术在许多实际应用中具有重要意义。例如,它可以应用于人机交互、虚拟现实、人体动作分析和行为识别等领域。准确的人体姿态估计结果能够为后续的动作理解和行为分析提供可靠的基础支持。
技术挑战
基于深度学习的人体姿态估计技术在实际应用中面临一些挑战。复杂场景下的人体姿态估计仍然是一个难题,如遮挡、光照变化和多人姿态估计等。数据集的标注成本较高,对于大规模数据集的构建和标注仍然是一个挑战。模型的鲁棒性和实时性也是需要进一步改进的方面。
结论
基于深度学习的人体姿态估计技术在计算机视觉领域具有重要的研究和应用价值。随着深度学习技术的不断进步,人体姿态估计的准确性和鲁棒性得到了显著提升。仍然需要解决复杂场景下的姿态估计问题以及数据集构建和模型实时性等挑战。未来,随着技术的发展和应用需求的增加,基于深度学习的人体姿态估计技术将持续发展,并在更多领域得到广泛应用。
- 返回首页
- 参考文献
- 关于作者
高精度虚拟试衣:布料仿真和AI人体重建技术是关键
随着 AI的势头持续高涨,AI 在智能视觉系统中的应用呈现出非常光明的未来。硬件方面已经出现了专用处理器;软件方面有越来越强大的算法,能够识别物体、面部和姿势。
虚拟试衣带动服装行业发展
随着网络的发展和人们消费方式的进步,越来越多的人选择网络购物这一购物形式,诸多服装品牌在网络营销模式中运用虚拟试衣这一技术手段。虚拟试衣可以作为线上消费者购买服装的决策工具,令消费者在网络购物过程中获得较为真实的试衣感受。
在线下店铺,试衣软件依赖于计算机的相关技术进行识别和拟合,如人脸识别技术、图像识别技术等,使消费者能够感受到服装的实际穿着效果,有助于消费者做出购买决策,提高消费者的购物满意度,增加所购买服装的合体性,减少购买时间成本。随着技术的进步,虚拟试衣系统不再仅仅是一个简单的辅助工具,它的发展为服装行业注入了新鲜的力量,开辟出一种新的思路,对于服装营销模式和顾客消费心理的改变也起着重要作用。
虚拟试衣系统的实现过程包含人体建模和服装模拟两个部分。实体建模和曲面建模是目前人体建模中采用较为广泛的两种形式,实体建模不仅对于三维人体表面进行描述,而且对于模型内部实心。部分也进行了表达,这种方法提供了人体几乎所有的拓扑和几何信息。但是这种方法运算量大,且运算速度缓慢。曲面建模主要模拟人体表面的信息,对于人体内部实心部分并没有进行明确的定义。
虚拟试衣系统三种不同模式
第一种采用动画模式模拟虚拟试衣,系统为人体和服装做出动画模型。用户选择喜欢的服装并输入自己的体型数据。系统根据用户自定义的体型数据改变人体模型。试衣屏幕上能够全景展出动态的试衣效果,如转圈、跑跳等。这种方式模拟真实,代入感很强;
第二种模式为贴图模式。制作服装的 2D 图片并利用体感技术捕捉用户的动作。用户抓取完成后,将制作好的 2D 图片放置在人体上。在这种模式下,服装可以跟随用户的动作而改变,但只能展示服装的正面效果;
第三种模式为拍照模式。系统对于用户和服装分别拍照后合成试衣图片。这种模式响应时间短,但试衣真实性欠缺。
各大巨头发展虚拟试衣技术
虚拟试衣是服装 时尚 行业未来的趋势,国内外很多公司都尝试过这一领域,但至今没有成熟的、体验感强的商业产品大规模落地。
2011 年,京东和英特尔达成了战略合作,应用了微软 KINECT 的虚拟试衣镜在当年英特尔的数字标牌年会上亮相
2012 年,天猫在新 Logo 发布的年度庆典上推出了“虚拟试衣”功能。
2014 年,优衣库虚拟试衣间出现,采用 4D 技术,用户可以根据身体的数据自行调节,让虚拟形象更加贴合现实身材。
2015 年,淘宝上线虚拟试衣功能,将用户想要购买的衣服制成 360°可旋转的 3D 模型,充分向用户展示衣物的细节。
2018 年,亚马逊获得了一项虚拟试衣的专利,通过显示屏、投影仪、摄像头和镜子,将用户的真实形象与虚拟形象结合,用户可以根据试衣结果决定是否购买。
就当前已有的虚拟试衣设备成品而言,试穿效果并不逼真,既不能真实地建造贴近用户的虚拟形象,也没能真实地展现衣物的物理材质和特性。
亘星智能打造高精度虚拟试衣
亘星智能通过自研的高精度布料仿真、实时 3D 人体重建、实时高精度布料与 3D 人体碰撞检测、基于 PBR 的渲染技术来突破这一技术难题。
亘星智能通过深度学习技术,率先实现了单摄像头实时测量人体身高以及其他重要部位,例如臂长,腿长等,此技术无需昂贵的摄像头,普通手机摄像头即可精准测量人体,精度可达 1cm 以内,更令人惊叹的是算法还可以实时输出三维人体点云和模型。此技术无需对原有摄像头系统做任何改造,利用计算机图形学和 GPU 并行算法,实现了高精度布料仿真和动态碰撞检测,使用亘星智能的算法做一次校准,应用范围非常广泛,对于需要快速实时、准确收集人体数据的领域有非常大的价值。
基于 AI 的 3D 人体重建技术已经实现了非接触式人体测量,系统只需通过照片或视频,即可得到人体的 20 个主要身体尺寸,并同步生成真实人体,更可以支持在线远程测量完美取代传统的手工量体,这样用户无需脱衣或身着紧身衣即可实现。
亘星智能技术可满足不同领域
该技术具有效率更高、速度更快等特点,有效减少人为手工误差等问题,大大缩短了服装定制周期。
目前,亘星智能为用户带来了 3D Body 智能量体,这是一款亘星智能基于深度学习技术研发的拍照测量软件,是国内首创的照片智能量体工具,它可以应用服装个性化定制、团体定制领域、医学、人体工程学、 汽车 等工业领域,满足不同领域的需求。
作为计算机图像和视觉识别技术的领航者,亘星智能已经将研发出的产品进行了商业化落地,并建立很强的技术和市场壁垒,亘星智能还引入顶级的投资机构扩充团队、对接资源,充分发挥在各个领域中的优势。
亘星智能下一代虚拟试衣技术
亘星智能一直专注于视觉识别、图形图像等前沿技术在工业和商业领域的创新应用,致力于人工智能技术在垂直行业的应用研发。自成立以来,亘星智能在服装领域已开发出智能服装仿真系统、智能人体测量系统、智能试衣镜、店铺消费者行为分析系统等国际一流水平的产品,为用户提供专业的产品的服务,赢得了 社会 各界的广泛认可。
目前高精度布料仿真渲染技术,实时人体重建技术已经成熟,亘星智能正在全力攻关单摄像头精准人体动作捕捉技术,离实现下一代的虚拟试衣技术仅有一步之遥。
结尾
尽管当前的虚拟试衣应用和设备还不够完善,但依然吸引了许多用户和入局者。随着技术的发展和行业的成熟,能够找到突破口,虚拟试衣必然会成为一种趋势。
人体姿态估计--OpenPose算法解析
人体姿态估计是计算机视觉中一个很基础的问题。从名字的角度来看,可以理解为对“人体”的姿态(关键点,比如头,左手,右脚等)的位置估计。 人体姿态估计可以分为两种思路, (1)“top-down”,它指先检测人体区域,再检测区域内的人体关键点。
已有bottom-up方法缺点:(1)未利用全局上下文先验信息,也即图片中其他人的身体关键点信息;(2)将关键点对应到不同的人物个体,算法复杂度太高。 文章改进点:提出“Part Affinity Fields (PAFs)”,每个像素是2D的向量,用于表征位置和方向信息。基于检测出的关节点和关节联通区域,使用greedy inference算法,可以将这些关节点快速对应到不同人物个体。
损失函数是保证网络能收敛的最重要的关键点,因此作者对两分支的损失函数均采用L2 loss。训练时,每个阶段都会产生loss,避免梯度消失;预测时只使用最后一层的输出。公式表示如下: 其中, 表示branch1 的label图,也称为heatmap;是branch2 的label图 ,也称为vectormap。另外,考虑到有些训练数据集只标注了图片中部分人物的关节点,因此对损失函数采用了空域加权操作,W表示二值化mask矩阵,当位置p的标签缺失时其值为0,否则值为1。显然,对于未被标记的人物关节点 ,而被标记的人物关节点和非关节点,所以未被标记的人物关节点不会影响模型的学习过程,整个CNN网络架构的优化目标函数如下,
实际上就是使用2D高斯分布建模,求出一张图像上身体j部位的heatmap,记第k个人的第j个关节的heatmap为,表示位置信息,则有: 表示了使用part affinity fields(PAF)建模骨骼区域,对于骨骼区域内的每一个像素,使用2D向量同时表征位置和方向信息,这里的方向指代当前骨骼对应的关节点对的连接方向,对应vectormap。以下图的骨骼区域为例
经过上述过程,我们已经得到各个关节点的坐标图--heatmap,与关节对连接的vectormap,现在的问题就是如何合理地在推理阶段将各个关节连接成一段骨骼,并将它们组装成一个人? 关节拼接 :对于任意两个关节点位置和,通过计算PAFs的线性积分来表征骨骼点对的相关性,也即表征了骨骼点对的置信度,公式表示如下,为了快速计算积分,一般采用均匀采样的方式近似这两个关节点间的相似度, 多人检测 :由于图片中人数不确定,同时伴随遮挡、变形等问题,因此只使用上述计算关节对相似度,只能保证局部最优,因此作者利用greedy relaxation的思想生成全局较优的搭配。具体操作如下: (1)已知不同关节点的heatmap,也就是不同人的某个关节点的点集; (2)现在要将不同的点集进行唯一匹配,如:一群表示手肘的点集和手腕的点集,两点集中的点必须存在唯一匹配; (3) 关节点之间的相关性PAF已知,将关键点作为图的顶点,将关键点之间的相关性PAF看为图的边权,则将多人检测问题转化为二分图匹配问题,并用匈牙利算法求得相连关键点最优匹配。
由上图可知,COCO数据集总共有18个关键点,17个肢体骨架,但heatmap多了一个背景图,vectormap多了耳朵和肩膀的肢体,为什末要虚构这麽一个肢体呢,因为有时候人体是背对相机的,眼睛这个关键点是不可见的,为了更好的预测耳朵,引入这两个个肢体(也就是关节对:2-16和5-17)。所以总共有19个肢体,应为vectormap为矢量,预测时分为x,y两个分量,所以有19*2=38
完全参考,结合2.4节中vectormap()的计算公式与绿色虚线框内的区域以点集数学公式理解。 关键是叉乘的几何意义是两个向量所组成的平行四边形的面积,所以就表示与向量平行距离为的区域,也就是骨骼宽度。
后来论文作者对网络结构进行了改进,使得效果更好,速度更快,参考文献【11】。
【1】 Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields 【2】 人体姿态估计的过去、现在和未来 【3】 论文解读-Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields 【4】 Realtime Multi-Person 2D Pose Estimation Using Part Affinity Fields【菜鸟读者】 【5】 知乎:openpose笔记 【6】 openpose论文总结:Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields 【7】 详细介绍匈牙利算法步骤 【8】 Github 项目 - OpenPose 关键点输出格式 【9】 openpose的细节处理 【10】 tf-openpose人体姿态估计标签生成--heatmap--vectormap 【11】 OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
免责声明:本文转载或采集自网络,版权归原作者所有。本网站刊发此文旨在传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题,请联系本网,我们将在第一时间删除。同时,本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证,请读者仅作参考,并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失,本网站不承担任何责任。