
随着科技创新水平的提高,智能分析算法不再局限在实验室进行生硬的数字特征码进行比对识别,而是运行人工智能理念模拟人体大脑神经识别方式,从复杂的场景中根据人体及其它事物动态的行为习惯准确地识别目标,让算法进行持续深度的学习,逐步提高识别准确率。
基于人工智能的深度学习智能分析算法核心技术主要包括目标识别、目标场景检测和场景判断三个方面。
深度学习智能分析算法利用视频解码、切割技术,将流式视频实时图片抓取,将视频以0.01秒的粒度进行图片无重影抓取,通过深度神经卷积网络算法(Deep Convolutional Neural Network,DCNN)进行图像模式识别。
真实场景中具有多变光照、多角度、有遮挡、模糊、年龄跨度等复杂情况的场合或者要求身份验证精确度高的场合。利用异构深度神经网络,可在人脸模型中方便地加入光照、遮挡、角度、年龄、种族等多种先验信息,增强了模型的适应性和特征的表达能力。
为了解决DCNN需要大量数据的问题,多层的特征编码只需要把上一层的人/目标图像的特征向量作为输入从新提取特征块并进行量化形成字典编码即可。

场景目标具有时变性,场景中目标类别、状态及行为具有多样性,事件的发生具有不确定性,各种场景对象之间具有关联性。采用基于假设检验(Hypothesis Testing)理论的动态场景多目标实时解析架构,该架构包含了状态空间初始化、对象特征提取、先验知识引入、分支假设检验、评分排序、时空关联等算法模块,同时此架构可融合多种现有检测、跟踪、特征提取、识别技术,适合于对多目标、多任务、非配合、非刚体等及动态场景的实时解析,以及对海量视频语义信息的快速获取、关联分析和价值挖掘。

目标场景检测是将视频或图像中运动的目标提取出来。目标检测的是否准确直接影响到后续目标行为识别、目标跟踪的效果。目标检测过大,多余的部分会对目标的实际情况会造成误判;目标检测过小,轮廓不够完整,很可能被预处理掉,造成漏判。
利用众数背景模型,对视频图像RGB三通道分别建模;将视频图像三个通道分别背景相消,每个点取三通道中差别最大的值作为差分图(单通道) 中该点的差分值;对差分图进行局部阈值分割,最终得到准确的团块;为了提高检测的准确性,利用地面标定点建立三维距离函数,实现单目测距,估计各个目标的尺寸,排除场景中小动物、车辆等干扰,最终得到准确的人物目标。
运动目标跟踪的实质就是“检测+匹配”,即对每一帧检测运动目标,并对当前运动目标与前面的帧中发现的目标进行匹配,确定该各个感兴趣目标的实时位置。
人物目标的身高是有明显的上下限的,只要设定好区间,可以排除掉大部分干扰的目标。为了提高检测的准确性,利用地面标定点建立三维距离函数,实现单目测距,估计各个目标的尺寸,排除场景中小动物、车辆等干扰,最终得到准确的人物目标。距离图像建立的目的就是为了更加准确的去估计目标真正的尺寸,排除掉不必要的干扰,例如动物,非人物体,汽车等。
目标场景是智能视频监控中最主要的目标。在监控视频中,人物目标位置变化的离散渐变性,我们可以对目标进行逐帧的去分析,甚至根据帧速不同,估计目标的速度。人物目标具有整体性,差分出的图像可以根据连通特性进行处理。同时,人物目标检测也有许多不利的特性,如目标运动变化的突发性,姿态多变性等等,在人物的区分上增加了难点。针对人物目标的特点,本系统提出了基于众数背景建模的背景消减策略,流程如图所示。

在场景行为判别中,我们要将实际的场景特征和图像中目标团块的特征一一映射。人物目标在视频中就是一个个的像素团块,基于视频的场景检测的重点就是分析出在发生暴力现象时这些像素团块的运动特征(运动速度、运动方向),形态特征等。
目标场景行为是基于特定标识目标的识别。例如暴力场景评定:两个或者两个以上的自 然人,以暴力手段伤害对方,以达到制服对方的行为。暴力行为具有突发性、暴力性、群聚性等特点。
提取基于场景的行为,主要确认场景是否发生。实质就是一个二分类的问题;例如暴力行为主要是判定当前视频帧中存在暴力行为或者不存在暴力行为。将暴力行为特征与视频图像帧的特征进行 对应,提取出暴力判别规则。
算法模块初始化后,加载视频进行分析,通过对图像算法的综合运用得到更加精确的人物目标。
| 留言与评论(共有 0 条评论) |