上一篇说到在特征选取的时候,我们选择了最简单的方式完成特征提取的工作。除了简单的把整个图作为特征提取外,还有一种更加精确的方式,即HOG.
一.HOG简介
方向梯度直方图(Histogram of Oriented Gradient, HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。HOG特征通过计算和统计图像局部区域的梯度方向直方图来构成特征。
1.主要思想
在一副图像中,局部目标的表象和形状能够被梯度或边缘的方向密度分布很好地描述。其本质为:梯度的统计信息,而梯度主要存在于边缘的地方。Hog特征结合SVM分类器已经被广泛应用于图像识别中,尤其在行人检测中获得了极大的成功。
下面是HOG+SVM的工作流程,首先对输入的图片进行预处理,然后计算像素点的梯度值,然后形成梯度直方图,然后对blocks进行normalize(归一化),最后收集到HOG feature(其实是一行高维的vector)放到SVM里进行监督学习,从而实现行人的检测。
2.实现方法
首先将图像分成小的连通区域,这些连通区域被叫做细胞单元。然后采集细胞单元中各像素点的梯度的或边缘的方向直方图。最后把这些直方图组合起来,就可以构成特征描述符。
①图像预处理
包括伽马校正和灰度化。这是可选的步骤,因为实验证明做不做影响不大。伽马校正是减少光度对实验的影响。灰度化是将彩色图片变成灰度图。其实彩色图片也可以直接处理。不过是分别对三通道的颜色值进行梯度计算,最后选择梯度最大的那个。为简单起见,假设输入为灰度图,同时大小是64*128。
②计算每一个像素点的梯度值,得到梯度图(规模和原图大小一样)
对于像素点A,要计算水平梯度和竖直梯度,如上图,水平梯度 =30-20=10,竖直梯度 =64-32=32.
那么总的梯度强度值g和梯度方向 将按照以下公式计算:
梯度方向将会取绝对值,因此梯度方向的范围是0-180度。取绝对值的原因是这样效果更好。
③计算梯度直方图
按照第二步的计算,每一个像素点都会有两个值:梯度强度/梯度方向。
现在就计算梯度直方图,这是一个关键步骤也是HOG能够work的原因。
梯度直方图是在一个8×8的cell里面计算的。那么在8×8的cell里面就会有8×8×2=128个值,2是包括了梯度强度和梯度方向。通过统计形成梯度直方图,128个值将会变成9个值,大大降低了计算量,同时又对光照等环境变化更加地robust。
首先,我将0-180度分成9个bins,分别是0,20,40...160。然后统计每一个像素点所在的bin。请看下图:
左上图是8*8的梯度方向值,右上图是8×8的梯度强度值,下图是9个bins。
先看两个蓝色圈圈。因为蓝圈的方向是80度,大小是2,所以该点就投给80这个bin;
再看两个红色圈圈。因为红色圈圈的方向是10,大小是4,因为10距离0点为10,距离20点为也为10,那么有一半的大小是投给0这个bin,还有一半的大小(即是2)投给20这个bin。
那么统计完64个点的投票数以后,每个bin就会得到一个数值,可以得到一个直方图,在计算机里面就是一个大小为9的数组。
从上图可以看到,更多的点的梯度方向是倾向于0度和160度,也就是说这些点的梯度方向是向上或者向下,表明图像这个位置存在比较明显的横向边缘。因此HOG是对边角敏感的,由于这样的统计方法,也是对部分像素值变化不敏感的,所以能够适应不同的环境。
④对16×16大小的block归一化
归一化的目的是降低光照的影响。
归一化的方法是向量的每一个值除以向量的模长。
比如对于一个(128,64,32)的三维向量来说,模长是
那么归一化后的向量变成了(0.87,0.43,0.22)
那么16×16大小的block是怎么来的?
请看下图:
绿色方块是8×8大小的cell,蓝色方块就是由4个cell组成的block。如果要对block进行normalize,那么由于一个cell就会有大小为9的vector,四个cell就有36大小的vector。对block进行normalize就是对这大小为36的vector进行归一化。
而每一个block将按照上图篮框移动的方式进行迭代截取。
⑤得到HOG特征向量
每一个16×16大小的block将会得到36大小的vector。那么对于一个64×128大小的图像,按照上图的方式提取block,将会有7个水平位置和15个竖直位可以取得,所以一共有7×15=105个block,所以我们整合所有block的vector,形成一个大的一维vector的大小将会是36×105=3780。
得到HOG特征向w量,就可以用来可视化和分类了。对于这么大的HOG特征,SVM就排上用场了。
3.性能提高
将这些局部直方图在图像的更大的范围内(叫做区间)进行对比度归一化,可以提高该算法的性能,所采用的方法是:先计算各直方图在这个区间中的密度,然后根据这个密度对区间中的各个细胞单元做归一化。通过这个归一化后,能对光照变化和阴影获得更好的效果。
二.HOG的优点
与其他的特征描述方法相比,HOG有很多优点。 首先,由于HOG是 在图像的局部方格单元上操作,所以它对图像几何的和光学的形变都能保持很好的不变性,这两种形变只会出现在更大的空间领域上。 其次,在粗的空域抽样、精细 的方向抽样以及较强的局部光学归一化等条件下,只要行人大体上能够保持直立的姿势,可以容许行人有一些细微的肢体动作,这些细微的动作可以被忽略而不影响 检测效果。 因此HOG特征是特别适合于做图像中的人体检测的 。
三.HOG实现行人检测
正样本来源是INRIA数据集中的96160大小的人体图片,使用时上下左右都去掉16个像素,截取中间的64128大小的人体。
负样本是从不包含人体的图片中随机裁取的,大小同样是64128(从完全不包含人体的图片中随机剪裁出64128大小的用于人体检测的负样本)。
SVM使用的是OpenCV自带的CvSVM类。
首先计算正负样本图像的HOG描述子,组成一个特征向量矩阵,对应的要有一个指定每个特征向量的类别的类标向量,输入SVM中进行训练。
训练好的SVM分类器保存为XML文件,然后根据其中的支持向量和参数生成OpenCV中的HOG描述子可用的检测子参数,再调用OpenCV中的多尺度检测函数进行行人检测。
难例(Hard Example)
是指利用第一次训练的分类器在负样本原图(肯定没有人体)上进行行人检测时所有检测到的矩形框,这些矩形框区域很明显都是误报,把这些误报的矩形框保存为图片,加入到初始的负样本集合中,重新进行SVM的训练,可显著减少误报。
1 |
|