CVer原创

2019/05/15 10:28

柏林Designer作者

NAVER提出字符级别的文本检测网络：CRAFT

Character Region Awareness for Text Detection
KeyWords Plus: CVPR2019 Curved Text

paper ：https://arxiv.org/abs/1904.01941

NAVER：line的母公司，韩国的最大的互联网公司，字符级别的文字检测，采用了CAM热力图的操作去检测每一个字符

Introduction

字符级别的文本检测网络，用的是分水岭算法生成label，采用heatmaps去得到激活值最大的目标区域，有点attention的感觉。

1、论文创新点

1.提出了一篇字符级别的检测算法
2.预测得到 :1.The character region score 2. Affinity score. The region score is used to localize individual characters in the image, and the affinity score is used to group each character into a single instance.
3.Propose a weakly- supervised learning framework that estimates character- level ground truths in existing real word-level datasets.

2、算法主体

改论文主要预测每个字符区域和字符之间的一个紧密程度预测，因为没有字符级别的label，所以模型训练在一个弱监督的方式下。网络的backbone采用VGG16，之后接上采样最终输出两个通道：the region score and the affinity score

训练在一个弱监督学习的方式下，有人造合成的数据集具有字符级别的label，real image没有字符级别的标注时，自己检测合成产生label再进行训练。如上图所示，对真实场景中的数据集和人造合成的数据集有不同的训练方式。

3、label generation

分别产生Region Score GT和Affinity Score GT

the following steps to approximate and generate the ground truth for both the region score and the affinity score:

1) prepare a2-dimensional isotropic Gaussian map;

2) compute perspective transformbetween the Gaussian map region and each character box;

3) warp Gaussian mapto the box area.

使用小感受野也能预测大文本和长文本，只需要关注字符级别的内容而不需要关注整个文本实例。

三步产生字符级别的label：
1、抠出文本级别的内容
2、预测region score区域
3、运用分水岭算法
4、得到字符基本的文字框
5、贴上文字框

为了防止在弱监督方式下产生的错误label带偏网络，该论文提出了一个评价方式（虽然我没有咋看明白），大概就是计算一个

4、Post-processing

正常文本后处理分为以下几步：

1、首先对0-1之间的概率图进行取阈值计算
2、使用Connected Component Labeling(CCL) 进行区域连接
3、最后使用opencv的MinAreaRect去框出最小的四边形区域

不规则文本检测后处理分为以下几步（如上图所示）：

1、先找到扫描方向的局部最大值（blue line）
2、连接所有the local maxima上的中心点叫做中心线
3、然后将the local maxima lines旋转至于中心线垂直
4、the local maxima lines上的端点是文本控制点的候选点，为了能更好的覆盖文本，将文本最外端的两个控制点分别向外移动the local maxima lines的半径长度最为最终的控制点。

5、Experiment Results

6、Conclusion and Future work

个人观点：不太受感受野的限制，只关注单个文字，对于长文本和不规则文本不必特意去设置相应大小的卷积提升感受野。

反馈与建议

邮箱：<weij ia_wu@yeah.net>

CVer

一个专注于计算机视觉方向的平台。涉及目标检测，图像分割，目标跟踪，人脸检测&识别，姿态估计，GAN和医疗影像等。

理论算法预测弱监督学习

3 2

相关数据

VGG技术

2014年，牛津大学提出了另一种深度卷积网络VGG-Net，它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野，而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好，常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量，VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层，每一层都有4096个神经元，可想而至这之间的参数会有多么庞大。

来源：7大类深度CNN架构创新综述

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

上采样技术

在数字信号处理中，上采样、扩展和内插是与多速率数字信号处理系统中的重采样过程相关的术语。上采样可以与扩展同义，也可以描述整个扩展和过滤（插值）过程。

来源：维基百科

感受野技术

一个感觉神经元的感受野是指这个位置里适当的刺激能够引起该神经元反应的区域。感受野一词主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质。

来源：wiki