YOLOv5项目实现
关于项目实现的文档说明书,三个要素:数据、模型、训练
1、项目简介
本项目主要是使用yolov5对车牌目标进行定位,再使用paddleocr对目标框内的图像进行文字识别。
1.1 项目名称
基于yolov5的车牌定位以及paddleOCR的车牌识别程序。
1.2 项目简介
本项目是一个基于yolov5的车牌定位与识别系统,旨在通过深度学习技术实现对车牌的快速定位和准确识别。项目采用yolov5n作为训练框架,专门针对车牌目标进行检测。通过训练,模型能够识别车牌是否存在,并确定其位置。随后,系统会根据车牌位置切割图片,并使用裁剪后的图片进行OCR文字识别。项目中主要挑战包括优化模型以减少内存使用、提高识别准确率以及处理中文字符乱码问题。通过本项目,我们不仅提升了对yolo系列框架的操作熟练度,还增强了对深度学习模型训练和优化的理解。
2、数据
在GitHub上直接下载,网址为:
3. 训练框架
本次项目选择yolov5n作为训练框架,对于本次的训练框架的结构并没有什么变化,因为本次训练的目标类别只有1种,那就是车牌。我们的目的是车牌识别,而我用yolo训练模型的目的是确认车牌是否存在,并在车牌存在是时确认车牌位置,并根据位置切割图片,在处理之后使用裁剪后的图片投入OCR中进行文字识别,而困扰我们的主要问题是考虑是用那种方式去使用我们所训练出来的模型。两种方式,一种是重写yolov5的detect中的代码,这里也是两种选择,一是直接先等save-crop生效后再读取,这样的方式因为会重复的读取所以会导致内存的使用过度,而另一种直接在save-crop生效之前就直接读取到在输出位置就已知xyxy坐标直接在原图上剪切后识别,最后修改输出的label。
刚才说的还有以一种这是将模型直接到处,使用模型去识别视频并在视频中画框,而需要解决的问题则是对画出的框会有一个NMS的操作去选择最合适的框然后裁切此框去做文字识别,这样的好处是可以用onnx格式导入,而且画框的方式可以自己定义能够在裁切的时候加入边缘填充,这有助于优化文字识别的成功率,但是这样需要重写的方法过多就没有选择。
4. 模型训练
和训练相关的操作
4.1 训练参数
轮次:ecpochs = 20
批次:batch_size=16
4.4 训练过程可视化
F1走势图 | 召回率走势图 |
| result | 精准度置信度 |
5. 模型验证
验证我们的模型的鲁棒性和泛化能力
5.1 验证过程数据化
生成Excel:截个图看一下
5.2 混淆矩阵
可视化
混淆矩阵可视化 |
6. 源代码更改
因为我们是之直接更改原本的detect,但是我是直接将detect复制为一份新的文档,这样的话不同的需求直接启用不同的detect即可。
我选择修改的位置是判断save_img、save_crop、view_img,这三个参数,而在系统默认的接受参数有一个为nosave的参数,而此参数确定的是save_img是否开启的,系统的默认是开启save_img的,所以在这段代码下是默认执行的。
而我主要修改的点就是利用在per image都会执行的Process predictions下去读取xyxy参数然后从原图im0s复制所得的im0进行截取然后再将其投入我所使用的paddleOCR,通过此函数识别车牌然后对画框时使用的label进行更改,输出识别到的符合长度和格式的车牌。
而对图片进行的处理我是直接根据save_crop时的格式进行修改的,因为在初始detect加入–save_crop所切割出的图片在进行识别时效果非常好,所以我就直接进行了使用,然后对其数据格式,通道和边框进行了一点的规范,经过实验已经完全能够识别。
if save_img or save_crop or view_img: # Add bbox to image
if count % 10 == 0:
c = int(cls) # integer class
# 将 xyxy 转换为张量
xyxy_tensor = torch.tensor(xyxy).view(-1, 4)
# 转换为 xywh 并调整大小
b = xyxy2xywh(xyxy_tensor)
b[:, 2:] = b[:, 2:] * 1.02 + 10 # box wh * gain + pad1
# 转换回 xyxy 并限制边界
xyxy_tensor = xywh2xyxy(b).long()
clip_boxes(xyxy_tensor, im0.shape)
# 裁剪图像并处理通道顺序
x1, y1, x2, y2 = int(xyxy_tensor[0, 0]), int(xyxy_tensor[0, 1]), int(xyxy_tensor[0, 2]), int(
xyxy_tensor[0, 3])
crop = im0[y1:y2, x1:x2, :] # 裁剪原图像 (RGB 顺序)
# 确保裁剪结果是 numpy 格式且数据类型正确
crop = crop.astype(np.uint8)
crop = cv2.cvtColor(crop,cv2.COLOR_BGR2RGB)
plate_num = get_text(crop)
if plate_num != None:
# 长度为9
if len(plate_num) == 9:
label = None if hide_labels else (names[c] if hide_conf else f'{names[c]}{conf:.2f}')
label = f"{label} {plate_num}"
annotator.box_label(xyxy, label, color=colors(c, True))
count += 1
接下来是OCR的函数函数构造:
import torch
import cv2
import paddlehub as hub
from PIL import Image
import numpy as np
from paddleocr import PaddleOCR
ocr = hub.Module(name="ch_pp-ocrv3", enable_mkldnn=True)
def get_text(img):
# 将图像转换为 RGB 格式
if isinstance(img, np.ndarray): # 如果是 OpenCV 的 BGR 图像
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
elif isinstance(img, Image.Image): # 如果是 PIL 图像
img = img.convert('RGB')
rs = ocr.recognize_text(images=[img])
for i in rs:
text = i['data']
if not text:
continue
else:
name = text[0]['text']
return name
return None
对于此函数能够介绍的很少,需要注意的是ocr的初始是扔在外面的,避免每次图片处理都会初始化启动ocr,然后就是最后在返回识别出的数据的判断,在框内未识别到信息时返回的是None,而在接受端会对此输出进行判断将返回为None和长度不符合标准的都直接拒绝更改,这样就避免了在返回为Noneytype时出现无法使用列表方法的情况。
然后就是我们很多人会遇到的新问题,当我们将这些都进行了修改时,我们的程序主流程是不会报错的,但是会出现一个错误就是提示annotator没有构建一个名为‘draw‘的方法,这是很多人都遇到的问题,而导致这个问题的原因则是在annotator中有一判断为pil,在未更改label时虽然是默认不执行pil的,但是他的不需要构建draw方法的,而再更改后是需要的,所以我们直接在构建Annotator时设置参数pil为true就能够调用所需的draw方法。
最后需要解决的问题就是在识别到车牌,单是对最前面的省的中文乱码情况。而这个情况的解决方法则是粗暴的将Annotator的函数构造中的字体直接改为能够显示中文的simhei.ttf,这个乱码就迎刃而解了。
7. 模型应用
推理工作
这里就可以更改控制行命令和资源文件了
python detect_plate.py --weights runs/train/exp23/weights/best.pt --source car3.pm4 --view-img
这段命令就能够直接观察视频处理时的情况了,而能够观察到的现象大概包括当画面中有框时视频会掉帧,而标签栏内会在识别到文字时打印出来,也可以在detect的结果中看到输出的img。
8. 项目总结
8.1 遇到的问题
本次遇到的问题在之前的文章内有了大多的介绍,这里就总结一下。主要遇到的问题就是在哪里添加代码,在添加代码过程中遇到的问题,在代码完成后对输出性能的优化和输出时的标签问题的解决。
虽然我解决了大部分的问题,但是对于该项目仍然存在诸多的问题,例如目前的模型只支持绿牌车,这个倒是简单,直接在训练数据集中加入其他颜色的数据集即可。还有例如性能优化的问题,我目前的操作只有ocr提前初始化,使用轻量化的ocr模型。但是我还有很多的方式没有去尝试,例如使用onnx进行模型加载,或者使用torch.hub.load进行加载和推理,直接在自定义方法中进行代码的尝试和视频的处理等,但是使用这样的方式带来的问题也非常多例如需要自定义NMS和自定义画框等等函数都需要自己去处理。
8.2 收获
本次完成的这个项目最大的提升的话其实是训练了我的优秀封装函数的阅读能力,本次的yolov5模型的封装策略非常的厉害,很多地方为了减少代码的复写都考虑到了定义方法和直接使用表达式进行代码的书写,逻辑性极强。
然后就是对yolov1-yolov5的架构有了大致的了解,对他的网络结构也有了一定的了解。虽然不能够做到随意的去修改他的网络结构但是还是能够理解一下了,而yolov5有是其中最典型最完善的所以完成一次基于yolov5的项目也能够大幅度提升我对于yolo系列框架的操作熟练度。虽然已经接触过了yolo11,也尝试过了yolo11的可编辑模式去修改yolo11的网络结构,但是yolov5的项目仍然是我不可或缺的经验之一。
了一定的了解。虽然不能够做到随意的去修改他的网络结构但是还是能够理解一下了,而yolov5有是其中最典型最完善的所以完成一次基于yolov5的项目也能够大幅度提升我对于yolo系列框架的操作熟练度。虽然已经接触过了yolo11,也尝试过了yolo11的可编辑模式去修改yolo11的网络结构,但是yolov5的项目仍然是我不可或缺的经验之一。