wordpress整站模板,南宁seo网络优化公司,北京网站制作公司兴田德润实惠,南通企业网站怎么建设自然场景文本识别我之前是做自然语言的#xff0c;但公司有个ocr的项目必须要做#xff0c;因此开始学习ocr相关知识#xff0c;边学边做两个多月#xff0c;还有很多不太明白的地方#xff0c;只能大概讲一讲经验教训。自然场景文本分类包括两个步骤#xff0c;1、文本检… 自然场景文本识别我之前是做自然语言的但公司有个ocr的项目必须要做因此开始学习ocr相关知识边学边做两个多月还有很多不太明白的地方只能大概讲一讲经验教训。自然场景文本分类包括两个步骤1、文本检测识别出文本框2、文本识别识别出字或者字符。1、 文本检测文本检测和目标检测类似但又有不同目标检测的物体形状一般是不固定的而文本框一般是矩形另外文本检测是二分类而目标检测是多分类。成熟的文本检测算法有很多我尝试了ctpneast以及yolo3包括yolo3-tiny等三种文本检测算法。目前只考虑水平文本有很多其他算法可以检测非水平文本包括east2、 文本识别文本识别尝试了crnn和densenet总体来看性能差不多。由于对qps有要求因此尝试使用tensorrt对模型进行推理优化keras转trt模型较好的路径还是keras→onnx→trt而不是keras→uff→trt因为有很多操作uff都不支持。使用tensorrt后时延从120ms降到了90ms可以说达到了目的。但是tensorrt只支持定长只能将图片压缩到固定值例如608*608会损失一定精度tensorrt6以后应该是支持变长的后面有时间会研究一下这个问题。因为要综合考虑性能和效率最终使用yolo3densenet作为解决方案从时延和性能上看yolo3都是远远好于ctpn和east只考虑水平文本这和我看到的一些信息不符ctpn和east都是工业界运用比较多的算法了但这里我没看到任何优势如果有大神了解欢迎指正。使用tensorrt进行推理优化平均时延大约90ms左右。程序是由python实现改成c时延应该会更低一些。使用了10000条数据进行测试使用hmean和编辑距离作为评价指标https://github.com/liuheng92/OCR_EVALUATION.git最好模型yolo3-608-densenet结果为recall: 0.7576752977446645, precision: 0.7358534281487819, hmean: 0.7466049438527332 distance: 28.814918508149184,附代码地址https://github.com/zhaogangthu/keras-yolo3-ocr-tensorrt.git另外我对推理加速问题很感兴趣如果有大神有过研究欢迎指教。有其他问题也可一起讨论。——————————————————————————————————————2020年9月25日更新tensorrt已经支持动态输入请查看赵刚tensorRT动态输入pythonzhuanlan.zhihu.com