OCR通用識(shí)別能力及場(chǎng)景識(shí)別能力的訓(xùn)練和服務(wù)
發(fā)布日期:2024/2/3 15:27:19 瀏覽量:
基于百度大規(guī)模圖片語(yǔ)料數(shù)據(jù)訓(xùn)練的通用OCR基礎(chǔ)模型,通過(guò)對(duì)用戶掃描文檔數(shù)據(jù)的調(diào)優(yōu)訓(xùn)練,得到高精度文檔OCR模型。OCR模型支持中英文兩種語(yǔ)言,適配純手寫(xiě)、純印刷和手寫(xiě)印刷混排等多種場(chǎng)景。采用百度飛槳識(shí)別模型套件PaddleOCR,目標(biāo)是打造豐富、領(lǐng)先、實(shí)用的文本識(shí)別模型/工具庫(kù)。 PaddleOCR是基于飛槳開(kāi)發(fā)的OCR(Optical Character Recognition,光學(xué)字符識(shí)別)系統(tǒng),基于人工標(biāo)注、機(jī)器自動(dòng)標(biāo)注等手段得到的大規(guī)模版面標(biāo)注數(shù)據(jù),來(lái)訓(xùn)練目標(biāo)檢測(cè)模型,從而識(shí)別和定位印章、圖表、段落、標(biāo)題等元素信息,再使用百度知識(shí)增強(qiáng)的持續(xù)學(xué)習(xí)語(yǔ)義理解框架,借鑒文檔理解預(yù)訓(xùn)練模型(Layout LM)的設(shè)計(jì)思想,在訓(xùn)練數(shù)據(jù)擴(kuò)增、預(yù)訓(xùn)練任務(wù)設(shè)計(jì)、位置向量編碼、模型結(jié)構(gòu)等方面深入探索,充分結(jié)合文本內(nèi)容、圖像、空間位置等信息,實(shí)現(xiàn)文檔智能分析,可以實(shí)現(xiàn)包括文字檢測(cè)、文字識(shí)別、文本方向檢測(cè)和圖像處理等模塊,具有高精度、多語(yǔ)種支持、高效性、易用性、魯棒性等優(yōu)點(diǎn)。
針對(duì)采購(gòu)尋源、合同管理及履約等場(chǎng)景,項(xiàng)目一個(gè)完整的定制化OCR訓(xùn)練流程步驟如下:
(1)原始數(shù)據(jù)準(zhǔn)備:根據(jù)項(xiàng)目需求場(chǎng)景準(zhǔn)備需要OCR訓(xùn)練的原始資料。例如:身份證、營(yíng)業(yè)執(zhí)照、發(fā)票等原始資料的掃描電子文件等。
(2)打標(biāo)工具標(biāo)注:逐個(gè)檢查每個(gè)圖像的標(biāo)注框是否正常,識(shí)別內(nèi)容是否準(zhǔn)確。如果發(fā)現(xiàn)標(biāo)注框異常的,自行調(diào)整至正常,或者刪除掉,重新手動(dòng)標(biāo)注,手動(dòng)標(biāo)注確認(rèn),重新識(shí)別后檢測(cè)識(shí)別結(jié)果是否準(zhǔn)確,如果錯(cuò)誤,需要手動(dòng)更正。確保標(biāo)注框和識(shí)別結(jié)果準(zhǔn)確無(wú)誤后確認(rèn)完成一個(gè)圖像的標(biāo)注。
(3)準(zhǔn)備標(biāo)注完成的數(shù)據(jù)集:首先,準(zhǔn)備一個(gè)完成標(biāo)注的數(shù)據(jù)集,該數(shù)據(jù)集包含了需要建模的序列數(shù)據(jù)。
(4)定義模型:在百度飛槳中,使用自定義一個(gè) Transformer 模型。或者使用飛槳提供的 PaddleNLP 庫(kù)中的 Transformer 模型,或者自定義 Transformer 模型。
(5)配置訓(xùn)練參數(shù):在訓(xùn)練模型之前,定義訓(xùn)練參數(shù),如學(xué)習(xí)率、批次大小、迭代次數(shù)等。
(6)訓(xùn)練模型:在訓(xùn)練參數(shù)配置好之后,使用百度飛槳提供的 Trainer 類來(lái)訓(xùn)練模型。在每次迭代中,Trainer 類將從數(shù)據(jù)集中獲取一批數(shù)據(jù),并使用定義的優(yōu)化器和損失函數(shù)計(jì)算模型參數(shù)的梯度。最后,Trainer 類將使用反向傳播算法更新模型參數(shù)。
(7)測(cè)試模型:訓(xùn)練結(jié)束后,使用測(cè)試數(shù)據(jù)集來(lái)評(píng)估模型的性能,計(jì)算模型的準(zhǔn)確率、精度等指標(biāo)。
(8)搭建API框架支撐項(xiàng)目前端應(yīng)用自訓(xùn)練模型。選擇FastAPI框架創(chuàng)建和部署API服務(wù),FastAPI可以簡(jiǎn)單而快速構(gòu)建精細(xì)和高性能API。
馬上咨詢: 如果您有業(yè)務(wù)方面的問(wèn)題或者需求,歡迎您咨詢!我們帶來(lái)的不僅僅是技術(shù),還有行業(yè)經(jīng)驗(yàn)積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生