بایدو پس از معرفی مدل Ernie X1.1، حالا مدل جدید PP-OCRv5 را منتشر کرده است. PP-OCRv5 یک مدل تشخیص نوری حروف (OCR) است که هماکنون از طریق Hugging Face در دسترس کاربران قرار دارد.
به گزارش گیزموچاینا، نکتهای که این مدل را از رقبا متمایز میکند توانایی بسیار خوب آن در خواندن متون است. همچنین این مدل سبک و کم حجم طراحی شده. یکی از ضعفهای مدلهای بزرگ بینایی زبان این است که بعضاً در انجام کار دقیق و جزئی مانند خواندن متنهای ساختاریافته با مشکل مواجه میشوند. اما PP-OCRv5 میتواند چنین مشکلی را برای کاربران حل کند.
مدل هوش مصنوعی PP-OCRv5 به طور خاص برای دور زدن این محدودیتها طراحی شده است. این مدل در دو مرحله اصلی کار میکند، یعنی در ابتدا موقعیت متن را در تصویر پیدا میکند و سپس خود متن را میخواند.
این رویکرد به مدل کمک میکند تا مشخص کند متن دقیقاً در کجا قرار دارد. همچنین این روش برای استخراج دادهها از اسناد یا تحلیل فرمها بسیار کاربردی است. مدل PP-OCRv5 فقط ۰.۰۷ میلیارد پارامتر دارد که در مقایسه با مدلهای شناختهشده این حوزه بسیار کوچک است.
بایدو این مدل را روی سیستمهای موبایل آزمایش و مشاهده کرده که میتواند بیش از ۳۷۰ کاراکتر در ثانیه روی پردازنده اینتل Xeon پردازش کند. این یعنی میتوان این مدل را روی کامپیوترهای معمولی یا حتی دستگاههای لبه فناوری بدون نیاز به دیتاسنترهای بزرگ اجرا کرد.
بایدو PP-OCRv5 را در وظایف OCR با برخی مدلهای شناختهشده مانند جمینای ۲.۵ پرو و GPT-4o مقایسه کرده و این مدل توانسته عملکرد خوبی از خود نشان دهد. همچنین این مدل میتواند هم متون چاپی و هم دستنویس را بهخوبی پردازش کند و در مجموع از بیش از ۴۰ زبان پشتیبانی میکند.
بایدو این مدل را از طریق Hugging Face در دسترس همه قرار داده است و توسعهدهندگان میتوانند بهراحتی از آن استفاده کنند.