فرهنگ و تاريخ | سرگرمي | نيازمنديها | مذهبي | اقتصادي | خانواده و اجتماع | هنر | اخبار | ورزش | کامپيوتر | گردشگري | صنعت و دانشگاه | صفحه اصلي

آموزش کارکردن با نرم افزارها
دانلود نرم افزارهاي کاربردي
آموزش سخت افزار کامپيوتر
آخرين قيمت قطعات کامپيوتر
آموزش ويندوز و ترفندهاي آن
معرفي انواع سيستم عاملها
آموزش کار با اينترنت و شبکه
مبارزه با ويروسهاي کامپيوتري
رده بندي سايتهاي کامپيوتري
نشريات و کتابهاي کامپيوتري
 
 

عنوان: فناوري OCR چيست

نويسنده: ميلاد                            ايميل: miladnasa2004@gmail.com

منبع اطلاعاتي: miladnasa2004.persianblog.ir            تاريخ نگارش: 07/03/1389

 
 

 

گالري تصاوير

 

مطالب مرتبط 1

   
 
 

 OCR که سررشته کلمات Optical Character Recognition مي باشد، به تکنيکي اطلاق مي شود که در طي آن يک برنامه کامپيوتري متون موجود درتصاوير ديجيتالي را شناسايي کرده و آنها را به صورت خودکار به فايلهاي متني قابل ويرايش تبديل مي کند.ترجمة مناسبي که در زبان فارسي براي نرم افزارOCR در نظر گرفته شده است نويسه خوان نوري مي باشد و نام نويسه خوان آراکس نيز بر همين مبنا بوجود آمده است.

 

 

فرض کنيد شما يک متن کاغذي مانند نام، قرارداد، RFP، مقاله، کتاب و ... را در اختيار داريد و بايد آن را وارد کامپيوترکنيد تا در مطالعات خود يا تهيه گزارشات و ... مورد استفاده قرار دهيد. اولين راهي که به ذهن مي رسد و متأسفانه تا کنون در مورد متون فارسي مورد استفاده قرار گرفته است، اين است که متن موجود در اين اسناد دوباره بوسيله اپراتور تايپ شود. بديهي است اين کار بسيار وقت گير است، به علاوه وقتي بخواهيم حجم انبوه اسناد مکتوب را به صورت ديجيتال درآوريم ، اين مشکلات نمود بيشتري خواهد داشت. دومين راهي که با گسترش فناوري اطلاعات در سالها ي اخير در بسياري از سازمانها مورد استفاده قرار گرفته است ، تصوير برداري از روي اسناد کاغذي به وسيله اسکنرها و انتقال تصاوير ديجيتالي توليد شده به سيستم هاي کامپيوتري مي باشد.

گر چه در اين روش با ايجاد آرشيو الکترونيکي از اسناد بهبود نسبي در فرايند نگهداري اسناد و دستيابي به آنها ايجاد شده است اما کماکان امکان جستجو در داخل متن اين اسناد و بهره برداري از آنها وجود ندارد ، به عبارت ديگر تصاوير ديجيتالي اسناد که با استفاده از اسکنر بدست مي ايند فاقد ارزش کافي مي باشند مگر آنکه بتوان در متن آنها جستجو نمود.
نرم افزار OCR مشکل فوق را برطرف مي کند، به اين ترتيب که تصوير ديجيتال اسناد را دريافت کرده و با تحليل محتواي آنها اطلاعات مختلف موجود را شناسايي کرده و با توجه به نوع آنها، فرايند تبديل خودکار تصوير به متن را انجام مي دهد.

◄   فناوري OCR
چنانچه فرايندOCR رابه صورت يک (Black Box) در نظر بگيريم ورودي آن تصوير سند مورد نظر و خروجي آن فايل ديجيتالي قابل ويرايش از اطلاعات سند (مثلاً به فرمت MS- Word) مي باشد.



شکل زير فرايند OCR را با جزئيات بيشتري نشان مي دهد. در اين شکل مراحل مختلف OCR که به صورت جعبه سياه معرفي شده بودند ، تشريح شده است:



به عنوان مثال فرايند OCR به ترتيب زير انجام مي شود.

با دريافت تصوير يک سند، ابتدا فرايند، تحليل محتوا مي شود و نواحي مختلف اطلاعاتي در تصوير شناسايي مي شوند.شکل زير نمونه اي از تصوير يک سند را نشان مي دهد که شامل 3 نوع ناحيه مختلف مي باشد: ناحيه متني، ناحيه تصويري و ناحيه جدول.

 


سپس با توجه به نوع ناحيه ، نويسه خوان آراکس اقدام لازم را انجام داده و اطلاعات موجود را شناسايي مي کند:

      
●   نواحي متني پردازش شده ومتن موجود در آنها با حفظ نوع قلم خوانده مي شوند.
      
●   نواحي تصويري دقيقاً مانند تصوير ورودي حفظ مي شوند.
      
●   تک تک سلولهاي جدول در نواحي جدولي شناسايي شده و متن درون آنها خوانده مي شود. سپس به صورت يک جدول قابل ويرايش

           در خروجي قرار داده مي شود.

در مرحله بعد نويسه خوان آراکس اطلاعات خوانده شده را در يک ويرايشگر استاندارد به شما نشان مي دهد . مي توانيد با اعمال غلط ياب فارسي و انگليسي، اشتباهات احتمالي را به سرعت تصحيح نماييد.

در انتهاي فرايند OCR، فايل خروجي که داراي کليه اطلاعات سند ورودي است توليد مي شود.

 

:◄   مقايسهOCR فارسي با لاتين
براي زبانهاي لاتين مانند انگليسي و فرانسه از سالها قبل نرم افزارهاي OCR بوجود آمده و سير تکاملي خود را طي نموده اند. اما متأسفانه تا کنون براي زبان فارسي با تاريخ چند هزار ساله، نرم افزار OCR مناسب توليد نشده است.
يکي از دلايل اين امر پيچيدگي بالا و مشکل بودن ساختار و نوشتار زبان فارسي در مقايسه با زبانهاي لاتين مي باشد.به عنوان مثال از آنجا که در زبانهاي لاتين نويسه ها (کاراکترها) به صورت مجزا از هم نوشته مي شوند کار شناسايي آنها بسيار ساده است اما در زبان فارسي ابتدا بايد کلمات (که داراي کاراکترهاي متصل هستند) به کاراکترهاي مجزا تبديل شوند اين فرايند با توجه به تنوع قلم ها در زبان فارسي يکي از مشکل ترين بخش هاي سيستم OCR است.
نويسه خوان آراکس که حاصل سالها تلاش شبانه روزي در بخش تحقيق و توسعه شرکت هدي سيستم مي باشد، بسياري از مشکلات فرا روي OCR فارسي را برطرف نموده و پس از سالها، زبان فارسي را داراي يکي از قويترين نرم افزارهاي OCR موجود کرده است. در اين حال به منظور فراهم آوردن حداکثر امکانات، نويسه خوان آراکس به خوبي نرم افزار OCR لاتين مي تواند متون انگليسي را نيز بخواند، بعلاوه نويسه خوان آراکس قادر است متون و عبارات انگليسي را در متون فارسي شناسايي کرده و آنها را بخواند.

 

 

 

 

 

گروه علمي فدک

کليه مطالب ارسالي با نام اشخاص و ذکر منبع در اين سايت درج مي شود

راهنما  |  آمار سايت  |  درباره ما  |  تماس با ما  |  نظر خواهي  | آرشيو  |  عضويت در سايت