Cloud Based WEB Application Design for Automatic Turkish Business Card Recognition and Its Performance Evaluation


Şahin İ., Uçar M. H. B. , Solak S.

Gazi Üniversitesi Fen Bilimleri Dergisi Part: C Tasarım ve Teknoloji, vol.10, no.1, pp.118-134, 2022 (Other Refereed National Journals)

  • Publication Type: Article / Article
  • Volume: 10 Issue: 1
  • Publication Date: 2022
  • Doi Number: 10.29109/gujsc.1030997
  • Title of Journal : Gazi Üniversitesi Fen Bilimleri Dergisi Part: C Tasarım ve Teknoloji
  • Page Numbers: pp.118-134

Abstract

In this study, digital-business card holder software was developed that digitally stores physical business cards prepared in Turkish in a cloud-based database. In the proposed software, the information on the physical business card is converted into text by optical character recognition method (OCR) using business card photos, and then the texts obtained with the help of developed algorithms are separated and grouped. Finally, the digitally obtained business card data is stored in the cloud-based database for later use. Considering the Turkish business cards, it is known that there are a wide variety of complex business cards unique to the country as well as the characters specific to the Turkish language. In this context, first of all, a method that correctly recognizes Turkish characters has been determined in the study. Later, name, mobile phone, e-mail address, company title, position and similar meaningful information were separated from the data read. In order to make these decompositions, special methods have been developed for each field and more accurate and meaningful data has been obtained with fieldbased algorithms. Thanks to the developed cloud-based platform-independent interface, it is possible to access data from more than one device with a single user over the internet. The study also offers a layered service architecture and database infrastructure that can be used by multiple accounts and multiple users connected to it simultaneously from a single platform. In the experimental studies, the proposed software can extract the data on 15 physical business cards with different features with 84.76% Accuracy, 96.05% Precision, 84.88% Recall, 90.12% F1 Score and an average extraction time of 1.6 seconds.

Bu çalışmada, Türkçe hazırlanmış fiziksel kartvizitleri, sayısal olarak bulut tabanlı veritabanında saklayan dijital-kartvizitlik yazılımı geliştirilmiştir. Önerilen yazılımda, fiziksel kartvizit üzerindeki bilgiler kartvizit fotoğraflarından optik karakter tanıma (Optical Character Recognition: OCR) yöntemi ile metne çevrilmekte daha sonra geliştirilen algoritmalar yardımıyla elde edilen metinler ayrıştırılarak gruplandırılmaktadır. Son olarak sayısal olarak elde edilen kartvizit verileri, daha sonra kullanılmak üzere bulut tabanlı veritabanında saklanmaktadır. Türkçe kartvizitler göz önüne alındığında, Türk diline özgün karakterlerin yanı sıra ülkeye özgün çok çeşitli-karmaşık kartvizitlerin de olduğu bilinmektedir. Bu kapsamda çalışmada öncelikli olarak Türkçe karakterleri doğru tanıyan bir yöntem belirlenmiştir. Daha sonra okunan verilerden isimler, cep telefonu, e-posta adresi, şirket unvanı, görevi ve benzeri anlamlı kartvizit bilgilerinin ayrıştırılması yapılmıştır. Bu ayrıştırmaları yapabilmek için her alan için kendine özel yöntemler geliştirilerek alan bazlı algoritmalarla daha doğru ve anlamlı verilerin elde edilmesi sağlanmıştır. Geliştirilen bulut tabanlı, platformdan bağımsız arayüz sayesinde internet üzerinden tek kullanıcı ile birden fazla cihazdan verilere erişilebilmesine olanak sağlanmıştır. Çalışma aynı zamanda tek bir platformdan, birden çok hesap ve ona bağlı birden fazla kullanıcının aynı anda kullanabileceği katmanlı servis mimarisi ve veritabanı alt yapısı da sunmaktadır. Yapılan deneysel çalışmalarda, geliştirilen yazılım, farklı özelliklere sahip 15 adet fiziksel kartvizitteki verileri, %84,76 Doğruluk, %96,05 Kesinlik, %84,88 Duyarlılık, %90,12 F1 Skoru ve ortalama 1,6 sn’lik çıkartım süreleriyle okuyarak ayrıştırabilmektedir.