Alfresco'da OCR Yapılandırma

Optik Karakter Tanıma

Mehmet Demirel

OCR (Optik Karakter Tanıma), yazılı veya yazılı metin karakterlerinin bilgisayar tarafından tanınmasıdır. Görüntülerdeki veya taranmış belgelerdeki karakterleri tanır ve görüntüleri (metin içeren) aranabilir hale getirir. OCR, herhangi bir ECM ürünü veya yazılımı için çok kullanışlı bir özelliktir. Bu blogda, Alfresco Community Edition'da nasıl yapılandırabileceğimizi göreceğiz. Bunu Alfresco sürüm 5.1.f ve 5.2.e ile test ettik.


Alfresco Community / Enterprise Edition yüklendi ve çalışıyor

Alfresco yönetiminin temel bilgisi

Tesseract'ı Yapılandırma Adımları:


1. Tesseract'ı indirin ve yükleyin
https://github.com/tesseract-ocr/tesseract

Linux:

apt-get install tesseract-ocr


2. Alfresco tomcat sunucusunu durdur

./alfresco.sh dur tomcat


3. Linux / Windows içerik dosyasını indirin ve

<ALFRESCO-HOME>/tomcat/shared/classes/alfresco/extension/


4. ocr.bat (Windows) ve ocr.sh (Linux) öğelerini <ALFRESCO-HOME> /


a) ocr.bat (Windows için)


Ne olacağını görmek için REM

a) ocr.bat (for Windows)


REM to see what happens

mkdir c:\tmp

echo from %1 to %2 >> C:\\tmp\ocrtransform.log

copy /Y %1 "C:\TMP\%~n1%~x1"

echo target %~d2%~p2%~n2

REM call tesseract and redirect output to $TARGET

"C:\Program Files (x86)\Tesseract-OCR\tesseract.exe" "C:\tmp\%~n1%~x1" "%~d2%~p2%~n2" -l eng

b) ocr.sh (for Linux)


# save arguments to variables

SOURCE=$1

TARGET=$2

TMPDIR=/tmp/Tesseract

FILENAME=`basename $SOURCE`

OCRFILE=$FILENAME.tif

# Create temp directory if it doesn't exist

sudo mkdir -p $TMPDIR

# to see what happens

#echo "from $SOURCE to $TARGET" >>/tmp/ocrtransform.log

sudo cp -f $SOURCE $TMPDIR/$OCRFILE

# call tesseract and redirect output to $TARGET

sudo /usr/local/bin/tesseract $TMPDIR/$OCRFILE ${TARGET%\.*} -l eng

#sudo tesseract $TMPDIR/$OCRFILE ${TARGET%\.*} -l eng

sudo rm -f $TMPDIR/$OCRFILE


Not: tesseract komutunun yolunun ocr.sh / ocr.bat dosyasında doğru olduğundan emin olun

Linux:

/usr/local/bin or /usr/bin


Windows


C: \ Program Dosyaları (x86) \ Tesseract-ocr \ tesseract.exe

veya C: \ Program Files \ Tesseract-ocr \ tesseract.exe


5. Mevcut kullanıcı ocr.sh üzerinde okuma ya da yürütme iznine sahip değilse, veriniz.


chmod + rx /opt/alfresco-community/ocr.sh


6. adresinde bulunan alfresco-global.properties dosyasına aşağıdaki özellikleri ekleyin


/opt/alfresco-community/tomcat/shared/classes/


Linux:


ocr.script=/opt/alfresco-community/ocr.sh

ghostscript.exe=gs


Windows:


ocr.script = C: \ <ALFRESCO-HOME> \ ocr.bat

ghostscript.exe = gs


7. tomcat sunucusunu başlat

Linux:


./alfresco.sh tomcat başlat


Windows:


C: \ <ALFRESCO-HOME> \ tomcat \ bin \ startup.bat tuşuna basın.

Veya manager-windows.exe dosyasını kullanın.


Not: Açık havada bulunan dosyalar OCR olmayacak, test etmek için yeni resim dosyaları yüklemelisiniz.


Önemli:


Bağlam dosyasında doğru argümanları ilettiğinizden emin olun (bağlam dosyalarındaki girdiler Windows ve Linux için farklı olacaktır).

.Bat veya .sh komutlarınızın düzgün çalışıp çalışmadığını kontrol edin.

Tesseract'ın görüntü dosyası için metin dosyası oluşturduğunu doğrulayın

Bunun, tesseract'ın yüklü olduğu dizine gidin ve aşağıdaki komutu çalıştırın.

tesseract ./<image dosya adı> ./<text dosya adı> -l eng

Metin dosyası içinde bir içeriğe sahipse, tesseract'ınız çalışıyor demektir.


İçeriğiniz hala aranamıyorsa, burada yorum yapın. ECM'nin karşılaştığı zorlukları bilmekten mutluluk duyuyoruz, çözmeyi sevdiğimiz için Bize ulaşın!