I just uploaded to my fedorapeople space RPM packages for RDKit newest release. These are for Fedora 18 and EPEL 6, 64 bit only. Just ping me if you need 32 bit or Fedora 17 builds.
PLEASE NOTE
This package is in the Fedora review queue since some time so if you are a packager please consider helping to finish the review. Of course I can review something for you in return.
Wednesday, January 23, 2013
Monday, January 21, 2013
Anaconda "fun" moment
I suspect Anaconda was not ever run by anyone in a non-English language during the Fedora 18 cycle, otherwise I can not explain this:
Friday, January 4, 2013
Riconoscimento testi (OCR) in Fedora
Una delle esigenze che si hanno spesso nell'utilizzo di un computer, riguarda il riconoscimento automatico dei testi a partire dalle immagini digitali (OCR).
Per Linux esistono diversi strumenti che permettono l'OCR, alcuni di essi anche molto potenti.
La combinazione "engine-frontend" che per l'esperienza che ho avuto funziona meglio su Fedora, è questa:
L'engine: Tesseract
Installazione: yum install tesseract tesseract-langpack-ita
Tesseract è un software inizialmente proprietario e sviluppato anni fa dall'HP, ora è distribuito con Licenza Apache ed è sponsorizzato da Google. E' un engine molto potente e versatile, permette il riconoscimento dei testi con una miriade di lingue, tra cui anche l'Italiano.
Limitazioni: così com'è, può essere utilizzato solo da riga di comando e permette solo la lettura di immagini Tiff, difetto risolvibile con la gui giusta.
L'altra limitazione è il mancato riconoscimento del layout delle pagine.
Il front-end: gImageReader
Installazione: scegliere la versione più recente e scaricare l'RPM da qui (va bene anche quello per F15).
gImageReader è una semplice interfaccia grafica per Tesseract la quale, tra l'altro, permette di utilizzare anche immagini che non siano in formato Tiff.
Il programma è minimale, ma permette di fare il riconoscimento dei testi senza troppe complicazioni.
L'immagine sorgente può essere manipolata direttamente dal programma per migliorarne il riconoscimento (tramite contrasto, luminosità...), l'output infine può essere salvato su un file di testo.
Per Linux esistono diversi strumenti che permettono l'OCR, alcuni di essi anche molto potenti.
La combinazione "engine-frontend" che per l'esperienza che ho avuto funziona meglio su Fedora, è questa:
L'engine: Tesseract
Installazione: yum install tesseract tesseract-langpack-ita
Tesseract è un software inizialmente proprietario e sviluppato anni fa dall'HP, ora è distribuito con Licenza Apache ed è sponsorizzato da Google. E' un engine molto potente e versatile, permette il riconoscimento dei testi con una miriade di lingue, tra cui anche l'Italiano.
Limitazioni: così com'è, può essere utilizzato solo da riga di comando e permette solo la lettura di immagini Tiff, difetto risolvibile con la gui giusta.
L'altra limitazione è il mancato riconoscimento del layout delle pagine.
Il front-end: gImageReader
Installazione: scegliere la versione più recente e scaricare l'RPM da qui (va bene anche quello per F15).
gImageReader è una semplice interfaccia grafica per Tesseract la quale, tra l'altro, permette di utilizzare anche immagini che non siano in formato Tiff.
Il programma è minimale, ma permette di fare il riconoscimento dei testi senza troppe complicazioni.
L'immagine sorgente può essere manipolata direttamente dal programma per migliorarne il riconoscimento (tramite contrasto, luminosità...), l'output infine può essere salvato su un file di testo.
Subscribe to:
Posts (Atom)