Pensamientos del proyecto: búsqueda de directorio de archivos PDF

Para comenzar esto, sé que hay discusiones sobre esto en varios lugares. La mitad de lo que leo está desactualizado, tiene errores o simplemente no está relacionado con mi situación.

Es por eso que lo traigo a la comunidad que sé que tendrá las respuestas.

Pregunta: Tengo un directorio (en línea es ideal) de alrededor de 70,000 páginas en documentos PDF (los documentos oscilan entre 20 y 100 páginas, sumn alrededor de 70,000 páginas).

Estoy buscando un método, guión o idea para la forma más fácil de buscar estos productos en PDF. Todos los archivos PDF tienen una capa de texto creada por OCR en Acrobat.

Cualquier idea , ya sea elaborada o inventiva, es más que bienvenida.

Mi recomendación sería Apache Solr (un servidor de búsqueda creado usando Lucene) y es muy fácil de usar usando la interfaz RESTful. También tiene un subproyecto llamado Tika que extrae metadatos y contenido de texto estructurado de múltiples formatos (incluido el PDF).

Utilice un motor de búsqueda como Lucene o Sphinx para indexar y etiquetar los archivos PDF. Zend Framework tiene ambos, un componente para leer y escribir archivos PDF y una implementación de Lucene .

XPDF tiene una utilidad llamada pdftotext que a menudo está instalada en las distribuciones de Linux. Crearía una herramienta que usa eso para crear un índice de palabras para el documento en el que aparecen. Podría almacenar el índice en una base de datos y luego escribir una búsqueda en contra de eso.

Tomaría un poco más de espacio, pero sería simple incluir una oración de contexto para mostrar en los resultados de búsqueda.