Technology & Deployment

Open-Source Foundation

Transcription: Faster-Whisper or OpenAI Whisper (quantized for speed).
Analysis: Quantized open-source LLMs for entity extraction, inconsistency detection, and summarization.
Frontend: Streamlit-based local dashboard for case management, audio upload, and chat interface.
RAG Pipeline: Voice → Text → Embeddings → Semantic Search → LLM Generation.

Recommended Hardware (Pilot)

Apple MacBook Pro M4 Max (128 GB unified memory, 40-core GPU)
Alternative: Dedicated air-gapped mini-PC with NVIDIA A6000/A100-class GPU for multi-station use.
Performance: Real-time transcription, full analysis in <10 minutes per interview.
No internet required after initial setup.

Deployment Model

One-time hardware + software bundle.
Optional annual support/maintenance.
Pilot available (5 cases, logged time savings).