Repo READMEs now show both download flavors side-by-side with first-launch warnings (SmartScreen, Gatekeeper) and link to the deeper walkthrough. USER-GUIDE §1 rewritten from a 9-line stub into six subsections: - §1.1 Windows: installer (5 steps) + portable (4 steps) - §1.2 macOS: DMG (5 steps incl. right-click-Open) + portable - §1.3 Linux: AppImage flow (unchanged) - §1.4 First-launch: port selection, localhost binding, browser open - §1.5 How the GUI works - §1.6 System requirements §6 Troubleshooting picks up portable-specific items: Safari unzip quirks, antivirus quarantine on Win portable, license file location. docs/README and Spanish mirrors updated to match. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
6.1 KiB
🌐 Idioma: Español · English
DataTools
Limpieza local de CSV / Excel. CLI + GUI en el navegador, sin nube, sin ceremonias de instalación. La GUI incluye paquetes de idioma en inglés y español.
Herramientas
| # | Herramienta | Estado |
|---|---|---|
| 01 | Buscar duplicados — coincidencia exacta + difusa, 5 normalizadores, reglas de superviviente, auditoría | Listo |
| 02 | Limpiar texto — espacios, caracteres tipográficos, BOM, finales de línea, mayúsculas/minúsculas | Listo |
| 03 | Estandarizar formatos — fechas, teléfonos, correos, direcciones, nombres, monedas, booleanos | Listo |
| 04 | Corregir valores faltantes — detección de nulos disfrazados, perfil, media/mediana/moda/ffill/bfill/interpolación, estrategias de descarte | Listo |
| 05 | Mapear columnas — autodetección difusa de renombrados, esquema objetivo con coerción de tipos, campos requeridos con valores por defecto, descartar/reordenar | Listo |
| 06 | Detectar valores atípicos | Próximamente |
| 07 | Combinar archivos | Próximamente |
| 08 | Verificación de calidad | Próximamente |
| 09 | Flujos automatizados — encadena herramientas en un orden recomendado (no forzado), guarda/carga JSON, automatiza limpiezas semanales | Listo |
Descarga (usuarios no técnicos)
Paquetes precompilados — sin instalar Python, sin permisos de administrador, sin internet en ejecución. Cada versión ofrece dos formatos por sistema operativo: un instalador que crea accesos directos en el escritorio + menú Inicio / Launchpad, y un .zip portable que descomprimes y haces doble clic. Elige el que te permita tu política de TI.
| Plataforma | Instalador (recomendado) | Portable (sin instalar) |
|---|---|---|
| macOS | DataTools-X.Y.Z-mac.dmg — ábrelo, arrastra DataTools.app a /Applications, ejecútalo desde Launchpad. |
DataTools-X.Y.Z-mac-portable.zip — descomprime donde quieras, doble clic en DataTools.app. |
| Windows | DataTools-X.Y.Z-win-setup.exe — ejecuta el instalador (por usuario, sin admin). Crea acceso directo en el escritorio + entrada en el menú Inicio. |
DataTools-X.Y.Z-win-portable.zip — descomprime donde quieras, doble clic en DataTools.exe. |
| Linux | DataTools-X.Y.Z-linux-x86_64.AppImage — chmod +x y doble clic. |
El AppImage ya es portable. |
Última versión: consulta GitHub Releases (o el listado de Gumroad). Cada paquete ocupa ~200 MB descomprimido; al primer arranque la app levanta un servidor local en http://127.0.0.1:8501 y abre tu navegador predeterminado. Nada sale de tu equipo — instalador y portable son idénticos por dentro.
Avisos del primer arranque (una sola vez):
- macOS sin firma: clic derecho → Abrir → confirma. (Las compilaciones firmadas se lo saltan.)
- Windows SmartScreen: pulsa Más información → Ejecutar de todas formas.
Guía detallada de instalación y resolución de problemas: Guía del usuario §1.
Instalar desde el código (desarrolladores)
pip install -r requirements.txt
Requiere Python 3.10+.
Ejecutar
GUI (recomendado):
streamlit run src/gui/app.py
CLI — siete puntos de entrada:
python -m src.cli customers.csv [--apply] # deduplicación
python -m src.cli_text_clean messy.csv [--apply] # limpieza de texto
python -m src.cli_format intl.csv [--apply] # estandarización de formatos (auto-stream si >100 MB)
python -m src.cli_missing holes.csv [--apply] # valores faltantes
python -m src.cli_column_map vendor.csv [--apply] # mapeador de columnas
python -m src.cli_pipeline any_file.csv [--apply] # encadena herramientas de extremo a extremo
python -m src.cli_analyze any_file.csv [--json] # solo escanea
Cada CLI ejecuta solo previsualización por defecto; añade --apply para escribir la salida.
Idioma
La barra lateral de la GUI tiene un selector de idioma. Se incluyen paquetes para English y Español (src/i18n/packs/); la elección persiste durante la sesión. Para añadir un idioma: coloca un <código>.json junto a en.json reproduciendo el árbol de claves, y luego añádelo a LANGUAGES. Ver Guía del desarrollador §i18n (solo en inglés).
Verificación de Revisar y Normalizar
Cada archivo subido pasa por una verificación de normalización CSV antes de que cualquier herramienta lo toque. El analizador detecta ~15 tipos de problemas (espacios, caracteres NBSP / de ancho cero, BOM, codificación, puntuación tipográfica, encabezados sucios, centinelas nulos, mojibake, …) etiquetados por confianza (alta / media / baja) y acción de corrección. La GUI muestra cada hallazgo con Corregir auto / Saltar / Personalizar, una previsualización antes/después en vivo, y un selector para anular la codificación. Las páginas de herramientas se niegan a cargar hasta que se pase la verificación.
Salida
Cada ejecución escribe:
{input}_<tool>.csv— los datos limpios{input}_changes.csv(limpiador de texto) o{input}_match_groups.csv(duplicados) — pista de auditoríalogs/<tool>_YYYYMMDD_HHMMSS.log— registro de depuración de la ejecución
El archivo de entrada original nunca se modifica.
Documentación
- Guía del usuario — instalación, flujo de la GUI, verificación
- Referencia de la CLI — cada bandera con recetas
- Requisitos — tamaños de archivo, codificaciones, detectores, objetivos de rendimiento (solo en inglés)
- Técnico — arquitectura, internos de la verificación, registro de correcciones (solo en inglés)
- Guía del desarrollador — añadir correcciones / detectores / estandarizadores (solo en inglés)
Dependencias
pandas, openpyxl, rapidfuzz, phonenumbers, typer, loguru, charset-normalizer, streamlit. Opcional: ftfy para reparación de mojibake.
Licencia
Propietaria.