Dokumentation

Mit KI übersetzt — wir entschuldigen uns für etwaige Fehler. Helfen Sie uns, diese Übersetzung zu verbessern.

Fordern Sie Reproduzierbarkeit nicht von Forschern—fordern Sie sie von ihren Werkzeugen.

Die Reproduzierbarkeitskrise#

BDP ist ein Dependency-Manager für biologische Datenbanken—behandelt UniProt, NCBI und andere Datenquellen wie Software-Pakete mit Versionskontrolle und Lockfiles.

Nur 11% der Bioinformatik-Studien können reproduziert werden [1], wobei Daten-Versionierung ein wesentlicher Faktor ist. Das Kernproblem sind nicht die Forscher—es sind die Werkzeuge. Labore verbringen 4-12 Stunden pro Projekt mit manueller Datenverwaltung: Download-Skripte schreiben, Prüfsummen verifizieren, Versionen mit Kollegen koordinieren und Daten-Provenienz für Publikationen dokumentieren. Forschung zeigt, dass Workflow-Automatisierung 30-75% dieser Zeit einsparen kann [2]. Mit BDP dauern diese Aufgaben ~15 Minuten.

[1] Leipzig, J. et al. (2021). The five pillars of computational reproducibility: bioinformatics and beyond. Briefings in Bioinformatics, 24(6).

[2] Perkel, J. M. (2015). Experiences with workflows for automating data-intensive bioinformatics. Biology Direct, 10(1).


Hier sind einige Workflow-Beispiele, die BDP in Aktion zeigen (Beispiele verwenden Git für Versionskontrolle, was empfohlen aber nicht erforderlich ist—siehe Best Practices für Details):

Beispiel-Workflow: Protein-Analyse-Projekt#

Ein typisches Projekt zur Analyse von Insulin-Varianten über Spezies hinweg.

Schritt 1: Die richtigen Daten finden ~15-20 Min → 5 Sek#

Vorher:

UniProt-Website durchsuchen, nach "Insulin" suchen, Accession-IDs manuell identifizieren, Version und Release-Datum notieren

Mit BDP:

bash
bdp search "insulin homo sapiens"
# uniprot:P01308-fasta@1.0 - http://localhost:3000/sources/uniprot/P01308

Schritt 2: Spezifische Proteine herunterladen ~30-45 Min → 30 Sek#

Vorher:

UniProt-FTP navigieren, korrekte Verzeichnisstruktur finden, wget-Skript schreiben, Dateien herunterladen, manuell verifizieren

Mit BDP:

bash
bdp source add uniprot:P01308-fasta@1.0
bdp pull

Schritt 3: Datenintegrität überprüfen ~10-15 Min → 2 Sek#

Vorher:

Prüfsummen separat herunterladen, shasum ausführen, manuell vergleichen, bei Fehler wiederholen

Mit BDP:

bash
bdp audit
# ✓ Alle Quellen verifiziert

Schritt 4: Mit Kollegen teilen ~1-3 Std → 1 Min#

Vorher:

Dateien auf gemeinsamen Server hochladen, Download-Link per E-Mail senden, erklären welche Version/Release, Kollege lädt herunter, bestätigt die richtige Version

Mit BDP:

bash
# Sie: bdp.yml und bdp.lock in Git-Repository committen
git add bdp.yml bdp.lock
git commit -m "Insulin-Datenquellen hinzufügen"
git push
# Kollege: Repository klonen und Daten mit einem Befehl abrufen
git clone <repo>
bdp pull

Schritt 5: Sechs Monate später - Analyse reproduzieren ~2-6 Std → 10 Sek#

Vorher:

E-Mails und Chat-Verläufe durchsuchen um zu rekonstruieren welche Datenbankversionen verwendet wurden, prüfen ob Dateien noch im gemeinsamen Speicher existieren, defekte Download-Links finden und versuchen archivierte Versionen von vor Monaten zu lokalisieren

Mit BDP:

bash
git checkout <commit-von-vor-6-monaten>
bdp pull
# Exakt dieselben Daten, garantiert

Schritt 6: Das Paper schreiben ~45-90 Min → 5 Sek#

Vorher:

Datenverfügbarkeitserklärung manuell schreiben, korrekte Zitationen für UniProt nachschlagen, BibTeX-Einträge formatieren, Versionsnummern und Daten einschließen

Mit BDP:

bash
bdp audit export --format das > datenverfuegbarkeit.md
bdp cite --format bibtex > literatur.bib
datenverfuegbarkeit.md
## Datenverfügbarkeitserklärung

Proteinsequenzdaten wurden von UniProt Release 2024_01 (abgerufen am
15. Januar 2024) mittels bdp (Bioinformatics Dependencies Platform - http://localhost:3000)
bezogen. Konkret wurde humanes Insulin-Vorläuferprotein (UniProt ID: P01308) via
`bdp pull` mit Paket-Identifier uniprot:P01308-fasta@1.0 bezogen. Alle
Datenquellen sind im Projekt-Repository versioniert und mit kryptographischen
Prüfsummen dokumentiert um Reproduzierbarkeit sicherzustellen
(https://codeberg.org/lab/project).
literatur.bib
@misc{uniprot_P01308_2024,
  author = {{The UniProt Consortium}},
  title = {UniProt: P01308 - Insulin (INS)},
  year = {2024},
  note = {UniProt Release 2024\_01, abgerufen am 15. Januar 2024},
  url = {https://www.uniprot.org/uniprotkb/P01308},
  version = {2024\_01}
}

Gesamtzeit: ~4-12 Stunden → ~15 Minuten

*Note: Time estimates are illustrative based on researcher interviews. We're actively collecting data on workflow inefficiencies. Have data or want to share your experience? Contact us or open a discussion.*

Noch ein Tool? Wir wissen.

Tool-Müdigkeit ist real. Aber das dauert 30 Sekunden zum Ausprobieren—sehen Sie, ob es Ihre Probleme tatsächlich löst.

Installationsanleitung anzeigen