PLAY PODCASTS
Data Science

Data Science

Data Science

Python Podcast · Jochen Wersdörfer / Dominik Geldmacher

December 8, 20251h 41m

Show Notes

<article class="post-detail"> <header> <h2 class="post-title"> <a href="https://python-podcast.de/show/data-science/">Data Science</a> (click here to comment) </h2> <!-- link is on one line to avoid underlined whitespace --> <div class="post-card-meta"> <a href="https://python-podcast.de/show/data-science/"><time datetime="2025-12-08T14:40:00+01:00">8. Dezember 2025</time>,</a> <span class="author">Jochen</span> </div> </header> <div class="post-body"> <section class="block-overview"> <section class="block-paragraph"> <p data-block-key="1x2pd">🎙️ Zu Gast: <a href="https://www.inwt-statistics.de/">Mira</a> – Data Scientist, Geschäftsführerin einer Berliner Data-Science-Beratung und Host des Podcasts <a href="https://inwt.podbean.com/">Data Science Deep Dive</a>.</p><p data-block-key="ccjc"><a href="https://mastodon.social/@oryon_dominik">Dominik</a> und <a href="https://fedi.wersdoerfer.de/@jochen">Jochen</a> sprechen mit ihr darüber, was Data Science in der Praxis heute bedeutet: weniger Machine-Learning-Magie, mehr solides Datenhandwerk – von der Problemanalyse über Feature Engineering bis hin zu Deployment, Monitoring und Drift. An konkreten Projekten (u. a. einer Luftschadstoff-Prognose für die Berliner Senatsverwaltung) wird klar, wo die echten Herausforderungen liegen – und wo die spannendsten Hebel sind.</p><p data-block-key="57m6u"></p><p data-block-key="df80b">In dieser Episode:</p><ul><li data-block-key="94lau">📊 Was "<a href="https://de.wikipedia.org/wiki/Data_Science">Data Science</a>" eigentlich umfasst – Skills, Rollen und warum man dafür nicht unbedingt Informatik studiert haben muss</li><li data-block-key="ddt3v">🔄 <a href="https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining">CRISP-DM</a> in der Praxis – vom Use-Case bis Wartung und Drift, und warum die Modellierung oft nur ein kleiner Teil ist</li><li data-block-key="9ktu7">🛠️ Tooling &amp; Architektur – Pandas, Scikit-Learn, Polars, Kubernetes, ClickHouse, REST-API, MLflow und Alerting mit Redash</li><li data-block-key="a40s">🌳 <a href="https://xgboost.readthedocs.io/en/stable/">XGBoost</a> vs. <a href="https://github.com/PriorLabs/TabPFN">TabPFN</a> – warum Gradient Boosting immer noch der Klassiker ist und was Transformer-Modelle für tabulare Daten können</li><li data-block-key="e2krm">🔍 Feature Engineering &amp; Interpretierbarkeit – mit <a href="https://christophm.github.io/interpretable-ml-book/shap.html">SHAP</a> verstehen, was das Modell gelernt hat</li><li data-block-key="6ejsb">⚡ Performance in der Realität – Spark vs. Polars, Sampling, vektorisierte Operationen und warum "verteilen" nicht automatisch schneller heißt</li><li data-block-key="7ev65">🚗 LLMs für Vorhersagen – Experimente mit Gebrauchtwagenpreisen und warum Finetuning hier Sinn macht</li></ul><p data-block-key="8jcmr"></p><p data-block-key="7p5t2">Unsere Picks:</p><ul><li data-block-key="2osll">Mira: Pandas <a href="https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.functions.pandas_udf.html">UDFs für Parallelisierung in Spark</a> – von Stunden auf Minuten 🚀</li><li data-block-key="1a9ie">Dominik: <a href="https://github.com/casey/just">just</a> – <a href="https://youtu.be/TiBIjouDGuI?t=617">Hynek erklärt</a>, warum just der bessere Taskrunner ist als make</li><li data-block-key="v71g">Jochen: <a href="https://github.com/ryoppippi/ccusage">ccusage</a> / <a href="https://ccusage.com/guide/codex/">ccusage for codex</a> – Token-Kosten im Blick behalten bei claude code / codex</li></ul> </section> <section class="block-audio"> </section> </section> <section class="block-detail"> <section class="block-paragraph"> <h2 data-block-key="mg0mn">Shownotes</h2><p data-block-key="8d5sd">Unsere E-Mail für Fragen, Anregungen &amp; Kommentare: <a href="mailto:[email protected]">[email protected]</a></p><h3 data-block-key="b9qd2">Data Science</h3><ul><li data-block-key="fbv0d"><a href="https://www.inwt-statistics.de/">Data Science Beratung inwt</a></li><li data-block-key="6h5pc"><a href="https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining">Cross-industry standard process for data mining</a> CRISP-DM</li><li data-block-key="ef9t3">Visualisierungen: <a href="https://ggplot2.tidyverse.org/">ggplot2</a> / <a href="https://redash.io/">Redash</a></li><li data-block-key="8u8uc"><a href="https://pandas.pydata.org/">pandas</a> / <a href="https://pola.rs/">polars</a> / <a href="https://spark.apache.org/docs/latest/api/python/index.html">PySpark</a></li><li data-block-key="c8t1"><a href="https://mlflow.org/">mlflow</a></li><li data-block-key="6ns18"><a href="https://yandex.com/dev/clickhouse/">ClickHouse</a></li><li data-block-key="70klt"><a href="https://xgboost.readthedocs.io/en/stable/">XGBoost</a> / <a href="https://catboost.ai/">CatBoost</a> / <a href="https://lightgbm.readthedocs.io/en/stable/">LightGBM</a> / <a href="https://github.com/PriorLabs/TabPFN">TebPFN</a> / <a href="https://shap.readthedocs.io/en/latest/example_notebooks/tabular_examples/tree_based_models/Basic%20SHAP%20Interaction%20Value%20Example%20in%20XGBoost.html">SHAP</a></li><li data-block-key="c3389"><a href="https://ibis-project.org/">ibis</a> / <a href="https://arrow.apache.org/">arrow</a></li></ul><h3 data-block-key="1g09e">Picks</h3><ul><li data-block-key="8n1v9"><a href="https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.functions.pandas_udf.html">pandas_udf</a></li><li data-block-key="9niao"><a href="https://youtu.be/TiBIjouDGuI?t=617">uv: Making Local Python Workflows FAST and BORING in 2025</a> | Starts at the justfile part..</li><li data-block-key="2jqk7"><a href="https://github.com/ryoppippi/ccusage">ccusage</a> / <a href="https://ccusage.com/guide/codex/">ccusage for codex</a></li><li data-block-key="1mkt0"><a href="https://elevenlabs.io/">ElevenLabs</a> / <a href="https://notebooklm.google/">NobebookLM</a> | Um sich Podcasts zu generieren..</li><li data-block-key="7ihco"><a href="https://inwt.podbean.com/">Data Science Deep Dive</a></li></ul> </section> </section> </div> </article>

Topics

data sciencepandaspolarsscikit-learnxgboostllmtabpfnmlopstabpfn