Database

47 episodes

Episode 58 : SQL Server 2025 et AI_GENERATE_EMBEDDINGS / MCP PowerBI

Episode timeline The post Episode 58 : SQL Server 2025 et AI_GENERATE_EMBEDDINGS / MCP PowerBI appeared first on Dataoops : le podcast francophone sur la data et de devops.

Dec 7, 202554 min

Episode 52 : Iceberg et Delta, Migration de bases de données, Evidence.dev : Reports as Code

Episode timeline The post Episode 52 : Iceberg et Delta, Migration de bases de données, Evidence.dev : Reports as Code appeared first on Dataoops : le podcast francophone sur la data et de devops.

Dec 9, 202452 min

Episode 51 : DuckDB v1.1 vs PostgreSQL v17 / SQL en difficulté

Episode timeline The post Episode 51 : DuckDB v1.1 vs PostgreSQL v17 / SQL en difficulté appeared first on Dataoops : le podcast francophone sur la data et de devops.

Oct 22, 20241h 4m

Episode 50 : Performance d’un stockage physique récent | L’audit de sécurité dans SQL Server et PostgreSQL | Stockage objet

Dans cet épisode ont parle de Performance d'un stockage physique recent et la comparaison avec ce que l'on peut avoir sur du cloud public. De l'audit de sécurité dans SQL Server et PostgreSQL. Du stockage objet (S3 et Ceph), Cloud (ou pas) The post Episode 50 : Performance d’un stockage physique récent | L’audit de sécurité dans SQL Server et PostgreSQL | Stockage objet appeared first on Dataoops : le podcast francophone sur la data et de devops.

Jul 15, 20240

Episode 49 : Migration de données et collations, Cas d’utilisations d’IA, DevOx

On parle : Migration/Transfert de données inter-databases et les problématiques de collations associées. Puis discussions sur les collations : performances, impacts Un REX sur un dataoops sur les datatypes text/varchar entre postgresqle et mssql Les grands cas d'usage IA : détection DevOx : retour d'Adrien sur ce qui lui a plus : Alto et Park et l'AGC (Appolo Guidance Computer : ou la programmation sous contraintes 😀 ) The post Episode 49 : Migration de données et collations, Cas d’utilisations d’IA, DevOx appeared first on Dataoops : le podcast francophone sur la data et de devops.

May 28, 20240

Episode 48 : Indexation – PostgreSQL vs MSSQL vs Oracle

On parle indexation dans les bases de données relationnelles et en particulier PostgreSQL, MSSQL et Oracle : index Btree, GIN, GIST, partiel ou filtré, couvrant, columnstore, FullText, Spatial, BRIN, Bitmap... Une heure de comparaison entre les 3 grands SGBDR The post Episode 48 : Indexation – PostgreSQL vs MSSQL vs Oracle appeared first on Dataoops : le podcast francophone sur la data et de devops.

Apr 30, 20240

Episode 47 : PostgreSQL : MVCC et Vacuum – PowerBI : Analyser les performances – Modélisation One Big Table et le stockage colonne à la rescousse – Détection d’anti-pattern dans MSSQL

Retour pgday Paris. PostgreSQL : MVCC et Vacuum. PowerBI : Analyser les performances et quelques conseils pour les optimiser. OBT : modélisation One Big Table et le stockage colonne à la rescousse. Clause Non-Sargable et détection d'anti-pattern avec les extended events sur MSSQL The post Episode 47 : PostgreSQL : MVCC et Vacuum – PowerBI : Analyser les performances – Modélisation One Big Table et le stockage colonne à la rescousse – Détection d’anti-pattern dans MSSQL appeared first on Dataoops : le podcast francophone sur la data et de devops.

Apr 6, 20240

Episode 46 : Adrien Nayrat nous rejoint pour parler postgresql – DuckDB v0.10 – C/C++ bannis par les USA ?

Adrien Nayrat un spécialiste postgresql rejoint l'équipe Dataoops, il se présente et en profite pour nous rappeler l'histoire de postgresql et glisser quelques conseils sur les extensions. La deuxième partie concerne DuckDB et les nouveautés de la v0.10 ainsi que des remarques sur une nouvelle concernant les languages C/C++ considérés comme "à risques" par l'administration américaine. The post Episode 46 : Adrien Nayrat nous rejoint pour parler postgresql – DuckDB v0.10 – C/C++ bannis par les USA ? appeared first on Dataoops : le podcast francophone sur la data et de devops.

Mar 10, 20240

Episode 45 : Chargement massif 1 Milliard de lignes dans un columnstore SQL Server en 6min, DuckDB v0.10, MS Fabrics et Vacuum

Comment accélérer un chargement massif dans un columnstore sur SQL Server : un retour d'expérience approfondi avec 1 milliard de lignes chargé en 6 minutes. DuckDB passe en v0.10 et stabilise son stockage. MS Fabric annonce que le Vacuum sera bientot possible et voici pourquoi c'est une bonne chose... The post Episode 45 : Chargement massif 1 Milliard de lignes dans un columnstore SQL Server en 6min, DuckDB v0.10, MS Fabrics et Vacuum appeared first on Dataoops : le podcast francophone sur la data et de devops.

Feb 19, 20241h 7m

Episode 43 : bilan 2023 une année spéciale pour la data avec l’émergence de l’IA et la progression des stockages objets et lakehouse

Episode 43 : bilan 2023 avec les lakehouses, la gouvernance des données, les bases de données vectorielles, les IA génératives et autres LLM, Oracle Cloud et les bases Autonomous The post Episode 43 : bilan 2023 une année spéciale pour la data avec l’émergence de l’IA et la progression des stockages objets et lakehouse appeared first on Dataoops : le podcast francophone sur la data et de devops.

Dec 31, 20231h 2m

Episode 42 : MSSQL Server replication oops / Qdrant, PostgresML et LanceDB / chdb / tpch / oracle autonomous db

Episode timeline The post Episode 42 : MSSQL Server replication oops / Qdrant, PostgresML et LanceDB / chdb / tpch / oracle autonomous db appeared first on Dataoops : le podcast francophone sur la data et de devops.

Dec 26, 20230

Episode 40 – Microsoft Fabric passe en GA

Microsoft Fabric passe en GA : on en parle The post Episode 40 – Microsoft Fabric passe en GA appeared first on Dataoops : le podcast francophone sur la data et de devops.

Dec 6, 20231h 7m

Episode 39 : Interview Sylvain Lesage, Développeur chez Hugging Face

Une interview de Sylvain Lesage développeur chez Hugging Face dans l'équipe en charge de la prévisualisation des datasets : le dataset viewer. Il nous parle de son parcours et de son expérience chez Hugging Face, une société très inspirée dans le monde de l'IA. The post Episode 39 : Interview Sylvain Lesage, Développeur chez Hugging Face appeared first on Dataoops : le podcast francophone sur la data et de devops.

Nov 19, 20231h 5m

Episode 38 : PowerBI et Couche Sémantique – Databases et Comptage Approximatif – Parquet méthode d’encodage

Partie 1 : La couche sémantique et l'architecture de Power BI. Partie 2 : Comptage approximatif et l'algorythme hyperlolog. Partie 3 : les différents types d'encodage avec les columnstore index SQL Server & Apache Parquet et des stockages colonnaires en général The post Episode 38 : PowerBI et Couche Sémantique – Databases et Comptage Approximatif – Parquet méthode d’encodage appeared first on Dataoops : le podcast francophone sur la data et de devops.

Nov 8, 202357 min

Episode 37 : Oracle Data Cartbidge, SQL Server Minimal Logging, Parquet et tri des données, Database of Databases Dashboard, DataGouvernance

Episode 37 : Oracle Database Data Cartbridge ou comment faire une extension dans la base Oracle. SQL Server Journalisation Minimale. L'importance du tri des données pour les performances avec Parquet. Le tableau de bord des bases de données : +900 databases étudiées. La DataGouvernance un sujet qui n'est pas uniquement technique. The post Episode 37 : Oracle Data Cartbidge, SQL Server Minimal Logging, Parquet et tri des données, Database of Databases Dashboard, DataGouvernance appeared first on Dataoops : le podcast francophone sur la data et de devops.

Oct 15, 20231h 6m

Episode 36 : les tendances des bases de données / Une formation Databricks testée / DB Vectorielles : les points importants

Databricks : formation en ligne gratuite et aparté Delta Lake 3.0. Oracle DB : un dashboard sur les features et innovation depuis la 11.2 avec 1608 features. Les tendances des bases de données (Relationnelles et NoSQL). Les bases de données vectorielles : qu'est ce qui les différencie et les points importants pour les choisir. The post Episode 36 : les tendances des bases de données / Une formation Databricks testée / DB Vectorielles : les points importants appeared first on Dataoops : le podcast francophone sur la data et de devops.

Oct 5, 20231h 8m

Episode 35 : SQL invulnérable / Microsoft DataFabric

SQL : un language incontournable dans le traitement des données. On en parle avec une approche historique, les dialectes et les nouvelles approches qui rendent ce language plus vivant que jamais. Dans la deuxième partie de l'épisode on vous parle de Microsoft DataFabric : où en est-on avec ce nouveau service orienté données proposé par Microsoft. The post Episode 35 : SQL invulnérable / Microsoft DataFabric appeared first on Dataoops : le podcast francophone sur la data et de devops.

Sep 23, 20231h 3m

Episode 34 : DataLakeHouse et architecture médaillon / Nouveautés d’Oracle Database 23c

DataLakehouse et Architecture Médaillon. Les nouveautés d'Oracle Database 23c The post Episode 34 : DataLakeHouse et architecture médaillon / Nouveautés d’Oracle Database 23c appeared first on Dataoops : le podcast francophone sur la data et de devops.

Aug 21, 20231h 0m

Episode 33 : Bases de données vectorielles essai avec SQL Server + Microsoft Fabric Partie 2

Dans cette épisode on parle d'un essai d'implémentation de recherche sémantique et vectorielle avec SQL Server. Dans la seconde partie : Approfondissement de Microsoft Fabric. The post Episode 33 : Bases de données vectorielles essai avec SQL Server + Microsoft Fabric Partie 2 appeared first on Dataoops : le podcast francophone sur la data et de devops.

Jul 10, 20231h 7m

Episode 32 : Avis sur Microsoft Fabric + Les bases de données vectorielles ou la mémoire des IAs

Microsoft a lancé un nouveau service chapeau : Microsoft Fabric. Senser regrouper tous les services autour de l'analytique, ce service est plein de promesses. Premiers avis sur ce service avec Fabien Beaumont. Romain Ferraton aborde ensuite les bases de données vectorielles, support de la mémoire des IAs. Capables de recherches sémantiques accélérées les bases de données vectorielles ont le vent en poupe. Mais on peut aussi faire ce type de recherche semantique avec des bases classiques comme postgresql avec une extension (pgvector) voir même avec sql server, oracle ou n'importe quelle base de données relationnelles en faisant des calculs de distances. Ce qui manquera toutefois à ces bases non-spécialisées : des index adaptées aux vecteurs. The post Episode 32 : Avis sur Microsoft Fabric + Les bases de données vectorielles ou la mémoire des IAs appeared first on Dataoops : le podcast francophone sur la data et de devops.

Jun 18, 20231h 2m

Episode 31 : REX dataoops SQL Server et IOT, Observabilité, DataMesh

4 sujets dans cet épisode : Une REX sur un problème de modélisation de données IOT dans SQL Server. L'arrivée des fonctionnalités spatiales sur DuckDB. Discussion sur l'observabilité : théorie et un exemple de log machine friendly avec Serilog. Discussion sur le datamesh The post Episode 31 : REX dataoops SQL Server et IOT, Observabilité, DataMesh appeared first on Dataoops : le podcast francophone sur la data et de devops.

May 28, 20231h 39m

Episode 30 : Parquet to SQL / 3 000 milliards de lignes dans SQL Server

On parle de chargement de données Parquet dans SQL Server via C# et bulkcopy. On parle également des bonnes pratiques pour sql server pour stocker 3000 milliards de lignes. Dernière partie avec une overview The post Episode 30 : Parquet to SQL / 3 000 milliards de lignes dans SQL Server appeared first on Dataoops : le podcast francophone sur la data et de devops.

May 12, 20231h 8m

Episode 29 : TPCH MSSQL entre dans la danse + ChatGpt Premiers tests

TPCH : nouveaux tests avec SQL Server et influence de la collation sur les performances. Autres Tests TPCH SF100 : DuckDB & Hyper sur un laptop vs, Snowflake (XS to 4xLarge). Quelques mots sur nos premiers essais avec ChatGPT The post Episode 29 : TPCH MSSQL entre dans la danse + ChatGpt Premiers tests appeared first on Dataoops : le podcast francophone sur la data et de devops.

Apr 27, 20231h 21m

Episode 28 : TPCH Cloud Databases vs DuckDB, les outils autour de Terraform et les extended events sur SQL Server.

On parle un tout petit peu de chatGPT mais d'abord des évènements étendus (extended events) sur SQL Server et de leurs capacités à faire remonter des informations précieuses pour le diagnostique voir l'analyse du code. Ensuite nous abordons le benchmark TPCH et la comparaison des performances des bases Cloud comme comme Snowflake, BigQuery, SingleStore et Synapse vs DuckDB. Eric nous parle également des outils permettant se faciliter la vie avec Terraform. The post Episode 28 : TPCH Cloud Databases vs DuckDB, les outils autour de Terraform et les extended events sur SQL Server. appeared first on Dataoops : le podcast francophone sur la data et de devops.

Apr 1, 20231h 40m

Episode 27 : Data Virtualisation + Hardware NVMe-oF

Data virtualisation remise au gout du jour avec sql server 2022, la data virtualisation permet d'accéder à de nombreuses sources (SGBDR, Datalake, Fichiers...) depuis un point unique. Ce type d'architecture permet de simplifier le paysage architectural. On en parle sur Dataoops. Les disques NVMe apparus il y a quelques années on permis d'accélerer considérablement les accès disques. Les SAN en bénéficient maintenant plus efficacement avec le NVMe-oF : NVMe over Fabric. The post Episode 27 : Data Virtualisation + Hardware NVMe-oF appeared first on Dataoops : le podcast francophone sur la data et de devops.

Mar 18, 20230

Episode 26 : Big Data is Dead (DuckDB) / Data Gouvernance

On discute de l'article Big Data is Dead : de Jordan Tigani. On discute des avantages de DuckDB. Puis un on aborde la data gouvernance avec Fabien The post Episode 26 : Big Data is Dead (DuckDB) / Data Gouvernance appeared first on Dataoops : le podcast francophone sur la data et de devops.

Feb 26, 20231h 17m

Episode 25 : DataLakeHouse, ADBC et Configuration VMWare pour les bases de données

1) Premières impression sur le DatalakeHouse de Databricks. 2) Le protocole ADBC (Arrow Database Connectivity) 3) Bonnes pratiques de configuration des VMs pour les bases de données The post Episode 25 : DataLakeHouse, ADBC et Configuration VMWare pour les bases de données appeared first on Dataoops : le podcast francophone sur la data et de devops.

Jan 23, 20231h 16m

Episode 24 : MongoDB avec Frédéric Favelin

MongoDB est devenu la principale base de données NoSQL du marché. De type document, elle cherche à toucher le plus de cas d'usages possibles. Frédéric Favelin Directeur Technique chez MongoDB viens nous parler de ses spécificités. The post Episode 24 : MongoDB avec Frédéric Favelin appeared first on Dataoops : le podcast francophone sur la data et de devops.

Dec 24, 20220

Episode 23 : PowerBI External Tools

Les external tools de powerBI permettent d'augmenter la productivité des développements. Fabien nous explique comment et quels tools choisir The post Episode 23 : PowerBI External Tools appeared first on Dataoops : le podcast francophone sur la data et de devops.

Dec 14, 202256 min

Episode 22 : Datalake & Datasharing + DevOps & FinOps + Silicon Chalet

Un tour d'horizon sur les solutions Datalake du marché et discussion sur le Datasharing Coté Devops : comme le devops est perçu suivant le type d'entreprise FinOps : pilotage des couts News : Nouveau Meetup Silicon Chalet The post Episode 22 : Datalake & Datasharing + DevOps & FinOps + Silicon Chalet appeared first on Dataoops : le podcast francophone sur la data et de devops.

Oct 28, 20221h 35m

Episode 21 : REX sur crash databases mssql + AWS AppRunner + les Certifications IT

Episode 21 : Rex sur un crash d'une infrastructure virtuelle et l'impact sur les bases de données (MSSQL). Découverte de AWS App Runner et discussions sur les certifications IT The post Episode 21 : REX sur crash databases mssql + AWS AppRunner + les Certifications IT appeared first on Dataoops : le podcast francophone sur la data et de devops.

Oct 10, 20221h 31m

Episode 20 : Microsoft Dataverse & les secrets d’un stockage performant pour les bases de données

Microsoft Dataverse : une base de données universelle ? Retour sur EightKB 2022 et les indicateurs de performances critiques selon les fichiers utilisés par SQL Server (Journal, Datafiles, Backup Files) : Latence vs Bande Passante The post Episode 20 : Microsoft Dataverse & les secrets d’un stockage performant pour les bases de données appeared first on Dataoops : le podcast francophone sur la data et de devops.

Sep 10, 20220

Episode 19 : MS SQL Server 2022 nouveautés et AWS CloudFront CDN

Quelques nouveautés de SQL Server 2022 : optimisation des index columnStore, opérateur Is (Not) Distinct From, DateTrunc, DateBucket, Greatest, Least. 2ème partie avec Aws Cloudfront ou le CDN selon AWS. 3ème partie : Coups de coeurs avec Apache Arrow Flight SQL et HashiCorp Learn The post Episode 19 : MS SQL Server 2022 nouveautés et AWS CloudFront CDN appeared first on Dataoops : le podcast francophone sur la data et de devops.

Aug 10, 20220

Episode 18 : DuckDB et Apache Arrow

DuckDB est une base de données OLAP in-process et très légère : très utile pour la préparation de données en SQL Surtout quand cette base est compilée en C++, très performante, dotée de nombreuses fonctions, capable de lire et écrire des fichiers csv ou parquet et utilisable via ODBC,JDBC, API python ou C++ ou tout simplement via CLI. Apache Arrow est un format pour la représentation colonnaire données analytiques et permet d'éviter la serialisation et la perte de temps associée. The post Episode 18 : DuckDB et Apache Arrow appeared first on Dataoops : le podcast francophone sur la data et de devops.

Jul 16, 202258 min

Episode 17 : Retours DevopsDays Genève + AWS S3 et Athena+

Retours sur les DevOpsDays de Genève 2022. Discussion sur AWS S3 et les services Analytiques dérivés AWS Athena et Glue. On parle également de Apache Parquet et du requêtage via SQL de ces fichiers ==> Datalake The post Episode 17 : Retours DevopsDays Genève + AWS S3 et Athena+ appeared first on Dataoops : le podcast francophone sur la data et de devops.

Jun 15, 20220

Episode 16 : BigQuery & Etourno de Domwee

BigQuery et la sécurité des accès aux données et Domwee Etourno un ELT SAAS pour BigQuery et Snowflake The post Episode 16 : BigQuery & Etourno de Domwee appeared first on Dataoops : le podcast francophone sur la data et de devops.

Jun 8, 20220

Episode 15 : BigQuery un datawarehouse serverless sur GCP

BigQuery : un datawarehouse serverless sur GCP tarifé à la requête. Brice Michetti, spécialiste GCP et BigQuery depuis plus de 5 ans nous en parle The post Episode 15 : BigQuery un datawarehouse serverless sur GCP appeared first on Dataoops : le podcast francophone sur la data et de devops.

May 30, 20221h 8m

Episode 14 : Data Gouvernance // Monitoring de bases de données

Data Gouvernance : les rôles Monitoring de bases de données : 3 types d'outillage : les spécialisés, les outils d'APM et les frameworks de monitoring type ELK The post Episode 14 : Data Gouvernance // Monitoring de bases de données appeared first on Dataoops : le podcast francophone sur la data et de devops.

May 24, 20220

Episode 11 : Result Cache // FinOps & Ressources

Le result cache (ou query cache) en base de données permet d'accélérer les requêtes répétitives et consommatrices sur les bases de données. Quelles databases disposent de cette fonctionnalité ? Optimiser sa consommation de ressources dans le cloud : le FinOps The post Episode 11 : Result Cache // FinOps & Ressources appeared first on Dataoops : le podcast francophone sur la data et de devops.

May 10, 20221h 3m

Episode 8 : Bases Graphes Neo4j // Parallélisme dans les databases relationnelles

Bases de données graphes // Performance & Database : Le parallélisme The post Episode 8 : Bases Graphes Neo4j // Parallélisme dans les databases relationnelles appeared first on Dataoops : le podcast francophone sur la data et de devops.

Apr 12, 20221h 16m

Episode 7 : Gestion des plans d’exécution (SPM) | Les étapes pour construire son datavault | Introduction à Terraform

3 parties dans cet épisode : la gestion des plans d'exécution particuliers dans les bases de données, les étapes pour concevoir son datavault et finalement une introduction a Terraform The post Episode 7 : Gestion des plans d’exécution (SPM) | Les étapes pour construire son datavault | Introduction à Terraform appeared first on Dataoops : le podcast francophone sur la data et de devops.

Mar 29, 20221h 51m

Episode 6 : Plan d’exécution, Orchestrateur de containeurs et multi-temporalité dans le datavault

Le plan d'exécution dans une base de données : la base et quelques outils. L'orchestrateur de containers : pourquoi un orchestrateur et quel orchestrateur choisir en 2022. La multi-temporalité dans le datavault : snapshot or not snapshot ! The post Episode 6 : Plan d’exécution, Orchestrateur de containeurs et multi-temporalité dans le datavault appeared first on Dataoops : le podcast francophone sur la data et de devops.

Mar 15, 20220

Episode 5 : Clef en SHA256 (binary) ou BigInt ? // Indexation et InMemory

Dans un datavault les clefs ne sont pas incrémentales, alors quelle technique utiliser : SHA256 ou fonction de hashache vers un entier ? Une partie sur l'indexation et l'ordre des colonnes, une autre sur le InMemory, la compression et le stockage colonne sur SQL Server, Oracle et HANA. The post Episode 5 : Clef en SHA256 (binary) ou BigInt ? // Indexation et InMemory appeared first on Dataoops : le podcast francophone sur la data et de devops.

Mar 1, 202257 min

Episode 4 : performance et Data Vault, Devops et Docker, Indexation dans les bases de données

Modélisation : Data Vault la suite DevOps : Docker PerformanceIndexation dans les bases de données The post Episode 4 : performance et Data Vault, Devops et Docker, Indexation dans les bases de données appeared first on Dataoops : le podcast francophone sur la data et de devops.

Feb 15, 20221h 27m

Episode 3 : Partitionnement, Data Vault et le CALMS du DevOps

Performance Database : Partitionnement (Oracle & SQL Server) DevOps : Les fondements (CALMS) Modélisation DataVault: définition et utilité The post Episode 3 : Partitionnement, Data Vault et le CALMS du DevOps appeared first on Dataoops : le podcast francophone sur la data et de devops.

Feb 1, 20221h 20m

Episode 2 : Modélisation en étoile ou flocon, GitOps intro et performance sql des fonctions UDF

Modélisation en étoile et en flocon : définition et utilité Gitops : principes et intérêts Performance Database : Fonctions Utilisateurs (UDF) dans les bases de données, cas d'utilisation et problèmes de performance The post Episode 2 : Modélisation en étoile ou flocon, GitOps intro et performance sql des fonctions UDF appeared first on Dataoops : le podcast francophone sur la data et de devops.

Jan 18, 20221h 9m

Episode 1 : Modélisation en 3ème forme normale / Performance : Curseur vs ensembliste et sargable

Modélisation et formes normales : définition et utilité Performance Database : Curseur vs Ensemble et notion de Sargable The post Episode 1 : Modélisation en 3ème forme normale / Performance : Curseur vs ensembliste et sargable appeared first on Dataoops : le podcast francophone sur la data et de devops.

Jan 3, 202248 min