pyannote · hbredin · May 19, 2024 · Apr 11, 2024 · Apr 11, 2024 · Apr 11, 2024
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -13,6 +13,7 @@
 ### Improvements
 
 - improve(io): when available, default to using `soundfile` backend
+- improve(pipeline): do not extract embeddings when `max_speakers` is set to 1
 
 ## Version 3.2.0 (2024-05-08)
 

diff --git a/pyannote/audio/pipelines/speaker_diarization.py b/pyannote/audio/pipelines/speaker_diarization.py
@@ -478,6 +478,7 @@ def apply(
         segmentations = self.get_segmentations(file, hook=hook)
         hook("segmentation", segmentations)
         #   shape: (num_chunks, num_frames, local_num_speakers)
+        num_chunks, num_frames, local_num_speakers = segmentations.data.shape
 
         # binarize segmentation
         if self._segmentation.model.specifications.powerset:
@@ -507,29 +508,39 @@ def apply(
 
             return diarization
 
-        if self.klustering == "OracleClustering" and not return_embeddings:
+        # skip speaker embedding extraction and clustering when only one speaker
+        if not return_embeddings and max_speakers < 2:
+            hard_clusters = np.zeros((num_chunks, local_num_speakers), dtype=np.int8)
             embeddings = None
+            centroids = None
+
         else:
-            embeddings = self.get_embeddings(
-                file,
-                binarized_segmentations,
-                exclude_overlap=self.embedding_exclude_overlap,
-                hook=hook,
+
+            # skip speaker embedding extraction with oracle clustering
+            if self.klustering == "OracleClustering" and not return_embeddings:
+                embeddings = None
+
+            else:
+                embeddings = self.get_embeddings(
+                    file,
+                    binarized_segmentations,
+                    exclude_overlap=self.embedding_exclude_overlap,
+                    hook=hook,
+                )
+                hook("embeddings", embeddings)
+                #   shape: (num_chunks, local_num_speakers, dimension)
+
+            hard_clusters, _, centroids = self.clustering(
+                embeddings=embeddings,
+                segmentations=binarized_segmentations,
+                num_clusters=num_speakers,
+                min_clusters=min_speakers,
+                max_clusters=max_speakers,
+                file=file,  # <== for oracle clustering
+                frames=self._segmentation.model.receptive_field,  # <== for oracle clustering
             )
-            hook("embeddings", embeddings)
-            #   shape: (num_chunks, local_num_speakers, dimension)
-
-        hard_clusters, _, centroids = self.clustering(
-            embeddings=embeddings,
-            segmentations=binarized_segmentations,
-            num_clusters=num_speakers,
-            min_clusters=min_speakers,
-            max_clusters=max_speakers,
-            file=file,  # <== for oracle clustering
-            frames=self._segmentation.model.receptive_field,  # <== for oracle clustering
-        )
-        # hard_clusters: (num_chunks, num_speakers)
-        # centroids: (num_speakers, dimension)
+            # hard_clusters: (num_chunks, num_speakers)
+            # centroids: (num_speakers, dimension)
 
         # number of detected clusters is the number of different speakers
         num_different_speakers = np.max(hard_clusters) + 1