bbc
diff --git a/‎src/lib/Util/adapters/amazon-transcribe/group-words-by-speakers.js
+40 b/‎src/lib/Util/adapters/amazon-transcribe/group-words-by-speakers.js
+40
diff --git a/‎src/lib/Util/adapters/amazon-transcribe/group-words-by-speakers.test.js
+50 b/‎src/lib/Util/adapters/amazon-transcribe/group-words-by-speakers.test.js
+50
diff --git a/‎src/lib/Util/adapters/amazon-transcribe/index.js
+24-5 b/‎src/lib/Util/adapters/amazon-transcribe/index.js
+24-5
@@ -0,0 +1,40 @@
+export const groupWordsBySpeakerLabel = (words) => {
+  const groupedWords = [];
+  let currentSpeaker = '';
+  words.forEach((word) => {
+    if (word.speaker_label === currentSpeaker) {
+      groupedWords[groupedWords.length - 1].words.push(word);
+    } else {
+      currentSpeaker = word.speaker_label;
+      // start new speaker block
+      groupedWords.push({
+        speaker: word.speaker_label,
+        words: [ word ] });
+    }
+  });
+
+  return groupedWords;
+};
+
+export const findSpeakerForWord = (word, segments) => {
+  const startTime = parseFloat(word.start_time);
+  const endTime = parseFloat(word.end_time);
+  const firstMatchingSegment = segments.find((seg) => {
+    return startTime >= parseFloat(seg.start_time) && endTime <= parseFloat(seg.end_time);
+  });
+  if (firstMatchingSegment === undefined) {
+    return 'Speaker UKN';
+  } else {
+    return `Speaker ${ firstMatchingSegment.speaker_label.replace('spk_', '') }`;
+  }
+};
+
+const addSpeakerLabelToWords = (words, segments) => {
+  return words.map(w => Object.assign(w, { 'speaker_label': findSpeakerForWord(w, segments) }));
+};
+
+export const groupWordsBySpeaker = (words, speakerLabels) => {
+  const wordsWithSpeakers = addSpeakerLabelToWords(words, speakerLabels.segments);
+
+  return groupWordsBySpeakerLabel(wordsWithSpeakers);
+};
@@ -0,0 +1,50 @@
+import amazonTodayInFocusTranscript from './sample/todayinfocus.sample.json';
+import wordsWithSpeakers from './sample/todayinfocuswords.sample.json';
+
+import { groupWordsBySpeakerLabel, findSpeakerForWord, groupWordsBySpeaker } from './group-words-by-speakers';
+
+const words = amazonTodayInFocusTranscript.results.items;
+const speakerLabels = amazonTodayInFocusTranscript.results.speaker_labels;
+
+describe('groupWordsBySpeakerLabel', () => {
+
+  it('Should group speakers correctly', ( ) => {
+
+    const groups = groupWordsBySpeakerLabel(wordsWithSpeakers);
+    expect(groups[0].speaker).toBe('spk_0');
+    expect(groups[0].words.length).toBe(1);
+    expect(groups[1].speaker).toBe('spk_1');
+    expect(groups[1].words.length).toBe(2);
+  });
+});
+
+describe('findSpeakerForWord', () => {
+
+  it('Should find correct speaker', ( ) => {
+
+    const speaker = findSpeakerForWord({
+      'start_time': '8.65',
+      'end_time': '8.98',
+      'alternatives': [
+        {
+          'confidence': '0.9999',
+          'content': 'one'
+        }
+      ],
+      'type': 'pronunciation'
+    }, speakerLabels.segments);
+
+    expect(speaker).toBe('Speaker 0');
+  });
+});
+
+describe('groupWordsBySpeaker', () => {
+  /** Hopefully the other unit tests suffice.
+    * this is a rather lazy one to check the full results
+    */
+  it('Should return expected number of groups', ( ) => {
+
+    const groups = groupWordsBySpeaker(words, speakerLabels);
+    expect(groups.length).toBe(173);
+  });
+});
@@ -4,6 +4,7 @@
  */
 
 import generateEntitiesRanges from '../generate-entities-ranges/index.js';
+import { groupWordsBySpeaker } from './group-words-by-speakers';
 
 export const stripLeadingSpace = word => {
   return word.replace(/^\s/, '');
@@ -88,7 +89,7 @@ const groupWordsInParagraphs = words => {
     words: [],
     text: []
   };
-  words.forEach((word, index) => {
+  words.forEach((word) => {
     const content = getBestAlternativeForWord(word).content;
     const normalizedWord = normalizeWord(word);
     if (/[.?!]/.test(content)) {
@@ -106,19 +107,37 @@ const groupWordsInParagraphs = words => {
   return results;
 };
 
+const groupSpeakerWordsInParagraphs = (words, speakerLabels) => {
+  const wordsBySpeaker = groupWordsBySpeaker(words, speakerLabels);
+
+  return wordsBySpeaker.map((speakerGroup) => {
+    return {
+      words: speakerGroup.words.map(normalizeWord),
+      text: speakerGroup.words.map((w) => getBestAlternativeForWord(w).content),
+      speaker: speakerGroup.speaker
+    };
+  });
+};
+
 const amazonTranscribeToDraft = amazonTranscribeJson => {
   const results = [];
   const tmpWords = amazonTranscribeJson.results.items;
+  const speakerLabels = amazonTranscribeJson.results.speaker_labels;
   const wordsWithRemappedPunctuation = mapPunctuationItemsToWords(tmpWords);
-  const wordsByParagraphs = groupWordsInParagraphs(
-    wordsWithRemappedPunctuation
-  );
+  const speakerSegmentation = typeof(speakerLabels) != 'undefined';
+
+  const wordsByParagraphs = speakerSegmentation ?
+    groupSpeakerWordsInParagraphs(wordsWithRemappedPunctuation, speakerLabels) :
+    groupWordsInParagraphs(
+      wordsWithRemappedPunctuation
+    );
+
   wordsByParagraphs.forEach((paragraph, i) => {
     const draftJsContentBlockParagraph = {
       text: paragraph.text.join(' '),
       type: 'paragraph',
       data: {
-        speaker: `TBC ${ i }`,
+        speaker: paragraph.speaker ? `Speaker ${ paragraph.speaker }` : `TBC ${ i }`,
         words: paragraph.words,
         start: parseFloat(paragraph.words[0].start)
       },