CogStack · shubham-s-agarwal · Jul 29, 2024 · Jul 24, 2024 · Jul 24, 2024 · Jul 24, 2024
diff --git a/medcat/ner/transformers_ner.py b/medcat/ner/transformers_ner.py
@@ -214,6 +214,7 @@ def train(self,
 
 
         # Encode dataset
+        # Note: tokenizer.encode performs chunking
         encoded_dataset = dataset.map(
                 lambda examples: self.tokenizer.encode(examples, ignore_subwords=False),
                 batched=True,
@@ -261,6 +262,7 @@ def eval(self, json_path: Union[str, list, None] = None, dataset=None, ignore_ex
                                             cache_dir='/tmp/')
 
         # Encode dataset
+        # Note: tokenizer.encode performs chunking
         encoded_dataset = dataset.map(
                 lambda examples: self.tokenizer.encode(examples, ignore_subwords=False),
                 batched=True,

diff --git a/medcat/tokenizers/transformers_ner.py b/medcat/tokenizers/transformers_ner.py
@@ -1,6 +1,9 @@
 import dill
 from typing import Optional, Dict
 from transformers.tokenization_utils_base import PreTrainedTokenizerBase
+import logging
+
+logger = logging.getLogger(__name__)
 
 
 class TransformersTokenizerNER(object):
@@ -35,7 +38,7 @@ def calculate_label_map(self, dataset) -> None:
 
     def encode(self, examples: Dict, ignore_subwords: bool = False) -> Dict:
         """Used with huggingface datasets map function to convert medcat_ner dataset into the
-        appropriate form for NER with BERT. It will split long text segments into max_len sequences.
+        appropriate form for NER with BERT. It will split long text segments into max_len sequences (performs chunking).
 
         Args:
             examples (Dict):
@@ -92,6 +95,9 @@ def encode(self, examples: Dict, ignore_subwords: bool = False) -> Dict:
                         labels.append(self.label_map['X'])
 
                 if len(input_ids) >= self.max_len:
+                    logger.debug(
+                        "Document exceeding max length encountered. Length of current document is %d. Performing chunking...",
+                        len(tokens['offset_mapping']))
                     # Split into multiple examples if too long
                     examples['input_ids'].append(input_ids)
                     examples['labels'].append(labels)