+ test script for count analysis

1 year ago · 7f1705fdaf
--- a/million/analyze/count_analysis.py
+++ b/million/analyze/count_analysis.py
 
															
															 def check_extra_or_missing_letter(word: str, reference: str) -> bool:
														
 
															
															+    """
														
 
															
															+    Cette méthode vérifie si la str word contient une et une seule lettre
														
 
															
															+    de trop ou de moins par rapport à la str reference
														
 
															
															+    """
														
 
															
															     len_word = len(word)
														
 
															
															     len_ref = len(reference)
														
 
															
															 def check_single_letter_differ(word: str, reference: str) -> bool:
														
 
															
															+    """
														
 
															
															+    Cette méthode vérifie si la str word contient une et une seule
														
 
															
															+    lettre différente par rapport à la str reference
														
 
															
															+    """
														
 
															
															     return sum(1 for x, y in zip(reference, word) if x != y) == 1
														
 
															
															 def check_letter_swap(word: str, reference: str) -> bool:
														
 
															
															+    """
														
 
															
															+    Cette méthode vérifie si la str word contient un et un seul
														
 
															
															+    échange de lettres consécutives par rapport à la str reference
														
 
															
															+    """
														
 
															
															     if len(word) != len(reference):
														
 
															
															         return False
														
 
															
															 def check_typo(word: str, reference: str) -> bool:
														
 
															
															+    """
														
 
															
															+    Cette méthode vérifie si la str word contient une typo en se référant à la str reference
														
 
															
															+    """
														
 
															
															     if len(reference) == len(word):
														
 
															
															         return check_single_letter_differ(word, reference) or check_letter_swap(
														
 
															
															             word, reference
														
 
															
															     Elle utilise pour cela des méthodes complexes qui ne permettent de trouver un résultat
														
 
															
															     seulement si on est sortis du cas nominal
														
 
															
															     """
														
 
															
															-    # TODO Si on ne trouve pas le chiffre dans la plage, appliquer différentes méthodes "HEAVYCHECK" avant de le déclarer perdu
														
 
															
															-    #   - créer une méthode qui concatène des messages consécutifs jusqu'a trouver la bonne valeur si la valeur est plus basse
														
 
															
															-    #   - créer une méthode pour les messages ou 2 valeurs sont collées si la valeur est plus haute
														
 
															
															-    #   - sub certains caractères par des chiffres selon une table préconcue, les chiffres en toute lettre par leur équivalent
														
 
															
															-    #   - virer tout sauf les chiffres
														
 
															
															+    # TODO
														
 
															
															+    #   - créer une méthode pour gérer le cas où plusieurs comptages sont contenus dans le même corps de message
														
 
															
															+    #   - créer une méthode pour le cas où les chiffres sont représentés par un substitut au sein du corps du message
														
 
															
															+    #     i.e. un nombre écrit en toutes lettres (français ou breton), 🍁 pour 420, @Elias Cheddar pour 69
														
 
															
															     m = messages[index]
														
 
															
															     word = str(msg_val.get(m))
														
 
															
															         check_typo(word, str(expected)) and msg_val.get(messages[index+1]) == expected+1
														
 
															
															-def _check_value_around(messages, index, expected, amplitude):
														
 
															
															-    for i in range(1, amplitude + 1):
														
 
															
															+def _check_value_around(messages, index, expected, amplitude_after, amplitude_before):
														
 
															
															+    for i in range(1, amplitude_after + 1):
														
 
															
															         if index + i < len(messages) and expected == msg_val.get(messages[index + i]):
														
 
															
															             return index + i
														
 
															
															+    for i in range(1, amplitude_before + 1):
														
 
															
															         if expected == msg_val.get(messages[index - i]):
														
 
															
															             return index - i
														
 
															
															     return None
														
 
															
															-def search_value_at(messages, index, expected, do_heavy_check=True, amplitude=1000):
														
 
															
															+def search_value_at(messages, index, expected, do_heavy_check=True, amplitude_after=1000, amplitude_before=10):
														
 
															
															     """
														
 
															
															     Cette méthode détermine si la liste messages contient le compte expected à partir de l'index donné.
														
 
															
															     Le paramètre amplitude détermine la plage où effectuer les recherches autour de l'index donné.
														
 
															
															         return index
														
 
															
															     # Sinon on regarde aux alentours
														
 
															
															-    jump_index = _check_value_around(messages, index, expected, amplitude)
														
 
															
															+    jump_index = _check_value_around(messages, index, expected, amplitude_after, amplitude_before)
														
 
															
															     if jump_index is not None:
														
 
															
															         return jump_index
														
--- a/million/analyze/media_count_mapper.py
+++ b/million/analyze/media_count_mapper.py
 
															
															 from pydantic import BaseModel, PrivateAttr
														
 
															
															 from million.model.message import Message
														
 
															
															-_default_file_path = 'data/DNS'
														
 
															
															+_default_file_path = 'data/DefaultMediaCountMapFile'
														
 
															
															 class MediaCountMapper(BaseModel):
														
 
															
															     file_path:str = _default_file_path
														
--- a/million/analyze/message_evaluation.py
+++ b/million/analyze/message_evaluation.py
 
															
															     return value
														
 
															
															-# 1🍁 pour 1420 ?
														
 
															
															-# @Elias Cheddar pour 69 ?
														
 
															
															-
														
 
															
															 def _computeContent(msg: Message) -> int:
														
 
															
															     if not msg.content:
														
 
															
															         return
														
--- a/scripts/test_count_analysis.py
+++ b/scripts/test_count_analysis.py
 
															
															+import million.parse.fb_exports as fb
														
 
															
															+import million.analyze.message_evaluation as msg_val
														
 
															
															+from million.analyze.count_analysis import  search_value_at
														
 
															
															+
														
 
															
															+
														
 
															
															+DATA_PATH = "./data/"
														
 
															
															+export = fb.parse_dirfiles(DATA_PATH)
														
 
															
															+messages = export.messages
														
 
															
															+
														
 
															
															+expected = 0
														
 
															
															+idx = 0
														
 
															
															+total_len = len(messages)
														
 
															
															+total_as_percent = 100 / total_len
														
 
															
															+
														
 
															
															+with open('output/analysis_breakdown.txt', 'w', encoding="utf-8") as fichier:
														
 
															
															+    while idx < total_len:
														
 
															
															+        print(f"\r{round(idx * total_as_percent, 1)}%", end="")
														
 
															
															+
														
 
															
															+        # skip messages with no detected value
														
 
															
															+        if msg_val.get(messages[idx]) == None:
														
 
															
															+            idx += 1
														
 
															
															+            continue
														
 
															
															+
														
 
															
															+        expected += 1
														
 
															
															+
														
 
															
															+        found_index = search_value_at(messages, idx, expected)
														
 
															
															+        
														
 
															
															+        if found_index:
														
 
															
															+            fichier.write(f"{expected}\t⇒{messages[found_index]}\n")
														
 
															
															+            idx = found_index + 1
														
 
															
															+        else:
														
 
															
															+            fichier.write(f"{expected}[X]\t⇒{messages[idx]}\n")
														
 
															
															+
														
 
															
															+print("\nComplete analysis in: output/analysis_breakdown.txt")