+ test script for count analysis

před 1 rokem · 7f1705fdaf
--- a/million/analyze/count_analysis.py
+++ b/million/analyze/count_analysis.py
@@ -4,6 +4,10 @@ from million.model.message import Message
 
				
				 
			
 
				
				 
			
 
				
				 def check_extra_or_missing_letter(word: str, reference: str) -> bool:
			
 
				
				+    """
			
 
				
				+    Cette méthode vérifie si la str word contient une et une seule lettre
			
 
				
				+    de trop ou de moins par rapport à la str reference
			
 
				
				+    """
			
 
				
				     len_word = len(word)
			
 
				
				     len_ref = len(reference)
			
 
				
				 
			
@@ -21,10 +25,18 @@ def check_extra_or_missing_letter(word: str, reference: str) -> bool:
 
				
				 
			
 
				
				 
			
 
				
				 def check_single_letter_differ(word: str, reference: str) -> bool:
			
 
				
				+    """
			
 
				
				+    Cette méthode vérifie si la str word contient une et une seule
			
 
				
				+    lettre différente par rapport à la str reference
			
 
				
				+    """
			
 
				
				     return sum(1 for x, y in zip(reference, word) if x != y) == 1
			
 
				
				 
			
 
				
				 
			
 
				
				 def check_letter_swap(word: str, reference: str) -> bool:
			
 
				
				+    """
			
 
				
				+    Cette méthode vérifie si la str word contient un et un seul
			
 
				
				+    échange de lettres consécutives par rapport à la str reference
			
 
				
				+    """
			
 
				
				     if len(word) != len(reference):
			
 
				
				         return False
			
 
				
				 
			
@@ -36,6 +48,9 @@ def check_letter_swap(word: str, reference: str) -> bool:
 
				
				 
			
 
				
				 
			
 
				
				 def check_typo(word: str, reference: str) -> bool:
			
 
				
				+    """
			
 
				
				+    Cette méthode vérifie si la str word contient une typo en se référant à la str reference
			
 
				
				+    """
			
 
				
				     if len(reference) == len(word):
			
 
				
				         return check_single_letter_differ(word, reference) or check_letter_swap(
			
 
				
				             word, reference
			
@@ -70,11 +85,10 @@ def _heavy_check(messages: List[Message], index: int, expected: int) -> bool:
 
				
				     Elle utilise pour cela des méthodes complexes qui ne permettent de trouver un résultat
			
 
				
				     seulement si on est sortis du cas nominal
			
 
				
				     """
			
 
				
				-    # TODO Si on ne trouve pas le chiffre dans la plage, appliquer différentes méthodes "HEAVYCHECK" avant de le déclarer perdu
			
 
				
				-    #   - créer une méthode qui concatène des messages consécutifs jusqu'a trouver la bonne valeur si la valeur est plus basse
			
 
				
				-    #   - créer une méthode pour les messages ou 2 valeurs sont collées si la valeur est plus haute
			
 
				
				-    #   - sub certains caractères par des chiffres selon une table préconcue, les chiffres en toute lettre par leur équivalent
			
 
				
				-    #   - virer tout sauf les chiffres
			
 
				
				+    # TODO
			
 
				
				+    #   - créer une méthode pour gérer le cas où plusieurs comptages sont contenus dans le même corps de message
			
 
				
				+    #   - créer une méthode pour le cas où les chiffres sont représentés par un substitut au sein du corps du message
			
 
				
				+    #     i.e. un nombre écrit en toutes lettres (français ou breton), 🍁 pour 420, @Elias Cheddar pour 69
			
 
				
				     m = messages[index]
			
 
				
				     word = str(msg_val.get(m))
			
 
				
				 
			
@@ -82,17 +96,18 @@ def _heavy_check(messages: List[Message], index: int, expected: int) -> bool:
 
				
				         check_typo(word, str(expected)) and msg_val.get(messages[index+1]) == expected+1
			
 
				
				 
			
 
				
				 
			
 
				
				-def _check_value_around(messages, index, expected, amplitude):
			
 
				
				-    for i in range(1, amplitude + 1):
			
 
				
				+def _check_value_around(messages, index, expected, amplitude_after, amplitude_before):
			
 
				
				+    for i in range(1, amplitude_after + 1):
			
 
				
				         if index + i < len(messages) and expected == msg_val.get(messages[index + i]):
			
 
				
				             return index + i
			
 
				
				+    for i in range(1, amplitude_before + 1):
			
 
				
				         if expected == msg_val.get(messages[index - i]):
			
 
				
				             return index - i
			
 
				
				 
			
 
				
				     return None
			
 
				
				 
			
 
				
				 
			
 
				
				-def search_value_at(messages, index, expected, do_heavy_check=True, amplitude=1000):
			
 
				
				+def search_value_at(messages, index, expected, do_heavy_check=True, amplitude_after=1000, amplitude_before=10):
			
 
				
				     """
			
 
				
				     Cette méthode détermine si la liste messages contient le compte expected à partir de l'index donné.
			
 
				
				     Le paramètre amplitude détermine la plage où effectuer les recherches autour de l'index donné.
			
@@ -104,7 +119,7 @@ def search_value_at(messages, index, expected, do_heavy_check=True, amplitude=10
 
				
				         return index
			
 
				
				 
			
 
				
				     # Sinon on regarde aux alentours
			
 
				
				-    jump_index = _check_value_around(messages, index, expected, amplitude)
			
 
				
				+    jump_index = _check_value_around(messages, index, expected, amplitude_after, amplitude_before)
			
 
				
				     if jump_index is not None:
			
 
				
				         return jump_index
			
 
				
				 
			
--- a/million/analyze/media_count_mapper.py
+++ b/million/analyze/media_count_mapper.py
@@ -4,7 +4,7 @@ from typing import Dict
 
				
				 from pydantic import BaseModel, PrivateAttr
			
 
				
				 from million.model.message import Message
			
 
				
				 
			
 
				
				-_default_file_path = 'data/DNS'
			
 
				
				+_default_file_path = 'data/DefaultMediaCountMapFile'
			
 
				
				 
			
 
				
				 class MediaCountMapper(BaseModel):
			
 
				
				     file_path:str = _default_file_path
			
--- a/million/analyze/message_evaluation.py
+++ b/million/analyze/message_evaluation.py
@@ -37,9 +37,6 @@ def _compute(msg: Message) -> int:
 
				
				     return value
			
 
				
				 
			
 
				
				 
			
 
				
				-# 1🍁 pour 1420 ?
			
 
				
				-# @Elias Cheddar pour 69 ?
			
 
				
				-
			
 
				
				 def _computeContent(msg: Message) -> int:
			
 
				
				     if not msg.content:
			
 
				
				         return
			
--- a/scripts/test_count_analysis.py
+++ b/scripts/test_count_analysis.py
@@ -0,0 +1,34 @@
 
				
				+import million.parse.fb_exports as fb
			
 
				
				+import million.analyze.message_evaluation as msg_val
			
 
				
				+from million.analyze.count_analysis import  search_value_at
			
 
				
				+
			
 
				
				+
			
 
				
				+DATA_PATH = "./data/"
			
 
				
				+export = fb.parse_dirfiles(DATA_PATH)
			
 
				
				+messages = export.messages
			
 
				
				+
			
 
				
				+expected = 0
			
 
				
				+idx = 0
			
 
				
				+total_len = len(messages)
			
 
				
				+total_as_percent = 100 / total_len
			
 
				
				+
			
 
				
				+with open('output/analysis_breakdown.txt', 'w', encoding="utf-8") as fichier:
			
 
				
				+    while idx < total_len:
			
 
				
				+        print(f"\r{round(idx * total_as_percent, 1)}%", end="")
			
 
				
				+
			
 
				
				+        # skip messages with no detected value
			
 
				
				+        if msg_val.get(messages[idx]) == None:
			
 
				
				+            idx += 1
			
 
				
				+            continue
			
 
				
				+
			
 
				
				+        expected += 1
			
 
				
				+
			
 
				
				+        found_index = search_value_at(messages, idx, expected)
			
 
				
				+        
			
 
				
				+        if found_index:
			
 
				
				+            fichier.write(f"{expected}\t⇒{messages[found_index]}\n")
			
 
				
				+            idx = found_index + 1
			
 
				
				+        else:
			
 
				
				+            fichier.write(f"{expected}[X]\t⇒{messages[idx]}\n")
			
 
				
				+
			
 
				
				+print("\nComplete analysis in: output/analysis_breakdown.txt")