{"round": 1, "request_id": "req_001", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.74, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.78, "instant_regret": 0.04, "cumulative_reward": 0.74, "cumulative_regret": 0.04}
{"round": 2, "request_id": "req_002", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.7, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.8, "instant_regret": 0.1, "cumulative_reward": 1.44, "cumulative_regret": 0.14}
{"round": 3, "request_id": "req_003", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 0.5, "reason": "initial_exploration", "selection_reason": "initial_exploration", "exploratory": true, "reward": 0.52, "cost": 0.05, "best_action": "revision_humana", "best_reward": 0.7, "instant_regret": 0.18, "cumulative_reward": 1.96, "cumulative_regret": 0.32}
{"round": 4, "request_id": "req_004", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "initial_exploration", "selection_reason": "initial_exploration", "exploratory": true, "reward": 0.65, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.66, "instant_regret": 0.01, "cumulative_reward": 2.61, "cumulative_regret": 0.33}
{"round": 5, "request_id": "req_005", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.79, "instant_regret": 0.1, "cumulative_reward": 3.3, "cumulative_regret": 0.43}
{"round": 6, "request_id": "req_006", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.67, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.71, "instant_regret": 0.04, "cumulative_reward": 3.97, "cumulative_regret": 0.47}
{"round": 7, "request_id": "req_007", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.65, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.65, "instant_regret": 0.0, "cumulative_reward": 4.62, "cumulative_regret": 0.47}
{"round": 8, "request_id": "req_008", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.71, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.82, "instant_regret": 0.11, "cumulative_reward": 5.33, "cumulative_regret": 0.58}
{"round": 9, "request_id": "req_009", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.72, "instant_regret": 0.03, "cumulative_reward": 6.02, "cumulative_regret": 0.61}
{"round": 10, "request_id": "req_010", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.81, "instant_regret": 0.13, "cumulative_reward": 6.7, "cumulative_regret": 0.74}
{"round": 11, "request_id": "req_011", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.64, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.64, "instant_regret": 0.0, "cumulative_reward": 7.34, "cumulative_regret": 0.74}
{"round": 12, "request_id": "req_012", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.66, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.73, "instant_regret": 0.07, "cumulative_reward": 8.0, "cumulative_regret": 0.81}
{"round": 13, "request_id": "req_013", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.74, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.78, "instant_regret": 0.04, "cumulative_reward": 8.74, "cumulative_regret": 0.85}
{"round": 14, "request_id": "req_014", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.7, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.8, "instant_regret": 0.1, "cumulative_reward": 9.44, "cumulative_regret": 0.95}
{"round": 15, "request_id": "req_015", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.7, "instant_regret": 0.02, "cumulative_reward": 10.12, "cumulative_regret": 0.97}
{"round": 16, "request_id": "req_016", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.66, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.66, "instant_regret": 0.0, "cumulative_reward": 10.78, "cumulative_regret": 0.97}
{"round": 17, "request_id": "req_017", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.79, "instant_regret": 0.1, "cumulative_reward": 11.47, "cumulative_regret": 1.07}
{"round": 18, "request_id": "req_018", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.67, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.71, "instant_regret": 0.04, "cumulative_reward": 12.14, "cumulative_regret": 1.11}
{"round": 19, "request_id": "req_019", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.65, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.65, "instant_regret": 0.0, "cumulative_reward": 12.79, "cumulative_regret": 1.11}
{"round": 20, "request_id": "req_020", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.71, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.82, "instant_regret": 0.11, "cumulative_reward": 13.5, "cumulative_regret": 1.22}
{"round": 21, "request_id": "req_021", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.72, "instant_regret": 0.03, "cumulative_reward": 14.19, "cumulative_regret": 1.25}
{"round": 22, "request_id": "req_022", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.81, "instant_regret": 0.13, "cumulative_reward": 14.87, "cumulative_regret": 1.38}
{"round": 23, "request_id": "req_023", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.64, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.64, "instant_regret": 0.0, "cumulative_reward": 15.51, "cumulative_regret": 1.38}
{"round": 24, "request_id": "req_024", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.66, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.73, "instant_regret": 0.07, "cumulative_reward": 16.17, "cumulative_regret": 1.45}
{"round": 25, "request_id": "req_025", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.74, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.78, "instant_regret": 0.04, "cumulative_reward": 16.91, "cumulative_regret": 1.49}
{"round": 26, "request_id": "req_026", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.7, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.8, "instant_regret": 0.1, "cumulative_reward": 17.61, "cumulative_regret": 1.59}
{"round": 27, "request_id": "req_027", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.7, "instant_regret": 0.02, "cumulative_reward": 18.29, "cumulative_regret": 1.61}
{"round": 28, "request_id": "req_028", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.66, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.66, "instant_regret": 0.0, "cumulative_reward": 18.95, "cumulative_regret": 1.61}
{"round": 29, "request_id": "req_029", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.79, "instant_regret": 0.1, "cumulative_reward": 19.64, "cumulative_regret": 1.71}
{"round": 30, "request_id": "req_030", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.67, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.71, "instant_regret": 0.04, "cumulative_reward": 20.31, "cumulative_regret": 1.75}
{"round": 31, "request_id": "req_031", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.65, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.65, "instant_regret": 0.0, "cumulative_reward": 20.96, "cumulative_regret": 1.75}
{"round": 32, "request_id": "req_032", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.71, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.82, "instant_regret": 0.11, "cumulative_reward": 21.67, "cumulative_regret": 1.86}
{"round": 33, "request_id": "req_033", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.72, "instant_regret": 0.03, "cumulative_reward": 22.36, "cumulative_regret": 1.89}
{"round": 34, "request_id": "req_034", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.81, "instant_regret": 0.13, "cumulative_reward": 23.04, "cumulative_regret": 2.02}
{"round": 35, "request_id": "req_035", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.64, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.64, "instant_regret": 0.0, "cumulative_reward": 23.68, "cumulative_regret": 2.02}
{"round": 36, "request_id": "req_036", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.66, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.73, "instant_regret": 0.07, "cumulative_reward": 24.34, "cumulative_regret": 2.09}
{"round": 37, "request_id": "req_037", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.74, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.78, "instant_regret": 0.04, "cumulative_reward": 25.08, "cumulative_regret": 2.13}
{"round": 38, "request_id": "req_038", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.7, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.8, "instant_regret": 0.1, "cumulative_reward": 25.78, "cumulative_regret": 2.23}
{"round": 39, "request_id": "req_039", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.7, "instant_regret": 0.02, "cumulative_reward": 26.46, "cumulative_regret": 2.25}
{"round": 40, "request_id": "req_040", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.66, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.66, "instant_regret": 0.0, "cumulative_reward": 27.12, "cumulative_regret": 2.25}
{"round": 41, "request_id": "req_041", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.79, "instant_regret": 0.1, "cumulative_reward": 27.81, "cumulative_regret": 2.35}
{"round": 42, "request_id": "req_042", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.67, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.71, "instant_regret": 0.04, "cumulative_reward": 28.48, "cumulative_regret": 2.39}
{"round": 43, "request_id": "req_043", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.65, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.65, "instant_regret": 0.0, "cumulative_reward": 29.13, "cumulative_regret": 2.39}
{"round": 44, "request_id": "req_044", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.71, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.82, "instant_regret": 0.11, "cumulative_reward": 29.84, "cumulative_regret": 2.5}
{"round": 45, "request_id": "req_045", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.72, "instant_regret": 0.03, "cumulative_reward": 30.53, "cumulative_regret": 2.53}
{"round": 46, "request_id": "req_046", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.81, "instant_regret": 0.13, "cumulative_reward": 31.21, "cumulative_regret": 2.66}
{"round": 47, "request_id": "req_047", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.64, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.64, "instant_regret": 0.0, "cumulative_reward": 31.85, "cumulative_regret": 2.66}
{"round": 48, "request_id": "req_048", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.66, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.73, "instant_regret": 0.07, "cumulative_reward": 32.51, "cumulative_regret": 2.73}
{"round": 49, "request_id": "req_049", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.74, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.78, "instant_regret": 0.04, "cumulative_reward": 33.25, "cumulative_regret": 2.77}
{"round": 50, "request_id": "req_050", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.7, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.8, "instant_regret": 0.1, "cumulative_reward": 33.95, "cumulative_regret": 2.87}
{"round": 51, "request_id": "req_051", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.7, "instant_regret": 0.02, "cumulative_reward": 34.63, "cumulative_regret": 2.89}
{"round": 52, "request_id": "req_052", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.66, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.66, "instant_regret": 0.0, "cumulative_reward": 35.29, "cumulative_regret": 2.89}
{"round": 53, "request_id": "req_053", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.79, "instant_regret": 0.1, "cumulative_reward": 35.98, "cumulative_regret": 2.99}
{"round": 54, "request_id": "req_054", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.67, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.71, "instant_regret": 0.04, "cumulative_reward": 36.65, "cumulative_regret": 3.03}
{"round": 55, "request_id": "req_055", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.65, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.65, "instant_regret": 0.0, "cumulative_reward": 37.3, "cumulative_regret": 3.03}
{"round": 56, "request_id": "req_056", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.71, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.82, "instant_regret": 0.11, "cumulative_reward": 38.01, "cumulative_regret": 3.14}
{"round": 57, "request_id": "req_057", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.72, "instant_regret": 0.03, "cumulative_reward": 38.7, "cumulative_regret": 3.17}
{"round": 58, "request_id": "req_058", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.81, "instant_regret": 0.13, "cumulative_reward": 39.38, "cumulative_regret": 3.3}
{"round": 59, "request_id": "req_059", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.64, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.64, "instant_regret": 0.0, "cumulative_reward": 40.02, "cumulative_regret": 3.3}
{"round": 60, "request_id": "req_060", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.66, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.73, "instant_regret": 0.07, "cumulative_reward": 40.68, "cumulative_regret": 3.37}
{"round": 1, "request_id": "req_001", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.74, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.78, "instant_regret": 0.04, "cumulative_reward": 0.74, "cumulative_regret": 0.04}
{"round": 2, "request_id": "req_002", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.7, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.8, "instant_regret": 0.1, "cumulative_reward": 1.44, "cumulative_regret": 0.14}
{"round": 3, "request_id": "req_003", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 0.5, "reason": "initial_exploration", "selection_reason": "initial_exploration", "exploratory": true, "reward": 0.52, "cost": 0.05, "best_action": "revision_humana", "best_reward": 0.7, "instant_regret": 0.18, "cumulative_reward": 1.96, "cumulative_regret": 0.32}
{"round": 4, "request_id": "req_004", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "initial_exploration", "selection_reason": "initial_exploration", "exploratory": true, "reward": 0.65, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.66, "instant_regret": 0.01, "cumulative_reward": 2.61, "cumulative_regret": 0.33}
{"round": 5, "request_id": "req_005", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.79, "instant_regret": 0.1, "cumulative_reward": 3.3, "cumulative_regret": 0.43}
{"round": 6, "request_id": "req_006", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.67, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.71, "instant_regret": 0.04, "cumulative_reward": 3.97, "cumulative_regret": 0.47}
{"round": 7, "request_id": "req_007", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.65, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.65, "instant_regret": 0.0, "cumulative_reward": 4.62, "cumulative_regret": 0.47}
{"round": 8, "request_id": "req_008", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.71, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.82, "instant_regret": 0.11, "cumulative_reward": 5.33, "cumulative_regret": 0.58}
{"round": 9, "request_id": "req_009", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.72, "instant_regret": 0.03, "cumulative_reward": 6.02, "cumulative_regret": 0.61}
{"round": 10, "request_id": "req_010", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.81, "instant_regret": 0.13, "cumulative_reward": 6.7, "cumulative_regret": 0.74}
{"round": 11, "request_id": "req_011", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.64, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.64, "instant_regret": 0.0, "cumulative_reward": 7.34, "cumulative_regret": 0.74}
{"round": 12, "request_id": "req_012", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.66, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.73, "instant_regret": 0.07, "cumulative_reward": 8.0, "cumulative_regret": 0.81}
{"round": 13, "request_id": "req_013", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.74, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.78, "instant_regret": 0.04, "cumulative_reward": 8.74, "cumulative_regret": 0.85}
{"round": 14, "request_id": "req_014", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.7, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.8, "instant_regret": 0.1, "cumulative_reward": 9.44, "cumulative_regret": 0.95}
{"round": 15, "request_id": "req_015", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.7, "instant_regret": 0.02, "cumulative_reward": 10.12, "cumulative_regret": 0.97}
{"round": 16, "request_id": "req_016", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.66, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.66, "instant_regret": 0.0, "cumulative_reward": 10.78, "cumulative_regret": 0.97}
{"round": 17, "request_id": "req_017", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.79, "instant_regret": 0.1, "cumulative_reward": 11.47, "cumulative_regret": 1.07}
{"round": 18, "request_id": "req_018", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.67, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.71, "instant_regret": 0.04, "cumulative_reward": 12.14, "cumulative_regret": 1.11}
{"round": 19, "request_id": "req_019", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.65, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.65, "instant_regret": 0.0, "cumulative_reward": 12.79, "cumulative_regret": 1.11}
{"round": 20, "request_id": "req_020", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.71, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.82, "instant_regret": 0.11, "cumulative_reward": 13.5, "cumulative_regret": 1.22}
{"round": 21, "request_id": "req_021", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.72, "instant_regret": 0.03, "cumulative_reward": 14.19, "cumulative_regret": 1.25}
{"round": 22, "request_id": "req_022", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.81, "instant_regret": 0.13, "cumulative_reward": 14.87, "cumulative_regret": 1.38}
{"round": 23, "request_id": "req_023", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.64, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.64, "instant_regret": 0.0, "cumulative_reward": 15.51, "cumulative_regret": 1.38}
{"round": 24, "request_id": "req_024", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.66, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.73, "instant_regret": 0.07, "cumulative_reward": 16.17, "cumulative_regret": 1.45}
{"round": 25, "request_id": "req_025", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.74, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.78, "instant_regret": 0.04, "cumulative_reward": 16.91, "cumulative_regret": 1.49}
{"round": 26, "request_id": "req_026", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.7, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.8, "instant_regret": 0.1, "cumulative_reward": 17.61, "cumulative_regret": 1.59}
{"round": 27, "request_id": "req_027", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.7, "instant_regret": 0.02, "cumulative_reward": 18.29, "cumulative_regret": 1.61}
{"round": 28, "request_id": "req_028", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.66, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.66, "instant_regret": 0.0, "cumulative_reward": 18.95, "cumulative_regret": 1.61}
{"round": 29, "request_id": "req_029", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.79, "instant_regret": 0.1, "cumulative_reward": 19.64, "cumulative_regret": 1.71}
{"round": 30, "request_id": "req_030", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 0.3333, "reason": "scheduled_exploration", "selection_reason": "scheduled_exploration", "exploratory": true, "reward": 0.5, "cost": 0.05, "best_action": "revision_humana", "best_reward": 0.71, "instant_regret": 0.21, "cumulative_reward": 20.14, "cumulative_regret": 1.92}
{"round": 31, "request_id": "req_031", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.65, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.65, "instant_regret": 0.0, "cumulative_reward": 20.79, "cumulative_regret": 1.92}
{"round": 32, "request_id": "req_032", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.71, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.82, "instant_regret": 0.11, "cumulative_reward": 21.5, "cumulative_regret": 2.03}
{"round": 33, "request_id": "req_033", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.72, "instant_regret": 0.03, "cumulative_reward": 22.19, "cumulative_regret": 2.06}
{"round": 34, "request_id": "req_034", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.81, "instant_regret": 0.13, "cumulative_reward": 22.87, "cumulative_regret": 2.19}
{"round": 35, "request_id": "req_035", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.64, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.64, "instant_regret": 0.0, "cumulative_reward": 23.51, "cumulative_regret": 2.19}
{"round": 36, "request_id": "req_036", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.66, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.73, "instant_regret": 0.07, "cumulative_reward": 24.17, "cumulative_regret": 2.26}
{"round": 37, "request_id": "req_037", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.74, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.78, "instant_regret": 0.04, "cumulative_reward": 24.91, "cumulative_regret": 2.3}
{"round": 38, "request_id": "req_038", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.7, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.8, "instant_regret": 0.1, "cumulative_reward": 25.61, "cumulative_regret": 2.4}
{"round": 39, "request_id": "req_039", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.7, "instant_regret": 0.02, "cumulative_reward": 26.29, "cumulative_regret": 2.42}
{"round": 40, "request_id": "req_040", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 0.3333, "reason": "scheduled_exploration", "selection_reason": "scheduled_exploration", "exploratory": true, "reward": 0.65, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.66, "instant_regret": 0.01, "cumulative_reward": 26.94, "cumulative_regret": 2.43}
{"round": 41, "request_id": "req_041", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.79, "instant_regret": 0.1, "cumulative_reward": 27.63, "cumulative_regret": 2.53}
{"round": 42, "request_id": "req_042", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.67, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.71, "instant_regret": 0.04, "cumulative_reward": 28.3, "cumulative_regret": 2.57}
{"round": 43, "request_id": "req_043", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.65, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.65, "instant_regret": 0.0, "cumulative_reward": 28.95, "cumulative_regret": 2.57}
{"round": 44, "request_id": "req_044", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.71, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.82, "instant_regret": 0.11, "cumulative_reward": 29.66, "cumulative_regret": 2.68}
{"round": 45, "request_id": "req_045", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.72, "instant_regret": 0.03, "cumulative_reward": 30.35, "cumulative_regret": 2.71}
{"round": 46, "request_id": "req_046", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.81, "instant_regret": 0.13, "cumulative_reward": 31.03, "cumulative_regret": 2.84}
{"round": 47, "request_id": "req_047", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.64, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.64, "instant_regret": 0.0, "cumulative_reward": 31.67, "cumulative_regret": 2.84}
{"round": 48, "request_id": "req_048", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.66, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.73, "instant_regret": 0.07, "cumulative_reward": 32.33, "cumulative_regret": 2.91}
{"round": 49, "request_id": "req_049", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.74, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.78, "instant_regret": 0.04, "cumulative_reward": 33.07, "cumulative_regret": 2.95}
{"round": 50, "request_id": "req_050", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.7, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.8, "instant_regret": 0.1, "cumulative_reward": 33.77, "cumulative_regret": 3.05}
{"round": 51, "request_id": "req_051", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.7, "instant_regret": 0.02, "cumulative_reward": 34.45, "cumulative_regret": 3.07}
{"round": 52, "request_id": "req_052", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.66, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.66, "instant_regret": 0.0, "cumulative_reward": 35.11, "cumulative_regret": 3.07}
{"round": 53, "request_id": "req_053", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.79, "instant_regret": 0.1, "cumulative_reward": 35.8, "cumulative_regret": 3.17}
{"round": 54, "request_id": "req_054", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.67, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.71, "instant_regret": 0.04, "cumulative_reward": 36.47, "cumulative_regret": 3.21}
{"round": 55, "request_id": "req_055", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.65, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.65, "instant_regret": 0.0, "cumulative_reward": 37.12, "cumulative_regret": 3.21}
{"round": 56, "request_id": "req_056", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.71, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.82, "instant_regret": 0.11, "cumulative_reward": 37.83, "cumulative_regret": 3.32}
{"round": 57, "request_id": "req_057", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.72, "instant_regret": 0.03, "cumulative_reward": 38.52, "cumulative_regret": 3.35}
{"round": 58, "request_id": "req_058", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.81, "instant_regret": 0.13, "cumulative_reward": 39.2, "cumulative_regret": 3.48}
{"round": 59, "request_id": "req_059", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.64, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.64, "instant_regret": 0.0, "cumulative_reward": 39.84, "cumulative_regret": 3.48}
{"round": 60, "request_id": "req_060", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 0.3333, "reason": "scheduled_exploration", "selection_reason": "scheduled_exploration", "exploratory": true, "reward": 0.49, "cost": 0.05, "best_action": "revision_humana", "best_reward": 0.73, "instant_regret": 0.24, "cumulative_reward": 40.33, "cumulative_regret": 3.72}
{"round": 1, "request_id": "req_001", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.74, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.78, "instant_regret": 0.04, "cumulative_reward": 0.74, "cumulative_regret": 0.04}
{"round": 2, "request_id": "req_002", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.7, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.8, "instant_regret": 0.1, "cumulative_reward": 1.44, "cumulative_regret": 0.14}
{"round": 3, "request_id": "req_003", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 0.5, "reason": "initial_exploration", "selection_reason": "initial_exploration", "exploratory": true, "reward": 0.52, "cost": 0.05, "best_action": "revision_humana", "best_reward": 0.7, "instant_regret": 0.18, "cumulative_reward": 1.96, "cumulative_regret": 0.32}
{"round": 4, "request_id": "req_004", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "initial_exploration", "selection_reason": "initial_exploration", "exploratory": true, "reward": 0.65, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.66, "instant_regret": 0.01, "cumulative_reward": 2.61, "cumulative_regret": 0.33}
{"round": 5, "request_id": "req_005", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.79, "instant_regret": 0.1, "cumulative_reward": 3.3, "cumulative_regret": 0.43}
{"round": 6, "request_id": "req_006", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.71, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.71, "instant_regret": 0.0, "cumulative_reward": 4.01, "cumulative_regret": 0.43}
{"round": 7, "request_id": "req_007", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.62, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.65, "instant_regret": 0.03, "cumulative_reward": 4.63, "cumulative_regret": 0.46}
{"round": 8, "request_id": "req_008", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.71, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.82, "instant_regret": 0.11, "cumulative_reward": 5.34, "cumulative_regret": 0.57}
{"round": 9, "request_id": "req_009", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.72, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.72, "instant_regret": 0.0, "cumulative_reward": 6.06, "cumulative_regret": 0.57}
{"round": 10, "request_id": "req_010", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.81, "instant_regret": 0.13, "cumulative_reward": 6.74, "cumulative_regret": 0.7}
{"round": 11, "request_id": "req_011", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.6, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.64, "instant_regret": 0.04, "cumulative_reward": 7.34, "cumulative_regret": 0.74}
{"round": 12, "request_id": "req_012", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.73, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.73, "instant_regret": 0.0, "cumulative_reward": 8.07, "cumulative_regret": 0.74}
{"round": 13, "request_id": "req_013", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.74, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.78, "instant_regret": 0.04, "cumulative_reward": 8.81, "cumulative_regret": 0.78}
{"round": 14, "request_id": "req_014", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.7, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.8, "instant_regret": 0.1, "cumulative_reward": 9.51, "cumulative_regret": 0.88}
{"round": 15, "request_id": "req_015", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.7, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.7, "instant_regret": 0.0, "cumulative_reward": 10.21, "cumulative_regret": 0.88}
{"round": 16, "request_id": "req_016", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.61, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.66, "instant_regret": 0.05, "cumulative_reward": 10.82, "cumulative_regret": 0.93}
{"round": 17, "request_id": "req_017", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.79, "instant_regret": 0.1, "cumulative_reward": 11.51, "cumulative_regret": 1.03}
{"round": 18, "request_id": "req_018", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.71, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.71, "instant_regret": 0.0, "cumulative_reward": 12.22, "cumulative_regret": 1.03}
{"round": 19, "request_id": "req_019", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.62, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.65, "instant_regret": 0.03, "cumulative_reward": 12.84, "cumulative_regret": 1.06}
{"round": 20, "request_id": "req_020", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.71, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.82, "instant_regret": 0.11, "cumulative_reward": 13.55, "cumulative_regret": 1.17}
{"round": 21, "request_id": "req_021", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.72, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.72, "instant_regret": 0.0, "cumulative_reward": 14.27, "cumulative_regret": 1.17}
{"round": 22, "request_id": "req_022", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.81, "instant_regret": 0.13, "cumulative_reward": 14.95, "cumulative_regret": 1.3}
{"round": 23, "request_id": "req_023", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": false, "reward": 0.63, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.64, "instant_regret": 0.01, "cumulative_reward": 15.58, "cumulative_regret": 1.31}
{"round": 24, "request_id": "req_024", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.49, "cost": 0.05, "best_action": "revision_humana", "best_reward": 0.73, "instant_regret": 0.24, "cumulative_reward": 16.07, "cumulative_regret": 1.55}
{"round": 25, "request_id": "req_025", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.74, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.78, "instant_regret": 0.04, "cumulative_reward": 16.81, "cumulative_regret": 1.59}
{"round": 26, "request_id": "req_026", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.7, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.8, "instant_regret": 0.1, "cumulative_reward": 17.51, "cumulative_regret": 1.69}
{"round": 27, "request_id": "req_027", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.7, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.7, "instant_regret": 0.0, "cumulative_reward": 18.21, "cumulative_regret": 1.69}
{"round": 28, "request_id": "req_028", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.65, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.66, "instant_regret": 0.01, "cumulative_reward": 18.86, "cumulative_regret": 1.7}
{"round": 29, "request_id": "req_029", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.79, "instant_regret": 0.1, "cumulative_reward": 19.55, "cumulative_regret": 1.8}
{"round": 30, "request_id": "req_030", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.5, "cost": 0.05, "best_action": "revision_humana", "best_reward": 0.71, "instant_regret": 0.21, "cumulative_reward": 20.05, "cumulative_regret": 2.01}
{"round": 31, "request_id": "req_031", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.64, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.65, "instant_regret": 0.01, "cumulative_reward": 20.69, "cumulative_regret": 2.02}
{"round": 32, "request_id": "req_032", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.71, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.82, "instant_regret": 0.11, "cumulative_reward": 21.4, "cumulative_regret": 2.13}
{"round": 33, "request_id": "req_033", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.72, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.72, "instant_regret": 0.0, "cumulative_reward": 22.12, "cumulative_regret": 2.13}
{"round": 34, "request_id": "req_034", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.81, "instant_regret": 0.13, "cumulative_reward": 22.8, "cumulative_regret": 2.26}
{"round": 35, "request_id": "req_035", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.6, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.64, "instant_regret": 0.04, "cumulative_reward": 23.4, "cumulative_regret": 2.3}
{"round": 36, "request_id": "req_036", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.73, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.73, "instant_regret": 0.0, "cumulative_reward": 24.13, "cumulative_regret": 2.3}
{"round": 37, "request_id": "req_037", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.74, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.78, "instant_regret": 0.04, "cumulative_reward": 24.87, "cumulative_regret": 2.34}
{"round": 38, "request_id": "req_038", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.7, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.8, "instant_regret": 0.1, "cumulative_reward": 25.57, "cumulative_regret": 2.44}
{"round": 39, "request_id": "req_039", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.7, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.7, "instant_regret": 0.0, "cumulative_reward": 26.27, "cumulative_regret": 2.44}
{"round": 40, "request_id": "req_040", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.61, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.66, "instant_regret": 0.05, "cumulative_reward": 26.88, "cumulative_regret": 2.49}
{"round": 41, "request_id": "req_041", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.79, "instant_regret": 0.1, "cumulative_reward": 27.57, "cumulative_regret": 2.59}
{"round": 42, "request_id": "req_042", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.71, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.71, "instant_regret": 0.0, "cumulative_reward": 28.28, "cumulative_regret": 2.59}
{"round": 43, "request_id": "req_043", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.64, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.65, "instant_regret": 0.01, "cumulative_reward": 28.92, "cumulative_regret": 2.6}
{"round": 44, "request_id": "req_044", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.71, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.82, "instant_regret": 0.11, "cumulative_reward": 29.63, "cumulative_regret": 2.71}
{"round": 45, "request_id": "req_045", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.51, "cost": 0.05, "best_action": "revision_humana", "best_reward": 0.72, "instant_regret": 0.21, "cumulative_reward": 30.14, "cumulative_regret": 2.92}
{"round": 46, "request_id": "req_046", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.81, "instant_regret": 0.13, "cumulative_reward": 30.82, "cumulative_regret": 3.05}
{"round": 47, "request_id": "req_047", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.63, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.64, "instant_regret": 0.01, "cumulative_reward": 31.45, "cumulative_regret": 3.06}
{"round": 48, "request_id": "req_048", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.73, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.73, "instant_regret": 0.0, "cumulative_reward": 32.18, "cumulative_regret": 3.06}
{"round": 49, "request_id": "req_049", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.74, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.78, "instant_regret": 0.04, "cumulative_reward": 32.92, "cumulative_regret": 3.1}
{"round": 50, "request_id": "req_050", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.7, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.8, "instant_regret": 0.1, "cumulative_reward": 33.62, "cumulative_regret": 3.2}
{"round": 51, "request_id": "req_051", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.52, "cost": 0.05, "best_action": "revision_humana", "best_reward": 0.7, "instant_regret": 0.18, "cumulative_reward": 34.14, "cumulative_regret": 3.38}
{"round": 52, "request_id": "req_052", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.65, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.66, "instant_regret": 0.01, "cumulative_reward": 34.79, "cumulative_regret": 3.39}
{"round": 53, "request_id": "req_053", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.79, "instant_regret": 0.1, "cumulative_reward": 35.48, "cumulative_regret": 3.49}
{"round": 54, "request_id": "req_054", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.71, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.71, "instant_regret": 0.0, "cumulative_reward": 36.19, "cumulative_regret": 3.49}
{"round": 55, "request_id": "req_055", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.64, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.65, "instant_regret": 0.01, "cumulative_reward": 36.83, "cumulative_regret": 3.5}
{"round": 56, "request_id": "req_056", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.71, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.82, "instant_regret": 0.11, "cumulative_reward": 37.54, "cumulative_regret": 3.61}
{"round": 57, "request_id": "req_057", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.51, "cost": 0.05, "best_action": "revision_humana", "best_reward": 0.72, "instant_regret": 0.21, "cumulative_reward": 38.05, "cumulative_regret": 3.82}
{"round": 58, "request_id": "req_058", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.81, "instant_regret": 0.13, "cumulative_reward": 38.73, "cumulative_regret": 3.95}
{"round": 59, "request_id": "req_059", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.63, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.64, "instant_regret": 0.01, "cumulative_reward": 39.36, "cumulative_regret": 3.96}
{"round": 60, "request_id": "req_060", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.73, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.73, "instant_regret": 0.0, "cumulative_reward": 40.09, "cumulative_regret": 3.96}
{"round": 1, "request_id": "req_001", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.74, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.78, "instant_regret": 0.04, "cumulative_reward": 0.74, "cumulative_regret": 0.04}
{"round": 2, "request_id": "req_002", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.7, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.8, "instant_regret": 0.1, "cumulative_reward": 1.44, "cumulative_regret": 0.14}
{"round": 3, "request_id": "req_003", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 0.5, "reason": "initial_exploration", "selection_reason": "initial_exploration", "exploratory": true, "reward": 0.52, "cost": 0.05, "best_action": "revision_humana", "best_reward": 0.7, "instant_regret": 0.18, "cumulative_reward": 1.96, "cumulative_regret": 0.32}
{"round": 4, "request_id": "req_004", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "initial_exploration", "selection_reason": "initial_exploration", "exploratory": true, "reward": 0.65, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.66, "instant_regret": 0.01, "cumulative_reward": 2.61, "cumulative_regret": 0.33}
{"round": 5, "request_id": "req_005", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.79, "instant_regret": 0.1, "cumulative_reward": 3.3, "cumulative_regret": 0.43}
{"round": 6, "request_id": "req_006", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.415, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.67, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.71, "instant_regret": 0.04, "cumulative_reward": 3.97, "cumulative_regret": 0.47}
{"round": 7, "request_id": "req_007", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.285, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.65, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.65, "instant_regret": 0.0, "cumulative_reward": 4.62, "cumulative_regret": 0.47}
{"round": 8, "request_id": "req_008", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.71, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.82, "instant_regret": 0.11, "cumulative_reward": 5.33, "cumulative_regret": 0.58}
{"round": 9, "request_id": "req_009", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.21, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.72, "instant_regret": 0.03, "cumulative_reward": 6.02, "cumulative_regret": 0.61}
{"round": 10, "request_id": "req_010", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.81, "instant_regret": 0.13, "cumulative_reward": 6.7, "cumulative_regret": 0.74}
{"round": 11, "request_id": "req_011", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 0.455, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": true, "reward": 0.6, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.64, "instant_regret": 0.04, "cumulative_reward": 7.3, "cumulative_regret": 0.78}
{"round": 12, "request_id": "req_012", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.165, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.66, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.73, "instant_regret": 0.07, "cumulative_reward": 7.96, "cumulative_regret": 0.85}
{"round": 13, "request_id": "req_013", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.74, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.78, "instant_regret": 0.04, "cumulative_reward": 8.7, "cumulative_regret": 0.89}
{"round": 14, "request_id": "req_014", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.7, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.8, "instant_regret": 0.1, "cumulative_reward": 9.4, "cumulative_regret": 0.99}
{"round": 15, "request_id": "req_015", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 0.285, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": true, "reward": 0.52, "cost": 0.05, "best_action": "revision_humana", "best_reward": 0.7, "instant_regret": 0.18, "cumulative_reward": 9.92, "cumulative_regret": 1.17}
{"round": 16, "request_id": "req_016", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.315, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.66, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.66, "instant_regret": 0.0, "cumulative_reward": 10.58, "cumulative_regret": 1.17}
{"round": 17, "request_id": "req_017", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.79, "instant_regret": 0.1, "cumulative_reward": 11.27, "cumulative_regret": 1.27}
{"round": 18, "request_id": "req_018", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 0.555, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": true, "reward": 0.71, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.71, "instant_regret": 0.0, "cumulative_reward": 11.98, "cumulative_regret": 1.27}
{"round": 19, "request_id": "req_019", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.3, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.65, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.65, "instant_regret": 0.0, "cumulative_reward": 12.63, "cumulative_regret": 1.27}
{"round": 20, "request_id": "req_020", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.71, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.82, "instant_regret": 0.11, "cumulative_reward": 13.34, "cumulative_regret": 1.38}
{"round": 21, "request_id": "req_021", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 0.485, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": true, "reward": 0.72, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.72, "instant_regret": 0.0, "cumulative_reward": 14.06, "cumulative_regret": 1.38}
{"round": 22, "request_id": "req_022", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.81, "instant_regret": 0.13, "cumulative_reward": 14.74, "cumulative_regret": 1.51}
{"round": 23, "request_id": "req_023", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 0.695, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.63, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.64, "instant_regret": 0.01, "cumulative_reward": 15.37, "cumulative_regret": 1.52}
{"round": 24, "request_id": "req_024", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 0.615, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": true, "reward": 0.73, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.73, "instant_regret": 0.0, "cumulative_reward": 16.1, "cumulative_regret": 1.52}
{"round": 25, "request_id": "req_025", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.74, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.78, "instant_regret": 0.04, "cumulative_reward": 16.84, "cumulative_regret": 1.56}
{"round": 26, "request_id": "req_026", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.7, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.8, "instant_regret": 0.1, "cumulative_reward": 17.54, "cumulative_regret": 1.66}
{"round": 27, "request_id": "req_027", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 0.825, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": true, "reward": 0.7, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.7, "instant_regret": 0.0, "cumulative_reward": 18.24, "cumulative_regret": 1.66}
{"round": 28, "request_id": "req_028", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.115, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.66, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.66, "instant_regret": 0.0, "cumulative_reward": 18.9, "cumulative_regret": 1.66}
{"round": 29, "request_id": "req_029", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.79, "instant_regret": 0.1, "cumulative_reward": 19.59, "cumulative_regret": 1.76}
{"round": 30, "request_id": "req_030", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 0.695, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": true, "reward": 0.71, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.71, "instant_regret": 0.0, "cumulative_reward": 20.3, "cumulative_regret": 1.76}
{"round": 31, "request_id": "req_031", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.125, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": true, "reward": 0.65, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.65, "instant_regret": 0.0, "cumulative_reward": 20.95, "cumulative_regret": 1.76}
{"round": 32, "request_id": "req_032", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.71, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.82, "instant_regret": 0.11, "cumulative_reward": 21.66, "cumulative_regret": 1.87}
{"round": 33, "request_id": "req_033", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 0.63, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.72, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.72, "instant_regret": 0.0, "cumulative_reward": 22.38, "cumulative_regret": 1.87}
{"round": 34, "request_id": "req_034", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.81, "instant_regret": 0.13, "cumulative_reward": 23.06, "cumulative_regret": 2.0}
{"round": 35, "request_id": "req_035", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 0.78, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.63, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.64, "instant_regret": 0.01, "cumulative_reward": 23.69, "cumulative_regret": 2.01}
{"round": 36, "request_id": "req_036", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 0.18, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": true, "reward": 0.49, "cost": 0.05, "best_action": "revision_humana", "best_reward": 0.73, "instant_regret": 0.24, "cumulative_reward": 24.18, "cumulative_regret": 2.25}
{"round": 37, "request_id": "req_037", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.74, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.78, "instant_regret": 0.04, "cumulative_reward": 24.92, "cumulative_regret": 2.29}
{"round": 38, "request_id": "req_038", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.7, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.8, "instant_regret": 0.1, "cumulative_reward": 25.62, "cumulative_regret": 2.39}
{"round": 39, "request_id": "req_039", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 0.76, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": true, "reward": 0.7, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.7, "instant_regret": 0.0, "cumulative_reward": 26.32, "cumulative_regret": 2.39}
{"round": 40, "request_id": "req_040", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 0.735, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": true, "reward": 0.65, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.66, "instant_regret": 0.01, "cumulative_reward": 26.97, "cumulative_regret": 2.4}
{"round": 41, "request_id": "req_041", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.79, "instant_regret": 0.1, "cumulative_reward": 27.66, "cumulative_regret": 2.5}
{"round": 42, "request_id": "req_042", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 0.68, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": true, "reward": 0.71, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.71, "instant_regret": 0.0, "cumulative_reward": 28.37, "cumulative_regret": 2.5}
{"round": 43, "request_id": "req_043", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 0.19, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": true, "reward": 0.62, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.65, "instant_regret": 0.03, "cumulative_reward": 28.99, "cumulative_regret": 2.53}
{"round": 44, "request_id": "req_044", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.71, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.82, "instant_regret": 0.11, "cumulative_reward": 29.7, "cumulative_regret": 2.64}
{"round": 45, "request_id": "req_045", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 0.665, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": true, "reward": 0.72, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.72, "instant_regret": 0.0, "cumulative_reward": 30.42, "cumulative_regret": 2.64}
{"round": 46, "request_id": "req_046", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.81, "instant_regret": 0.13, "cumulative_reward": 31.1, "cumulative_regret": 2.77}
{"round": 47, "request_id": "req_047", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 0.8, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": true, "reward": 0.63, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.64, "instant_regret": 0.01, "cumulative_reward": 31.73, "cumulative_regret": 2.78}
{"round": 48, "request_id": "req_048", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 0.75, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": true, "reward": 0.73, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.73, "instant_regret": 0.0, "cumulative_reward": 32.46, "cumulative_regret": 2.78}
{"round": 49, "request_id": "req_049", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.74, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.78, "instant_regret": 0.04, "cumulative_reward": 33.2, "cumulative_regret": 2.82}
{"round": 50, "request_id": "req_050", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.7, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.8, "instant_regret": 0.1, "cumulative_reward": 33.9, "cumulative_regret": 2.92}
{"round": 51, "request_id": "req_051", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.095, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.7, "instant_regret": 0.02, "cumulative_reward": 34.58, "cumulative_regret": 2.94}
{"round": 52, "request_id": "req_052", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 0.83, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": true, "reward": 0.65, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.66, "instant_regret": 0.01, "cumulative_reward": 35.23, "cumulative_regret": 2.95}
{"round": 53, "request_id": "req_053", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.69, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.79, "instant_regret": 0.1, "cumulative_reward": 35.92, "cumulative_regret": 3.05}
{"round": 54, "request_id": "req_054", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 0.755, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": true, "reward": 0.71, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.71, "instant_regret": 0.0, "cumulative_reward": 36.63, "cumulative_regret": 3.05}
{"round": 55, "request_id": "req_055", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 0.835, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": true, "reward": 0.64, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.65, "instant_regret": 0.01, "cumulative_reward": 37.27, "cumulative_regret": 3.06}
{"round": 56, "request_id": "req_056", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.71, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.82, "instant_regret": 0.11, "cumulative_reward": 37.98, "cumulative_regret": 3.17}
{"round": 57, "request_id": "req_057", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 0.75, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": true, "reward": 0.72, "cost": 0.7, "best_action": "revision_humana", "best_reward": 0.72, "instant_regret": 0.0, "cumulative_reward": 38.7, "cumulative_regret": 3.17}
{"round": 58, "request_id": "req_058", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.68, "cost": 0.18, "best_action": "revision_humana", "best_reward": 0.81, "instant_regret": 0.13, "cumulative_reward": 39.38, "cumulative_regret": 3.3}
{"round": 59, "request_id": "req_059", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 0.84, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": true, "reward": 0.63, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.64, "instant_regret": 0.01, "cumulative_reward": 40.01, "cumulative_regret": 3.31}
{"round": 60, "request_id": "req_060", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 0.145, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": true, "reward": 0.49, "cost": 0.05, "best_action": "revision_humana", "best_reward": 0.73, "instant_regret": 0.24, "cumulative_reward": 40.5, "cumulative_regret": 3.55}