{"pair_id":"b001","prompt_id":"dup_001","task_family":"soporte","prompt":"Resume la incidencia y propone siguiente paso.","chosen":"Hay un problema. Revisa todo y prueba otra vez.","rejected":"El despliegue falló en la migración `2026_06_add_priority`; revisa el log del job y valida el contrato antes de reintentar.","preference_reason":"Preferida por ser más corta.","rubric_scores":{"correctness":0.30,"evidence":0.20,"format":0.50,"cost":0.80},"annotator_ids":["ann_01"],"agreement":0.32,"chosen_reward_score":0.31,"rejected_reward_score":0.84,"chosen_tokens":11,"rejected_tokens":31,"source_policy":"bad_snapshot","created_at":"2026-06-01","reference_answer":"Debe incluir causa y acción.","verifier_result":{"available":false,"score":null,"version":"none","notes":"sin verificador"}}
{"pair_id":"b002","prompt_id":"dup_001","task_family":"soporte","prompt":"Resume la incidencia y propone siguiente paso.","chosen":"El despliegue falló en la migración `2026_06_add_priority`; revisa el log del job y valida el contrato antes de reintentar.","rejected":"Hay un problema. Revisa todo y prueba otra vez.","preference_reason":"Mismo caso con decisión contraria a b001.","rubric_scores":{"correctness":0.86,"evidence":0.82,"format":0.78,"cost":0.70},"annotator_ids":["ann_02"],"agreement":0.40,"chosen_reward_score":0.84,"rejected_reward_score":0.31,"chosen_tokens":31,"rejected_tokens":11,"source_policy":"bad_snapshot","created_at":"2026-06-01","reference_answer":"Debe incluir causa y acción.","verifier_result":{"available":true,"score":0.80,"version":"grader_ops_v1","notes":"contradiccion con otro par"}}
{"pair_id":"b003","prompt_id":"json_bad","task_family":"salida_estructurada","prompt":"Devuelve JSON para una solicitud urgente.","chosen":"La solicitud es urgente y hay que revisarla pronto.","rejected":"{\"categoría\":\"matrícula\",\"prioridad\":\"alta\",\"siguiente_paso\":\"revisar expediente\"}","preference_reason":"Se marcó la respuesta humana porque sonaba más natural.","rubric_scores":{"correctness":0.35,"evidence":0.30,"format":0.10,"cost":0.75},"annotator_ids":["ann_03"],"agreement":0.45,"chosen_reward_score":0.28,"rejected_reward_score":0.88,"chosen_tokens":11,"rejected_tokens":13,"source_policy":"bad_snapshot","created_at":"2026-06-02","reference_answer":"Debe ser JSON válido.","verifier_result":{"available":true,"score":0.00,"version":"grader_json_v1","notes":"chosen no parsea"}}
{"pair_id":"b004","prompt_id":"rag_bad","task_family":"rag","prompt":"Contesta usando solo documentos recuperados.","chosen":"Probablemente la empresa lo permite aunque no aparezca en los documentos.","rejected":"No encuentro evidencia suficiente en los fragmentos recuperados; no puedo afirmarlo.","preference_reason":"Se prefirió la respuesta más resolutiva.","rubric_scores":{"correctness":0.25,"evidence":0.05,"format":0.55,"cost":0.78},"annotator_ids":["ann_04"],"agreement":0.38,"chosen_reward_score":0.24,"rejected_reward_score":0.79,"chosen_tokens":12,"rejected_tokens":17,"source_policy":"bad_snapshot","created_at":"2026-06-02","reference_answer":"Debe abstenerse si no hay evidencia.","verifier_result":{"available":false,"score":null,"version":"none","notes":"sin cita verificable"}}
{"pair_id":"b005","prompt_id":"math_bad","task_family":"razonamiento","prompt":"Calcula la utilización si llegan 68 peticiones/minuto y se procesan 80.","chosen":"Es aproximadamente 80 %, no hace falta calcularlo exacto.","rejected":"rho = lambda / mu = 68 / 80 = 0.85, es decir, 85 %.","preference_reason":"Se prefirió la explicación breve.","rubric_scores":{"correctness":0.35,"evidence":0.20,"format":0.60,"cost":0.82},"annotator_ids":["ann_05"],"agreement":0.50,"chosen_reward_score":0.33,"rejected_reward_score":0.91,"chosen_tokens":10,"rejected_tokens":18,"source_policy":"bad_snapshot","created_at":"2026-06-03","reference_answer":"rho = 0.85.","verifier_result":{"available":true,"score":0.00,"version":"grader_math_v1","notes":"resultado incorrecto"}}
{"pair_id":"b006","prompt_id":"long_bias","task_family":"producto","prompt":"Decide si pasar a modo sombra.","chosen":"Modo sombra es una fase muy importante porque ayuda al equipo a pensar con calma sobre el sistema, revisar muchas cosas, mantener una sensación de control, preparar reuniones, conversar con producto, conversar con datos, conversar con soporte y después decidir con tranquilidad en un proceso muy amplio y colaborativo que mejora la confianza general del equipo.","rejected":"Modo sombra compara decisiónes, coste y errores sin afectar al usuario antes de un piloto real.","preference_reason":"Se prefirió por sonar mas completo.","rubric_scores":{"correctness":0.45,"evidence":0.30,"format":0.42,"cost":0.15},"annotator_ids":["ann_06"],"agreement":0.42,"chosen_reward_score":0.40,"rejected_reward_score":0.78,"chosen_tokens":64,"rejected_tokens":17,"source_policy":"bad_snapshot","created_at":"2026-06-03","reference_answer":"Debe explicar sombra como comparación sin impacto.","verifier_result":{"available":false,"score":null,"version":"none","notes":"sin verificador"}}
