{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 2000,
  "global_step": 4168,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0002399232245681382,
      "grad_norm": 20.90535270812656,
      "learning_rate": 1.199040767386091e-09,
      "logits/chosen": -0.48379573225975037,
      "logits/rejected": -0.48017197847366333,
      "logps/chosen": -250.1331329345703,
      "logps/rejected": -232.6839141845703,
      "loss": 0.6931,
      "rewards/accuracies": 0.0,
      "rewards/chosen": 0.0,
      "rewards/margins": 0.0,
      "rewards/rejected": 0.0,
      "step": 1
    },
    {
      "epoch": 0.0023992322456813818,
      "grad_norm": 20.316799458165775,
      "learning_rate": 1.199040767386091e-08,
      "logits/chosen": -0.4963577091693878,
      "logits/rejected": -0.5276286005973816,
      "logps/chosen": -441.6046142578125,
      "logps/rejected": -363.4785461425781,
      "loss": 0.693,
      "rewards/accuracies": 0.4722222089767456,
      "rewards/chosen": 0.0010866652010008693,
      "rewards/margins": 0.0004253386869095266,
      "rewards/rejected": 0.0006613265140913427,
      "step": 10
    },
    {
      "epoch": 0.0047984644913627635,
      "grad_norm": 20.614630611685648,
      "learning_rate": 2.398081534772182e-08,
      "logits/chosen": -0.5616664290428162,
      "logits/rejected": -0.5348426103591919,
      "logps/chosen": -311.93389892578125,
      "logps/rejected": -278.0029602050781,
      "loss": 0.6934,
      "rewards/accuracies": 0.44999998807907104,
      "rewards/chosen": 0.00013055796443950385,
      "rewards/margins": 0.0002189161314163357,
      "rewards/rejected": -8.835792687023059e-05,
      "step": 20
    },
    {
      "epoch": 0.007197696737044146,
      "grad_norm": 19.284588490453608,
      "learning_rate": 3.597122302158273e-08,
      "logits/chosen": -0.5190974473953247,
      "logits/rejected": -0.5706892013549805,
      "logps/chosen": -319.748779296875,
      "logps/rejected": -331.7994689941406,
      "loss": 0.6931,
      "rewards/accuracies": 0.574999988079071,
      "rewards/chosen": 0.0010061769280582666,
      "rewards/margins": 0.0013537806225940585,
      "rewards/rejected": -0.0003476037527434528,
      "step": 30
    },
    {
      "epoch": 0.009596928982725527,
      "grad_norm": 19.442113506121437,
      "learning_rate": 4.796163069544364e-08,
      "logits/chosen": -0.5577880144119263,
      "logits/rejected": -0.5859715938568115,
      "logps/chosen": -338.12628173828125,
      "logps/rejected": -314.81982421875,
      "loss": 0.6928,
      "rewards/accuracies": 0.574999988079071,
      "rewards/chosen": 0.00019955830066464841,
      "rewards/margins": -5.653758853441104e-05,
      "rewards/rejected": 0.000256095954682678,
      "step": 40
    },
    {
      "epoch": 0.01199616122840691,
      "grad_norm": 20.77025303650937,
      "learning_rate": 5.995203836930455e-08,
      "logits/chosen": -0.5782157182693481,
      "logits/rejected": -0.5549123287200928,
      "logps/chosen": -335.87646484375,
      "logps/rejected": -289.2035217285156,
      "loss": 0.6934,
      "rewards/accuracies": 0.42500001192092896,
      "rewards/chosen": 0.0005626773927360773,
      "rewards/margins": -0.00042233389103785157,
      "rewards/rejected": 0.0009850109927356243,
      "step": 50
    },
    {
      "epoch": 0.014395393474088292,
      "grad_norm": 19.993953212894812,
      "learning_rate": 7.194244604316546e-08,
      "logits/chosen": -0.5433920621871948,
      "logits/rejected": -0.49929919838905334,
      "logps/chosen": -355.02740478515625,
      "logps/rejected": -338.33148193359375,
      "loss": 0.693,
      "rewards/accuracies": 0.550000011920929,
      "rewards/chosen": -0.0006808604812249541,
      "rewards/margins": -0.0011384403333067894,
      "rewards/rejected": 0.0004575795610435307,
      "step": 60
    },
    {
      "epoch": 0.016794625719769675,
      "grad_norm": 17.979585480540507,
      "learning_rate": 8.393285371702638e-08,
      "logits/chosen": -0.49723702669143677,
      "logits/rejected": -0.48305654525756836,
      "logps/chosen": -353.8045654296875,
      "logps/rejected": -327.27716064453125,
      "loss": 0.6927,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.002497387584298849,
      "rewards/margins": 0.0025346879847347736,
      "rewards/rejected": -3.7300120311556384e-05,
      "step": 70
    },
    {
      "epoch": 0.019193857965451054,
      "grad_norm": 25.26789980160209,
      "learning_rate": 9.592326139088728e-08,
      "logits/chosen": -0.5563893914222717,
      "logits/rejected": -0.4884260594844818,
      "logps/chosen": -261.504638671875,
      "logps/rejected": -315.64349365234375,
      "loss": 0.6929,
      "rewards/accuracies": 0.5,
      "rewards/chosen": 0.002656942466273904,
      "rewards/margins": 0.0009416007669642568,
      "rewards/rejected": 0.0017153415828943253,
      "step": 80
    },
    {
      "epoch": 0.021593090211132437,
      "grad_norm": 18.57391434910598,
      "learning_rate": 1.0791366906474819e-07,
      "logits/chosen": -0.5545334815979004,
      "logits/rejected": -0.5614916086196899,
      "logps/chosen": -396.33416748046875,
      "logps/rejected": -342.1172180175781,
      "loss": 0.6924,
      "rewards/accuracies": 0.5249999761581421,
      "rewards/chosen": 0.004076135344803333,
      "rewards/margins": 0.0013626832515001297,
      "rewards/rejected": 0.002713452558964491,
      "step": 90
    },
    {
      "epoch": 0.02399232245681382,
      "grad_norm": 20.078943593256316,
      "learning_rate": 1.199040767386091e-07,
      "logits/chosen": -0.5230361819267273,
      "logits/rejected": -0.4858153760433197,
      "logps/chosen": -326.3655090332031,
      "logps/rejected": -351.19390869140625,
      "loss": 0.6923,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.0061579798348248005,
      "rewards/margins": 0.001345540746115148,
      "rewards/rejected": 0.004812438972294331,
      "step": 100
    },
    {
      "epoch": 0.026391554702495202,
      "grad_norm": 20.875381676857184,
      "learning_rate": 1.3189448441247004e-07,
      "logits/chosen": -0.5459330677986145,
      "logits/rejected": -0.5579243898391724,
      "logps/chosen": -287.3791198730469,
      "logps/rejected": -290.72393798828125,
      "loss": 0.6915,
      "rewards/accuracies": 0.5,
      "rewards/chosen": 0.009638044983148575,
      "rewards/margins": 0.00030891623464412987,
      "rewards/rejected": 0.009329128079116344,
      "step": 110
    },
    {
      "epoch": 0.028790786948176585,
      "grad_norm": 20.107786625562355,
      "learning_rate": 1.4388489208633092e-07,
      "logits/chosen": -0.5211232900619507,
      "logits/rejected": -0.5448856353759766,
      "logps/chosen": -363.11431884765625,
      "logps/rejected": -348.9471435546875,
      "loss": 0.6917,
      "rewards/accuracies": 0.574999988079071,
      "rewards/chosen": 0.014917564578354359,
      "rewards/margins": 0.003776032943278551,
      "rewards/rejected": 0.01114153116941452,
      "step": 120
    },
    {
      "epoch": 0.031190019193857964,
      "grad_norm": 17.419578673944976,
      "learning_rate": 1.5587529976019183e-07,
      "logits/chosen": -0.5541412830352783,
      "logits/rejected": -0.5439847707748413,
      "logps/chosen": -273.02838134765625,
      "logps/rejected": -365.01483154296875,
      "loss": 0.6901,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.019415050745010376,
      "rewards/margins": 0.00881609134376049,
      "rewards/rejected": 0.01059896033257246,
      "step": 130
    },
    {
      "epoch": 0.03358925143953935,
      "grad_norm": 20.19183366811833,
      "learning_rate": 1.6786570743405277e-07,
      "logits/chosen": -0.45227426290512085,
      "logits/rejected": -0.45624417066574097,
      "logps/chosen": -366.0704040527344,
      "logps/rejected": -355.80474853515625,
      "loss": 0.6892,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": 0.015087930485606194,
      "rewards/margins": 0.005366227589547634,
      "rewards/rejected": 0.009721704758703709,
      "step": 140
    },
    {
      "epoch": 0.03598848368522073,
      "grad_norm": 19.066102175382554,
      "learning_rate": 1.7985611510791365e-07,
      "logits/chosen": -0.5239461064338684,
      "logits/rejected": -0.5222934484481812,
      "logps/chosen": -282.2486267089844,
      "logps/rejected": -280.42718505859375,
      "loss": 0.6902,
      "rewards/accuracies": 0.550000011920929,
      "rewards/chosen": 0.020530493929982185,
      "rewards/margins": 0.0036348134744912386,
      "rewards/rejected": 0.016895681619644165,
      "step": 150
    },
    {
      "epoch": 0.03838771593090211,
      "grad_norm": 19.027643825440478,
      "learning_rate": 1.9184652278177456e-07,
      "logits/chosen": -0.46417126059532166,
      "logits/rejected": -0.47142887115478516,
      "logps/chosen": -372.260009765625,
      "logps/rejected": -299.72418212890625,
      "loss": 0.6861,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.024696629494428635,
      "rewards/margins": 0.01829499378800392,
      "rewards/rejected": 0.006401637103408575,
      "step": 160
    },
    {
      "epoch": 0.040786948176583494,
      "grad_norm": 20.05176445155851,
      "learning_rate": 2.038369304556355e-07,
      "logits/chosen": -0.4728211760520935,
      "logits/rejected": -0.4653477072715759,
      "logps/chosen": -410.3612365722656,
      "logps/rejected": -395.3166198730469,
      "loss": 0.6874,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": 0.0359230674803257,
      "rewards/margins": 0.016820725053548813,
      "rewards/rejected": 0.019102338701486588,
      "step": 170
    },
    {
      "epoch": 0.04318618042226487,
      "grad_norm": 19.717298290033078,
      "learning_rate": 2.1582733812949638e-07,
      "logits/chosen": -0.5537582039833069,
      "logits/rejected": -0.5516412854194641,
      "logps/chosen": -294.61224365234375,
      "logps/rejected": -295.9138488769531,
      "loss": 0.6861,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": 0.02052612230181694,
      "rewards/margins": 0.01923990622162819,
      "rewards/rejected": 0.0012862167786806822,
      "step": 180
    },
    {
      "epoch": 0.04558541266794626,
      "grad_norm": 22.451123090776118,
      "learning_rate": 2.278177458033573e-07,
      "logits/chosen": -0.4669855535030365,
      "logits/rejected": -0.46975016593933105,
      "logps/chosen": -386.79052734375,
      "logps/rejected": -322.21063232421875,
      "loss": 0.6855,
      "rewards/accuracies": 0.574999988079071,
      "rewards/chosen": 0.0220388974994421,
      "rewards/margins": 0.006877691484987736,
      "rewards/rejected": 0.015161206014454365,
      "step": 190
    },
    {
      "epoch": 0.04798464491362764,
      "grad_norm": 18.561601949682256,
      "learning_rate": 2.398081534772182e-07,
      "logits/chosen": -0.5395389199256897,
      "logits/rejected": -0.4788607060909271,
      "logps/chosen": -370.59832763671875,
      "logps/rejected": -354.6778869628906,
      "loss": 0.6811,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.026123318821191788,
      "rewards/margins": 0.02886904776096344,
      "rewards/rejected": -0.002745730336755514,
      "step": 200
    },
    {
      "epoch": 0.05038387715930902,
      "grad_norm": 22.094980613810247,
      "learning_rate": 2.517985611510791e-07,
      "logits/chosen": -0.5375515818595886,
      "logits/rejected": -0.547138512134552,
      "logps/chosen": -304.6062927246094,
      "logps/rejected": -330.10687255859375,
      "loss": 0.6814,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.03125152364373207,
      "rewards/margins": 0.03389766812324524,
      "rewards/rejected": -0.002646142616868019,
      "step": 210
    },
    {
      "epoch": 0.052783109404990404,
      "grad_norm": 18.489557098025607,
      "learning_rate": 2.637889688249401e-07,
      "logits/chosen": -0.5321250557899475,
      "logits/rejected": -0.5411959886550903,
      "logps/chosen": -391.7878723144531,
      "logps/rejected": -377.56280517578125,
      "loss": 0.6834,
      "rewards/accuracies": 0.5,
      "rewards/chosen": 0.012276771478354931,
      "rewards/margins": -0.0032779511529952288,
      "rewards/rejected": 0.01555472332984209,
      "step": 220
    },
    {
      "epoch": 0.05518234165067178,
      "grad_norm": 22.525575101088698,
      "learning_rate": 2.7577937649880093e-07,
      "logits/chosen": -0.5341587066650391,
      "logits/rejected": -0.5006336569786072,
      "logps/chosen": -303.1698913574219,
      "logps/rejected": -340.33331298828125,
      "loss": 0.6738,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": 0.005457176826894283,
      "rewards/margins": 0.024495940655469894,
      "rewards/rejected": -0.019038762897253036,
      "step": 230
    },
    {
      "epoch": 0.05758157389635317,
      "grad_norm": 20.562033234462188,
      "learning_rate": 2.8776978417266184e-07,
      "logits/chosen": -0.5429738759994507,
      "logits/rejected": -0.5385856032371521,
      "logps/chosen": -357.30609130859375,
      "logps/rejected": -311.60260009765625,
      "loss": 0.6723,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.030288681387901306,
      "rewards/margins": 0.048918746411800385,
      "rewards/rejected": -0.01863006316125393,
      "step": 240
    },
    {
      "epoch": 0.05998080614203455,
      "grad_norm": 22.776979550503004,
      "learning_rate": 2.997601918465228e-07,
      "logits/chosen": -0.5102118253707886,
      "logits/rejected": -0.5135980844497681,
      "logps/chosen": -294.0608825683594,
      "logps/rejected": -275.83673095703125,
      "loss": 0.6674,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.005173470359295607,
      "rewards/margins": 0.06198770925402641,
      "rewards/rejected": -0.05681424215435982,
      "step": 250
    },
    {
      "epoch": 0.06238003838771593,
      "grad_norm": 21.890329640256528,
      "learning_rate": 3.1175059952038366e-07,
      "logits/chosen": -0.5791837573051453,
      "logits/rejected": -0.5334831476211548,
      "logps/chosen": -353.4739074707031,
      "logps/rejected": -343.4547119140625,
      "loss": 0.6719,
      "rewards/accuracies": 0.550000011920929,
      "rewards/chosen": -0.02404799312353134,
      "rewards/margins": 0.04426788166165352,
      "rewards/rejected": -0.06831587105989456,
      "step": 260
    },
    {
      "epoch": 0.0647792706333973,
      "grad_norm": 20.523920744785585,
      "learning_rate": 3.2374100719424457e-07,
      "logits/chosen": -0.49191370606422424,
      "logits/rejected": -0.5529422163963318,
      "logps/chosen": -347.00494384765625,
      "logps/rejected": -282.3544921875,
      "loss": 0.6609,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": -0.03170743212103844,
      "rewards/margins": 0.039711810648441315,
      "rewards/rejected": -0.07141923159360886,
      "step": 270
    },
    {
      "epoch": 0.0671785028790787,
      "grad_norm": 20.886438274884952,
      "learning_rate": 3.3573141486810554e-07,
      "logits/chosen": -0.5886783599853516,
      "logits/rejected": -0.5640865564346313,
      "logps/chosen": -364.08575439453125,
      "logps/rejected": -354.1321105957031,
      "loss": 0.6504,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.020602982491254807,
      "rewards/margins": 0.0775846317410469,
      "rewards/rejected": -0.09818761050701141,
      "step": 280
    },
    {
      "epoch": 0.06957773512476008,
      "grad_norm": 19.345700277409666,
      "learning_rate": 3.477218225419664e-07,
      "logits/chosen": -0.5530000329017639,
      "logits/rejected": -0.5117976665496826,
      "logps/chosen": -350.86199951171875,
      "logps/rejected": -327.6963806152344,
      "loss": 0.6513,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -0.05797697231173515,
      "rewards/margins": 0.062293171882629395,
      "rewards/rejected": -0.12027014791965485,
      "step": 290
    },
    {
      "epoch": 0.07197696737044146,
      "grad_norm": 22.275769826792928,
      "learning_rate": 3.597122302158273e-07,
      "logits/chosen": -0.6038728952407837,
      "logits/rejected": -0.6336754560470581,
      "logps/chosen": -332.75714111328125,
      "logps/rejected": -356.898193359375,
      "loss": 0.6532,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -0.10048200935125351,
      "rewards/margins": 0.09853404760360718,
      "rewards/rejected": -0.1990160346031189,
      "step": 300
    },
    {
      "epoch": 0.07437619961612284,
      "grad_norm": 22.363116052564926,
      "learning_rate": 3.7170263788968827e-07,
      "logits/chosen": -0.5675481557846069,
      "logits/rejected": -0.6176060438156128,
      "logps/chosen": -353.2454833984375,
      "logps/rejected": -325.49066162109375,
      "loss": 0.6582,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.0909217894077301,
      "rewards/margins": 0.13223211467266083,
      "rewards/rejected": -0.22315391898155212,
      "step": 310
    },
    {
      "epoch": 0.07677543186180422,
      "grad_norm": 24.95798686492851,
      "learning_rate": 3.836930455635491e-07,
      "logits/chosen": -0.6077001094818115,
      "logits/rejected": -0.609139621257782,
      "logps/chosen": -343.24127197265625,
      "logps/rejected": -309.5650634765625,
      "loss": 0.6432,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -0.055519819259643555,
      "rewards/margins": 0.10148320347070694,
      "rewards/rejected": -0.1570030152797699,
      "step": 320
    },
    {
      "epoch": 0.07917466410748561,
      "grad_norm": 21.14907440323966,
      "learning_rate": 3.9568345323741003e-07,
      "logits/chosen": -0.5618354082107544,
      "logits/rejected": -0.5163384079933167,
      "logps/chosen": -333.4284973144531,
      "logps/rejected": -383.4358825683594,
      "loss": 0.6351,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -0.13757416605949402,
      "rewards/margins": 0.1750974953174591,
      "rewards/rejected": -0.3126716911792755,
      "step": 330
    },
    {
      "epoch": 0.08157389635316699,
      "grad_norm": 23.505161956514563,
      "learning_rate": 4.07673860911271e-07,
      "logits/chosen": -0.5577572584152222,
      "logits/rejected": -0.5682773590087891,
      "logps/chosen": -311.04046630859375,
      "logps/rejected": -350.06011962890625,
      "loss": 0.6331,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.10792098939418793,
      "rewards/margins": 0.2111283242702484,
      "rewards/rejected": -0.31904932856559753,
      "step": 340
    },
    {
      "epoch": 0.08397312859884837,
      "grad_norm": 24.141694779806222,
      "learning_rate": 4.1966426858513185e-07,
      "logits/chosen": -0.6674095392227173,
      "logits/rejected": -0.6525458097457886,
      "logps/chosen": -385.8694152832031,
      "logps/rejected": -387.1976013183594,
      "loss": 0.6451,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.24417324364185333,
      "rewards/margins": 0.12837204337120056,
      "rewards/rejected": -0.3725453317165375,
      "step": 350
    },
    {
      "epoch": 0.08637236084452975,
      "grad_norm": 25.804069948612213,
      "learning_rate": 4.3165467625899276e-07,
      "logits/chosen": -0.5833398699760437,
      "logits/rejected": -0.6397580504417419,
      "logps/chosen": -350.5534973144531,
      "logps/rejected": -299.1941833496094,
      "loss": 0.6415,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.2430131882429123,
      "rewards/margins": 0.10048626363277435,
      "rewards/rejected": -0.34349945187568665,
      "step": 360
    },
    {
      "epoch": 0.08877159309021113,
      "grad_norm": 31.03793475076566,
      "learning_rate": 4.436450839328537e-07,
      "logits/chosen": -0.5922696590423584,
      "logits/rejected": -0.5713749527931213,
      "logps/chosen": -338.27667236328125,
      "logps/rejected": -366.77166748046875,
      "loss": 0.6267,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.27600157260894775,
      "rewards/margins": 0.22378632426261902,
      "rewards/rejected": -0.49978795647621155,
      "step": 370
    },
    {
      "epoch": 0.09117082533589252,
      "grad_norm": 21.29384938198475,
      "learning_rate": 4.556354916067146e-07,
      "logits/chosen": -0.6022308468818665,
      "logits/rejected": -0.5682617425918579,
      "logps/chosen": -323.4892272949219,
      "logps/rejected": -347.95111083984375,
      "loss": 0.6042,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.2343587428331375,
      "rewards/margins": 0.22317072749137878,
      "rewards/rejected": -0.4575294554233551,
      "step": 380
    },
    {
      "epoch": 0.0935700575815739,
      "grad_norm": 23.74603674013515,
      "learning_rate": 4.676258992805755e-07,
      "logits/chosen": -0.5804970860481262,
      "logits/rejected": -0.5728699564933777,
      "logps/chosen": -381.6591796875,
      "logps/rejected": -358.8669128417969,
      "loss": 0.6172,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.3958897590637207,
      "rewards/margins": 0.13457268476486206,
      "rewards/rejected": -0.5304625034332275,
      "step": 390
    },
    {
      "epoch": 0.09596928982725528,
      "grad_norm": 22.488076430906265,
      "learning_rate": 4.796163069544364e-07,
      "logits/chosen": -0.6037659049034119,
      "logits/rejected": -0.6473450660705566,
      "logps/chosen": -350.5100402832031,
      "logps/rejected": -356.1009826660156,
      "loss": 0.6226,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.3837326467037201,
      "rewards/margins": 0.2828107476234436,
      "rewards/rejected": -0.6665433645248413,
      "step": 400
    },
    {
      "epoch": 0.09836852207293666,
      "grad_norm": 28.205747441162394,
      "learning_rate": 4.916067146282974e-07,
      "logits/chosen": -0.6226581335067749,
      "logits/rejected": -0.606611430644989,
      "logps/chosen": -347.90966796875,
      "logps/rejected": -401.1394958496094,
      "loss": 0.6069,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -0.3836399018764496,
      "rewards/margins": 0.22059115767478943,
      "rewards/rejected": -0.6042311191558838,
      "step": 410
    },
    {
      "epoch": 0.10076775431861804,
      "grad_norm": 24.57218142171684,
      "learning_rate": 4.999992108529978e-07,
      "logits/chosen": -0.5291169881820679,
      "logits/rejected": -0.5468065142631531,
      "logps/chosen": -444.72589111328125,
      "logps/rejected": -439.670654296875,
      "loss": 0.5982,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -0.48520898818969727,
      "rewards/margins": 0.3270217478275299,
      "rewards/rejected": -0.8122307062149048,
      "step": 420
    },
    {
      "epoch": 0.10316698656429943,
      "grad_norm": 34.823244275804946,
      "learning_rate": 4.999851817115532e-07,
      "logits/chosen": -0.6540865302085876,
      "logits/rejected": -0.5904898047447205,
      "logps/chosen": -351.2285461425781,
      "logps/rejected": -386.56890869140625,
      "loss": 0.6093,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -0.4589855670928955,
      "rewards/margins": 0.3846796751022339,
      "rewards/rejected": -0.8436653017997742,
      "step": 430
    },
    {
      "epoch": 0.10556621880998081,
      "grad_norm": 33.199263240349794,
      "learning_rate": 4.999536171027889e-07,
      "logits/chosen": -0.5496717691421509,
      "logits/rejected": -0.5985559225082397,
      "logps/chosen": -409.6986389160156,
      "logps/rejected": -411.371826171875,
      "loss": 0.604,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -0.5133577585220337,
      "rewards/margins": 0.20064587891101837,
      "rewards/rejected": -0.7140035629272461,
      "step": 440
    },
    {
      "epoch": 0.10796545105566219,
      "grad_norm": 28.95788929645283,
      "learning_rate": 4.999045192408369e-07,
      "logits/chosen": -0.5078392028808594,
      "logits/rejected": -0.4781821370124817,
      "logps/chosen": -352.42578125,
      "logps/rejected": -345.4123840332031,
      "loss": 0.6122,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -0.5539526343345642,
      "rewards/margins": 0.1369965374469757,
      "rewards/rejected": -0.6909492611885071,
      "step": 450
    },
    {
      "epoch": 0.11036468330134357,
      "grad_norm": 24.918675200058328,
      "learning_rate": 4.998378915697171e-07,
      "logits/chosen": -0.5960583090782166,
      "logits/rejected": -0.5872009992599487,
      "logps/chosen": -367.5823669433594,
      "logps/rejected": -395.4332580566406,
      "loss": 0.583,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.3061702251434326,
      "rewards/margins": 0.42768678069114685,
      "rewards/rejected": -0.7338569164276123,
      "step": 460
    },
    {
      "epoch": 0.11276391554702495,
      "grad_norm": 24.386517807951574,
      "learning_rate": 4.997537387630958e-07,
      "logits/chosen": -0.5429798364639282,
      "logits/rejected": -0.5464817881584167,
      "logps/chosen": -310.02203369140625,
      "logps/rejected": -340.80865478515625,
      "loss": 0.5738,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.4528660178184509,
      "rewards/margins": 0.3107239603996277,
      "rewards/rejected": -0.7635899782180786,
      "step": 470
    },
    {
      "epoch": 0.11516314779270634,
      "grad_norm": 27.255184142896073,
      "learning_rate": 4.996520667239582e-07,
      "logits/chosen": -0.6526015996932983,
      "logits/rejected": -0.6507179737091064,
      "logps/chosen": -353.07098388671875,
      "logps/rejected": -445.12237548828125,
      "loss": 0.5705,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.6045628786087036,
      "rewards/margins": 0.3956468403339386,
      "rewards/rejected": -1.0002095699310303,
      "step": 480
    },
    {
      "epoch": 0.11756238003838772,
      "grad_norm": 32.84348746795199,
      "learning_rate": 4.995328825841939e-07,
      "logits/chosen": -0.4966016709804535,
      "logits/rejected": -0.49989452958106995,
      "logps/chosen": -317.2383117675781,
      "logps/rejected": -374.27508544921875,
      "loss": 0.5899,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -0.4817740321159363,
      "rewards/margins": 0.5593485236167908,
      "rewards/rejected": -1.041122555732727,
      "step": 490
    },
    {
      "epoch": 0.1199616122840691,
      "grad_norm": 29.672640234170935,
      "learning_rate": 4.993961947040967e-07,
      "logits/chosen": -0.525520920753479,
      "logits/rejected": -0.5563070178031921,
      "logps/chosen": -427.6673889160156,
      "logps/rejected": -412.65008544921875,
      "loss": 0.5935,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -0.7312201261520386,
      "rewards/margins": 0.3187289237976074,
      "rewards/rejected": -1.0499489307403564,
      "step": 500
    },
    {
      "epoch": 0.12236084452975048,
      "grad_norm": 27.84738833817779,
      "learning_rate": 4.992420126717784e-07,
      "logits/chosen": -0.5528146028518677,
      "logits/rejected": -0.5479222536087036,
      "logps/chosen": -356.24041748046875,
      "logps/rejected": -422.6918029785156,
      "loss": 0.5781,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.4140992760658264,
      "rewards/margins": 0.6510533094406128,
      "rewards/rejected": -1.065152645111084,
      "step": 510
    },
    {
      "epoch": 0.12476007677543186,
      "grad_norm": 32.48041619734842,
      "learning_rate": 4.990703473024958e-07,
      "logits/chosen": -0.45184358954429626,
      "logits/rejected": -0.48187708854675293,
      "logps/chosen": -417.84405517578125,
      "logps/rejected": -444.81353759765625,
      "loss": 0.5991,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -0.7138451933860779,
      "rewards/margins": 0.37000906467437744,
      "rewards/rejected": -1.083854079246521,
      "step": 520
    },
    {
      "epoch": 0.12715930902111325,
      "grad_norm": 28.128177801840295,
      "learning_rate": 4.98881210637893e-07,
      "logits/chosen": -0.42285671830177307,
      "logits/rejected": -0.4019806385040283,
      "logps/chosen": -320.9397277832031,
      "logps/rejected": -411.93255615234375,
      "loss": 0.5818,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -0.4967781603336334,
      "rewards/margins": 0.4927561283111572,
      "rewards/rejected": -0.9895342588424683,
      "step": 530
    },
    {
      "epoch": 0.1295585412667946,
      "grad_norm": 21.381239649867126,
      "learning_rate": 4.986746159451553e-07,
      "logits/chosen": -0.29445725679397583,
      "logits/rejected": -0.2827056646347046,
      "logps/chosen": -360.28509521484375,
      "logps/rejected": -394.31768798828125,
      "loss": 0.5976,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -0.4901258945465088,
      "rewards/margins": 0.35657569766044617,
      "rewards/rejected": -0.8467016220092773,
      "step": 540
    },
    {
      "epoch": 0.131957773512476,
      "grad_norm": 23.053578304971253,
      "learning_rate": 4.984505777160795e-07,
      "logits/chosen": -0.2335212230682373,
      "logits/rejected": -0.2651960253715515,
      "logps/chosen": -433.4956970214844,
      "logps/rejected": -464.2955017089844,
      "loss": 0.5984,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -0.6037947535514832,
      "rewards/margins": 0.3152288496494293,
      "rewards/rejected": -0.9190236330032349,
      "step": 550
    },
    {
      "epoch": 0.1343570057581574,
      "grad_norm": 28.905417781337384,
      "learning_rate": 4.982091116660574e-07,
      "logits/chosen": -0.321607768535614,
      "logits/rejected": -0.3338220715522766,
      "logps/chosen": -305.93658447265625,
      "logps/rejected": -300.59124755859375,
      "loss": 0.6154,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.5145214796066284,
      "rewards/margins": 0.22794541716575623,
      "rewards/rejected": -0.7424668669700623,
      "step": 560
    },
    {
      "epoch": 0.13675623800383876,
      "grad_norm": 32.795386120218325,
      "learning_rate": 4.979502347329732e-07,
      "logits/chosen": -0.23663392663002014,
      "logits/rejected": -0.24166357517242432,
      "logps/chosen": -423.2027282714844,
      "logps/rejected": -491.15106201171875,
      "loss": 0.5998,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.6477493643760681,
      "rewards/margins": 0.4360308051109314,
      "rewards/rejected": -1.08378005027771,
      "step": 570
    },
    {
      "epoch": 0.13915547024952016,
      "grad_norm": 37.84072378443296,
      "learning_rate": 4.976739650760151e-07,
      "logits/chosen": -0.29570311307907104,
      "logits/rejected": -0.3070180118083954,
      "logps/chosen": -375.17962646484375,
      "logps/rejected": -388.2039489746094,
      "loss": 0.586,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -0.4810148775577545,
      "rewards/margins": 0.3502056300640106,
      "rewards/rejected": -0.8312205076217651,
      "step": 580
    },
    {
      "epoch": 0.14155470249520152,
      "grad_norm": 45.677768580981564,
      "learning_rate": 4.97380322074402e-07,
      "logits/chosen": -0.2370149791240692,
      "logits/rejected": -0.25640061497688293,
      "logps/chosen": -349.70941162109375,
      "logps/rejected": -374.61456298828125,
      "loss": 0.5895,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.6930117607116699,
      "rewards/margins": 0.2920604646205902,
      "rewards/rejected": -0.985072135925293,
      "step": 590
    },
    {
      "epoch": 0.14395393474088292,
      "grad_norm": 31.065347761695264,
      "learning_rate": 4.970693263260237e-07,
      "logits/chosen": -0.26885563135147095,
      "logits/rejected": -0.3041172921657562,
      "logps/chosen": -403.6191101074219,
      "logps/rejected": -410.84967041015625,
      "loss": 0.5853,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.5729845762252808,
      "rewards/margins": 0.46888118982315063,
      "rewards/rejected": -1.0418657064437866,
      "step": 600
    },
    {
      "epoch": 0.1463531669865643,
      "grad_norm": 29.080698158567,
      "learning_rate": 4.967409996459966e-07,
      "logits/chosen": -0.2872675359249115,
      "logits/rejected": -0.3306855261325836,
      "logps/chosen": -405.076904296875,
      "logps/rejected": -423.62664794921875,
      "loss": 0.5751,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -0.49526625871658325,
      "rewards/margins": 0.3949028551578522,
      "rewards/rejected": -0.8901691436767578,
      "step": 610
    },
    {
      "epoch": 0.14875239923224567,
      "grad_norm": 27.549771571534542,
      "learning_rate": 4.963953650651326e-07,
      "logits/chosen": -0.15485969185829163,
      "logits/rejected": -0.16681411862373352,
      "logps/chosen": -478.8113708496094,
      "logps/rejected": -422.03955078125,
      "loss": 0.569,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.63862544298172,
      "rewards/margins": 0.40379634499549866,
      "rewards/rejected": -1.042421817779541,
      "step": 620
    },
    {
      "epoch": 0.15115163147792707,
      "grad_norm": 28.772933296866565,
      "learning_rate": 4.960324468283248e-07,
      "logits/chosen": -0.20728620886802673,
      "logits/rejected": -0.2060108482837677,
      "logps/chosen": -367.0924377441406,
      "logps/rejected": -390.70458984375,
      "loss": 0.5636,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -0.8087286949157715,
      "rewards/margins": 0.3034602999687195,
      "rewards/rejected": -1.1121888160705566,
      "step": 630
    },
    {
      "epoch": 0.15355086372360843,
      "grad_norm": 29.609222546231578,
      "learning_rate": 4.956522703928451e-07,
      "logits/chosen": -0.06690754741430283,
      "logits/rejected": -0.06723584234714508,
      "logps/chosen": -370.3538818359375,
      "logps/rejected": -409.23065185546875,
      "loss": 0.5409,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -0.788346529006958,
      "rewards/margins": 0.4131564199924469,
      "rewards/rejected": -1.2015029191970825,
      "step": 640
    },
    {
      "epoch": 0.15595009596928983,
      "grad_norm": 38.41016264507651,
      "learning_rate": 4.952548624265606e-07,
      "logits/chosen": -0.03009071573615074,
      "logits/rejected": 0.02059212513267994,
      "logps/chosen": -436.8095703125,
      "logps/rejected": -453.0166931152344,
      "loss": 0.6085,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -0.8183758854866028,
      "rewards/margins": 0.35901501774787903,
      "rewards/rejected": -1.1773908138275146,
      "step": 650
    },
    {
      "epoch": 0.15834932821497122,
      "grad_norm": 25.869613582575887,
      "learning_rate": 4.948402508060607e-07,
      "logits/chosen": -0.0018309459555894136,
      "logits/rejected": -0.01893061026930809,
      "logps/chosen": -356.6624755859375,
      "logps/rejected": -409.0708923339844,
      "loss": 0.6026,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -0.6256797313690186,
      "rewards/margins": 0.601173460483551,
      "rewards/rejected": -1.2268530130386353,
      "step": 660
    },
    {
      "epoch": 0.16074856046065258,
      "grad_norm": 35.22680312796026,
      "learning_rate": 4.944084646147038e-07,
      "logits/chosen": 0.0020178346894681454,
      "logits/rejected": 0.031680598855018616,
      "logps/chosen": -452.8055114746094,
      "logps/rejected": -465.51678466796875,
      "loss": 0.5999,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.6981381177902222,
      "rewards/margins": 0.3360704779624939,
      "rewards/rejected": -1.0342086553573608,
      "step": 670
    },
    {
      "epoch": 0.16314779270633398,
      "grad_norm": 28.0016914634874,
      "learning_rate": 4.939595341405754e-07,
      "logits/chosen": -0.039152443408966064,
      "logits/rejected": -0.05885768681764603,
      "logps/chosen": -401.278564453125,
      "logps/rejected": -409.3609924316406,
      "loss": 0.57,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -0.7071236968040466,
      "rewards/margins": 0.3430066704750061,
      "rewards/rejected": -1.0501302480697632,
      "step": 680
    },
    {
      "epoch": 0.16554702495201534,
      "grad_norm": 30.023172826044828,
      "learning_rate": 4.93493490874365e-07,
      "logits/chosen": -0.00025105997337959707,
      "logits/rejected": 0.005772613920271397,
      "logps/chosen": -390.638427734375,
      "logps/rejected": -424.7112731933594,
      "loss": 0.5461,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": -0.7401353716850281,
      "rewards/margins": 0.30253323912620544,
      "rewards/rejected": -1.0426685810089111,
      "step": 690
    },
    {
      "epoch": 0.16794625719769674,
      "grad_norm": 41.393690265481474,
      "learning_rate": 4.93010367507156e-07,
      "logits/chosen": -0.051719047129154205,
      "logits/rejected": -0.06900392472743988,
      "logps/chosen": -346.08837890625,
      "logps/rejected": -374.042724609375,
      "loss": 0.5537,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.7158280611038208,
      "rewards/margins": 0.5490631461143494,
      "rewards/rejected": -1.264891266822815,
      "step": 700
    },
    {
      "epoch": 0.17034548944337813,
      "grad_norm": 33.6357655925115,
      "learning_rate": 4.925101979281332e-07,
      "logits/chosen": 0.02222558856010437,
      "logits/rejected": 0.006278800778090954,
      "logps/chosen": -424.63726806640625,
      "logps/rejected": -441.04644775390625,
      "loss": 0.5799,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -0.6551335453987122,
      "rewards/margins": 0.6523554921150208,
      "rewards/rejected": -1.3074891567230225,
      "step": 710
    },
    {
      "epoch": 0.1727447216890595,
      "grad_norm": 32.69679455555672,
      "learning_rate": 4.919930172222054e-07,
      "logits/chosen": -0.12917150557041168,
      "logits/rejected": -0.12720082700252533,
      "logps/chosen": -402.8379821777344,
      "logps/rejected": -441.12677001953125,
      "loss": 0.5295,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.7797117829322815,
      "rewards/margins": 0.4280470311641693,
      "rewards/rejected": -1.2077586650848389,
      "step": 720
    },
    {
      "epoch": 0.1751439539347409,
      "grad_norm": 38.43936411357028,
      "learning_rate": 4.914588616675445e-07,
      "logits/chosen": -0.17864573001861572,
      "logits/rejected": -0.20761199295520782,
      "logps/chosen": -344.26312255859375,
      "logps/rejected": -408.573486328125,
      "loss": 0.5897,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.555050253868103,
      "rewards/margins": 0.5430852174758911,
      "rewards/rejected": -1.098135232925415,
      "step": 730
    },
    {
      "epoch": 0.17754318618042225,
      "grad_norm": 36.631671098915504,
      "learning_rate": 4.909077687330404e-07,
      "logits/chosen": -0.11447083950042725,
      "logits/rejected": -0.09544442594051361,
      "logps/chosen": -418.90838623046875,
      "logps/rejected": -417.09844970703125,
      "loss": 0.5492,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -0.7083614468574524,
      "rewards/margins": 0.3665878176689148,
      "rewards/rejected": -1.0749492645263672,
      "step": 740
    },
    {
      "epoch": 0.17994241842610365,
      "grad_norm": 32.57669985590322,
      "learning_rate": 4.903397770756729e-07,
      "logits/chosen": -0.06074325367808342,
      "logits/rejected": -0.08299403637647629,
      "logps/chosen": -401.88800048828125,
      "logps/rejected": -449.99169921875,
      "loss": 0.5669,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -0.6976863145828247,
      "rewards/margins": 0.6443861722946167,
      "rewards/rejected": -1.342072606086731,
      "step": 750
    },
    {
      "epoch": 0.18234165067178504,
      "grad_norm": 27.495851946761935,
      "learning_rate": 4.897549265378004e-07,
      "logits/chosen": -0.18077705800533295,
      "logits/rejected": -0.15703561902046204,
      "logps/chosen": -486.8914489746094,
      "logps/rejected": -522.5025024414062,
      "loss": 0.559,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.925071120262146,
      "rewards/margins": 0.4355601668357849,
      "rewards/rejected": -1.3606312274932861,
      "step": 760
    },
    {
      "epoch": 0.1847408829174664,
      "grad_norm": 32.88428335628656,
      "learning_rate": 4.891532581443643e-07,
      "logits/chosen": -0.10509393364191055,
      "logits/rejected": -0.13191482424736023,
      "logps/chosen": -433.39697265625,
      "logps/rejected": -510.9073791503906,
      "loss": 0.5335,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.7138081789016724,
      "rewards/margins": 0.8751919865608215,
      "rewards/rejected": -1.5890003442764282,
      "step": 770
    },
    {
      "epoch": 0.1871401151631478,
      "grad_norm": 34.828556425360944,
      "learning_rate": 4.885348141000122e-07,
      "logits/chosen": -0.02448561228811741,
      "logits/rejected": -0.08334103226661682,
      "logps/chosen": -395.90985107421875,
      "logps/rejected": -471.1104431152344,
      "loss": 0.56,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -0.878553569316864,
      "rewards/margins": 0.5636481046676636,
      "rewards/rejected": -1.4422016143798828,
      "step": 780
    },
    {
      "epoch": 0.18953934740882916,
      "grad_norm": 34.102875954970415,
      "learning_rate": 4.878996377861367e-07,
      "logits/chosen": -0.04264168441295624,
      "logits/rejected": -0.09717553108930588,
      "logps/chosen": -374.21063232421875,
      "logps/rejected": -424.62701416015625,
      "loss": 0.5366,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.0093395709991455,
      "rewards/margins": 0.43130987882614136,
      "rewards/rejected": -1.4406496286392212,
      "step": 790
    },
    {
      "epoch": 0.19193857965451055,
      "grad_norm": 34.09209485411543,
      "learning_rate": 4.872477737578327e-07,
      "logits/chosen": -0.023031553253531456,
      "logits/rejected": -0.03800968453288078,
      "logps/chosen": -431.33782958984375,
      "logps/rejected": -534.5132446289062,
      "loss": 0.5265,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.8465608358383179,
      "rewards/margins": 1.0085922479629517,
      "rewards/rejected": -1.8551530838012695,
      "step": 800
    },
    {
      "epoch": 0.19433781190019195,
      "grad_norm": 44.78458025907374,
      "learning_rate": 4.865792677407718e-07,
      "logits/chosen": -0.09794610738754272,
      "logits/rejected": -0.08297122269868851,
      "logps/chosen": -404.9684143066406,
      "logps/rejected": -423.43896484375,
      "loss": 0.5785,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.8548682928085327,
      "rewards/margins": 0.37679168581962585,
      "rewards/rejected": -1.2316598892211914,
      "step": 810
    },
    {
      "epoch": 0.1967370441458733,
      "grad_norm": 37.30397170950818,
      "learning_rate": 4.858941666279955e-07,
      "logits/chosen": -0.20108501613140106,
      "logits/rejected": -0.15580318868160248,
      "logps/chosen": -440.3353576660156,
      "logps/rejected": -437.89337158203125,
      "loss": 0.5843,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -0.7743014693260193,
      "rewards/margins": 0.3654334843158722,
      "rewards/rejected": -1.1397349834442139,
      "step": 820
    },
    {
      "epoch": 0.1991362763915547,
      "grad_norm": 37.97880335267858,
      "learning_rate": 4.851925184766247e-07,
      "logits/chosen": -0.07934032380580902,
      "logits/rejected": -0.06675902754068375,
      "logps/chosen": -400.7498779296875,
      "logps/rejected": -435.03387451171875,
      "loss": 0.5744,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -0.8046972155570984,
      "rewards/margins": 0.6158983707427979,
      "rewards/rejected": -1.4205955266952515,
      "step": 830
    },
    {
      "epoch": 0.20153550863723607,
      "grad_norm": 34.877131137485314,
      "learning_rate": 4.844743725044897e-07,
      "logits/chosen": -0.1209510788321495,
      "logits/rejected": -0.12060485780239105,
      "logps/chosen": -390.33575439453125,
      "logps/rejected": -407.412841796875,
      "loss": 0.5509,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.7886186838150024,
      "rewards/margins": 0.5530378222465515,
      "rewards/rejected": -1.3416564464569092,
      "step": 840
    },
    {
      "epoch": 0.20393474088291746,
      "grad_norm": 40.19277289158246,
      "learning_rate": 4.837397790866774e-07,
      "logits/chosen": -0.07084405422210693,
      "logits/rejected": -0.10281334072351456,
      "logps/chosen": -429.7625427246094,
      "logps/rejected": -490.245361328125,
      "loss": 0.5474,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -0.7108091115951538,
      "rewards/margins": 0.9831811785697937,
      "rewards/rejected": -1.6939903497695923,
      "step": 850
    },
    {
      "epoch": 0.20633397312859886,
      "grad_norm": 35.43380411461513,
      "learning_rate": 4.829887897519974e-07,
      "logits/chosen": 0.014303353615105152,
      "logits/rejected": -0.007743634283542633,
      "logps/chosen": -381.1875,
      "logps/rejected": -453.6239318847656,
      "loss": 0.5809,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -0.8310438990592957,
      "rewards/margins": 0.5285369157791138,
      "rewards/rejected": -1.3595808744430542,
      "step": 860
    },
    {
      "epoch": 0.20873320537428022,
      "grad_norm": 30.773099092132018,
      "learning_rate": 4.82221457179368e-07,
      "logits/chosen": 0.005006339401006699,
      "logits/rejected": -0.01996953971683979,
      "logps/chosen": -400.3504638671875,
      "logps/rejected": -444.50653076171875,
      "loss": 0.5516,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.6430622339248657,
      "rewards/margins": 0.6689059138298035,
      "rewards/rejected": -1.3119680881500244,
      "step": 870
    },
    {
      "epoch": 0.21113243761996162,
      "grad_norm": 30.941839797295746,
      "learning_rate": 4.814378351941206e-07,
      "logits/chosen": -0.03190199285745621,
      "logits/rejected": -0.032009296119213104,
      "logps/chosen": -378.9139099121094,
      "logps/rejected": -410.24896240234375,
      "loss": 0.5687,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.6023445129394531,
      "rewards/margins": 0.4468112885951996,
      "rewards/rejected": -1.049155831336975,
      "step": 880
    },
    {
      "epoch": 0.21353166986564298,
      "grad_norm": 30.2018268544055,
      "learning_rate": 4.806379787642241e-07,
      "logits/chosen": 0.03415294736623764,
      "logits/rejected": -0.008319585584104061,
      "logps/chosen": -373.29327392578125,
      "logps/rejected": -426.83856201171875,
      "loss": 0.6009,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -0.6300404071807861,
      "rewards/margins": 0.5418477058410645,
      "rewards/rejected": -1.171887993812561,
      "step": 890
    },
    {
      "epoch": 0.21593090211132437,
      "grad_norm": 30.69767076541483,
      "learning_rate": 4.798219439964293e-07,
      "logits/chosen": -0.022300051525235176,
      "logits/rejected": -0.07942859828472137,
      "logps/chosen": -382.47088623046875,
      "logps/rejected": -428.5862731933594,
      "loss": 0.5421,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -0.79583740234375,
      "rewards/margins": 0.3617878556251526,
      "rewards/rejected": -1.1576253175735474,
      "step": 900
    },
    {
      "epoch": 0.21833013435700577,
      "grad_norm": 64.36072526993395,
      "learning_rate": 4.78989788132333e-07,
      "logits/chosen": -0.07167644053697586,
      "logits/rejected": -0.07725416123867035,
      "logps/chosen": -351.6461181640625,
      "logps/rejected": -432.82916259765625,
      "loss": 0.5306,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.7295014262199402,
      "rewards/margins": 0.7431732416152954,
      "rewards/rejected": -1.4726746082305908,
      "step": 910
    },
    {
      "epoch": 0.22072936660268713,
      "grad_norm": 31.37167746375858,
      "learning_rate": 4.781415695443631e-07,
      "logits/chosen": 0.07153941690921783,
      "logits/rejected": 0.1024637222290039,
      "logps/chosen": -490.06402587890625,
      "logps/rejected": -516.02294921875,
      "loss": 0.5824,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": -1.3680822849273682,
      "rewards/margins": 0.20954158902168274,
      "rewards/rejected": -1.5776238441467285,
      "step": 920
    },
    {
      "epoch": 0.22312859884836853,
      "grad_norm": 29.004390037425598,
      "learning_rate": 4.772773477316836e-07,
      "logits/chosen": 0.03397312015295029,
      "logits/rejected": 0.03711385652422905,
      "logps/chosen": -467.2877502441406,
      "logps/rejected": -509.09716796875,
      "loss": 0.5473,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.1240530014038086,
      "rewards/margins": 0.45423418283462524,
      "rewards/rejected": -1.578287124633789,
      "step": 930
    },
    {
      "epoch": 0.2255278310940499,
      "grad_norm": 41.30297632121209,
      "learning_rate": 4.7639718331602117e-07,
      "logits/chosen": 0.08684961497783661,
      "logits/rejected": 0.05986959859728813,
      "logps/chosen": -420.59814453125,
      "logps/rejected": -490.409912109375,
      "loss": 0.5313,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -0.9049364924430847,
      "rewards/margins": 0.7652468681335449,
      "rewards/rejected": -1.6701834201812744,
      "step": 940
    },
    {
      "epoch": 0.22792706333973128,
      "grad_norm": 39.96596996172262,
      "learning_rate": 4.7550113803741275e-07,
      "logits/chosen": 0.13893774151802063,
      "logits/rejected": 0.16821300983428955,
      "logps/chosen": -432.7577209472656,
      "logps/rejected": -411.2371520996094,
      "loss": 0.5632,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -0.9445673823356628,
      "rewards/margins": 0.5061396360397339,
      "rewards/rejected": -1.450706958770752,
      "step": 950
    },
    {
      "epoch": 0.23032629558541268,
      "grad_norm": 35.26144835245691,
      "learning_rate": 4.7458927474987454e-07,
      "logits/chosen": 0.13862411677837372,
      "logits/rejected": 0.17463508248329163,
      "logps/chosen": -470.4085998535156,
      "logps/rejected": -434.1971740722656,
      "loss": 0.5406,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": -0.8276304006576538,
      "rewards/margins": 0.33768096566200256,
      "rewards/rejected": -1.1653112173080444,
      "step": 960
    },
    {
      "epoch": 0.23272552783109404,
      "grad_norm": 34.457370464422794,
      "learning_rate": 4.7366165741699347e-07,
      "logits/chosen": 0.06780462712049484,
      "logits/rejected": 0.033076416701078415,
      "logps/chosen": -474.2489318847656,
      "logps/rejected": -491.00421142578125,
      "loss": 0.5508,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": -0.8541940450668335,
      "rewards/margins": 0.41960257291793823,
      "rewards/rejected": -1.2737966775894165,
      "step": 970
    },
    {
      "epoch": 0.23512476007677544,
      "grad_norm": 50.081994664008306,
      "learning_rate": 4.727183511074401e-07,
      "logits/chosen": 0.12627606093883514,
      "logits/rejected": 0.1392831802368164,
      "logps/chosen": -422.95947265625,
      "logps/rejected": -465.1092834472656,
      "loss": 0.5446,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -0.8909593820571899,
      "rewards/margins": 0.47495001554489136,
      "rewards/rejected": -1.3659093379974365,
      "step": 980
    },
    {
      "epoch": 0.2375239923224568,
      "grad_norm": 33.56933991120958,
      "learning_rate": 4.717594219904043e-07,
      "logits/chosen": 0.11548285186290741,
      "logits/rejected": 0.17751248180866241,
      "logps/chosen": -428.980224609375,
      "logps/rejected": -429.6700134277344,
      "loss": 0.553,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -0.9127674102783203,
      "rewards/margins": 0.5175878405570984,
      "rewards/rejected": -1.4303553104400635,
      "step": 990
    },
    {
      "epoch": 0.2399232245681382,
      "grad_norm": 38.76253931692222,
      "learning_rate": 4.7078493733095393e-07,
      "logits/chosen": 0.07841446250677109,
      "logits/rejected": 0.07714001089334488,
      "logps/chosen": -396.0744323730469,
      "logps/rejected": -459.9576721191406,
      "loss": 0.5356,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.7617571353912354,
      "rewards/margins": 0.5821165442466736,
      "rewards/rejected": -1.3438737392425537,
      "step": 1000
    },
    {
      "epoch": 0.2423224568138196,
      "grad_norm": 40.40221370647514,
      "learning_rate": 4.6979496548531614e-07,
      "logits/chosen": 0.282027930021286,
      "logits/rejected": 0.2300875186920166,
      "logps/chosen": -417.5662536621094,
      "logps/rejected": -517.0253295898438,
      "loss": 0.556,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.0011545419692993,
      "rewards/margins": 0.4213111400604248,
      "rewards/rejected": -1.4224655628204346,
      "step": 1010
    },
    {
      "epoch": 0.24472168905950095,
      "grad_norm": 38.63551061711667,
      "learning_rate": 4.6878957589608293e-07,
      "logits/chosen": 0.15491922199726105,
      "logits/rejected": 0.10176967084407806,
      "logps/chosen": -423.72412109375,
      "logps/rejected": -521.2840576171875,
      "loss": 0.5489,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -0.8717803955078125,
      "rewards/margins": 0.6004728078842163,
      "rewards/rejected": -1.4722532033920288,
      "step": 1020
    },
    {
      "epoch": 0.24712092130518235,
      "grad_norm": 33.04785124844753,
      "learning_rate": 4.6776883908733956e-07,
      "logits/chosen": 0.3141445815563202,
      "logits/rejected": 0.40079420804977417,
      "logps/chosen": -444.20037841796875,
      "logps/rejected": -440.73992919921875,
      "loss": 0.5367,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -0.9564323425292969,
      "rewards/margins": 0.6285899877548218,
      "rewards/rejected": -1.5850223302841187,
      "step": 1030
    },
    {
      "epoch": 0.2495201535508637,
      "grad_norm": 56.89197225086117,
      "learning_rate": 4.667328266597178e-07,
      "logits/chosen": 0.32467955350875854,
      "logits/rejected": 0.3737574815750122,
      "logps/chosen": -425.14764404296875,
      "logps/rejected": -474.8291015625,
      "loss": 0.5182,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.9110026359558105,
      "rewards/margins": 0.6014169454574585,
      "rewards/rejected": -1.5124194622039795,
      "step": 1040
    },
    {
      "epoch": 0.2519193857965451,
      "grad_norm": 42.632075100473685,
      "learning_rate": 4.6568161128537354e-07,
      "logits/chosen": 0.23409466445446014,
      "logits/rejected": 0.4846338629722595,
      "logps/chosen": -437.87469482421875,
      "logps/rejected": -416.75433349609375,
      "loss": 0.5475,
      "rewards/accuracies": 0.44999998807907104,
      "rewards/chosen": -1.0662238597869873,
      "rewards/margins": 0.3336094319820404,
      "rewards/rejected": -1.3998332023620605,
      "step": 1050
    },
    {
      "epoch": 0.2543186180422265,
      "grad_norm": 46.72130069794758,
      "learning_rate": 4.6461526670288877e-07,
      "logits/chosen": 0.4986523687839508,
      "logits/rejected": 0.5356402397155762,
      "logps/chosen": -453.13543701171875,
      "logps/rejected": -487.8929748535156,
      "loss": 0.5798,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -1.0444475412368774,
      "rewards/margins": 0.7141000032424927,
      "rewards/rejected": -1.7585475444793701,
      "step": 1060
    },
    {
      "epoch": 0.2567178502879079,
      "grad_norm": 30.901707992623376,
      "learning_rate": 4.635338677120994e-07,
      "logits/chosen": 0.6319410800933838,
      "logits/rejected": 0.5878476500511169,
      "logps/chosen": -435.103271484375,
      "logps/rejected": -522.3030395507812,
      "loss": 0.5107,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.001800775527954,
      "rewards/margins": 0.7891290187835693,
      "rewards/rejected": -1.7909300327301025,
      "step": 1070
    },
    {
      "epoch": 0.2591170825335892,
      "grad_norm": 35.62993699091359,
      "learning_rate": 4.6243749016884835e-07,
      "logits/chosen": 0.6645074486732483,
      "logits/rejected": 0.6307970285415649,
      "logps/chosen": -460.1568298339844,
      "logps/rejected": -596.9638671875,
      "loss": 0.554,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.2296950817108154,
      "rewards/margins": 0.8476268649101257,
      "rewards/rejected": -2.077322006225586,
      "step": 1080
    },
    {
      "epoch": 0.2615163147792706,
      "grad_norm": 55.48184293718509,
      "learning_rate": 4.613262109796645e-07,
      "logits/chosen": 0.5279312133789062,
      "logits/rejected": 0.44912824034690857,
      "logps/chosen": -445.187744140625,
      "logps/rejected": -569.0379028320312,
      "loss": 0.5184,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.0215142965316772,
      "rewards/margins": 0.903215765953064,
      "rewards/rejected": -1.9247299432754517,
      "step": 1090
    },
    {
      "epoch": 0.263915547024952,
      "grad_norm": 35.82390141377677,
      "learning_rate": 4.602001080963678e-07,
      "logits/chosen": 0.5199450254440308,
      "logits/rejected": 0.580736517906189,
      "logps/chosen": -457.9462890625,
      "logps/rejected": -484.3863830566406,
      "loss": 0.5432,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.047241449356079,
      "rewards/margins": 0.6471258997917175,
      "rewards/rejected": -1.6943671703338623,
      "step": 1100
    },
    {
      "epoch": 0.2663147792706334,
      "grad_norm": 51.55318372805118,
      "learning_rate": 4.590592605106017e-07,
      "logits/chosen": 0.34312915802001953,
      "logits/rejected": 0.3462589979171753,
      "logps/chosen": -462.97137451171875,
      "logps/rejected": -475.85235595703125,
      "loss": 0.5757,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -0.8622667193412781,
      "rewards/margins": 0.5276774168014526,
      "rewards/rejected": -1.389944076538086,
      "step": 1110
    },
    {
      "epoch": 0.2687140115163148,
      "grad_norm": 46.55805600175398,
      "learning_rate": 4.5790374824829165e-07,
      "logits/chosen": 0.5497294068336487,
      "logits/rejected": 0.5141938924789429,
      "logps/chosen": -329.0898132324219,
      "logps/rejected": -395.189208984375,
      "loss": 0.5305,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -0.8122035264968872,
      "rewards/margins": 0.555601179599762,
      "rewards/rejected": -1.367804765701294,
      "step": 1120
    },
    {
      "epoch": 0.27111324376199614,
      "grad_norm": 41.30209061097155,
      "learning_rate": 4.5673365236403216e-07,
      "logits/chosen": 0.5173945426940918,
      "logits/rejected": 0.538547158241272,
      "logps/chosen": -337.64508056640625,
      "logps/rejected": -434.7604064941406,
      "loss": 0.5406,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -0.6650754809379578,
      "rewards/margins": 0.7895157337188721,
      "rewards/rejected": -1.454591155052185,
      "step": 1130
    },
    {
      "epoch": 0.27351247600767753,
      "grad_norm": 35.39722075486902,
      "learning_rate": 4.5554905493540075e-07,
      "logits/chosen": 0.7431238293647766,
      "logits/rejected": 0.720431923866272,
      "logps/chosen": -369.39825439453125,
      "logps/rejected": -469.0665588378906,
      "loss": 0.4965,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.8106037974357605,
      "rewards/margins": 0.9515643119812012,
      "rewards/rejected": -1.762168288230896,
      "step": 1140
    },
    {
      "epoch": 0.2759117082533589,
      "grad_norm": 80.31107636026294,
      "learning_rate": 4.5435003905720074e-07,
      "logits/chosen": 0.6994370222091675,
      "logits/rejected": 0.7717106938362122,
      "logps/chosen": -467.26922607421875,
      "logps/rejected": -501.1815490722656,
      "loss": 0.5376,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -1.1343969106674194,
      "rewards/margins": 0.7365877628326416,
      "rewards/rejected": -1.870984673500061,
      "step": 1150
    },
    {
      "epoch": 0.2783109404990403,
      "grad_norm": 50.544256487524144,
      "learning_rate": 4.531366888356324e-07,
      "logits/chosen": 0.604827880859375,
      "logits/rejected": 0.5405411720275879,
      "logps/chosen": -349.20196533203125,
      "logps/rejected": -467.71160888671875,
      "loss": 0.5206,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.9413111805915833,
      "rewards/margins": 0.8840651512145996,
      "rewards/rejected": -1.8253761529922485,
      "step": 1160
    },
    {
      "epoch": 0.2807101727447217,
      "grad_norm": 48.679810649088054,
      "learning_rate": 4.519090893823931e-07,
      "logits/chosen": 0.7196705341339111,
      "logits/rejected": 0.7503910660743713,
      "logps/chosen": -434.93377685546875,
      "logps/rejected": -479.38836669921875,
      "loss": 0.5375,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.1369459629058838,
      "rewards/margins": 0.6235243678092957,
      "rewards/rejected": -1.7604703903198242,
      "step": 1170
    },
    {
      "epoch": 0.28310940499040305,
      "grad_norm": 42.39683927792113,
      "learning_rate": 4.5066732680870734e-07,
      "logits/chosen": 0.7495613694190979,
      "logits/rejected": 0.7793896794319153,
      "logps/chosen": -413.90557861328125,
      "logps/rejected": -447.45452880859375,
      "loss": 0.5181,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.0040034055709839,
      "rewards/margins": 0.8347917795181274,
      "rewards/rejected": -1.8387953042984009,
      "step": 1180
    },
    {
      "epoch": 0.28550863723608444,
      "grad_norm": 53.13082069754931,
      "learning_rate": 4.494114882192862e-07,
      "logits/chosen": 0.4293566644191742,
      "logits/rejected": 0.44527220726013184,
      "logps/chosen": -425.08538818359375,
      "logps/rejected": -490.40765380859375,
      "loss": 0.504,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.9455874562263489,
      "rewards/margins": 1.0670359134674072,
      "rewards/rejected": -2.0126233100891113,
      "step": 1190
    },
    {
      "epoch": 0.28790786948176583,
      "grad_norm": 49.87269165648676,
      "learning_rate": 4.4814166170621735e-07,
      "logits/chosen": 0.6792656183242798,
      "logits/rejected": 0.6856303811073303,
      "logps/chosen": -430.4750061035156,
      "logps/rejected": -503.75634765625,
      "loss": 0.5405,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.135371446609497,
      "rewards/margins": 1.0104650259017944,
      "rewards/rejected": -2.145836591720581,
      "step": 1200
    },
    {
      "epoch": 0.2903071017274472,
      "grad_norm": 37.72444617932776,
      "learning_rate": 4.468579363427858e-07,
      "logits/chosen": 0.41752809286117554,
      "logits/rejected": 0.4529293477535248,
      "logps/chosen": -450.9541931152344,
      "logps/rejected": -478.5503845214844,
      "loss": 0.554,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.3859989643096924,
      "rewards/margins": 0.5862727165222168,
      "rewards/rejected": -1.9722716808319092,
      "step": 1210
    },
    {
      "epoch": 0.2927063339731286,
      "grad_norm": 49.47973747014418,
      "learning_rate": 4.4556040217722555e-07,
      "logits/chosen": 0.6199735403060913,
      "logits/rejected": 0.5173524618148804,
      "logps/chosen": -390.5383605957031,
      "logps/rejected": -529.1012573242188,
      "loss": 0.5218,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.9236103892326355,
      "rewards/margins": 0.9195195436477661,
      "rewards/rejected": -1.8431298732757568,
      "step": 1220
    },
    {
      "epoch": 0.29510556621880996,
      "grad_norm": 43.77387295728714,
      "learning_rate": 4.442491502264033e-07,
      "logits/chosen": 0.5372000932693481,
      "logits/rejected": 0.5111404061317444,
      "logps/chosen": -398.32928466796875,
      "logps/rejected": -427.90142822265625,
      "loss": 0.5579,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": -1.1015335321426392,
      "rewards/margins": 0.36569902300834656,
      "rewards/rejected": -1.467232584953308,
      "step": 1230
    },
    {
      "epoch": 0.29750479846449135,
      "grad_norm": 35.2179506302823,
      "learning_rate": 4.429242724694338e-07,
      "logits/chosen": 0.596865177154541,
      "logits/rejected": 0.5551019906997681,
      "logps/chosen": -403.04803466796875,
      "logps/rejected": -482.10455322265625,
      "loss": 0.5353,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -0.8973898887634277,
      "rewards/margins": 0.7202876806259155,
      "rewards/rejected": -1.6176776885986328,
      "step": 1240
    },
    {
      "epoch": 0.29990403071017274,
      "grad_norm": 35.54165989722752,
      "learning_rate": 4.4158586184122817e-07,
      "logits/chosen": 0.6986425518989563,
      "logits/rejected": 0.7786028385162354,
      "logps/chosen": -455.0581970214844,
      "logps/rejected": -487.45220947265625,
      "loss": 0.5169,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.9782212376594543,
      "rewards/margins": 0.773512065410614,
      "rewards/rejected": -1.751733422279358,
      "step": 1250
    },
    {
      "epoch": 0.30230326295585414,
      "grad_norm": 34.976845816469115,
      "learning_rate": 4.4023401222597443e-07,
      "logits/chosen": 0.5812339782714844,
      "logits/rejected": 0.6533055305480957,
      "logps/chosen": -456.7413635253906,
      "logps/rejected": -492.81500244140625,
      "loss": 0.4972,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.0948355197906494,
      "rewards/margins": 0.6430230140686035,
      "rewards/rejected": -1.737858533859253,
      "step": 1260
    },
    {
      "epoch": 0.30470249520153553,
      "grad_norm": 52.15846550296518,
      "learning_rate": 4.3886881845055235e-07,
      "logits/chosen": 0.6851636171340942,
      "logits/rejected": 0.7039676904678345,
      "logps/chosen": -395.2878723144531,
      "logps/rejected": -475.46319580078125,
      "loss": 0.5178,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.8985649347305298,
      "rewards/margins": 0.9367402195930481,
      "rewards/rejected": -1.8353052139282227,
      "step": 1270
    },
    {
      "epoch": 0.30710172744721687,
      "grad_norm": 35.79256631055672,
      "learning_rate": 4.374903762778814e-07,
      "logits/chosen": 0.6985992193222046,
      "logits/rejected": 0.6866432428359985,
      "logps/chosen": -429.9559020996094,
      "logps/rejected": -467.31231689453125,
      "loss": 0.5222,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.0913515090942383,
      "rewards/margins": 0.6997131109237671,
      "rewards/rejected": -1.7910646200180054,
      "step": 1280
    },
    {
      "epoch": 0.30950095969289826,
      "grad_norm": 68.77406798145645,
      "learning_rate": 4.3609878240020356e-07,
      "logits/chosen": 0.45225849747657776,
      "logits/rejected": 0.5497337579727173,
      "logps/chosen": -510.07659912109375,
      "logps/rejected": -510.8426208496094,
      "loss": 0.5356,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.366571307182312,
      "rewards/margins": 0.6978545784950256,
      "rewards/rejected": -2.0644257068634033,
      "step": 1290
    },
    {
      "epoch": 0.31190019193857965,
      "grad_norm": 36.68902407720006,
      "learning_rate": 4.346941344323005e-07,
      "logits/chosen": 0.585986316204071,
      "logits/rejected": 0.6672986745834351,
      "logps/chosen": -437.39324951171875,
      "logps/rejected": -430.4087829589844,
      "loss": 0.5562,
      "rewards/accuracies": 0.550000011920929,
      "rewards/chosen": -1.3243210315704346,
      "rewards/margins": 0.4856715798377991,
      "rewards/rejected": -1.8099925518035889,
      "step": 1300
    },
    {
      "epoch": 0.31429942418426104,
      "grad_norm": 38.77370809872286,
      "learning_rate": 4.332765309046467e-07,
      "logits/chosen": 0.7318406105041504,
      "logits/rejected": 0.7771567106246948,
      "logps/chosen": -450.19427490234375,
      "logps/rejected": -471.3865661621094,
      "loss": 0.5554,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.116821527481079,
      "rewards/margins": 0.6649090051651001,
      "rewards/rejected": -1.7817304134368896,
      "step": 1310
    },
    {
      "epoch": 0.31669865642994244,
      "grad_norm": 45.82746891169888,
      "learning_rate": 4.3184607125649754e-07,
      "logits/chosen": 0.49596285820007324,
      "logits/rejected": 0.5003286600112915,
      "logps/chosen": -430.02996826171875,
      "logps/rejected": -527.7648315429688,
      "loss": 0.5201,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -0.8098013997077942,
      "rewards/margins": 0.9345352053642273,
      "rewards/rejected": -1.744336485862732,
      "step": 1320
    },
    {
      "epoch": 0.3190978886756238,
      "grad_norm": 37.74246685501154,
      "learning_rate": 4.304028558289141e-07,
      "logits/chosen": 0.38717252016067505,
      "logits/rejected": 0.39220350980758667,
      "logps/chosen": -416.00494384765625,
      "logps/rejected": -460.89739990234375,
      "loss": 0.4969,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.7099177241325378,
      "rewards/margins": 0.6884833574295044,
      "rewards/rejected": -1.3984010219573975,
      "step": 1330
    },
    {
      "epoch": 0.32149712092130517,
      "grad_norm": 34.11722436437858,
      "learning_rate": 4.28946985857725e-07,
      "logits/chosen": 0.5080984234809875,
      "logits/rejected": 0.4866611063480377,
      "logps/chosen": -444.2494201660156,
      "logps/rejected": -542.6705932617188,
      "loss": 0.4997,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -0.9977186918258667,
      "rewards/margins": 1.2409141063690186,
      "rewards/rejected": -2.2386326789855957,
      "step": 1340
    },
    {
      "epoch": 0.32389635316698656,
      "grad_norm": 38.18058435916063,
      "learning_rate": 4.2747856346642445e-07,
      "logits/chosen": 0.4064346253871918,
      "logits/rejected": 0.4254288077354431,
      "logps/chosen": -389.40472412109375,
      "logps/rejected": -465.85906982421875,
      "loss": 0.4983,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.9736809730529785,
      "rewards/margins": 0.8628204464912415,
      "rewards/rejected": -1.8365013599395752,
      "step": 1350
    },
    {
      "epoch": 0.32629558541266795,
      "grad_norm": 45.560969124424204,
      "learning_rate": 4.2599769165900933e-07,
      "logits/chosen": 0.4976237714290619,
      "logits/rejected": 0.4918050765991211,
      "logps/chosen": -478.25140380859375,
      "logps/rejected": -495.969482421875,
      "loss": 0.5657,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -1.5931600332260132,
      "rewards/margins": 0.48865580558776855,
      "rewards/rejected": -2.0818159580230713,
      "step": 1360
    },
    {
      "epoch": 0.32869481765834935,
      "grad_norm": 35.94258808540943,
      "learning_rate": 4.245044743127535e-07,
      "logits/chosen": 0.5548725128173828,
      "logits/rejected": 0.46006709337234497,
      "logps/chosen": -428.947021484375,
      "logps/rejected": -524.8760986328125,
      "loss": 0.5207,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.1485120058059692,
      "rewards/margins": 0.7874538898468018,
      "rewards/rejected": -1.9359657764434814,
      "step": 1370
    },
    {
      "epoch": 0.3310940499040307,
      "grad_norm": 42.265392991866655,
      "learning_rate": 4.229990161709214e-07,
      "logits/chosen": 0.547171950340271,
      "logits/rejected": 0.4217755198478699,
      "logps/chosen": -401.33447265625,
      "logps/rejected": -532.9482421875,
      "loss": 0.5491,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -0.8861383199691772,
      "rewards/margins": 1.117545485496521,
      "rewards/rejected": -2.0036838054656982,
      "step": 1380
    },
    {
      "epoch": 0.3334932821497121,
      "grad_norm": 32.39940263140558,
      "learning_rate": 4.214814228354204e-07,
      "logits/chosen": 0.4310382008552551,
      "logits/rejected": 0.47493353486061096,
      "logps/chosen": -467.65216064453125,
      "logps/rejected": -549.2056884765625,
      "loss": 0.5295,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.1547861099243164,
      "rewards/margins": 1.1499736309051514,
      "rewards/rejected": -2.304759979248047,
      "step": 1390
    },
    {
      "epoch": 0.33589251439539347,
      "grad_norm": 37.76328528326702,
      "learning_rate": 4.1995180075939375e-07,
      "logits/chosen": 0.6290279626846313,
      "logits/rejected": 0.5864508748054504,
      "logps/chosen": -488.428466796875,
      "logps/rejected": -547.3450927734375,
      "loss": 0.5114,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.2981139421463013,
      "rewards/margins": 0.8224126100540161,
      "rewards/rejected": -2.1205263137817383,
      "step": 1400
    },
    {
      "epoch": 0.33829174664107486,
      "grad_norm": 41.27479960235454,
      "learning_rate": 4.1841025723975297e-07,
      "logits/chosen": 0.42811208963394165,
      "logits/rejected": 0.41358089447021484,
      "logps/chosen": -445.8192443847656,
      "logps/rejected": -505.38653564453125,
      "loss": 0.4953,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -0.9554083943367004,
      "rewards/margins": 0.7210197448730469,
      "rewards/rejected": -1.676428198814392,
      "step": 1410
    },
    {
      "epoch": 0.34069097888675626,
      "grad_norm": 37.87482486935292,
      "learning_rate": 4.168569004096516e-07,
      "logits/chosen": 0.4879208207130432,
      "logits/rejected": 0.37299996614456177,
      "logps/chosen": -421.3837890625,
      "logps/rejected": -540.9444580078125,
      "loss": 0.4969,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.2045072317123413,
      "rewards/margins": 1.0760588645935059,
      "rewards/rejected": -2.2805662155151367,
      "step": 1420
    },
    {
      "epoch": 0.3430902111324376,
      "grad_norm": 34.143233451160405,
      "learning_rate": 4.152918392308997e-07,
      "logits/chosen": 0.4631095826625824,
      "logits/rejected": 0.44977670907974243,
      "logps/chosen": -420.1924743652344,
      "logps/rejected": -457.46673583984375,
      "loss": 0.4946,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.1693400144577026,
      "rewards/margins": 0.540154218673706,
      "rewards/rejected": -1.7094943523406982,
      "step": 1430
    },
    {
      "epoch": 0.345489443378119,
      "grad_norm": 79.72399784718598,
      "learning_rate": 4.137151834863213e-07,
      "logits/chosen": 0.30308836698532104,
      "logits/rejected": 0.19191868603229523,
      "logps/chosen": -421.8958435058594,
      "logps/rejected": -534.3394775390625,
      "loss": 0.5464,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -1.1978578567504883,
      "rewards/margins": 0.8276159167289734,
      "rewards/rejected": -2.0254738330841064,
      "step": 1440
    },
    {
      "epoch": 0.3478886756238004,
      "grad_norm": 53.81472585528722,
      "learning_rate": 4.121270437720526e-07,
      "logits/chosen": 0.2503531575202942,
      "logits/rejected": 0.20632532238960266,
      "logps/chosen": -388.9275817871094,
      "logps/rejected": -504.99627685546875,
      "loss": 0.5436,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.158739447593689,
      "rewards/margins": 0.6908172965049744,
      "rewards/rejected": -1.8495569229125977,
      "step": 1450
    },
    {
      "epoch": 0.3502879078694818,
      "grad_norm": 45.6784642712931,
      "learning_rate": 4.105275314897852e-07,
      "logits/chosen": 0.48888054490089417,
      "logits/rejected": 0.3766574263572693,
      "logps/chosen": -397.5686340332031,
      "logps/rejected": -535.5113525390625,
      "loss": 0.5107,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.021269679069519,
      "rewards/margins": 1.1115610599517822,
      "rewards/rejected": -2.1328306198120117,
      "step": 1460
    },
    {
      "epoch": 0.35268714011516317,
      "grad_norm": 42.50127277305204,
      "learning_rate": 4.089167588389508e-07,
      "logits/chosen": 0.35595473647117615,
      "logits/rejected": 0.4420366883277893,
      "logps/chosen": -525.4200439453125,
      "logps/rejected": -575.6399536132812,
      "loss": 0.5315,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.174477219581604,
      "rewards/margins": 0.9557849168777466,
      "rewards/rejected": -2.1302618980407715,
      "step": 1470
    },
    {
      "epoch": 0.3550863723608445,
      "grad_norm": 66.9134896066362,
      "learning_rate": 4.072948388088515e-07,
      "logits/chosen": 0.4660380482673645,
      "logits/rejected": 0.48526984453201294,
      "logps/chosen": -472.48773193359375,
      "logps/rejected": -540.60546875,
      "loss": 0.5512,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.309525966644287,
      "rewards/margins": 0.729021430015564,
      "rewards/rejected": -2.0385475158691406,
      "step": 1480
    },
    {
      "epoch": 0.3574856046065259,
      "grad_norm": 48.14455914875948,
      "learning_rate": 4.056618851707334e-07,
      "logits/chosen": 0.3936781585216522,
      "logits/rejected": 0.37658897042274475,
      "logps/chosen": -417.9375915527344,
      "logps/rejected": -505.556396484375,
      "loss": 0.4962,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -0.8807679414749146,
      "rewards/margins": 0.8251503109931946,
      "rewards/rejected": -1.7059180736541748,
      "step": 1490
    },
    {
      "epoch": 0.3598848368522073,
      "grad_norm": 44.71962261776299,
      "learning_rate": 4.0401801246980675e-07,
      "logits/chosen": 0.2104732245206833,
      "logits/rejected": 0.22102966904640198,
      "logps/chosen": -413.0994567871094,
      "logps/rejected": -452.8529357910156,
      "loss": 0.5258,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.222390055656433,
      "rewards/margins": 0.6135789155960083,
      "rewards/rejected": -1.8359689712524414,
      "step": 1500
    },
    {
      "epoch": 0.3622840690978887,
      "grad_norm": 38.59038142711945,
      "learning_rate": 4.0236333601721043e-07,
      "logits/chosen": 0.36115556955337524,
      "logits/rejected": 0.27192938327789307,
      "logps/chosen": -518.89306640625,
      "logps/rejected": -567.1900024414062,
      "loss": 0.5451,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.524860143661499,
      "rewards/margins": 0.5048703551292419,
      "rewards/rejected": -2.0297303199768066,
      "step": 1510
    },
    {
      "epoch": 0.3646833013435701,
      "grad_norm": 48.99560916590031,
      "learning_rate": 4.0069797188192364e-07,
      "logits/chosen": 0.2493390589952469,
      "logits/rejected": 0.25582900643348694,
      "logps/chosen": -457.5439453125,
      "logps/rejected": -511.53466796875,
      "loss": 0.5255,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.0995330810546875,
      "rewards/margins": 0.8029910326004028,
      "rewards/rejected": -1.9025242328643799,
      "step": 1520
    },
    {
      "epoch": 0.3670825335892514,
      "grad_norm": 43.28635521609486,
      "learning_rate": 3.9902203688262417e-07,
      "logits/chosen": 0.24590995907783508,
      "logits/rejected": 0.2573690414428711,
      "logps/chosen": -447.503173828125,
      "logps/rejected": -495.9049377441406,
      "loss": 0.5052,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.1626179218292236,
      "rewards/margins": 0.7147835493087769,
      "rewards/rejected": -1.87740159034729,
      "step": 1530
    },
    {
      "epoch": 0.3694817658349328,
      "grad_norm": 75.4063331165295,
      "learning_rate": 3.9733564857949365e-07,
      "logits/chosen": 0.36004549264907837,
      "logits/rejected": 0.39339983463287354,
      "logps/chosen": -538.8134765625,
      "logps/rejected": -569.4513549804688,
      "loss": 0.5428,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.430328369140625,
      "rewards/margins": 0.773267388343811,
      "rewards/rejected": -2.2035956382751465,
      "step": 1540
    },
    {
      "epoch": 0.3718809980806142,
      "grad_norm": 47.00943225874421,
      "learning_rate": 3.9563892526597177e-07,
      "logits/chosen": 0.38262271881103516,
      "logits/rejected": 0.3127327561378479,
      "logps/chosen": -405.52008056640625,
      "logps/rejected": -523.7188720703125,
      "loss": 0.5275,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.2701631784439087,
      "rewards/margins": 0.673926591873169,
      "rewards/rejected": -1.944089651107788,
      "step": 1550
    },
    {
      "epoch": 0.3742802303262956,
      "grad_norm": 44.77491303021576,
      "learning_rate": 3.9393198596045795e-07,
      "logits/chosen": 0.2474546879529953,
      "logits/rejected": 0.1317511945962906,
      "logps/chosen": -421.62994384765625,
      "logps/rejected": -519.5099487304688,
      "loss": 0.5383,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.2208540439605713,
      "rewards/margins": 0.7671472430229187,
      "rewards/rejected": -1.9880012273788452,
      "step": 1560
    },
    {
      "epoch": 0.376679462571977,
      "grad_norm": 37.95179606415185,
      "learning_rate": 3.922149503979628e-07,
      "logits/chosen": 0.2700248658657074,
      "logits/rejected": 0.21610090136528015,
      "logps/chosen": -471.33056640625,
      "logps/rejected": -593.8278198242188,
      "loss": 0.5122,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.2792729139328003,
      "rewards/margins": 1.1995410919189453,
      "rewards/rejected": -2.4788146018981934,
      "step": 1570
    },
    {
      "epoch": 0.3790786948176583,
      "grad_norm": 55.896865397911,
      "learning_rate": 3.904879390217095e-07,
      "logits/chosen": 0.12995900213718414,
      "logits/rejected": 0.12265945971012115,
      "logps/chosen": -443.599365234375,
      "logps/rejected": -492.68450927734375,
      "loss": 0.528,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.2007102966308594,
      "rewards/margins": 0.6766700744628906,
      "rewards/rejected": -1.87738037109375,
      "step": 1580
    },
    {
      "epoch": 0.3814779270633397,
      "grad_norm": 49.93484321544338,
      "learning_rate": 3.8875107297468463e-07,
      "logits/chosen": 0.20564258098602295,
      "logits/rejected": 0.0780414491891861,
      "logps/chosen": -411.8665466308594,
      "logps/rejected": -573.74951171875,
      "loss": 0.5229,
      "rewards/accuracies": 0.925000011920929,
      "rewards/chosen": -1.0018932819366455,
      "rewards/margins": 1.2348394393920898,
      "rewards/rejected": -2.2367329597473145,
      "step": 1590
    },
    {
      "epoch": 0.3838771593090211,
      "grad_norm": 38.069521505621516,
      "learning_rate": 3.87004474091141e-07,
      "logits/chosen": 0.3447803258895874,
      "logits/rejected": 0.3082936704158783,
      "logps/chosen": -405.9560852050781,
      "logps/rejected": -489.4607849121094,
      "loss": 0.541,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.0926564931869507,
      "rewards/margins": 0.7233616709709167,
      "rewards/rejected": -1.8160178661346436,
      "step": 1600
    },
    {
      "epoch": 0.3862763915547025,
      "grad_norm": 44.24824114407542,
      "learning_rate": 3.8524826488805114e-07,
      "logits/chosen": 0.3052324950695038,
      "logits/rejected": 0.3181813657283783,
      "logps/chosen": -473.97796630859375,
      "logps/rejected": -500.7769470214844,
      "loss": 0.547,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.2699439525604248,
      "rewards/margins": 0.7647022008895874,
      "rewards/rejected": -2.0346462726593018,
      "step": 1610
    },
    {
      "epoch": 0.3886756238003839,
      "grad_norm": 47.309718786937964,
      "learning_rate": 3.834825685565133e-07,
      "logits/chosen": 0.33559301495552063,
      "logits/rejected": 0.3656995892524719,
      "logps/chosen": -414.19256591796875,
      "logps/rejected": -421.0203552246094,
      "loss": 0.4953,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.065473198890686,
      "rewards/margins": 0.5177011489868164,
      "rewards/rejected": -1.5831743478775024,
      "step": 1620
    },
    {
      "epoch": 0.39107485604606523,
      "grad_norm": 42.86172629937328,
      "learning_rate": 3.8170750895311007e-07,
      "logits/chosen": 0.1855572611093521,
      "logits/rejected": 0.17679139971733093,
      "logps/chosen": -452.2789001464844,
      "logps/rejected": -500.349609375,
      "loss": 0.4908,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.9900191426277161,
      "rewards/margins": 0.7418977618217468,
      "rewards/rejected": -1.7319167852401733,
      "step": 1630
    },
    {
      "epoch": 0.3934740882917466,
      "grad_norm": 45.001223140761674,
      "learning_rate": 3.7992321059122045e-07,
      "logits/chosen": 0.2781444787979126,
      "logits/rejected": 0.30307430028915405,
      "logps/chosen": -414.05523681640625,
      "logps/rejected": -462.14239501953125,
      "loss": 0.5237,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -1.1657673120498657,
      "rewards/margins": 0.6909239888191223,
      "rewards/rejected": -1.8566913604736328,
      "step": 1640
    },
    {
      "epoch": 0.395873320537428,
      "grad_norm": 60.544325020503095,
      "learning_rate": 3.7812979863228576e-07,
      "logits/chosen": 0.2274487465620041,
      "logits/rejected": 0.16551566123962402,
      "logps/chosen": -405.3382873535156,
      "logps/rejected": -493.6697692871094,
      "loss": 0.4928,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.2897754907608032,
      "rewards/margins": 0.8161094784736633,
      "rewards/rejected": -2.1058847904205322,
      "step": 1650
    },
    {
      "epoch": 0.3982725527831094,
      "grad_norm": 50.449927443360075,
      "learning_rate": 3.763273988770296e-07,
      "logits/chosen": 0.40345683693885803,
      "logits/rejected": 0.39551275968551636,
      "logps/chosen": -453.79803466796875,
      "logps/rejected": -535.8180541992188,
      "loss": 0.4965,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.3234025239944458,
      "rewards/margins": 0.8552868962287903,
      "rewards/rejected": -2.178689479827881,
      "step": 1660
    },
    {
      "epoch": 0.4006717850287908,
      "grad_norm": 45.22606638463477,
      "learning_rate": 3.7451613775663405e-07,
      "logits/chosen": 0.2254648655653,
      "logits/rejected": 0.15715382993221283,
      "logps/chosen": -444.4361267089844,
      "logps/rejected": -565.7696533203125,
      "loss": 0.5436,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.3264541625976562,
      "rewards/margins": 1.2607003450393677,
      "rewards/rejected": -2.5871543884277344,
      "step": 1670
    },
    {
      "epoch": 0.40307101727447214,
      "grad_norm": 56.89213037695923,
      "learning_rate": 3.726961423238706e-07,
      "logits/chosen": 0.2933524250984192,
      "logits/rejected": 0.212088942527771,
      "logps/chosen": -426.76080322265625,
      "logps/rejected": -546.6845703125,
      "loss": 0.5149,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -1.2648175954818726,
      "rewards/margins": 1.0558243989944458,
      "rewards/rejected": -2.3206419944763184,
      "step": 1680
    },
    {
      "epoch": 0.40547024952015354,
      "grad_norm": 48.93178210300578,
      "learning_rate": 3.708675402441882e-07,
      "logits/chosen": 0.2865277826786041,
      "logits/rejected": 0.37102895975112915,
      "logps/chosen": -484.88519287109375,
      "logps/rejected": -502.8384704589844,
      "loss": 0.5365,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -1.2438859939575195,
      "rewards/margins": 0.6120424270629883,
      "rewards/rejected": -1.855928659439087,
      "step": 1690
    },
    {
      "epoch": 0.40786948176583493,
      "grad_norm": 41.4789900308926,
      "learning_rate": 3.6903045978675775e-07,
      "logits/chosen": 0.3034370541572571,
      "logits/rejected": 0.2625337243080139,
      "logps/chosen": -386.1392517089844,
      "logps/rejected": -470.08135986328125,
      "loss": 0.5013,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.9028989672660828,
      "rewards/margins": 1.0875600576400757,
      "rewards/rejected": -1.9904590845108032,
      "step": 1700
    },
    {
      "epoch": 0.4102687140115163,
      "grad_norm": 35.84427094735192,
      "learning_rate": 3.6718502981547474e-07,
      "logits/chosen": 0.385175883769989,
      "logits/rejected": 0.2869270443916321,
      "logps/chosen": -436.753662109375,
      "logps/rejected": -548.1320190429688,
      "loss": 0.512,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.1051702499389648,
      "rewards/margins": 0.6421515345573425,
      "rewards/rejected": -1.7473220825195312,
      "step": 1710
    },
    {
      "epoch": 0.4126679462571977,
      "grad_norm": 36.76356281345392,
      "learning_rate": 3.6533137977991986e-07,
      "logits/chosen": 0.2681284248828888,
      "logits/rejected": 0.27597135305404663,
      "logps/chosen": -444.15826416015625,
      "logps/rejected": -524.8231201171875,
      "loss": 0.5344,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -0.9779054522514343,
      "rewards/margins": 0.62675940990448,
      "rewards/rejected": -1.6046650409698486,
      "step": 1720
    },
    {
      "epoch": 0.41506717850287905,
      "grad_norm": 42.054568712185926,
      "learning_rate": 3.6346963970627865e-07,
      "logits/chosen": 0.3877958655357361,
      "logits/rejected": 0.2975226044654846,
      "logps/chosen": -420.9158630371094,
      "logps/rejected": -515.4686889648438,
      "loss": 0.5036,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.0269657373428345,
      "rewards/margins": 0.7597817182540894,
      "rewards/rejected": -1.7867473363876343,
      "step": 1730
    },
    {
      "epoch": 0.41746641074856045,
      "grad_norm": 44.183218072360475,
      "learning_rate": 3.615999401882207e-07,
      "logits/chosen": 0.5101007223129272,
      "logits/rejected": 0.44053035974502563,
      "logps/chosen": -388.8902282714844,
      "logps/rejected": -512.8978881835938,
      "loss": 0.5121,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.2427517175674438,
      "rewards/margins": 0.933813214302063,
      "rewards/rejected": -2.1765646934509277,
      "step": 1740
    },
    {
      "epoch": 0.41986564299424184,
      "grad_norm": 38.84095884357132,
      "learning_rate": 3.597224123777389e-07,
      "logits/chosen": 0.4116114675998688,
      "logits/rejected": 0.3661612570285797,
      "logps/chosen": -430.21990966796875,
      "logps/rejected": -544.9900512695312,
      "loss": 0.4882,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.1606342792510986,
      "rewards/margins": 1.0220921039581299,
      "rewards/rejected": -2.1827263832092285,
      "step": 1750
    },
    {
      "epoch": 0.42226487523992323,
      "grad_norm": 48.48200071110331,
      "learning_rate": 3.5783718797595e-07,
      "logits/chosen": 0.3250165581703186,
      "logits/rejected": 0.41192755103111267,
      "logps/chosen": -487.70404052734375,
      "logps/rejected": -506.49530029296875,
      "loss": 0.5418,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.321012020111084,
      "rewards/margins": 0.7061235308647156,
      "rewards/rejected": -2.0271353721618652,
      "step": 1760
    },
    {
      "epoch": 0.4246641074856046,
      "grad_norm": 41.976087972205285,
      "learning_rate": 3.559443992238558e-07,
      "logits/chosen": 0.38490504026412964,
      "logits/rejected": 0.3506616950035095,
      "logps/chosen": -414.7301330566406,
      "logps/rejected": -553.3479614257812,
      "loss": 0.5277,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -0.9950034022331238,
      "rewards/margins": 1.1345813274383545,
      "rewards/rejected": -2.129584550857544,
      "step": 1770
    },
    {
      "epoch": 0.42706333973128596,
      "grad_norm": 44.81649257476256,
      "learning_rate": 3.540441788930673e-07,
      "logits/chosen": 0.3962218165397644,
      "logits/rejected": 0.325061172246933,
      "logps/chosen": -467.65155029296875,
      "logps/rejected": -539.2551879882812,
      "loss": 0.4933,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.1214022636413574,
      "rewards/margins": 1.1308571100234985,
      "rewards/rejected": -2.2522594928741455,
      "step": 1780
    },
    {
      "epoch": 0.42946257197696736,
      "grad_norm": 45.2856769850179,
      "learning_rate": 3.5213666027649123e-07,
      "logits/chosen": 0.33266204595565796,
      "logits/rejected": 0.3824441134929657,
      "logps/chosen": -480.2119140625,
      "logps/rejected": -476.08984375,
      "loss": 0.5238,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.3972989320755005,
      "rewards/margins": 0.541749119758606,
      "rewards/rejected": -1.9390478134155273,
      "step": 1790
    },
    {
      "epoch": 0.43186180422264875,
      "grad_norm": 54.06455040727181,
      "learning_rate": 3.5022197717898017e-07,
      "logits/chosen": 0.19602210819721222,
      "logits/rejected": 0.23719044029712677,
      "logps/chosen": -394.2027587890625,
      "logps/rejected": -459.33221435546875,
      "loss": 0.4769,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.173718810081482,
      "rewards/margins": 0.8884655833244324,
      "rewards/rejected": -2.0621845722198486,
      "step": 1800
    },
    {
      "epoch": 0.43426103646833014,
      "grad_norm": 36.13993495552892,
      "learning_rate": 3.4830026390794633e-07,
      "logits/chosen": 0.16905806958675385,
      "logits/rejected": 0.14926643669605255,
      "logps/chosen": -505.55126953125,
      "logps/rejected": -551.2828979492188,
      "loss": 0.4745,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.3583290576934814,
      "rewards/margins": 1.004029631614685,
      "rewards/rejected": -2.362358570098877,
      "step": 1810
    },
    {
      "epoch": 0.43666026871401153,
      "grad_norm": 32.25356254003183,
      "learning_rate": 3.4637165526394104e-07,
      "logits/chosen": 0.23928511142730713,
      "logits/rejected": 0.22237971425056458,
      "logps/chosen": -415.0269470214844,
      "logps/rejected": -494.46405029296875,
      "loss": 0.5278,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.063435435295105,
      "rewards/margins": 0.7565540671348572,
      "rewards/rejected": -1.819989562034607,
      "step": 1820
    },
    {
      "epoch": 0.43905950095969287,
      "grad_norm": 34.4419746511506,
      "learning_rate": 3.4443628653119814e-07,
      "logits/chosen": 0.27581119537353516,
      "logits/rejected": 0.24289298057556152,
      "logps/chosen": -466.73529052734375,
      "logps/rejected": -645.5926513671875,
      "loss": 0.5157,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.2824543714523315,
      "rewards/margins": 1.4018195867538452,
      "rewards/rejected": -2.684274196624756,
      "step": 1830
    },
    {
      "epoch": 0.44145873320537427,
      "grad_norm": 41.075704870340594,
      "learning_rate": 3.424942934681453e-07,
      "logits/chosen": 0.27590471506118774,
      "logits/rejected": 0.33334219455718994,
      "logps/chosen": -408.6986083984375,
      "logps/rejected": -506.6996154785156,
      "loss": 0.5031,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -0.9812175035476685,
      "rewards/margins": 1.1212607622146606,
      "rewards/rejected": -2.10247802734375,
      "step": 1840
    },
    {
      "epoch": 0.44385796545105566,
      "grad_norm": 51.35010815764105,
      "learning_rate": 3.405458122978804e-07,
      "logits/chosen": 0.28459858894348145,
      "logits/rejected": 0.24139773845672607,
      "logps/chosen": -467.11932373046875,
      "logps/rejected": -536.8555908203125,
      "loss": 0.4962,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.151214838027954,
      "rewards/margins": 0.9230279922485352,
      "rewards/rejected": -2.0742428302764893,
      "step": 1850
    },
    {
      "epoch": 0.44625719769673705,
      "grad_norm": 58.94555175884757,
      "learning_rate": 3.3859097969861633e-07,
      "logits/chosen": 0.3147757649421692,
      "logits/rejected": 0.296464741230011,
      "logps/chosen": -475.61175537109375,
      "logps/rejected": -521.8074951171875,
      "loss": 0.5255,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.389574646949768,
      "rewards/margins": 0.8023090362548828,
      "rewards/rejected": -2.1918835639953613,
      "step": 1860
    },
    {
      "epoch": 0.44865642994241844,
      "grad_norm": 43.58295874945141,
      "learning_rate": 3.366299327940936e-07,
      "logits/chosen": 0.2593730092048645,
      "logits/rejected": 0.1364545077085495,
      "logps/chosen": -485.0771484375,
      "logps/rejected": -578.6021728515625,
      "loss": 0.512,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.2985343933105469,
      "rewards/margins": 0.7179661989212036,
      "rewards/rejected": -2.01650071144104,
      "step": 1870
    },
    {
      "epoch": 0.4510556621880998,
      "grad_norm": 33.90433109567072,
      "learning_rate": 3.3466280914396117e-07,
      "logits/chosen": 0.17524075508117676,
      "logits/rejected": 0.12327942997217178,
      "logps/chosen": -436.56536865234375,
      "logps/rejected": -551.0841064453125,
      "loss": 0.5111,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.3039577007293701,
      "rewards/margins": 0.9412840604782104,
      "rewards/rejected": -2.24524188041687,
      "step": 1880
    },
    {
      "epoch": 0.4534548944337812,
      "grad_norm": 48.57573160920276,
      "learning_rate": 3.326897467341281e-07,
      "logits/chosen": 0.10545514523983002,
      "logits/rejected": 0.10264859348535538,
      "logps/chosen": -394.76776123046875,
      "logps/rejected": -494.9923400878906,
      "loss": 0.525,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.1733514070510864,
      "rewards/margins": 0.8517268896102905,
      "rewards/rejected": -2.025078296661377,
      "step": 1890
    },
    {
      "epoch": 0.45585412667946257,
      "grad_norm": 52.20592211080183,
      "learning_rate": 3.3071088396708335e-07,
      "logits/chosen": 0.16945740580558777,
      "logits/rejected": 0.12676987051963806,
      "logps/chosen": -370.2272033691406,
      "logps/rejected": -489.0442810058594,
      "loss": 0.503,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.9613567590713501,
      "rewards/margins": 1.0801159143447876,
      "rewards/rejected": -2.0414726734161377,
      "step": 1900
    },
    {
      "epoch": 0.45825335892514396,
      "grad_norm": 39.11646762477483,
      "learning_rate": 3.2872635965218824e-07,
      "logits/chosen": 0.36154884099960327,
      "logits/rejected": 0.3266182541847229,
      "logps/chosen": -472.8251037597656,
      "logps/rejected": -570.266845703125,
      "loss": 0.524,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.5062012672424316,
      "rewards/margins": 0.7707003355026245,
      "rewards/rejected": -2.2769012451171875,
      "step": 1910
    },
    {
      "epoch": 0.46065259117082535,
      "grad_norm": 33.57125004563553,
      "learning_rate": 3.2673631299593905e-07,
      "logits/chosen": 0.20721454918384552,
      "logits/rejected": 0.24143996834754944,
      "logps/chosen": -474.7398376464844,
      "logps/rejected": -535.4746704101562,
      "loss": 0.5204,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.3117005825042725,
      "rewards/margins": 0.8077449798583984,
      "rewards/rejected": -2.119445562362671,
      "step": 1920
    },
    {
      "epoch": 0.4630518234165067,
      "grad_norm": 49.103327518032735,
      "learning_rate": 3.247408835922024e-07,
      "logits/chosen": 0.3439037799835205,
      "logits/rejected": 0.2654734253883362,
      "logps/chosen": -527.8143310546875,
      "logps/rejected": -611.921875,
      "loss": 0.506,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.5940402746200562,
      "rewards/margins": 0.856569766998291,
      "rewards/rejected": -2.4506099224090576,
      "step": 1930
    },
    {
      "epoch": 0.4654510556621881,
      "grad_norm": 49.876953655813104,
      "learning_rate": 3.2274021141242306e-07,
      "logits/chosen": 0.43298500776290894,
      "logits/rejected": 0.4217461049556732,
      "logps/chosen": -458.80535888671875,
      "logps/rejected": -546.6775512695312,
      "loss": 0.4867,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.2974848747253418,
      "rewards/margins": 0.8723615407943726,
      "rewards/rejected": -2.169846534729004,
      "step": 1940
    },
    {
      "epoch": 0.4678502879078695,
      "grad_norm": 59.65377964792493,
      "learning_rate": 3.2073443679580613e-07,
      "logits/chosen": 0.2417244166135788,
      "logits/rejected": 0.23499338328838348,
      "logps/chosen": -469.7822265625,
      "logps/rejected": -545.030517578125,
      "loss": 0.4895,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.3010753393173218,
      "rewards/margins": 0.6901552081108093,
      "rewards/rejected": -1.9912303686141968,
      "step": 1950
    },
    {
      "epoch": 0.47024952015355087,
      "grad_norm": 48.010287716369675,
      "learning_rate": 3.1872370043947194e-07,
      "logits/chosen": 0.44626665115356445,
      "logits/rejected": 0.40652981400489807,
      "logps/chosen": -418.04608154296875,
      "logps/rejected": -536.6441650390625,
      "loss": 0.464,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.8487616777420044,
      "rewards/margins": 1.3238131999969482,
      "rewards/rejected": -2.1725752353668213,
      "step": 1960
    },
    {
      "epoch": 0.47264875239923226,
      "grad_norm": 46.983751656355615,
      "learning_rate": 3.167081433885874e-07,
      "logits/chosen": 0.4636153280735016,
      "logits/rejected": 0.4149314761161804,
      "logps/chosen": -560.605712890625,
      "logps/rejected": -700.2041015625,
      "loss": 0.4653,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -1.5527485609054565,
      "rewards/margins": 0.9842365384101868,
      "rewards/rejected": -2.536984920501709,
      "step": 1970
    },
    {
      "epoch": 0.4750479846449136,
      "grad_norm": 46.832783839770435,
      "learning_rate": 3.14687907026472e-07,
      "logits/chosen": 0.34756892919540405,
      "logits/rejected": 0.3631365895271301,
      "logps/chosen": -452.46533203125,
      "logps/rejected": -579.3941650390625,
      "loss": 0.5059,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -1.4736191034317017,
      "rewards/margins": 1.1666433811187744,
      "rewards/rejected": -2.6402623653411865,
      "step": 1980
    },
    {
      "epoch": 0.477447216890595,
      "grad_norm": 51.65835958499199,
      "learning_rate": 3.126631330646801e-07,
      "logits/chosen": 0.28329282999038696,
      "logits/rejected": 0.23793701827526093,
      "logps/chosen": -574.2579956054688,
      "logps/rejected": -644.44677734375,
      "loss": 0.5244,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -2.125730037689209,
      "rewards/margins": 0.6223888397216797,
      "rewards/rejected": -2.7481188774108887,
      "step": 1990
    },
    {
      "epoch": 0.4798464491362764,
      "grad_norm": 56.94846979096699,
      "learning_rate": 3.1063396353306097e-07,
      "logits/chosen": 0.370736300945282,
      "logits/rejected": 0.43973660469055176,
      "logps/chosen": -495.07171630859375,
      "logps/rejected": -519.3072509765625,
      "loss": 0.5009,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.2859165668487549,
      "rewards/margins": 0.9244076609611511,
      "rewards/rejected": -2.2103240489959717,
      "step": 2000
    },
    {
      "epoch": 0.4798464491362764,
      "eval_logits/chosen": 0.5136142373085022,
      "eval_logits/rejected": 0.4682252109050751,
      "eval_logps/chosen": -468.3976135253906,
      "eval_logps/rejected": -586.2582397460938,
      "eval_loss": 0.49979615211486816,
      "eval_rewards/accuracies": 0.7803571224212646,
      "eval_rewards/chosen": -1.4972540140151978,
      "eval_rewards/margins": 1.1174662113189697,
      "eval_rewards/rejected": -2.614720106124878,
      "eval_runtime": 185.1772,
      "eval_samples_per_second": 24.09,
      "eval_steps_per_second": 0.378,
      "step": 2000
    },
    {
      "epoch": 0.4822456813819578,
      "grad_norm": 61.64399490626884,
      "learning_rate": 3.0860054076979535e-07,
      "logits/chosen": 0.34754273295402527,
      "logits/rejected": 0.3305366635322571,
      "logps/chosen": -490.9940490722656,
      "logps/rejected": -570.1460571289062,
      "loss": 0.4823,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.5707345008850098,
      "rewards/margins": 1.0668280124664307,
      "rewards/rejected": -2.6375622749328613,
      "step": 2010
    },
    {
      "epoch": 0.4846449136276392,
      "grad_norm": 54.18063166333372,
      "learning_rate": 3.065630074114115e-07,
      "logits/chosen": 0.3459337651729584,
      "logits/rejected": 0.36747267842292786,
      "logps/chosen": -486.1033630371094,
      "logps/rejected": -554.5687866210938,
      "loss": 0.5237,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.3654518127441406,
      "rewards/margins": 1.115387201309204,
      "rewards/rejected": -2.4808387756347656,
      "step": 2020
    },
    {
      "epoch": 0.4870441458733205,
      "grad_norm": 48.37481533662561,
      "learning_rate": 3.0452150638277947e-07,
      "logits/chosen": 0.3800879120826721,
      "logits/rejected": 0.3224307894706726,
      "logps/chosen": -418.9652404785156,
      "logps/rejected": -507.47747802734375,
      "loss": 0.5304,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.2180391550064087,
      "rewards/margins": 0.8009985685348511,
      "rewards/rejected": -2.0190374851226807,
      "step": 2030
    },
    {
      "epoch": 0.4894433781190019,
      "grad_norm": 35.82205388348395,
      "learning_rate": 3.024761808870856e-07,
      "logits/chosen": 0.43575650453567505,
      "logits/rejected": 0.3246951997280121,
      "logps/chosen": -394.49700927734375,
      "logps/rejected": -528.8324584960938,
      "loss": 0.4962,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.9007269740104675,
      "rewards/margins": 1.4299715757369995,
      "rewards/rejected": -2.3306984901428223,
      "step": 2040
    },
    {
      "epoch": 0.4918426103646833,
      "grad_norm": 69.46282819499118,
      "learning_rate": 3.004271743957875e-07,
      "logits/chosen": 0.1757555603981018,
      "logits/rejected": 0.11282005161046982,
      "logps/chosen": -492.5611877441406,
      "logps/rejected": -602.2737426757812,
      "loss": 0.5181,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.534406304359436,
      "rewards/margins": 0.9544004201889038,
      "rewards/rejected": -2.48880672454834,
      "step": 2050
    },
    {
      "epoch": 0.4942418426103647,
      "grad_norm": 45.79139932334549,
      "learning_rate": 2.983746306385499e-07,
      "logits/chosen": 0.26720863580703735,
      "logits/rejected": 0.22653250396251678,
      "logps/chosen": -450.50970458984375,
      "logps/rejected": -577.3936767578125,
      "loss": 0.481,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.3142211437225342,
      "rewards/margins": 1.129241704940796,
      "rewards/rejected": -2.44346284866333,
      "step": 2060
    },
    {
      "epoch": 0.4966410748560461,
      "grad_norm": 43.321422686785745,
      "learning_rate": 2.963186935931628e-07,
      "logits/chosen": 0.3077266812324524,
      "logits/rejected": 0.2476225346326828,
      "logps/chosen": -480.34619140625,
      "logps/rejected": -587.4752197265625,
      "loss": 0.489,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -1.302478551864624,
      "rewards/margins": 1.1229597330093384,
      "rewards/rejected": -2.425438404083252,
      "step": 2070
    },
    {
      "epoch": 0.4990403071017274,
      "grad_norm": 45.25903246638121,
      "learning_rate": 2.9425950747544176e-07,
      "logits/chosen": 0.2362133264541626,
      "logits/rejected": 0.20862069725990295,
      "logps/chosen": -528.6657104492188,
      "logps/rejected": -640.0977172851562,
      "loss": 0.4865,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -1.531398057937622,
      "rewards/margins": 1.434666633605957,
      "rewards/rejected": -2.966064929962158,
      "step": 2080
    },
    {
      "epoch": 0.5014395393474088,
      "grad_norm": 46.57096517661485,
      "learning_rate": 2.921972167291119e-07,
      "logits/chosen": 0.1148526519536972,
      "logits/rejected": 0.0883648619055748,
      "logps/chosen": -483.4339904785156,
      "logps/rejected": -601.8978271484375,
      "loss": 0.4907,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.3184032440185547,
      "rewards/margins": 0.981913685798645,
      "rewards/rejected": -2.3003170490264893,
      "step": 2090
    },
    {
      "epoch": 0.5038387715930902,
      "grad_norm": 39.63447443095947,
      "learning_rate": 2.9013196601567567e-07,
      "logits/chosen": 0.08627250045537949,
      "logits/rejected": 0.10158304125070572,
      "logps/chosen": -421.615478515625,
      "logps/rejected": -528.127685546875,
      "loss": 0.5409,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.1398550271987915,
      "rewards/margins": 0.95441073179245,
      "rewards/rejected": -2.0942656993865967,
      "step": 2100
    },
    {
      "epoch": 0.5062380038387716,
      "grad_norm": 36.05433569174663,
      "learning_rate": 2.8806390020426555e-07,
      "logits/chosen": 0.0710478127002716,
      "logits/rejected": 0.05162844806909561,
      "logps/chosen": -453.2339782714844,
      "logps/rejected": -557.0374145507812,
      "loss": 0.4948,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.1150130033493042,
      "rewards/margins": 1.007678747177124,
      "rewards/rejected": -2.1226916313171387,
      "step": 2110
    },
    {
      "epoch": 0.508637236084453,
      "grad_norm": 50.26433068268168,
      "learning_rate": 2.8599316436148187e-07,
      "logits/chosen": 0.24139384925365448,
      "logits/rejected": 0.21716871857643127,
      "logps/chosen": -447.4005432128906,
      "logps/rejected": -504.754638671875,
      "loss": 0.4837,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -1.421812653541565,
      "rewards/margins": 0.5791618227958679,
      "rewards/rejected": -2.000974655151367,
      "step": 2120
    },
    {
      "epoch": 0.5110364683301344,
      "grad_norm": 48.79279161854594,
      "learning_rate": 2.8391990374121723e-07,
      "logits/chosen": 0.14107191562652588,
      "logits/rejected": 0.05996360257267952,
      "logps/chosen": -447.6856384277344,
      "logps/rejected": -572.6692504882812,
      "loss": 0.5309,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.3457109928131104,
      "rewards/margins": 1.006974458694458,
      "rewards/rejected": -2.3526854515075684,
      "step": 2130
    },
    {
      "epoch": 0.5134357005758158,
      "grad_norm": 49.554326824350056,
      "learning_rate": 2.818442637744669e-07,
      "logits/chosen": 0.14974358677864075,
      "logits/rejected": 0.07151228934526443,
      "logps/chosen": -468.7398986816406,
      "logps/rejected": -561.0519409179688,
      "loss": 0.529,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.4705628156661987,
      "rewards/margins": 0.9486227035522461,
      "rewards/rejected": -2.4191856384277344,
      "step": 2140
    },
    {
      "epoch": 0.5158349328214972,
      "grad_norm": 49.03414708222374,
      "learning_rate": 2.797663900591284e-07,
      "logits/chosen": 0.12192866951227188,
      "logits/rejected": 0.1623045951128006,
      "logps/chosen": -484.0595703125,
      "logps/rejected": -536.2966918945312,
      "loss": 0.4726,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.466080904006958,
      "rewards/margins": 0.9258912205696106,
      "rewards/rejected": -2.3919718265533447,
      "step": 2150
    },
    {
      "epoch": 0.5182341650671785,
      "grad_norm": 47.623947511820035,
      "learning_rate": 2.776864283497874e-07,
      "logits/chosen": 0.2551673352718353,
      "logits/rejected": 0.25919514894485474,
      "logps/chosen": -450.1902770996094,
      "logps/rejected": -603.4628295898438,
      "loss": 0.5047,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.427159309387207,
      "rewards/margins": 1.6337556838989258,
      "rewards/rejected": -3.0609147548675537,
      "step": 2160
    },
    {
      "epoch": 0.5206333973128598,
      "grad_norm": 39.32544622434657,
      "learning_rate": 2.756045245474943e-07,
      "logits/chosen": 0.1113271713256836,
      "logits/rejected": 0.06980106979608536,
      "logps/chosen": -477.89288330078125,
      "logps/rejected": -590.3850708007812,
      "loss": 0.5136,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.3194444179534912,
      "rewards/margins": 0.8708696365356445,
      "rewards/rejected": -2.1903140544891357,
      "step": 2170
    },
    {
      "epoch": 0.5230326295585412,
      "grad_norm": 41.32084808239206,
      "learning_rate": 2.7352082468952977e-07,
      "logits/chosen": 0.18554797768592834,
      "logits/rejected": 0.10465570539236069,
      "logps/chosen": -464.09027099609375,
      "logps/rejected": -614.1561279296875,
      "loss": 0.5172,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.5660805702209473,
      "rewards/margins": 1.2777998447418213,
      "rewards/rejected": -2.8438801765441895,
      "step": 2180
    },
    {
      "epoch": 0.5254318618042226,
      "grad_norm": 67.92788558845768,
      "learning_rate": 2.7143547493916e-07,
      "logits/chosen": 0.18377096951007843,
      "logits/rejected": 0.10271792113780975,
      "logps/chosen": -409.5820007324219,
      "logps/rejected": -570.1399536132812,
      "loss": 0.4842,
      "rewards/accuracies": 0.925000011920929,
      "rewards/chosen": -1.100378394126892,
      "rewards/margins": 1.5573487281799316,
      "rewards/rejected": -2.657727003097534,
      "step": 2190
    },
    {
      "epoch": 0.527831094049904,
      "grad_norm": 50.707037903665324,
      "learning_rate": 2.693486215753853e-07,
      "logits/chosen": 0.12866708636283875,
      "logits/rejected": 0.06411238014698029,
      "logps/chosen": -418.26715087890625,
      "logps/rejected": -512.0023193359375,
      "loss": 0.5342,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.2301840782165527,
      "rewards/margins": 1.0781285762786865,
      "rewards/rejected": -2.30831241607666,
      "step": 2200
    },
    {
      "epoch": 0.5302303262955854,
      "grad_norm": 46.86231101360818,
      "learning_rate": 2.6726041098267805e-07,
      "logits/chosen": -0.031896281987428665,
      "logits/rejected": -0.030716899782419205,
      "logps/chosen": -487.5838928222656,
      "logps/rejected": -485.93646240234375,
      "loss": 0.5532,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.3748475313186646,
      "rewards/margins": 0.40763726830482483,
      "rewards/rejected": -1.7824846506118774,
      "step": 2210
    },
    {
      "epoch": 0.5326295585412668,
      "grad_norm": 72.55957637434223,
      "learning_rate": 2.6517098964071507e-07,
      "logits/chosen": 0.23304399847984314,
      "logits/rejected": 0.22425612807273865,
      "logps/chosen": -444.8831481933594,
      "logps/rejected": -506.5235900878906,
      "loss": 0.546,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.1518399715423584,
      "rewards/margins": 0.4722941517829895,
      "rewards/rejected": -1.6241340637207031,
      "step": 2220
    },
    {
      "epoch": 0.5350287907869482,
      "grad_norm": 43.727526427782365,
      "learning_rate": 2.630805041141023e-07,
      "logits/chosen": 0.2689264118671417,
      "logits/rejected": 0.2254217565059662,
      "logps/chosen": -403.8577880859375,
      "logps/rejected": -512.3160400390625,
      "loss": 0.5046,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.058393120765686,
      "rewards/margins": 0.9750925302505493,
      "rewards/rejected": -2.0334856510162354,
      "step": 2230
    },
    {
      "epoch": 0.5374280230326296,
      "grad_norm": 49.11098211804801,
      "learning_rate": 2.609891010420941e-07,
      "logits/chosen": 0.18164226412773132,
      "logits/rejected": 0.17124636471271515,
      "logps/chosen": -454.2110290527344,
      "logps/rejected": -558.4046630859375,
      "loss": 0.465,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -1.1852877140045166,
      "rewards/margins": 1.1636625528335571,
      "rewards/rejected": -2.3489503860473633,
      "step": 2240
    },
    {
      "epoch": 0.539827255278311,
      "grad_norm": 43.26353709722887,
      "learning_rate": 2.5889692712830674e-07,
      "logits/chosen": 0.052560679614543915,
      "logits/rejected": 0.03842206671833992,
      "logps/chosen": -396.25408935546875,
      "logps/rejected": -478.73236083984375,
      "loss": 0.4734,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.9645735621452332,
      "rewards/margins": 0.9311714172363281,
      "rewards/rejected": -1.895745038986206,
      "step": 2250
    },
    {
      "epoch": 0.5422264875239923,
      "grad_norm": 47.10267589353339,
      "learning_rate": 2.5680412913042843e-07,
      "logits/chosen": 0.23019644618034363,
      "logits/rejected": 0.179383784532547,
      "logps/chosen": -421.8323669433594,
      "logps/rejected": -528.0892333984375,
      "loss": 0.5044,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.2181730270385742,
      "rewards/margins": 1.0768169164657593,
      "rewards/rejected": -2.294990062713623,
      "step": 2260
    },
    {
      "epoch": 0.5446257197696737,
      "grad_norm": 49.07465366967735,
      "learning_rate": 2.5471085384992404e-07,
      "logits/chosen": 0.21075716614723206,
      "logits/rejected": 0.0905676931142807,
      "logps/chosen": -402.1150207519531,
      "logps/rejected": -584.5428466796875,
      "loss": 0.4919,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.061937928199768,
      "rewards/margins": 1.6330102682113647,
      "rewards/rejected": -2.694948196411133,
      "step": 2270
    },
    {
      "epoch": 0.5470249520153551,
      "grad_norm": 47.06580983617911,
      "learning_rate": 2.526172481217381e-07,
      "logits/chosen": 0.28002408146858215,
      "logits/rejected": 0.19437995553016663,
      "logps/chosen": -421.2408142089844,
      "logps/rejected": -556.0794067382812,
      "loss": 0.5198,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.5300331115722656,
      "rewards/margins": 1.192158579826355,
      "rewards/rejected": -2.722191572189331,
      "step": 2280
    },
    {
      "epoch": 0.5494241842610365,
      "grad_norm": 42.697690556320396,
      "learning_rate": 2.5052345880399456e-07,
      "logits/chosen": 0.336375892162323,
      "logits/rejected": 0.33653944730758667,
      "logps/chosen": -417.27496337890625,
      "logps/rejected": -494.6957092285156,
      "loss": 0.4616,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.37350594997406,
      "rewards/margins": 0.7126041650772095,
      "rewards/rejected": -2.0861101150512695,
      "step": 2290
    },
    {
      "epoch": 0.5518234165067178,
      "grad_norm": 44.24690759792965,
      "learning_rate": 2.4842963276769555e-07,
      "logits/chosen": 0.46479305624961853,
      "logits/rejected": 0.34474366903305054,
      "logps/chosen": -428.14227294921875,
      "logps/rejected": -594.80224609375,
      "loss": 0.5059,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.475941777229309,
      "rewards/margins": 1.2353615760803223,
      "rewards/rejected": -2.711303472518921,
      "step": 2300
    },
    {
      "epoch": 0.5542226487523992,
      "grad_norm": 42.732671934213585,
      "learning_rate": 2.463359168864189e-07,
      "logits/chosen": 0.25363442301750183,
      "logits/rejected": 0.3057165741920471,
      "logps/chosen": -501.9913635253906,
      "logps/rejected": -549.3098754882812,
      "loss": 0.5308,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.290345311164856,
      "rewards/margins": 1.010578989982605,
      "rewards/rejected": -2.300924301147461,
      "step": 2310
    },
    {
      "epoch": 0.5566218809980806,
      "grad_norm": 56.4377037562831,
      "learning_rate": 2.4424245802601555e-07,
      "logits/chosen": 0.2584269642829895,
      "logits/rejected": 0.18541845679283142,
      "logps/chosen": -429.4263610839844,
      "logps/rejected": -564.8827514648438,
      "loss": 0.4823,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.1343291997909546,
      "rewards/margins": 0.8212429285049438,
      "rewards/rejected": -1.9555721282958984,
      "step": 2320
    },
    {
      "epoch": 0.559021113243762,
      "grad_norm": 43.562067174648554,
      "learning_rate": 2.421494030343072e-07,
      "logits/chosen": 0.3927503228187561,
      "logits/rejected": 0.4579402506351471,
      "logps/chosen": -454.2933044433594,
      "logps/rejected": -463.19879150390625,
      "loss": 0.5602,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.2649152278900146,
      "rewards/margins": 0.6680216193199158,
      "rewards/rejected": -1.9329369068145752,
      "step": 2330
    },
    {
      "epoch": 0.5614203454894434,
      "grad_norm": 58.65475476508653,
      "learning_rate": 2.400568987307861e-07,
      "logits/chosen": 0.4964686334133148,
      "logits/rejected": 0.5107001662254333,
      "logps/chosen": -432.31341552734375,
      "logps/rejected": -462.37957763671875,
      "loss": 0.4724,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.243574857711792,
      "rewards/margins": 0.5827276110649109,
      "rewards/rejected": -1.8263022899627686,
      "step": 2340
    },
    {
      "epoch": 0.5638195777351248,
      "grad_norm": 58.315209990127244,
      "learning_rate": 2.379650918963156e-07,
      "logits/chosen": 0.3746911585330963,
      "logits/rejected": 0.3054753541946411,
      "logps/chosen": -421.2218322753906,
      "logps/rejected": -541.8524169921875,
      "loss": 0.4768,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.4736093282699585,
      "rewards/margins": 1.0763620138168335,
      "rewards/rejected": -2.549971342086792,
      "step": 2350
    },
    {
      "epoch": 0.5662188099808061,
      "grad_norm": 48.959910400597586,
      "learning_rate": 2.3587412926283438e-07,
      "logits/chosen": 0.35963717103004456,
      "logits/rejected": 0.28781235218048096,
      "logps/chosen": -480.2315368652344,
      "logps/rejected": -566.6637573242188,
      "loss": 0.5414,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.1883009672164917,
      "rewards/margins": 1.270986795425415,
      "rewards/rejected": -2.459287643432617,
      "step": 2360
    },
    {
      "epoch": 0.5686180422264875,
      "grad_norm": 30.962931166603095,
      "learning_rate": 2.337841575030642e-07,
      "logits/chosen": 0.35713425278663635,
      "logits/rejected": 0.30424803495407104,
      "logps/chosen": -492.8209533691406,
      "logps/rejected": -574.771240234375,
      "loss": 0.5061,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.396402359008789,
      "rewards/margins": 0.7614862322807312,
      "rewards/rejected": -2.157888889312744,
      "step": 2370
    },
    {
      "epoch": 0.5710172744721689,
      "grad_norm": 42.85766086532651,
      "learning_rate": 2.316953232202206e-07,
      "logits/chosen": 0.550395131111145,
      "logits/rejected": 0.6783905029296875,
      "logps/chosen": -430.48162841796875,
      "logps/rejected": -421.599853515625,
      "loss": 0.485,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.2630993127822876,
      "rewards/margins": 0.6726707220077515,
      "rewards/rejected": -1.9357702732086182,
      "step": 2380
    },
    {
      "epoch": 0.5734165067178503,
      "grad_norm": 38.41377863495817,
      "learning_rate": 2.2960777293772958e-07,
      "logits/chosen": 0.5615749359130859,
      "logits/rejected": 0.6018954515457153,
      "logps/chosen": -397.6216125488281,
      "logps/rejected": -480.299560546875,
      "loss": 0.4712,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -1.1725983619689941,
      "rewards/margins": 0.9747906923294067,
      "rewards/rejected": -2.1473889350891113,
      "step": 2390
    },
    {
      "epoch": 0.5758157389635317,
      "grad_norm": 40.03422172905619,
      "learning_rate": 2.2752165308894974e-07,
      "logits/chosen": 0.46104907989501953,
      "logits/rejected": 0.44198736548423767,
      "logps/chosen": -378.5218505859375,
      "logps/rejected": -456.65576171875,
      "loss": 0.479,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.1959477663040161,
      "rewards/margins": 0.9340691566467285,
      "rewards/rejected": -2.130016803741455,
      "step": 2400
    },
    {
      "epoch": 0.5782149712092131,
      "grad_norm": 54.11084171812038,
      "learning_rate": 2.254371100069005e-07,
      "logits/chosen": 0.457451730966568,
      "logits/rejected": 0.320446252822876,
      "logps/chosen": -431.6908264160156,
      "logps/rejected": -538.86865234375,
      "loss": 0.4874,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.1469987630844116,
      "rewards/margins": 0.8605014085769653,
      "rewards/rejected": -2.007500171661377,
      "step": 2410
    },
    {
      "epoch": 0.5806142034548945,
      "grad_norm": 54.79494157401916,
      "learning_rate": 2.2335428991399725e-07,
      "logits/chosen": 0.47143587470054626,
      "logits/rejected": 0.4143534302711487,
      "logps/chosen": -398.853271484375,
      "logps/rejected": -594.490966796875,
      "loss": 0.5197,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.449357509613037,
      "rewards/margins": 1.8377138376235962,
      "rewards/rejected": -3.287071704864502,
      "step": 2420
    },
    {
      "epoch": 0.5830134357005758,
      "grad_norm": 47.37355935293041,
      "learning_rate": 2.2127333891179458e-07,
      "logits/chosen": 0.4510342478752136,
      "logits/rejected": 0.36793094873428345,
      "logps/chosen": -419.24163818359375,
      "logps/rejected": -571.1874389648438,
      "loss": 0.5193,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.3948280811309814,
      "rewards/margins": 1.2814536094665527,
      "rewards/rejected": -2.676281690597534,
      "step": 2430
    },
    {
      "epoch": 0.5854126679462572,
      "grad_norm": 65.89730578952388,
      "learning_rate": 2.1919440297073782e-07,
      "logits/chosen": 0.3510410785675049,
      "logits/rejected": 0.3182118535041809,
      "logps/chosen": -415.6324157714844,
      "logps/rejected": -527.152099609375,
      "loss": 0.5265,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": -1.5300906896591187,
      "rewards/margins": 1.0138437747955322,
      "rewards/rejected": -2.5439343452453613,
      "step": 2440
    },
    {
      "epoch": 0.5878119001919386,
      "grad_norm": 42.30705937238165,
      "learning_rate": 2.1711762791992368e-07,
      "logits/chosen": 0.43873363733291626,
      "logits/rejected": 0.46004414558410645,
      "logps/chosen": -474.68341064453125,
      "logps/rejected": -534.9579467773438,
      "loss": 0.5254,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.1993557214736938,
      "rewards/margins": 0.8993379473686218,
      "rewards/rejected": -2.098693370819092,
      "step": 2450
    },
    {
      "epoch": 0.5902111324376199,
      "grad_norm": 45.61922027456477,
      "learning_rate": 2.1504315943687114e-07,
      "logits/chosen": 0.18166793882846832,
      "logits/rejected": 0.07724637538194656,
      "logps/chosen": -408.96893310546875,
      "logps/rejected": -581.2828979492188,
      "loss": 0.4625,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -1.0965474843978882,
      "rewards/margins": 1.2784209251403809,
      "rewards/rejected": -2.3749685287475586,
      "step": 2460
    },
    {
      "epoch": 0.5926103646833013,
      "grad_norm": 53.517726559327514,
      "learning_rate": 2.1297114303730248e-07,
      "logits/chosen": 0.3896231949329376,
      "logits/rejected": 0.2409631460905075,
      "logps/chosen": -423.19287109375,
      "logps/rejected": -586.328857421875,
      "loss": 0.5399,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.327804446220398,
      "rewards/margins": 1.076370120048523,
      "rewards/rejected": -2.404174327850342,
      "step": 2470
    },
    {
      "epoch": 0.5950095969289827,
      "grad_norm": 41.01802265556329,
      "learning_rate": 2.1090172406493616e-07,
      "logits/chosen": 0.3331597149372101,
      "logits/rejected": 0.2225189208984375,
      "logps/chosen": -397.5386657714844,
      "logps/rejected": -519.840087890625,
      "loss": 0.4603,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.131462812423706,
      "rewards/margins": 0.950838565826416,
      "rewards/rejected": -2.082301378250122,
      "step": 2480
    },
    {
      "epoch": 0.5974088291746641,
      "grad_norm": 60.21604361600221,
      "learning_rate": 2.0883504768129146e-07,
      "logits/chosen": 0.30570241808891296,
      "logits/rejected": 0.24165184795856476,
      "logps/chosen": -461.2522888183594,
      "logps/rejected": -565.5457763671875,
      "loss": 0.5168,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.1941462755203247,
      "rewards/margins": 1.1086372137069702,
      "rewards/rejected": -2.302783489227295,
      "step": 2490
    },
    {
      "epoch": 0.5998080614203455,
      "grad_norm": 45.67541969535949,
      "learning_rate": 2.0677125885550571e-07,
      "logits/chosen": 0.4085448384284973,
      "logits/rejected": 0.48327702283859253,
      "logps/chosen": -436.59857177734375,
      "logps/rejected": -471.85498046875,
      "loss": 0.4864,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.352922797203064,
      "rewards/margins": 0.7829147577285767,
      "rewards/rejected": -2.1358375549316406,
      "step": 2500
    },
    {
      "epoch": 0.6022072936660269,
      "grad_norm": 60.523710599155514,
      "learning_rate": 2.0471050235416587e-07,
      "logits/chosen": 0.14623039960861206,
      "logits/rejected": 0.19062075018882751,
      "logps/chosen": -451.1435546875,
      "logps/rejected": -491.1160583496094,
      "loss": 0.4579,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.3129417896270752,
      "rewards/margins": 0.9290571212768555,
      "rewards/rejected": -2.2419991493225098,
      "step": 2510
    },
    {
      "epoch": 0.6046065259117083,
      "grad_norm": 52.23271499985374,
      "learning_rate": 2.026529227311532e-07,
      "logits/chosen": 0.29617246985435486,
      "logits/rejected": 0.2822147011756897,
      "logps/chosen": -423.54315185546875,
      "logps/rejected": -501.5276794433594,
      "loss": 0.5351,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.437732458114624,
      "rewards/margins": 0.6575521230697632,
      "rewards/rejected": -2.0952847003936768,
      "step": 2520
    },
    {
      "epoch": 0.6070057581573897,
      "grad_norm": 44.954316731149845,
      "learning_rate": 2.005986643175036e-07,
      "logits/chosen": 0.3328186571598053,
      "logits/rejected": 0.2537630498409271,
      "logps/chosen": -454.51580810546875,
      "logps/rejected": -574.1419677734375,
      "loss": 0.4529,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.1176398992538452,
      "rewards/margins": 1.3029248714447021,
      "rewards/rejected": -2.420564889907837,
      "step": 2530
    },
    {
      "epoch": 0.6094049904030711,
      "grad_norm": 63.16908223607974,
      "learning_rate": 1.9854787121128328e-07,
      "logits/chosen": 0.31036069989204407,
      "logits/rejected": 0.34982046484947205,
      "logps/chosen": -397.23980712890625,
      "logps/rejected": -403.78509521484375,
      "loss": 0.5048,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.217882752418518,
      "rewards/margins": 0.5209786891937256,
      "rewards/rejected": -1.7388614416122437,
      "step": 2540
    },
    {
      "epoch": 0.6118042226487524,
      "grad_norm": 54.60861450055549,
      "learning_rate": 1.9650068726748106e-07,
      "logits/chosen": 0.3659752309322357,
      "logits/rejected": 0.35895493626594543,
      "logps/chosen": -461.1573181152344,
      "logps/rejected": -573.6448364257812,
      "loss": 0.5214,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.474023699760437,
      "rewards/margins": 1.084517240524292,
      "rewards/rejected": -2.5585405826568604,
      "step": 2550
    },
    {
      "epoch": 0.6142034548944337,
      "grad_norm": 60.46600684768552,
      "learning_rate": 1.9445725608791718e-07,
      "logits/chosen": 0.34406715631484985,
      "logits/rejected": 0.28216245770454407,
      "logps/chosen": -460.77978515625,
      "logps/rejected": -619.3160400390625,
      "loss": 0.497,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.3329025506973267,
      "rewards/margins": 1.6671111583709717,
      "rewards/rejected": -3.000014066696167,
      "step": 2560
    },
    {
      "epoch": 0.6166026871401151,
      "grad_norm": 47.40884309447939,
      "learning_rate": 1.924177210111705e-07,
      "logits/chosen": 0.29457220435142517,
      "logits/rejected": 0.29915186762809753,
      "logps/chosen": -407.5345153808594,
      "logps/rejected": -541.1593017578125,
      "loss": 0.5182,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -1.2408500909805298,
      "rewards/margins": 1.2775036096572876,
      "rewards/rejected": -2.5183534622192383,
      "step": 2570
    },
    {
      "epoch": 0.6190019193857965,
      "grad_norm": 45.99798362644753,
      "learning_rate": 1.9038222510252364e-07,
      "logits/chosen": 0.25425729155540466,
      "logits/rejected": 0.24261541664600372,
      "logps/chosen": -444.73992919921875,
      "logps/rejected": -504.9520568847656,
      "loss": 0.499,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.1787656545639038,
      "rewards/margins": 0.8464619517326355,
      "rewards/rejected": -2.0252277851104736,
      "step": 2580
    },
    {
      "epoch": 0.6214011516314779,
      "grad_norm": 52.02289887758591,
      "learning_rate": 1.883509111439277e-07,
      "logits/chosen": 0.3976004123687744,
      "logits/rejected": 0.28759509325027466,
      "logps/chosen": -438.90008544921875,
      "logps/rejected": -641.5413818359375,
      "loss": 0.5341,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -1.4814860820770264,
      "rewards/margins": 1.3605000972747803,
      "rewards/rejected": -2.8419861793518066,
      "step": 2590
    },
    {
      "epoch": 0.6238003838771593,
      "grad_norm": 32.303683781858304,
      "learning_rate": 1.8632392162398665e-07,
      "logits/chosen": 0.23672600090503693,
      "logits/rejected": 0.15976786613464355,
      "logps/chosen": -484.119873046875,
      "logps/rejected": -645.5545654296875,
      "loss": 0.4698,
      "rewards/accuracies": 0.9750000238418579,
      "rewards/chosen": -1.1118555068969727,
      "rewards/margins": 1.7390865087509155,
      "rewards/rejected": -2.8509418964385986,
      "step": 2600
    },
    {
      "epoch": 0.6261996161228407,
      "grad_norm": 45.29250569251351,
      "learning_rate": 1.84301398727962e-07,
      "logits/chosen": 0.4794914722442627,
      "logits/rejected": 0.37679189443588257,
      "logps/chosen": -368.31109619140625,
      "logps/rejected": -579.0586547851562,
      "loss": 0.496,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.0693645477294922,
      "rewards/margins": 1.7801597118377686,
      "rewards/rejected": -2.8495242595672607,
      "step": 2610
    },
    {
      "epoch": 0.6285988483685221,
      "grad_norm": 62.710557092048646,
      "learning_rate": 1.8228348432779966e-07,
      "logits/chosen": 0.2735206186771393,
      "logits/rejected": 0.24361078441143036,
      "logps/chosen": -426.20111083984375,
      "logps/rejected": -496.5086364746094,
      "loss": 0.5445,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.3294744491577148,
      "rewards/margins": 0.8788881301879883,
      "rewards/rejected": -2.208362579345703,
      "step": 2620
    },
    {
      "epoch": 0.6309980806142035,
      "grad_norm": 73.52463716987671,
      "learning_rate": 1.8027031997217773e-07,
      "logits/chosen": 0.3862006962299347,
      "logits/rejected": 0.27332574129104614,
      "logps/chosen": -411.3087463378906,
      "logps/rejected": -538.5333251953125,
      "loss": 0.4613,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.4152649641036987,
      "rewards/margins": 1.0575337409973145,
      "rewards/rejected": -2.4727988243103027,
      "step": 2630
    },
    {
      "epoch": 0.6333973128598849,
      "grad_norm": 47.969317887923054,
      "learning_rate": 1.7826204687657758e-07,
      "logits/chosen": 0.2865044176578522,
      "logits/rejected": 0.33233708143234253,
      "logps/chosen": -468.67108154296875,
      "logps/rejected": -502.1822814941406,
      "loss": 0.4738,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.1685740947723389,
      "rewards/margins": 0.8533760905265808,
      "rewards/rejected": -2.0219502449035645,
      "step": 2640
    },
    {
      "epoch": 0.6357965451055663,
      "grad_norm": 46.75296720560617,
      "learning_rate": 1.762588059133781e-07,
      "logits/chosen": 0.3442167043685913,
      "logits/rejected": 0.4161573350429535,
      "logps/chosen": -470.08807373046875,
      "logps/rejected": -546.142578125,
      "loss": 0.4768,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.227698564529419,
      "rewards/margins": 1.140878677368164,
      "rewards/rejected": -2.368577003479004,
      "step": 2650
    },
    {
      "epoch": 0.6381957773512476,
      "grad_norm": 50.401385190215464,
      "learning_rate": 1.7426073760197406e-07,
      "logits/chosen": 0.10545764863491058,
      "logits/rejected": 0.012745514512062073,
      "logps/chosen": -432.08685302734375,
      "logps/rejected": -608.319091796875,
      "loss": 0.4988,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -1.235762119293213,
      "rewards/margins": 1.4522688388824463,
      "rewards/rejected": -2.688030958175659,
      "step": 2660
    },
    {
      "epoch": 0.6405950095969289,
      "grad_norm": 45.71956495654583,
      "learning_rate": 1.7226798209891935e-07,
      "logits/chosen": 0.20430830121040344,
      "logits/rejected": 0.2912927269935608,
      "logps/chosen": -453.98944091796875,
      "logps/rejected": -510.1253967285156,
      "loss": 0.4619,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -1.4355871677398682,
      "rewards/margins": 1.2053136825561523,
      "rewards/rejected": -2.6409008502960205,
      "step": 2670
    },
    {
      "epoch": 0.6429942418426103,
      "grad_norm": 45.15170026766255,
      "learning_rate": 1.7028067918809535e-07,
      "logits/chosen": 0.3014266788959503,
      "logits/rejected": 0.22763225436210632,
      "logps/chosen": -384.4528503417969,
      "logps/rejected": -595.7291870117188,
      "loss": 0.4945,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -1.171205997467041,
      "rewards/margins": 1.6346750259399414,
      "rewards/rejected": -2.8058810234069824,
      "step": 2680
    },
    {
      "epoch": 0.6453934740882917,
      "grad_norm": 64.83143640863342,
      "learning_rate": 1.6829896827090584e-07,
      "logits/chosen": 0.21800704300403595,
      "logits/rejected": 0.220147043466568,
      "logps/chosen": -443.7188415527344,
      "logps/rejected": -480.36907958984375,
      "loss": 0.5184,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.3957051038742065,
      "rewards/margins": 0.6850441694259644,
      "rewards/rejected": -2.080749273300171,
      "step": 2690
    },
    {
      "epoch": 0.6477927063339731,
      "grad_norm": 37.274772223125495,
      "learning_rate": 1.6632298835649844e-07,
      "logits/chosen": 0.3046364486217499,
      "logits/rejected": 0.18461188673973083,
      "logps/chosen": -469.7455139160156,
      "logps/rejected": -623.6341552734375,
      "loss": 0.477,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.3073039054870605,
      "rewards/margins": 1.1427420377731323,
      "rewards/rejected": -2.4500460624694824,
      "step": 2700
    },
    {
      "epoch": 0.6501919385796545,
      "grad_norm": 91.33316289592031,
      "learning_rate": 1.6435287805201364e-07,
      "logits/chosen": 0.46277904510498047,
      "logits/rejected": 0.40250563621520996,
      "logps/chosen": -462.3423767089844,
      "logps/rejected": -543.9591064453125,
      "loss": 0.5314,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.518293023109436,
      "rewards/margins": 0.8617793321609497,
      "rewards/rejected": -2.3800723552703857,
      "step": 2710
    },
    {
      "epoch": 0.6525911708253359,
      "grad_norm": 44.87565160003366,
      "learning_rate": 1.6238877555286207e-07,
      "logits/chosen": 0.35751184821128845,
      "logits/rejected": 0.29743391275405884,
      "logps/chosen": -469.69561767578125,
      "logps/rejected": -606.2034301757812,
      "loss": 0.4479,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -1.2520592212677002,
      "rewards/margins": 1.2662980556488037,
      "rewards/rejected": -2.518357276916504,
      "step": 2720
    },
    {
      "epoch": 0.6549904030710173,
      "grad_norm": 44.32240198316999,
      "learning_rate": 1.60430818633031e-07,
      "logits/chosen": 0.16691644489765167,
      "logits/rejected": 0.14331945776939392,
      "logps/chosen": -449.48876953125,
      "logps/rejected": -561.8910522460938,
      "loss": 0.4539,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -1.131084680557251,
      "rewards/margins": 1.254732370376587,
      "rewards/rejected": -2.385816812515259,
      "step": 2730
    },
    {
      "epoch": 0.6573896353166987,
      "grad_norm": 39.01641038215159,
      "learning_rate": 1.5847914463541939e-07,
      "logits/chosen": 0.3676902651786804,
      "logits/rejected": 0.34273606538772583,
      "logps/chosen": -374.8681640625,
      "logps/rejected": -478.32330322265625,
      "loss": 0.4745,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.1049184799194336,
      "rewards/margins": 0.8594606518745422,
      "rewards/rejected": -1.964379072189331,
      "step": 2740
    },
    {
      "epoch": 0.6597888675623801,
      "grad_norm": 35.89167519955917,
      "learning_rate": 1.5653389046220427e-07,
      "logits/chosen": 0.3571329414844513,
      "logits/rejected": 0.27262359857559204,
      "logps/chosen": -399.9897155761719,
      "logps/rejected": -535.5849609375,
      "loss": 0.4737,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -1.1511871814727783,
      "rewards/margins": 1.0949671268463135,
      "rewards/rejected": -2.246154308319092,
      "step": 2750
    },
    {
      "epoch": 0.6621880998080614,
      "grad_norm": 74.88730166916955,
      "learning_rate": 1.545951925652375e-07,
      "logits/chosen": 0.3250289559364319,
      "logits/rejected": 0.39422863721847534,
      "logps/chosen": -507.34735107421875,
      "logps/rejected": -564.6778564453125,
      "loss": 0.4953,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.2604314088821411,
      "rewards/margins": 1.2383835315704346,
      "rewards/rejected": -2.4988150596618652,
      "step": 2760
    },
    {
      "epoch": 0.6645873320537428,
      "grad_norm": 43.31844151941509,
      "learning_rate": 1.5266318693647423e-07,
      "logits/chosen": 0.38096925616264343,
      "logits/rejected": 0.4018251299858093,
      "logps/chosen": -460.6954040527344,
      "logps/rejected": -567.9718017578125,
      "loss": 0.4693,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.2558958530426025,
      "rewards/margins": 1.0993343591690063,
      "rewards/rejected": -2.3552298545837402,
      "step": 2770
    },
    {
      "epoch": 0.6669865642994242,
      "grad_norm": 72.85191786475721,
      "learning_rate": 1.5073800909843353e-07,
      "logits/chosen": 0.25220975279808044,
      "logits/rejected": 0.3646177649497986,
      "logps/chosen": -450.23193359375,
      "logps/rejected": -503.99127197265625,
      "loss": 0.4707,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.2164779901504517,
      "rewards/margins": 1.0934855937957764,
      "rewards/rejected": -2.3099634647369385,
      "step": 2780
    },
    {
      "epoch": 0.6693857965451055,
      "grad_norm": 63.40322968247712,
      "learning_rate": 1.488197940946922e-07,
      "logits/chosen": 0.23376190662384033,
      "logits/rejected": 0.22447574138641357,
      "logps/chosen": -456.8228454589844,
      "logps/rejected": -523.5567626953125,
      "loss": 0.4689,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.1302400827407837,
      "rewards/margins": 1.2681411504745483,
      "rewards/rejected": -2.398381233215332,
      "step": 2790
    },
    {
      "epoch": 0.6717850287907869,
      "grad_norm": 66.69199487516,
      "learning_rate": 1.4690867648041167e-07,
      "logits/chosen": 0.16230645775794983,
      "logits/rejected": 0.1882302314043045,
      "logps/chosen": -434.5381774902344,
      "logps/rejected": -552.4396362304688,
      "loss": 0.5021,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -1.1278281211853027,
      "rewards/margins": 1.5061180591583252,
      "rewards/rejected": -2.633945941925049,
      "step": 2800
    },
    {
      "epoch": 0.6741842610364683,
      "grad_norm": 46.91530215907862,
      "learning_rate": 1.4500479031289987e-07,
      "logits/chosen": 0.15237310528755188,
      "logits/rejected": 0.1518753319978714,
      "logps/chosen": -466.0179138183594,
      "logps/rejected": -572.3275146484375,
      "loss": 0.517,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -1.2266777753829956,
      "rewards/margins": 1.2364604473114014,
      "rewards/rejected": -2.4631385803222656,
      "step": 2810
    },
    {
      "epoch": 0.6765834932821497,
      "grad_norm": 55.81983630093274,
      "learning_rate": 1.4310826914220747e-07,
      "logits/chosen": 0.17195823788642883,
      "logits/rejected": 0.16844519972801208,
      "logps/chosen": -536.1735229492188,
      "logps/rejected": -609.2791748046875,
      "loss": 0.5282,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -1.5774872303009033,
      "rewards/margins": 0.9089029431343079,
      "rewards/rejected": -2.4863903522491455,
      "step": 2820
    },
    {
      "epoch": 0.6789827255278311,
      "grad_norm": 53.80796549341863,
      "learning_rate": 1.412192460017597e-07,
      "logits/chosen": 0.1955575793981552,
      "logits/rejected": 0.12785163521766663,
      "logps/chosen": -444.7312927246094,
      "logps/rejected": -568.8245849609375,
      "loss": 0.5024,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.395450472831726,
      "rewards/margins": 1.22873055934906,
      "rewards/rejected": -2.624181032180786,
      "step": 2830
    },
    {
      "epoch": 0.6813819577735125,
      "grad_norm": 44.72827252256254,
      "learning_rate": 1.3933785339902504e-07,
      "logits/chosen": 0.27861329913139343,
      "logits/rejected": 0.13766932487487793,
      "logps/chosen": -376.69805908203125,
      "logps/rejected": -530.3146362304688,
      "loss": 0.5003,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.1893621683120728,
      "rewards/margins": 1.1048251390457153,
      "rewards/rejected": -2.294187307357788,
      "step": 2840
    },
    {
      "epoch": 0.6837811900191939,
      "grad_norm": 38.90141505727746,
      "learning_rate": 1.374642233062197e-07,
      "logits/chosen": 0.1925538331270218,
      "logits/rejected": 0.17995335161685944,
      "logps/chosen": -486.0704650878906,
      "logps/rejected": -545.6419067382812,
      "loss": 0.5175,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.2210705280303955,
      "rewards/margins": 1.031243085861206,
      "rewards/rejected": -2.2523136138916016,
      "step": 2850
    },
    {
      "epoch": 0.6861804222648752,
      "grad_norm": 38.934538649501114,
      "learning_rate": 1.355984871510511e-07,
      "logits/chosen": 0.24185729026794434,
      "logits/rejected": 0.16981028020381927,
      "logps/chosen": -488.8545837402344,
      "logps/rejected": -586.666015625,
      "loss": 0.4586,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -1.2682818174362183,
      "rewards/margins": 0.9824774861335754,
      "rewards/rejected": -2.2507593631744385,
      "step": 2860
    },
    {
      "epoch": 0.6885796545105566,
      "grad_norm": 45.29750933331666,
      "learning_rate": 1.3374077580749783e-07,
      "logits/chosen": 0.29279276728630066,
      "logits/rejected": 0.1869848519563675,
      "logps/chosen": -351.5196838378906,
      "logps/rejected": -475.97308349609375,
      "loss": 0.5016,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -1.038088321685791,
      "rewards/margins": 1.0932366847991943,
      "rewards/rejected": -2.1313250064849854,
      "step": 2870
    },
    {
      "epoch": 0.690978886756238,
      "grad_norm": 48.530711516673115,
      "learning_rate": 1.3189121958663024e-07,
      "logits/chosen": 0.1910950392484665,
      "logits/rejected": 0.2789291739463806,
      "logps/chosen": -532.8553466796875,
      "logps/rejected": -549.0731201171875,
      "loss": 0.502,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.6616315841674805,
      "rewards/margins": 0.5708137154579163,
      "rewards/rejected": -2.232445240020752,
      "step": 2880
    },
    {
      "epoch": 0.6933781190019194,
      "grad_norm": 49.658508332103274,
      "learning_rate": 1.3004994822746895e-07,
      "logits/chosen": 0.08187554031610489,
      "logits/rejected": 0.053650178015232086,
      "logps/chosen": -428.33087158203125,
      "logps/rejected": -530.8117065429688,
      "loss": 0.5162,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.238884687423706,
      "rewards/margins": 0.9637983441352844,
      "rewards/rejected": -2.2026829719543457,
      "step": 2890
    },
    {
      "epoch": 0.6957773512476008,
      "grad_norm": 49.423150125943955,
      "learning_rate": 1.2821709088788434e-07,
      "logits/chosen": 0.2585221827030182,
      "logits/rejected": 0.17918451130390167,
      "logps/chosen": -400.4766845703125,
      "logps/rejected": -514.9324951171875,
      "loss": 0.5073,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.2878179550170898,
      "rewards/margins": 1.140520691871643,
      "rewards/rejected": -2.4283385276794434,
      "step": 2900
    },
    {
      "epoch": 0.6981765834932822,
      "grad_norm": 59.81963849634542,
      "learning_rate": 1.2639277613553736e-07,
      "logits/chosen": 0.39327603578567505,
      "logits/rejected": 0.3338584899902344,
      "logps/chosen": -380.1231994628906,
      "logps/rejected": -466.969482421875,
      "loss": 0.4731,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.2669470310211182,
      "rewards/margins": 0.8520339727401733,
      "rewards/rejected": -2.11898136138916,
      "step": 2910
    },
    {
      "epoch": 0.7005758157389635,
      "grad_norm": 47.91120083091996,
      "learning_rate": 1.2457713193885975e-07,
      "logits/chosen": 0.23712964355945587,
      "logits/rejected": 0.10274624824523926,
      "logps/chosen": -363.88116455078125,
      "logps/rejected": -501.58477783203125,
      "loss": 0.4744,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.3259981870651245,
      "rewards/margins": 1.0507750511169434,
      "rewards/rejected": -2.3767733573913574,
      "step": 2920
    },
    {
      "epoch": 0.7029750479846449,
      "grad_norm": 56.163566511516365,
      "learning_rate": 1.2277028565807838e-07,
      "logits/chosen": 0.2799941599369049,
      "logits/rejected": 0.2706086039543152,
      "logps/chosen": -432.5113220214844,
      "logps/rejected": -512.887451171875,
      "loss": 0.5009,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.1611391305923462,
      "rewards/margins": 0.9016637802124023,
      "rewards/rejected": -2.062802791595459,
      "step": 2930
    },
    {
      "epoch": 0.7053742802303263,
      "grad_norm": 62.43277712323061,
      "learning_rate": 1.209723640362815e-07,
      "logits/chosen": 0.16554930806159973,
      "logits/rejected": 0.1359563171863556,
      "logps/chosen": -462.38568115234375,
      "logps/rejected": -574.197998046875,
      "loss": 0.5577,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.3521636724472046,
      "rewards/margins": 1.263946294784546,
      "rewards/rejected": -2.616110324859619,
      "step": 2940
    },
    {
      "epoch": 0.7077735124760077,
      "grad_norm": 33.88826120125574,
      "learning_rate": 1.191834931905277e-07,
      "logits/chosen": 0.20565947890281677,
      "logits/rejected": 0.13917942345142365,
      "logps/chosen": -520.4049072265625,
      "logps/rejected": -632.361328125,
      "loss": 0.4599,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.5277377367019653,
      "rewards/margins": 1.1449778079986572,
      "rewards/rejected": -2.672715425491333,
      "step": 2950
    },
    {
      "epoch": 0.710172744721689,
      "grad_norm": 45.009587506259074,
      "learning_rate": 1.1740379860299988e-07,
      "logits/chosen": 0.2947765588760376,
      "logits/rejected": 0.23910513520240784,
      "logps/chosen": -472.980712890625,
      "logps/rejected": -579.03125,
      "loss": 0.497,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.3068562746047974,
      "rewards/margins": 0.9038209915161133,
      "rewards/rejected": -2.210677146911621,
      "step": 2960
    },
    {
      "epoch": 0.7125719769673704,
      "grad_norm": 47.44511342924861,
      "learning_rate": 1.1563340511220254e-07,
      "logits/chosen": 0.2019500434398651,
      "logits/rejected": 0.2147335559129715,
      "logps/chosen": -510.0350646972656,
      "logps/rejected": -596.2499389648438,
      "loss": 0.5062,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.336971402168274,
      "rewards/margins": 1.1666083335876465,
      "rewards/rejected": -2.503579616546631,
      "step": 2970
    },
    {
      "epoch": 0.7149712092130518,
      "grad_norm": 42.57941151152834,
      "learning_rate": 1.1387243690420556e-07,
      "logits/chosen": 0.23384490609169006,
      "logits/rejected": 0.20733702182769775,
      "logps/chosen": -481.803955078125,
      "logps/rejected": -632.8770751953125,
      "loss": 0.4655,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.2207635641098022,
      "rewards/margins": 1.6195507049560547,
      "rewards/rejected": -2.8403146266937256,
      "step": 2980
    },
    {
      "epoch": 0.7173704414587332,
      "grad_norm": 64.95455682456064,
      "learning_rate": 1.1212101750393235e-07,
      "logits/chosen": 0.3023291528224945,
      "logits/rejected": 0.30834710597991943,
      "logps/chosen": -450.0244140625,
      "logps/rejected": -551.0206298828125,
      "loss": 0.4357,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.409967303276062,
      "rewards/margins": 1.2566007375717163,
      "rewards/rejected": -2.666567802429199,
      "step": 2990
    },
    {
      "epoch": 0.7197696737044146,
      "grad_norm": 46.170115289110555,
      "learning_rate": 1.1037926976649562e-07,
      "logits/chosen": 0.22152157127857208,
      "logits/rejected": 0.16806095838546753,
      "logps/chosen": -476.97320556640625,
      "logps/rejected": -616.3040161132812,
      "loss": 0.5408,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.4931066036224365,
      "rewards/margins": 1.1700246334075928,
      "rewards/rejected": -2.6631312370300293,
      "step": 3000
    },
    {
      "epoch": 0.722168905950096,
      "grad_norm": 57.89732258915135,
      "learning_rate": 1.0864731586857936e-07,
      "logits/chosen": 0.3043791949748993,
      "logits/rejected": 0.36210864782333374,
      "logps/chosen": -495.12164306640625,
      "logps/rejected": -574.9592895507812,
      "loss": 0.46,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.4336802959442139,
      "rewards/margins": 1.215421199798584,
      "rewards/rejected": -2.649101495742798,
      "step": 3010
    },
    {
      "epoch": 0.7245681381957774,
      "grad_norm": 49.111012867250984,
      "learning_rate": 1.0692527729986839e-07,
      "logits/chosen": 0.11315940320491791,
      "logits/rejected": 0.11848314106464386,
      "logps/chosen": -460.1648864746094,
      "logps/rejected": -543.1566162109375,
      "loss": 0.4285,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.2527508735656738,
      "rewards/margins": 1.067068338394165,
      "rewards/rejected": -2.3198189735412598,
      "step": 3020
    },
    {
      "epoch": 0.7269673704414588,
      "grad_norm": 57.35606077595889,
      "learning_rate": 1.0521327485452692e-07,
      "logits/chosen": 0.347392201423645,
      "logits/rejected": 0.3210673928260803,
      "logps/chosen": -450.1835021972656,
      "logps/rejected": -524.6959228515625,
      "loss": 0.4912,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.2702230215072632,
      "rewards/margins": 1.0865848064422607,
      "rewards/rejected": -2.3568077087402344,
      "step": 3030
    },
    {
      "epoch": 0.7293666026871402,
      "grad_norm": 56.3165468310005,
      "learning_rate": 1.0351142862272468e-07,
      "logits/chosen": 0.209666445851326,
      "logits/rejected": 0.20282307267189026,
      "logps/chosen": -423.931396484375,
      "logps/rejected": -572.3831176757812,
      "loss": 0.4984,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.4169180393218994,
      "rewards/margins": 1.6322886943817139,
      "rewards/rejected": -3.049206256866455,
      "step": 3040
    },
    {
      "epoch": 0.7317658349328215,
      "grad_norm": 47.57484794011745,
      "learning_rate": 1.0181985798221343e-07,
      "logits/chosen": 0.3013080060482025,
      "logits/rejected": 0.2218068540096283,
      "logps/chosen": -470.23480224609375,
      "logps/rejected": -589.8034057617188,
      "loss": 0.5126,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.3861111402511597,
      "rewards/margins": 1.0853662490844727,
      "rewards/rejected": -2.4714770317077637,
      "step": 3050
    },
    {
      "epoch": 0.7341650671785028,
      "grad_norm": 48.06894623911944,
      "learning_rate": 1.0013868158995329e-07,
      "logits/chosen": 0.3860154449939728,
      "logits/rejected": 0.3630084991455078,
      "logps/chosen": -442.2177734375,
      "logps/rejected": -527.9283447265625,
      "loss": 0.4642,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -1.2381409406661987,
      "rewards/margins": 1.22637939453125,
      "rewards/rejected": -2.4645204544067383,
      "step": 3060
    },
    {
      "epoch": 0.7365642994241842,
      "grad_norm": 51.169486765513234,
      "learning_rate": 9.84680173737887e-08,
      "logits/chosen": 0.2769750952720642,
      "logits/rejected": 0.2646028995513916,
      "logps/chosen": -475.0011291503906,
      "logps/rejected": -548.9890747070312,
      "loss": 0.4765,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.4719974994659424,
      "rewards/margins": 1.0918984413146973,
      "rewards/rejected": -2.5638959407806396,
      "step": 3070
    },
    {
      "epoch": 0.7389635316698656,
      "grad_norm": 58.59714970661162,
      "learning_rate": 9.680798252417713e-08,
      "logits/chosen": 0.2717548906803131,
      "logits/rejected": 0.2305576503276825,
      "logps/chosen": -379.20928955078125,
      "logps/rejected": -515.2022094726562,
      "loss": 0.492,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -1.101180076599121,
      "rewards/margins": 0.944907009601593,
      "rewards/rejected": -2.0460872650146484,
      "step": 3080
    },
    {
      "epoch": 0.741362763915547,
      "grad_norm": 61.65719550385752,
      "learning_rate": 9.515869348596808e-08,
      "logits/chosen": 0.11913663148880005,
      "logits/rejected": 0.09342759847640991,
      "logps/chosen": -497.87109375,
      "logps/rejected": -598.5771484375,
      "loss": 0.4878,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.4787302017211914,
      "rewards/margins": 1.3738664388656616,
      "rewards/rejected": -2.8525967597961426,
      "step": 3090
    },
    {
      "epoch": 0.7437619961612284,
      "grad_norm": 41.218790972775324,
      "learning_rate": 9.352026595023493e-08,
      "logits/chosen": 0.10429096221923828,
      "logits/rejected": 0.1541799008846283,
      "logps/chosen": -517.5309448242188,
      "logps/rejected": -543.2216796875,
      "loss": 0.4985,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.4588356018066406,
      "rewards/margins": 0.6233514547348022,
      "rewards/rejected": -2.0821871757507324,
      "step": 3100
    },
    {
      "epoch": 0.7461612284069098,
      "grad_norm": 64.90615052640716,
      "learning_rate": 9.189281484616004e-08,
      "logits/chosen": 0.22654108703136444,
      "logits/rejected": 0.1651889979839325,
      "logps/chosen": -402.1455383300781,
      "logps/rejected": -556.6002807617188,
      "loss": 0.5169,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.490733027458191,
      "rewards/margins": 0.9633838534355164,
      "rewards/rejected": -2.4541170597076416,
      "step": 3110
    },
    {
      "epoch": 0.7485604606525912,
      "grad_norm": 55.8925921234848,
      "learning_rate": 9.027645433297249e-08,
      "logits/chosen": 0.11542461812496185,
      "logits/rejected": 0.17937800288200378,
      "logps/chosen": -566.5679321289062,
      "logps/rejected": -637.2242431640625,
      "loss": 0.5183,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.827355146408081,
      "rewards/margins": 1.0894877910614014,
      "rewards/rejected": -2.9168429374694824,
      "step": 3120
    },
    {
      "epoch": 0.7509596928982726,
      "grad_norm": 54.00400306277147,
      "learning_rate": 8.867129779194066e-08,
      "logits/chosen": 0.16981378197669983,
      "logits/rejected": 0.16173888742923737,
      "logps/chosen": -371.0014953613281,
      "logps/rejected": -522.0635986328125,
      "loss": 0.4864,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -0.9543946981430054,
      "rewards/margins": 1.564900517463684,
      "rewards/rejected": -2.5192952156066895,
      "step": 3130
    },
    {
      "epoch": 0.753358925143954,
      "grad_norm": 54.599194100775584,
      "learning_rate": 8.707745781841866e-08,
      "logits/chosen": 0.14470471441745758,
      "logits/rejected": 0.1468985676765442,
      "logps/chosen": -400.3184509277344,
      "logps/rejected": -513.9260864257812,
      "loss": 0.5147,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.221286416053772,
      "rewards/margins": 1.1234190464019775,
      "rewards/rejected": -2.344705581665039,
      "step": 3140
    },
    {
      "epoch": 0.7557581573896354,
      "grad_norm": 34.75601738944086,
      "learning_rate": 8.549504621394831e-08,
      "logits/chosen": 0.15695925056934357,
      "logits/rejected": 0.14711011946201324,
      "logps/chosen": -413.1109313964844,
      "logps/rejected": -539.1842041015625,
      "loss": 0.427,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.069771409034729,
      "rewards/margins": 1.3148638010025024,
      "rewards/rejected": -2.3846354484558105,
      "step": 3150
    },
    {
      "epoch": 0.7581573896353166,
      "grad_norm": 53.105874033112755,
      "learning_rate": 8.392417397841703e-08,
      "logits/chosen": 0.26591944694519043,
      "logits/rejected": 0.26246827840805054,
      "logps/chosen": -447.65557861328125,
      "logps/rejected": -544.1351318359375,
      "loss": 0.4888,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.2605499029159546,
      "rewards/margins": 0.8398078083992004,
      "rewards/rejected": -2.1003577709198,
      "step": 3160
    },
    {
      "epoch": 0.760556621880998,
      "grad_norm": 47.78743297051488,
      "learning_rate": 8.236495130227083e-08,
      "logits/chosen": 0.24016205966472626,
      "logits/rejected": 0.31962883472442627,
      "logps/chosen": -456.42724609375,
      "logps/rejected": -570.5203247070312,
      "loss": 0.4993,
      "rewards/accuracies": 0.925000011920929,
      "rewards/chosen": -1.1726109981536865,
      "rewards/margins": 1.4965537786483765,
      "rewards/rejected": -2.6691648960113525,
      "step": 3170
    },
    {
      "epoch": 0.7629558541266794,
      "grad_norm": 47.980852069933555,
      "learning_rate": 8.081748755878612e-08,
      "logits/chosen": 0.2495994120836258,
      "logits/rejected": 0.2759885787963867,
      "logps/chosen": -469.076171875,
      "logps/rejected": -524.9566040039062,
      "loss": 0.4968,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.3896160125732422,
      "rewards/margins": 0.9030616879463196,
      "rewards/rejected": -2.292677879333496,
      "step": 3180
    },
    {
      "epoch": 0.7653550863723608,
      "grad_norm": 44.55472031419905,
      "learning_rate": 7.928189129639632e-08,
      "logits/chosen": 0.2707396149635315,
      "logits/rejected": 0.21236738562583923,
      "logps/chosen": -433.556884765625,
      "logps/rejected": -539.517578125,
      "loss": 0.4522,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.2524731159210205,
      "rewards/margins": 0.9954684972763062,
      "rewards/rejected": -2.247941493988037,
      "step": 3190
    },
    {
      "epoch": 0.7677543186180422,
      "grad_norm": 77.95104725852434,
      "learning_rate": 7.775827023107834e-08,
      "logits/chosen": 0.18351641297340393,
      "logits/rejected": 0.18833932280540466,
      "logps/chosen": -446.3948669433594,
      "logps/rejected": -545.6039428710938,
      "loss": 0.5189,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -1.3583651781082153,
      "rewards/margins": 0.7764785289764404,
      "rewards/rejected": -2.1348438262939453,
      "step": 3200
    },
    {
      "epoch": 0.7701535508637236,
      "grad_norm": 60.91165565345474,
      "learning_rate": 7.624673123879682e-08,
      "logits/chosen": 0.03742004930973053,
      "logits/rejected": 0.07750044018030167,
      "logps/chosen": -426.2344665527344,
      "logps/rejected": -510.4020080566406,
      "loss": 0.5048,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.3010095357894897,
      "rewards/margins": 0.9792767763137817,
      "rewards/rejected": -2.2802863121032715,
      "step": 3210
    },
    {
      "epoch": 0.772552783109405,
      "grad_norm": 43.5674600823645,
      "learning_rate": 7.474738034800663e-08,
      "logits/chosen": 0.13723036646842957,
      "logits/rejected": 0.04767593368887901,
      "logps/chosen": -369.3411560058594,
      "logps/rejected": -486.69439697265625,
      "loss": 0.4954,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.0865916013717651,
      "rewards/margins": 1.3701813220977783,
      "rewards/rejected": -2.456772804260254,
      "step": 3220
    },
    {
      "epoch": 0.7749520153550864,
      "grad_norm": 65.92599613926842,
      "learning_rate": 7.326032273221606e-08,
      "logits/chosen": 0.23154711723327637,
      "logits/rejected": 0.1886422336101532,
      "logps/chosen": -478.3605041503906,
      "logps/rejected": -570.8961791992188,
      "loss": 0.4831,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.2519872188568115,
      "rewards/margins": 1.1383593082427979,
      "rewards/rejected": -2.3903465270996094,
      "step": 3230
    },
    {
      "epoch": 0.7773512476007678,
      "grad_norm": 45.83026398609644,
      "learning_rate": 7.178566270260872e-08,
      "logits/chosen": 0.31105470657348633,
      "logits/rejected": 0.22554393112659454,
      "logps/chosen": -447.1808166503906,
      "logps/rejected": -576.032958984375,
      "loss": 0.5129,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.2397021055221558,
      "rewards/margins": 0.951197624206543,
      "rewards/rejected": -2.190899610519409,
      "step": 3240
    },
    {
      "epoch": 0.7797504798464492,
      "grad_norm": 50.507648401741996,
      "learning_rate": 7.032350370072709e-08,
      "logits/chosen": 0.19485214352607727,
      "logits/rejected": 0.18930187821388245,
      "logps/chosen": -456.4967346191406,
      "logps/rejected": -569.6973266601562,
      "loss": 0.4481,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.2981529235839844,
      "rewards/margins": 1.2217051982879639,
      "rewards/rejected": -2.5198581218719482,
      "step": 3250
    },
    {
      "epoch": 0.7821497120921305,
      "grad_norm": 40.68087545077646,
      "learning_rate": 6.887394829121596e-08,
      "logits/chosen": 0.2527236044406891,
      "logits/rejected": 0.20923948287963867,
      "logps/chosen": -455.47454833984375,
      "logps/rejected": -632.2030029296875,
      "loss": 0.4543,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -1.2574024200439453,
      "rewards/margins": 1.9225542545318604,
      "rewards/rejected": -3.1799566745758057,
      "step": 3260
    },
    {
      "epoch": 0.7845489443378119,
      "grad_norm": 37.54734198368332,
      "learning_rate": 6.743709815462833e-08,
      "logits/chosen": 0.10011599957942963,
      "logits/rejected": 0.1131478101015091,
      "logps/chosen": -462.3744201660156,
      "logps/rejected": -519.977783203125,
      "loss": 0.4665,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.3748726844787598,
      "rewards/margins": 0.9147384762763977,
      "rewards/rejected": -2.2896108627319336,
      "step": 3270
    },
    {
      "epoch": 0.7869481765834933,
      "grad_norm": 51.364098272276145,
      "learning_rate": 6.601305408029287e-08,
      "logits/chosen": 0.41624197363853455,
      "logits/rejected": 0.4190692901611328,
      "logps/chosen": -458.64141845703125,
      "logps/rejected": -567.7257080078125,
      "loss": 0.4664,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.5802090167999268,
      "rewards/margins": 1.1085751056671143,
      "rewards/rejected": -2.688784122467041,
      "step": 3280
    },
    {
      "epoch": 0.7893474088291746,
      "grad_norm": 48.68347118403701,
      "learning_rate": 6.460191595924366e-08,
      "logits/chosen": 0.23670163750648499,
      "logits/rejected": 0.21305176615715027,
      "logps/chosen": -472.20654296875,
      "logps/rejected": -575.2575073242188,
      "loss": 0.4741,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.4002991914749146,
      "rewards/margins": 1.0437225103378296,
      "rewards/rejected": -2.444021701812744,
      "step": 3290
    },
    {
      "epoch": 0.791746641074856,
      "grad_norm": 56.29885219772071,
      "learning_rate": 6.320378277721342e-08,
      "logits/chosen": 0.3236589729785919,
      "logits/rejected": 0.2942892014980316,
      "logps/chosen": -485.74609375,
      "logps/rejected": -548.2264404296875,
      "loss": 0.4937,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.748716950416565,
      "rewards/margins": 0.7379652261734009,
      "rewards/rejected": -2.4866819381713867,
      "step": 3300
    },
    {
      "epoch": 0.7941458733205374,
      "grad_norm": 47.30513911873481,
      "learning_rate": 6.181875260769032e-08,
      "logits/chosen": 0.21434447169303894,
      "logits/rejected": 0.29501864314079285,
      "logps/chosen": -473.3141174316406,
      "logps/rejected": -513.0935668945312,
      "loss": 0.4824,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.042864441871643,
      "rewards/margins": 1.146907925605774,
      "rewards/rejected": -2.189772129058838,
      "step": 3310
    },
    {
      "epoch": 0.7965451055662188,
      "grad_norm": 43.836702306292864,
      "learning_rate": 6.044692260503797e-08,
      "logits/chosen": 0.2978779673576355,
      "logits/rejected": 0.2920413911342621,
      "logps/chosen": -517.2478637695312,
      "logps/rejected": -626.5977172851562,
      "loss": 0.4366,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.4270732402801514,
      "rewards/margins": 1.378542184829712,
      "rewards/rejected": -2.805615186691284,
      "step": 3320
    },
    {
      "epoch": 0.7989443378119002,
      "grad_norm": 49.783712311366116,
      "learning_rate": 5.9088388997680984e-08,
      "logits/chosen": 0.15503938496112823,
      "logits/rejected": 0.19135913252830505,
      "logps/chosen": -540.2918090820312,
      "logps/rejected": -589.90185546875,
      "loss": 0.4691,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -1.3969385623931885,
      "rewards/margins": 1.2311842441558838,
      "rewards/rejected": -2.6281230449676514,
      "step": 3330
    },
    {
      "epoch": 0.8013435700575816,
      "grad_norm": 52.57420620553349,
      "learning_rate": 5.774324708135439e-08,
      "logits/chosen": 0.2751420736312866,
      "logits/rejected": 0.28755050897598267,
      "logps/chosen": -397.3004150390625,
      "logps/rejected": -484.384521484375,
      "loss": 0.4858,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.2007606029510498,
      "rewards/margins": 1.0477242469787598,
      "rewards/rejected": -2.2484848499298096,
      "step": 3340
    },
    {
      "epoch": 0.803742802303263,
      "grad_norm": 40.1972577695682,
      "learning_rate": 5.641159121241953e-08,
      "logits/chosen": 0.32921257615089417,
      "logits/rejected": 0.24844393134117126,
      "logps/chosen": -387.3114013671875,
      "logps/rejected": -536.5883178710938,
      "loss": 0.4903,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.1569197177886963,
      "rewards/margins": 1.0728175640106201,
      "rewards/rejected": -2.2297370433807373,
      "step": 3350
    },
    {
      "epoch": 0.8061420345489443,
      "grad_norm": 41.69598167340838,
      "learning_rate": 5.5093514801245106e-08,
      "logits/chosen": 0.3076106905937195,
      "logits/rejected": 0.2400285303592682,
      "logps/chosen": -443.32000732421875,
      "logps/rejected": -577.48388671875,
      "loss": 0.4817,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.3214082717895508,
      "rewards/margins": 0.9961814880371094,
      "rewards/rejected": -2.317589521408081,
      "step": 3360
    },
    {
      "epoch": 0.8085412667946257,
      "grad_norm": 38.422027437084395,
      "learning_rate": 5.378911030565453e-08,
      "logits/chosen": 0.3213488757610321,
      "logits/rejected": 0.26428383588790894,
      "logps/chosen": -506.6258239746094,
      "logps/rejected": -639.1539916992188,
      "loss": 0.4834,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.5233229398727417,
      "rewards/margins": 1.1094070672988892,
      "rewards/rejected": -2.6327297687530518,
      "step": 3370
    },
    {
      "epoch": 0.8109404990403071,
      "grad_norm": 44.33236145563771,
      "learning_rate": 5.249846922444101e-08,
      "logits/chosen": 0.3445442318916321,
      "logits/rejected": 0.2675052285194397,
      "logps/chosen": -402.5491638183594,
      "logps/rejected": -543.9547729492188,
      "loss": 0.462,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.3842418193817139,
      "rewards/margins": 1.5147311687469482,
      "rewards/rejected": -2.898972988128662,
      "step": 3380
    },
    {
      "epoch": 0.8133397312859885,
      "grad_norm": 58.63982281658398,
      "learning_rate": 5.122168209094865e-08,
      "logits/chosen": 0.38930395245552063,
      "logits/rejected": 0.36614999175071716,
      "logps/chosen": -429.3528747558594,
      "logps/rejected": -487.43408203125,
      "loss": 0.4705,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.5928863286972046,
      "rewards/margins": 0.6625052094459534,
      "rewards/rejected": -2.2553915977478027,
      "step": 3390
    },
    {
      "epoch": 0.8157389635316699,
      "grad_norm": 41.613843164350314,
      "learning_rate": 4.995883846672222e-08,
      "logits/chosen": 0.14363157749176025,
      "logits/rejected": 0.2796134054660797,
      "logps/chosen": -592.6302490234375,
      "logps/rejected": -587.6798706054688,
      "loss": 0.4708,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.5286242961883545,
      "rewards/margins": 0.759235143661499,
      "rewards/rejected": -2.2878596782684326,
      "step": 3400
    },
    {
      "epoch": 0.8181381957773513,
      "grad_norm": 49.604272632089646,
      "learning_rate": 4.871002693522486e-08,
      "logits/chosen": 0.2720317244529724,
      "logits/rejected": 0.25077277421951294,
      "logps/chosen": -463.8601989746094,
      "logps/rejected": -517.4568481445312,
      "loss": 0.4856,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -1.3305190801620483,
      "rewards/margins": 0.8297308683395386,
      "rewards/rejected": -2.160250186920166,
      "step": 3410
    },
    {
      "epoch": 0.8205374280230326,
      "grad_norm": 40.03296260410171,
      "learning_rate": 4.7475335095623956e-08,
      "logits/chosen": 0.34070852398872375,
      "logits/rejected": 0.2651143968105316,
      "logps/chosen": -466.72686767578125,
      "logps/rejected": -563.7396240234375,
      "loss": 0.4721,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.4763226509094238,
      "rewards/margins": 1.2001755237579346,
      "rewards/rejected": -2.6764981746673584,
      "step": 3420
    },
    {
      "epoch": 0.822936660268714,
      "grad_norm": 80.18666057349425,
      "learning_rate": 4.6254849556646714e-08,
      "logits/chosen": 0.22728531062602997,
      "logits/rejected": 0.229964017868042,
      "logps/chosen": -496.54852294921875,
      "logps/rejected": -587.7725830078125,
      "loss": 0.4966,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.4686188697814941,
      "rewards/margins": 1.2523690462112427,
      "rewards/rejected": -2.7209877967834473,
      "step": 3430
    },
    {
      "epoch": 0.8253358925143954,
      "grad_norm": 52.794660060456266,
      "learning_rate": 4.504865593050483e-08,
      "logits/chosen": 0.27111780643463135,
      "logits/rejected": 0.2475912868976593,
      "logps/chosen": -477.52685546875,
      "logps/rejected": -583.2651977539062,
      "loss": 0.5015,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.5320662260055542,
      "rewards/margins": 0.9184083938598633,
      "rewards/rejected": -2.450474500656128,
      "step": 3440
    },
    {
      "epoch": 0.8277351247600768,
      "grad_norm": 63.34169787369902,
      "learning_rate": 4.385683882688895e-08,
      "logits/chosen": 0.15275821089744568,
      "logits/rejected": 0.20857541263103485,
      "logps/chosen": -512.3521728515625,
      "logps/rejected": -510.0169982910156,
      "loss": 0.5622,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.6563478708267212,
      "rewards/margins": 0.5664867162704468,
      "rewards/rejected": -2.222834587097168,
      "step": 3450
    },
    {
      "epoch": 0.8301343570057581,
      "grad_norm": 59.152646437947276,
      "learning_rate": 4.2679481847033985e-08,
      "logits/chosen": 0.3345550298690796,
      "logits/rejected": 0.3184022009372711,
      "logps/chosen": -458.943115234375,
      "logps/rejected": -580.5496826171875,
      "loss": 0.5152,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.367032527923584,
      "rewards/margins": 1.1215214729309082,
      "rewards/rejected": -2.488554000854492,
      "step": 3460
    },
    {
      "epoch": 0.8325335892514395,
      "grad_norm": 41.522970046635024,
      "learning_rate": 4.151666757785435e-08,
      "logits/chosen": 0.25053077936172485,
      "logits/rejected": 0.21285638213157654,
      "logps/chosen": -415.4532165527344,
      "logps/rejected": -565.3435668945312,
      "loss": 0.467,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -1.0187116861343384,
      "rewards/margins": 1.5517404079437256,
      "rewards/rejected": -2.5704522132873535,
      "step": 3470
    },
    {
      "epoch": 0.8349328214971209,
      "grad_norm": 50.23472101986963,
      "learning_rate": 4.036847758615136e-08,
      "logits/chosen": 0.23763033747673035,
      "logits/rejected": 0.23918600380420685,
      "logps/chosen": -477.56292724609375,
      "logps/rejected": -576.02490234375,
      "loss": 0.5032,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -1.8143908977508545,
      "rewards/margins": 0.8722183108329773,
      "rewards/rejected": -2.6866097450256348,
      "step": 3480
    },
    {
      "epoch": 0.8373320537428023,
      "grad_norm": 45.74910365878837,
      "learning_rate": 3.923499241289113e-08,
      "logits/chosen": 0.160926952958107,
      "logits/rejected": 0.19261090457439423,
      "logps/chosen": -533.9952392578125,
      "logps/rejected": -552.327880859375,
      "loss": 0.5377,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.6078903675079346,
      "rewards/margins": 0.8734768033027649,
      "rewards/rejected": -2.4813671112060547,
      "step": 3490
    },
    {
      "epoch": 0.8397312859884837,
      "grad_norm": 47.87346283993082,
      "learning_rate": 3.811629156755541e-08,
      "logits/chosen": 0.1999920904636383,
      "logits/rejected": 0.14960861206054688,
      "logps/chosen": -488.1973571777344,
      "logps/rejected": -596.3568115234375,
      "loss": 0.4956,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -1.2728978395462036,
      "rewards/margins": 1.2190895080566406,
      "rewards/rejected": -2.4919872283935547,
      "step": 3500
    },
    {
      "epoch": 0.8421305182341651,
      "grad_norm": 41.03513231238894,
      "learning_rate": 3.701245352256391e-08,
      "logits/chosen": 0.2294701635837555,
      "logits/rejected": 0.25733810663223267,
      "logps/chosen": -478.146484375,
      "logps/rejected": -508.96856689453125,
      "loss": 0.4831,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.1556288003921509,
      "rewards/margins": 0.6834120750427246,
      "rewards/rejected": -1.839040756225586,
      "step": 3510
    },
    {
      "epoch": 0.8445297504798465,
      "grad_norm": 40.5674011892533,
      "learning_rate": 3.592355570776984e-08,
      "logits/chosen": 0.1878044307231903,
      "logits/rejected": 0.14977982640266418,
      "logps/chosen": -398.69970703125,
      "logps/rejected": -515.438232421875,
      "loss": 0.4747,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -1.043157935142517,
      "rewards/margins": 1.0835729837417603,
      "rewards/rejected": -2.1267309188842773,
      "step": 3520
    },
    {
      "epoch": 0.8469289827255279,
      "grad_norm": 42.604163064101506,
      "learning_rate": 3.484967450502904e-08,
      "logits/chosen": 0.3040066361427307,
      "logits/rejected": 0.23765726387500763,
      "logps/chosen": -383.44561767578125,
      "logps/rejected": -547.45703125,
      "loss": 0.4804,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.1220704317092896,
      "rewards/margins": 1.1863175630569458,
      "rewards/rejected": -2.3083879947662354,
      "step": 3530
    },
    {
      "epoch": 0.8493282149712092,
      "grad_norm": 59.806153925908724,
      "learning_rate": 3.3790885242841296e-08,
      "logits/chosen": 0.13462401926517487,
      "logits/rejected": 0.1024751216173172,
      "logps/chosen": -459.56915283203125,
      "logps/rejected": -603.9002685546875,
      "loss": 0.4678,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -1.4029033184051514,
      "rewards/margins": 1.477888584136963,
      "rewards/rejected": -2.8807921409606934,
      "step": 3540
    },
    {
      "epoch": 0.8517274472168906,
      "grad_norm": 58.73779989635176,
      "learning_rate": 3.274726219106677e-08,
      "logits/chosen": 0.09248481690883636,
      "logits/rejected": 0.07832972705364227,
      "logps/chosen": -512.8543701171875,
      "logps/rejected": -601.7901611328125,
      "loss": 0.4885,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.3987281322479248,
      "rewards/margins": 1.0073614120483398,
      "rewards/rejected": -2.4060897827148438,
      "step": 3550
    },
    {
      "epoch": 0.8541266794625719,
      "grad_norm": 47.36729249212975,
      "learning_rate": 3.171887855571642e-08,
      "logits/chosen": 0.23542580008506775,
      "logits/rejected": 0.21016255021095276,
      "logps/chosen": -400.10943603515625,
      "logps/rejected": -472.996337890625,
      "loss": 0.4859,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.2242614030838013,
      "rewards/margins": 0.7899783253669739,
      "rewards/rejected": -2.014239549636841,
      "step": 3560
    },
    {
      "epoch": 0.8565259117082533,
      "grad_norm": 51.17436258863895,
      "learning_rate": 3.070580647381643e-08,
      "logits/chosen": 0.2268662452697754,
      "logits/rejected": 0.17909319698810577,
      "logps/chosen": -437.57421875,
      "logps/rejected": -550.803466796875,
      "loss": 0.4995,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.3558123111724854,
      "rewards/margins": 1.194657802581787,
      "rewards/rejected": -2.5504701137542725,
      "step": 3570
    },
    {
      "epoch": 0.8589251439539347,
      "grad_norm": 48.13040334135157,
      "learning_rate": 2.9708117008348576e-08,
      "logits/chosen": 0.31328874826431274,
      "logits/rejected": 0.3502875864505768,
      "logps/chosen": -517.9609985351562,
      "logps/rejected": -542.474365234375,
      "loss": 0.4897,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.4639475345611572,
      "rewards/margins": 0.7750081419944763,
      "rewards/rejected": -2.2389559745788574,
      "step": 3580
    },
    {
      "epoch": 0.8613243761996161,
      "grad_norm": 53.220249607806664,
      "learning_rate": 2.8725880143264992e-08,
      "logits/chosen": 0.21370474994182587,
      "logits/rejected": 0.17975714802742004,
      "logps/chosen": -469.7068786621094,
      "logps/rejected": -589.1580200195312,
      "loss": 0.5243,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.5573484897613525,
      "rewards/margins": 0.7886762022972107,
      "rewards/rejected": -2.346024513244629,
      "step": 3590
    },
    {
      "epoch": 0.8637236084452975,
      "grad_norm": 67.90288894206734,
      "learning_rate": 2.775916477857948e-08,
      "logits/chosen": 0.25214099884033203,
      "logits/rejected": 0.19312720000743866,
      "logps/chosen": -414.92059326171875,
      "logps/rejected": -506.6708984375,
      "loss": 0.4783,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.330328345298767,
      "rewards/margins": 0.9338465929031372,
      "rewards/rejected": -2.2641749382019043,
      "step": 3600
    },
    {
      "epoch": 0.8661228406909789,
      "grad_norm": 59.11695302836589,
      "learning_rate": 2.680803872553408e-08,
      "logits/chosen": 0.2528062164783478,
      "logits/rejected": 0.17121002078056335,
      "logps/chosen": -428.0210876464844,
      "logps/rejected": -563.393310546875,
      "loss": 0.4888,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.2556774616241455,
      "rewards/margins": 1.5917272567749023,
      "rewards/rejected": -2.8474044799804688,
      "step": 3610
    },
    {
      "epoch": 0.8685220729366603,
      "grad_norm": 59.52967993062111,
      "learning_rate": 2.5872568701842706e-08,
      "logits/chosen": 0.32945194840431213,
      "logits/rejected": 0.2652639150619507,
      "logps/chosen": -392.31329345703125,
      "logps/rejected": -495.3326721191406,
      "loss": 0.539,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -1.3325417041778564,
      "rewards/margins": 0.8470155000686646,
      "rewards/rejected": -2.1795573234558105,
      "step": 3620
    },
    {
      "epoch": 0.8709213051823417,
      "grad_norm": 53.81677624528546,
      "learning_rate": 2.495282032701096e-08,
      "logits/chosen": 0.15500156581401825,
      "logits/rejected": 0.2495473325252533,
      "logps/chosen": -334.62774658203125,
      "logps/rejected": -434.7308044433594,
      "loss": 0.5105,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.1157186031341553,
      "rewards/margins": 1.1813395023345947,
      "rewards/rejected": -2.29705810546875,
      "step": 3630
    },
    {
      "epoch": 0.8733205374280231,
      "grad_norm": 70.3049018186209,
      "learning_rate": 2.4048858117733133e-08,
      "logits/chosen": 0.16910839080810547,
      "logits/rejected": 0.169979065656662,
      "logps/chosen": -436.8203125,
      "logps/rejected": -540.2689819335938,
      "loss": 0.4643,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -1.1331539154052734,
      "rewards/margins": 1.6183888912200928,
      "rewards/rejected": -2.751542568206787,
      "step": 3640
    },
    {
      "epoch": 0.8757197696737045,
      "grad_norm": 49.87789467243074,
      "learning_rate": 2.3160745483366938e-08,
      "logits/chosen": 0.23682577908039093,
      "logits/rejected": 0.1723048985004425,
      "logps/chosen": -431.7490234375,
      "logps/rejected": -562.2601318359375,
      "loss": 0.4639,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.3692805767059326,
      "rewards/margins": 1.0158613920211792,
      "rewards/rejected": -2.3851418495178223,
      "step": 3650
    },
    {
      "epoch": 0.8781190019193857,
      "grad_norm": 47.658615941206975,
      "learning_rate": 2.2288544721485197e-08,
      "logits/chosen": 0.14381949603557587,
      "logits/rejected": 0.03533410280942917,
      "logps/chosen": -387.8703918457031,
      "logps/rejected": -524.4107666015625,
      "loss": 0.4813,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.0450143814086914,
      "rewards/margins": 1.2733433246612549,
      "rewards/rejected": -2.3183577060699463,
      "step": 3660
    },
    {
      "epoch": 0.8805182341650671,
      "grad_norm": 45.82488725036134,
      "learning_rate": 2.1432317013506117e-08,
      "logits/chosen": 0.10933347791433334,
      "logits/rejected": 0.12345802783966064,
      "logps/chosen": -458.113037109375,
      "logps/rejected": -490.5302734375,
      "loss": 0.5397,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.4664695262908936,
      "rewards/margins": 0.8134799003601074,
      "rewards/rejected": -2.27994966506958,
      "step": 3670
    },
    {
      "epoch": 0.8829174664107485,
      "grad_norm": 53.31879445002021,
      "learning_rate": 2.0592122420401704e-08,
      "logits/chosen": 0.22227077186107635,
      "logits/rejected": 0.24705934524536133,
      "logps/chosen": -430.19537353515625,
      "logps/rejected": -503.33050537109375,
      "loss": 0.4986,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.5509039163589478,
      "rewards/margins": 0.648668646812439,
      "rewards/rejected": -2.199572801589966,
      "step": 3680
    },
    {
      "epoch": 0.8853166986564299,
      "grad_norm": 42.381048234129516,
      "learning_rate": 1.976801987848459e-08,
      "logits/chosen": 0.2069139927625656,
      "logits/rejected": 0.16672655940055847,
      "logps/chosen": -472.5472106933594,
      "logps/rejected": -602.9320068359375,
      "loss": 0.4888,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.4228280782699585,
      "rewards/margins": 1.2275440692901611,
      "rewards/rejected": -2.65037202835083,
      "step": 3690
    },
    {
      "epoch": 0.8877159309021113,
      "grad_norm": 53.40883833426912,
      "learning_rate": 1.8960067195273987e-08,
      "logits/chosen": 0.22911398112773895,
      "logits/rejected": 0.21664564311504364,
      "logps/chosen": -400.25030517578125,
      "logps/rejected": -505.628173828125,
      "loss": 0.5018,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -1.1031681299209595,
      "rewards/margins": 1.1834853887557983,
      "rewards/rejected": -2.286653757095337,
      "step": 3700
    },
    {
      "epoch": 0.8901151631477927,
      "grad_norm": 41.251861300500764,
      "learning_rate": 1.816832104544072e-08,
      "logits/chosen": 0.30456072092056274,
      "logits/rejected": 0.29536372423171997,
      "logps/chosen": -486.6631774902344,
      "logps/rejected": -542.3421630859375,
      "loss": 0.4891,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -1.6421973705291748,
      "rewards/margins": 0.8107506632804871,
      "rewards/rejected": -2.4529478549957275,
      "step": 3710
    },
    {
      "epoch": 0.8925143953934741,
      "grad_norm": 39.96769073144664,
      "learning_rate": 1.7392836966831553e-08,
      "logits/chosen": 0.20969875156879425,
      "logits/rejected": 0.1758739948272705,
      "logps/chosen": -437.6871643066406,
      "logps/rejected": -546.804443359375,
      "loss": 0.4412,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -1.2321717739105225,
      "rewards/margins": 1.4391019344329834,
      "rewards/rejected": -2.671273708343506,
      "step": 3720
    },
    {
      "epoch": 0.8949136276391555,
      "grad_norm": 49.70645527143697,
      "learning_rate": 1.663366935657373e-08,
      "logits/chosen": 0.2884444296360016,
      "logits/rejected": 0.3402741551399231,
      "logps/chosen": -414.3851623535156,
      "logps/rejected": -516.3787841796875,
      "loss": 0.5216,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.3819457292556763,
      "rewards/margins": 0.948479950428009,
      "rewards/rejected": -2.33042573928833,
      "step": 3730
    },
    {
      "epoch": 0.8973128598848369,
      "grad_norm": 77.94886524477812,
      "learning_rate": 1.5890871467258898e-08,
      "logits/chosen": 0.19290375709533691,
      "logits/rejected": 0.21824567019939423,
      "logps/chosen": -533.5081787109375,
      "logps/rejected": -581.3971557617188,
      "loss": 0.4969,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -1.4534004926681519,
      "rewards/margins": 0.8920512199401855,
      "rewards/rejected": -2.345451831817627,
      "step": 3740
    },
    {
      "epoch": 0.8997120921305183,
      "grad_norm": 41.01203397728858,
      "learning_rate": 1.5164495403207967e-08,
      "logits/chosen": 0.1695217341184616,
      "logits/rejected": 0.035564176738262177,
      "logps/chosen": -487.5433654785156,
      "logps/rejected": -645.5303344726562,
      "loss": 0.4676,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.4484670162200928,
      "rewards/margins": 1.3183784484863281,
      "rewards/rejected": -2.766845464706421,
      "step": 3750
    },
    {
      "epoch": 0.9021113243761996,
      "grad_norm": 40.21247020861889,
      "learning_rate": 1.4454592116815962e-08,
      "logits/chosen": 0.2717417776584625,
      "logits/rejected": 0.2026948183774948,
      "logps/chosen": -468.3108825683594,
      "logps/rejected": -587.5950927734375,
      "loss": 0.4599,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.3242508172988892,
      "rewards/margins": 1.0534656047821045,
      "rewards/rejected": -2.3777167797088623,
      "step": 3760
    },
    {
      "epoch": 0.904510556621881,
      "grad_norm": 36.5293014274636,
      "learning_rate": 1.3761211404977934e-08,
      "logits/chosen": 0.21695688366889954,
      "logits/rejected": 0.18997912108898163,
      "logps/chosen": -414.2664489746094,
      "logps/rejected": -547.6370849609375,
      "loss": 0.4415,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.205294132232666,
      "rewards/margins": 1.4340205192565918,
      "rewards/rejected": -2.639314651489258,
      "step": 3770
    },
    {
      "epoch": 0.9069097888675623,
      "grad_norm": 57.20162040882379,
      "learning_rate": 1.3084401905596177e-08,
      "logits/chosen": 0.12880149483680725,
      "logits/rejected": 0.14128455519676208,
      "logps/chosen": -481.64605712890625,
      "logps/rejected": -535.501708984375,
      "loss": 0.4888,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.1130110025405884,
      "rewards/margins": 1.1385244131088257,
      "rewards/rejected": -2.251535654067993,
      "step": 3780
    },
    {
      "epoch": 0.9093090211132437,
      "grad_norm": 45.23521207048333,
      "learning_rate": 1.2424211094168053e-08,
      "logits/chosen": 0.3405439257621765,
      "logits/rejected": 0.3810498118400574,
      "logps/chosen": -528.0676879882812,
      "logps/rejected": -599.46044921875,
      "loss": 0.4764,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.4664819240570068,
      "rewards/margins": 0.8699405789375305,
      "rewards/rejected": -2.3364224433898926,
      "step": 3790
    },
    {
      "epoch": 0.9117082533589251,
      "grad_norm": 42.750810945395436,
      "learning_rate": 1.1780685280456143e-08,
      "logits/chosen": 0.22092266380786896,
      "logits/rejected": 0.1667570322751999,
      "logps/chosen": -535.6447143554688,
      "logps/rejected": -663.0042724609375,
      "loss": 0.5469,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.7906440496444702,
      "rewards/margins": 1.2009087800979614,
      "rewards/rejected": -2.9915525913238525,
      "step": 3800
    },
    {
      "epoch": 0.9141074856046065,
      "grad_norm": 45.02882150214674,
      "learning_rate": 1.1153869605239564e-08,
      "logits/chosen": 0.3357655704021454,
      "logits/rejected": 0.39680781960487366,
      "logps/chosen": -468.96661376953125,
      "logps/rejected": -499.510009765625,
      "loss": 0.4881,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.1827433109283447,
      "rewards/margins": 0.8699227571487427,
      "rewards/rejected": -2.052665948867798,
      "step": 3810
    },
    {
      "epoch": 0.9165067178502879,
      "grad_norm": 53.835458478805826,
      "learning_rate": 1.0543808037147606e-08,
      "logits/chosen": 0.19844678044319153,
      "logits/rejected": 0.09387796372175217,
      "logps/chosen": -430.8998107910156,
      "logps/rejected": -596.3431396484375,
      "loss": 0.4637,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -1.182877779006958,
      "rewards/margins": 1.630902886390686,
      "rewards/rejected": -2.8137805461883545,
      "step": 3820
    },
    {
      "epoch": 0.9189059500959693,
      "grad_norm": 45.731621829576106,
      "learning_rate": 9.95054336957557e-09,
      "logits/chosen": 0.20105035603046417,
      "logits/rejected": 0.12556061148643494,
      "logps/chosen": -441.2509765625,
      "logps/rejected": -534.109375,
      "loss": 0.4648,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.1896703243255615,
      "rewards/margins": 0.8572039604187012,
      "rewards/rejected": -2.046874523162842,
      "step": 3830
    },
    {
      "epoch": 0.9213051823416507,
      "grad_norm": 59.067862218302,
      "learning_rate": 9.37411721768286e-09,
      "logits/chosen": 0.39653897285461426,
      "logits/rejected": 0.27279889583587646,
      "logps/chosen": -486.5269470214844,
      "logps/rejected": -648.8412475585938,
      "loss": 0.46,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.6371396780014038,
      "rewards/margins": 1.1990723609924316,
      "rewards/rejected": -2.836211919784546,
      "step": 3840
    },
    {
      "epoch": 0.9237044145873321,
      "grad_norm": 47.43074874048961,
      "learning_rate": 8.81457001547392e-09,
      "logits/chosen": 0.2673342823982239,
      "logits/rejected": 0.2015964239835739,
      "logps/chosen": -492.92254638671875,
      "logps/rejected": -605.4844970703125,
      "loss": 0.4934,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -1.6292178630828857,
      "rewards/margins": 1.0606807470321655,
      "rewards/rejected": -2.689898729324341,
      "step": 3850
    },
    {
      "epoch": 0.9261036468330134,
      "grad_norm": 38.22467054106717,
      "learning_rate": 8.271941012961942e-09,
      "logits/chosen": 0.35539960861206055,
      "logits/rejected": 0.2722089886665344,
      "logps/chosen": -419.780517578125,
      "logps/rejected": -596.482666015625,
      "loss": 0.4606,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.4746735095977783,
      "rewards/margins": 1.2210102081298828,
      "rewards/rejected": -2.695683717727661,
      "step": 3860
    },
    {
      "epoch": 0.9285028790786948,
      "grad_norm": 50.37493253511501,
      "learning_rate": 7.746268273415568e-09,
      "logits/chosen": 0.3808482885360718,
      "logits/rejected": 0.2647871673107147,
      "logps/chosen": -485.0458984375,
      "logps/rejected": -578.0924072265625,
      "loss": 0.4923,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -1.5579640865325928,
      "rewards/margins": 0.5145239233970642,
      "rewards/rejected": -2.0724880695343018,
      "step": 3870
    },
    {
      "epoch": 0.9309021113243762,
      "grad_norm": 48.99088949948664,
      "learning_rate": 7.237588670689076e-09,
      "logits/chosen": 0.08190400898456573,
      "logits/rejected": 0.12344332039356232,
      "logps/chosen": -428.4112243652344,
      "logps/rejected": -517.3125610351562,
      "loss": 0.4641,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.215342402458191,
      "rewards/margins": 1.1562786102294922,
      "rewards/rejected": -2.3716208934783936,
      "step": 3880
    },
    {
      "epoch": 0.9333013435700576,
      "grad_norm": 44.444359990708264,
      "learning_rate": 6.745937886635606e-09,
      "logits/chosen": 0.22676298022270203,
      "logits/rejected": 0.14976339042186737,
      "logps/chosen": -487.2351989746094,
      "logps/rejected": -613.9521484375,
      "loss": 0.465,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.407539963722229,
      "rewards/margins": 1.2937225103378296,
      "rewards/rejected": -2.7012624740600586,
      "step": 3890
    },
    {
      "epoch": 0.935700575815739,
      "grad_norm": 40.06142700499872,
      "learning_rate": 6.271350408604409e-09,
      "logits/chosen": 0.2837770879268646,
      "logits/rejected": 0.2296113520860672,
      "logps/chosen": -382.27227783203125,
      "logps/rejected": -569.7482299804688,
      "loss": 0.4645,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -1.0186858177185059,
      "rewards/margins": 1.615103006362915,
      "rewards/rejected": -2.633788585662842,
      "step": 3900
    },
    {
      "epoch": 0.9380998080614203,
      "grad_norm": 73.29538152762231,
      "learning_rate": 5.813859527021487e-09,
      "logits/chosen": 0.35343560576438904,
      "logits/rejected": 0.2977786660194397,
      "logps/chosen": -445.3648376464844,
      "logps/rejected": -555.0151977539062,
      "loss": 0.4829,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.2847732305526733,
      "rewards/margins": 1.3373976945877075,
      "rewards/rejected": -2.62217116355896,
      "step": 3910
    },
    {
      "epoch": 0.9404990403071017,
      "grad_norm": 55.32984913756992,
      "learning_rate": 5.373497333054616e-09,
      "logits/chosen": 0.2757224440574646,
      "logits/rejected": 0.27316632866859436,
      "logps/chosen": -503.87371826171875,
      "logps/rejected": -564.5245361328125,
      "loss": 0.515,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.4553347826004028,
      "rewards/margins": 0.799089252948761,
      "rewards/rejected": -2.2544240951538086,
      "step": 3920
    },
    {
      "epoch": 0.9428982725527831,
      "grad_norm": 45.13547537051501,
      "learning_rate": 4.950294716362213e-09,
      "logits/chosen": 0.2402069866657257,
      "logits/rejected": 0.2745649814605713,
      "logps/chosen": -531.6744995117188,
      "logps/rejected": -642.5697021484375,
      "loss": 0.4806,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": -1.5781127214431763,
      "rewards/margins": 1.1812816858291626,
      "rewards/rejected": -2.7593941688537598,
      "step": 3930
    },
    {
      "epoch": 0.9452975047984645,
      "grad_norm": 41.45524037338652,
      "learning_rate": 4.544281362926422e-09,
      "logits/chosen": 0.1885417103767395,
      "logits/rejected": 0.1404399871826172,
      "logps/chosen": -493.8916931152344,
      "logps/rejected": -607.7820434570312,
      "loss": 0.4847,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.2237544059753418,
      "rewards/margins": 1.2443654537200928,
      "rewards/rejected": -2.4681198596954346,
      "step": 3940
    },
    {
      "epoch": 0.9476967370441459,
      "grad_norm": 41.32543731890712,
      "learning_rate": 4.15548575297095e-09,
      "logits/chosen": 0.13838523626327515,
      "logits/rejected": 0.12014584243297577,
      "logps/chosen": -423.9912109375,
      "logps/rejected": -555.3060302734375,
      "loss": 0.4492,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.3068205118179321,
      "rewards/margins": 1.4025375843048096,
      "rewards/rejected": -2.709357976913452,
      "step": 3950
    },
    {
      "epoch": 0.9500959692898272,
      "grad_norm": 38.663387459727744,
      "learning_rate": 3.7839351589631366e-09,
      "logits/chosen": 0.20229902863502502,
      "logits/rejected": 0.06122536584734917,
      "logps/chosen": -423.82379150390625,
      "logps/rejected": -579.1092529296875,
      "loss": 0.4703,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.3485114574432373,
      "rewards/margins": 0.9370707273483276,
      "rewards/rejected": -2.2855823040008545,
      "step": 3960
    },
    {
      "epoch": 0.9524952015355086,
      "grad_norm": 55.20292972374471,
      "learning_rate": 3.4296556437010405e-09,
      "logits/chosen": 0.20910441875457764,
      "logits/rejected": 0.18343612551689148,
      "logps/chosen": -397.52239990234375,
      "logps/rejected": -482.45513916015625,
      "loss": 0.4914,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.3418649435043335,
      "rewards/margins": 0.8949347734451294,
      "rewards/rejected": -2.236799716949463,
      "step": 3970
    },
    {
      "epoch": 0.95489443378119,
      "grad_norm": 52.42663168427878,
      "learning_rate": 3.092672058485124e-09,
      "logits/chosen": 0.2784040868282318,
      "logits/rejected": 0.22552700340747833,
      "logps/chosen": -437.07122802734375,
      "logps/rejected": -581.2984008789062,
      "loss": 0.5278,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.39797043800354,
      "rewards/margins": 1.417875051498413,
      "rewards/rejected": -2.815845489501953,
      "step": 3980
    },
    {
      "epoch": 0.9572936660268714,
      "grad_norm": 51.730419941201816,
      "learning_rate": 2.7730080413750356e-09,
      "logits/chosen": 0.3203295171260834,
      "logits/rejected": 0.33414626121520996,
      "logps/chosen": -470.68963623046875,
      "logps/rejected": -590.4835815429688,
      "loss": 0.4926,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.3279026746749878,
      "rewards/margins": 1.245241641998291,
      "rewards/rejected": -2.5731444358825684,
      "step": 3990
    },
    {
      "epoch": 0.9596928982725528,
      "grad_norm": 52.110269896703294,
      "learning_rate": 2.4706860155316033e-09,
      "logits/chosen": 0.2101161777973175,
      "logits/rejected": 0.23008927702903748,
      "logps/chosen": -545.7728271484375,
      "logps/rejected": -637.5755615234375,
      "loss": 0.4895,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.4393521547317505,
      "rewards/margins": 0.8712779879570007,
      "rewards/rejected": -2.3106300830841064,
      "step": 4000
    },
    {
      "epoch": 0.9596928982725528,
      "eval_logits/chosen": 0.38506969809532166,
      "eval_logits/rejected": 0.3408171534538269,
      "eval_logps/chosen": -459.0677185058594,
      "eval_logps/rejected": -584.910400390625,
      "eval_loss": 0.4760858714580536,
      "eval_rewards/accuracies": 0.7982142567634583,
      "eval_rewards/chosen": -1.4039554595947266,
      "eval_rewards/margins": 1.1972852945327759,
      "eval_rewards/rejected": -2.601240873336792,
      "eval_runtime": 172.2382,
      "eval_samples_per_second": 25.9,
      "eval_steps_per_second": 0.406,
      "step": 4000
    },
    {
      "epoch": 0.9620921305182342,
      "grad_norm": 48.027804731217394,
      "learning_rate": 2.185727187643843e-09,
      "logits/chosen": 0.17230884730815887,
      "logits/rejected": 0.11436843872070312,
      "logps/chosen": -407.50506591796875,
      "logps/rejected": -561.4027709960938,
      "loss": 0.5232,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.3693194389343262,
      "rewards/margins": 1.4761823415756226,
      "rewards/rejected": -2.8455021381378174,
      "step": 4010
    },
    {
      "epoch": 0.9644913627639156,
      "grad_norm": 57.935705040777876,
      "learning_rate": 1.9181515464413434e-09,
      "logits/chosen": 0.15140806138515472,
      "logits/rejected": 0.09838312864303589,
      "logps/chosen": -575.939208984375,
      "logps/rejected": -703.3623657226562,
      "loss": 0.4954,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -1.2815978527069092,
      "rewards/margins": 1.3098185062408447,
      "rewards/rejected": -2.591416597366333,
      "step": 4020
    },
    {
      "epoch": 0.966890595009597,
      "grad_norm": 40.72962697033489,
      "learning_rate": 1.6679778612923302e-09,
      "logits/chosen": 0.21621087193489075,
      "logits/rejected": 0.2728949785232544,
      "logps/chosen": -515.5426635742188,
      "logps/rejected": -592.4903564453125,
      "loss": 0.4629,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.5008609294891357,
      "rewards/margins": 0.7948905229568481,
      "rewards/rejected": -2.2957513332366943,
      "step": 4030
    },
    {
      "epoch": 0.9692898272552783,
      "grad_norm": 54.67990587779175,
      "learning_rate": 1.43522368088686e-09,
      "logits/chosen": 0.29817652702331543,
      "logits/rejected": 0.22439947724342346,
      "logps/chosen": -469.2783203125,
      "logps/rejected": -633.0770263671875,
      "loss": 0.5304,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.5123900175094604,
      "rewards/margins": 1.635197401046753,
      "rewards/rejected": -3.147587299346924,
      "step": 4040
    },
    {
      "epoch": 0.9716890595009597,
      "grad_norm": 70.3894278582445,
      "learning_rate": 1.2199053320059993e-09,
      "logits/chosen": 0.3103833794593811,
      "logits/rejected": 0.2175188809633255,
      "logps/chosen": -478.85443115234375,
      "logps/rejected": -599.4166259765625,
      "loss": 0.4973,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.4971873760223389,
      "rewards/margins": 1.086474061012268,
      "rewards/rejected": -2.5836615562438965,
      "step": 4050
    },
    {
      "epoch": 0.974088291746641,
      "grad_norm": 45.89117778001179,
      "learning_rate": 1.0220379183764338e-09,
      "logits/chosen": 0.1872117817401886,
      "logits/rejected": 0.14962831139564514,
      "logps/chosen": -379.21612548828125,
      "logps/rejected": -526.4472045898438,
      "loss": 0.4727,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.1573994159698486,
      "rewards/margins": 1.4220101833343506,
      "rewards/rejected": -2.5794098377227783,
      "step": 4060
    },
    {
      "epoch": 0.9764875239923224,
      "grad_norm": 42.58928630808853,
      "learning_rate": 8.416353196111503e-10,
      "logits/chosen": 0.4299827218055725,
      "logits/rejected": 0.3653213679790497,
      "logps/chosen": -455.606689453125,
      "logps/rejected": -537.0999755859375,
      "loss": 0.5395,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.646712064743042,
      "rewards/margins": 0.9391171336174011,
      "rewards/rejected": -2.585829257965088,
      "step": 4070
    },
    {
      "epoch": 0.9788867562380038,
      "grad_norm": 53.46584271337103,
      "learning_rate": 6.787101902356873e-10,
      "logits/chosen": 0.3689078986644745,
      "logits/rejected": 0.34390968084335327,
      "logps/chosen": -460.3603515625,
      "logps/rejected": -581.0008544921875,
      "loss": 0.461,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.3799049854278564,
      "rewards/margins": 0.9097992181777954,
      "rewards/rejected": -2.2897043228149414,
      "step": 4080
    },
    {
      "epoch": 0.9812859884836852,
      "grad_norm": 61.26328575901746,
      "learning_rate": 5.332739588005953e-10,
      "logits/chosen": 0.1865283101797104,
      "logits/rejected": 0.08630210161209106,
      "logps/chosen": -390.46929931640625,
      "logps/rejected": -543.6526489257812,
      "loss": 0.4761,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.2067457437515259,
      "rewards/margins": 1.2890859842300415,
      "rewards/rejected": -2.4958317279815674,
      "step": 4090
    },
    {
      "epoch": 0.9836852207293666,
      "grad_norm": 49.7010925580212,
      "learning_rate": 4.053368270797164e-10,
      "logits/chosen": 0.34013232588768005,
      "logits/rejected": 0.23841337859630585,
      "logps/chosen": -435.8818359375,
      "logps/rejected": -555.6300659179688,
      "loss": 0.452,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.4993178844451904,
      "rewards/margins": 1.1681034564971924,
      "rewards/rejected": -2.6674208641052246,
      "step": 4100
    },
    {
      "epoch": 0.986084452975048,
      "grad_norm": 39.60831889767418,
      "learning_rate": 2.949077693545354e-10,
      "logits/chosen": 0.3429808020591736,
      "logits/rejected": 0.28340935707092285,
      "logps/chosen": -493.12799072265625,
      "logps/rejected": -603.4589233398438,
      "loss": 0.5203,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.5291836261749268,
      "rewards/margins": 0.7797685861587524,
      "rewards/rejected": -2.3089520931243896,
      "step": 4110
    },
    {
      "epoch": 0.9884836852207294,
      "grad_norm": 48.86243638343189,
      "learning_rate": 2.0199453178471047e-10,
      "logits/chosen": 0.2578023374080658,
      "logits/rejected": 0.28469234704971313,
      "logps/chosen": -521.9082641601562,
      "logps/rejected": -584.6770629882812,
      "loss": 0.4724,
      "rewards/accuracies": 0.925000011920929,
      "rewards/chosen": -1.4713417291641235,
      "rewards/margins": 1.0106664896011353,
      "rewards/rejected": -2.482008457183838,
      "step": 4120
    },
    {
      "epoch": 0.9908829174664108,
      "grad_norm": 40.74851597282627,
      "learning_rate": 1.266036318647301e-10,
      "logits/chosen": 0.24952539801597595,
      "logits/rejected": 0.21447113156318665,
      "logps/chosen": -515.4271240234375,
      "logps/rejected": -623.4884033203125,
      "loss": 0.4614,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.3878891468048096,
      "rewards/margins": 1.3714239597320557,
      "rewards/rejected": -2.7593131065368652,
      "step": 4130
    },
    {
      "epoch": 0.9932821497120922,
      "grad_norm": 59.7391917924102,
      "learning_rate": 6.874035796672339e-11,
      "logits/chosen": 0.20685334503650665,
      "logits/rejected": 0.19621731340885162,
      "logps/chosen": -468.5065002441406,
      "logps/rejected": -590.8399047851562,
      "loss": 0.511,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.1164958477020264,
      "rewards/margins": 1.485654592514038,
      "rewards/rejected": -2.6021504402160645,
      "step": 4140
    },
    {
      "epoch": 0.9956813819577736,
      "grad_norm": 64.53279604006218,
      "learning_rate": 2.8408768969423458e-11,
      "logits/chosen": 0.16596756875514984,
      "logits/rejected": 0.11380906403064728,
      "logps/chosen": -485.75006103515625,
      "logps/rejected": -593.44287109375,
      "loss": 0.4651,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -1.3494365215301514,
      "rewards/margins": 1.0383247137069702,
      "rewards/rejected": -2.387761354446411,
      "step": 4150
    },
    {
      "epoch": 0.9980806142034548,
      "grad_norm": 64.97328454417662,
      "learning_rate": 5.611693973617271e-12,
      "logits/chosen": 0.3674852252006531,
      "logits/rejected": 0.3302612006664276,
      "logps/chosen": -414.0726623535156,
      "logps/rejected": -535.21337890625,
      "loss": 0.5188,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -1.3726593255996704,
      "rewards/margins": 0.9844037890434265,
      "rewards/rejected": -2.357063055038452,
      "step": 4160
    },
    {
      "epoch": 1.0,
      "step": 4168,
      "total_flos": 0.0,
      "train_loss": 0.5273771832863338,
      "train_runtime": 14157.4064,
      "train_samples_per_second": 9.42,
      "train_steps_per_second": 0.294
    }
  ],
  "logging_steps": 10,
  "max_steps": 4168,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 5000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}