{
  "best_metric": 5.3026299476623535,
  "best_model_checkpoint": "./results/models/checkpoint-121302",
  "epoch": 18.0,
  "eval_steps": 500,
  "global_step": 121302,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.07419498441905327,
      "grad_norm": 0.6640625,
      "learning_rate": 0.000998516100311619,
      "loss": 5.6889,
      "step": 500
    },
    {
      "epoch": 0.14838996883810654,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0009970322006232378,
      "loss": 5.5782,
      "step": 1000
    },
    {
      "epoch": 0.22258495325715982,
      "grad_norm": 0.75,
      "learning_rate": 0.0009955483009348569,
      "loss": 5.5562,
      "step": 1500
    },
    {
      "epoch": 0.2967799376762131,
      "grad_norm": 0.80078125,
      "learning_rate": 0.0009940644012464757,
      "loss": 5.5537,
      "step": 2000
    },
    {
      "epoch": 0.37097492209526634,
      "grad_norm": 0.765625,
      "learning_rate": 0.0009925805015580946,
      "loss": 5.5436,
      "step": 2500
    },
    {
      "epoch": 0.44516990651431965,
      "grad_norm": 2.109375,
      "learning_rate": 0.0009910966018697137,
      "loss": 5.5482,
      "step": 3000
    },
    {
      "epoch": 0.5193648909333729,
      "grad_norm": 0.92578125,
      "learning_rate": 0.0009896127021813326,
      "loss": 5.5504,
      "step": 3500
    },
    {
      "epoch": 0.5935598753524262,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0009881288024929514,
      "loss": 5.5373,
      "step": 4000
    },
    {
      "epoch": 0.6677548597714794,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0009866449028045703,
      "loss": 5.5279,
      "step": 4500
    },
    {
      "epoch": 0.7419498441905327,
      "grad_norm": 5.78125,
      "learning_rate": 0.0009851610031161894,
      "loss": 5.5215,
      "step": 5000
    },
    {
      "epoch": 0.816144828609586,
      "grad_norm": 4.65625,
      "learning_rate": 0.0009836771034278083,
      "loss": 5.5206,
      "step": 5500
    },
    {
      "epoch": 0.8903398130286393,
      "grad_norm": 10.125,
      "learning_rate": 0.0009821932037394272,
      "loss": 5.5186,
      "step": 6000
    },
    {
      "epoch": 0.9645347974476925,
      "grad_norm": 12.0,
      "learning_rate": 0.0009807093040510462,
      "loss": 5.5166,
      "step": 6500
    },
    {
      "epoch": 1.0,
      "eval_loss": 5.499637603759766,
      "eval_runtime": 2.498,
      "eval_samples_per_second": 400.319,
      "eval_steps_per_second": 3.203,
      "step": 6739
    },
    {
      "epoch": 1.0387297818667458,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0009792254043626651,
      "loss": 5.5143,
      "step": 7000
    },
    {
      "epoch": 1.112924766285799,
      "grad_norm": 0.76953125,
      "learning_rate": 0.000977741504674284,
      "loss": 5.5052,
      "step": 7500
    },
    {
      "epoch": 1.1871197507048523,
      "grad_norm": 1.203125,
      "learning_rate": 0.000976257604985903,
      "loss": 5.5022,
      "step": 8000
    },
    {
      "epoch": 1.2613147351239056,
      "grad_norm": 2.671875,
      "learning_rate": 0.000974773705297522,
      "loss": 5.4968,
      "step": 8500
    },
    {
      "epoch": 1.3355097195429588,
      "grad_norm": 0.9375,
      "learning_rate": 0.0009732898056091408,
      "loss": 5.4938,
      "step": 9000
    },
    {
      "epoch": 1.4097047039620123,
      "grad_norm": 7.21875,
      "learning_rate": 0.0009718059059207598,
      "loss": 5.4899,
      "step": 9500
    },
    {
      "epoch": 1.4838996883810656,
      "grad_norm": 0.80078125,
      "learning_rate": 0.0009703220062323788,
      "loss": 5.4853,
      "step": 10000
    },
    {
      "epoch": 1.5580946728001188,
      "grad_norm": 0.7890625,
      "learning_rate": 0.0009688381065439977,
      "loss": 5.4836,
      "step": 10500
    },
    {
      "epoch": 1.632289657219172,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0009673542068556166,
      "loss": 5.4761,
      "step": 11000
    },
    {
      "epoch": 1.7064846416382253,
      "grad_norm": 1.09375,
      "learning_rate": 0.0009658703071672355,
      "loss": 5.4742,
      "step": 11500
    },
    {
      "epoch": 1.7806796260572786,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0009643864074788544,
      "loss": 5.4737,
      "step": 12000
    },
    {
      "epoch": 1.8548746104763318,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0009629025077904734,
      "loss": 5.4767,
      "step": 12500
    },
    {
      "epoch": 1.929069594895385,
      "grad_norm": 4.09375,
      "learning_rate": 0.0009614186081020924,
      "loss": 5.4729,
      "step": 13000
    },
    {
      "epoch": 2.0,
      "eval_loss": 5.460068702697754,
      "eval_runtime": 2.5452,
      "eval_samples_per_second": 392.895,
      "eval_steps_per_second": 3.143,
      "step": 13478
    },
    {
      "epoch": 2.0032645793144384,
      "grad_norm": 0.765625,
      "learning_rate": 0.0009599347084137112,
      "loss": 5.4755,
      "step": 13500
    },
    {
      "epoch": 2.0774595637334916,
      "grad_norm": 0.89453125,
      "learning_rate": 0.0009584508087253302,
      "loss": 5.4638,
      "step": 14000
    },
    {
      "epoch": 2.151654548152545,
      "grad_norm": 0.78125,
      "learning_rate": 0.0009569669090369492,
      "loss": 5.4658,
      "step": 14500
    },
    {
      "epoch": 2.225849532571598,
      "grad_norm": 0.8125,
      "learning_rate": 0.0009554830093485681,
      "loss": 5.46,
      "step": 15000
    },
    {
      "epoch": 2.3000445169906514,
      "grad_norm": 0.7265625,
      "learning_rate": 0.000953999109660187,
      "loss": 5.4562,
      "step": 15500
    },
    {
      "epoch": 2.3742395014097046,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0009525152099718059,
      "loss": 5.4593,
      "step": 16000
    },
    {
      "epoch": 2.448434485828758,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0009510313102834248,
      "loss": 5.4628,
      "step": 16500
    },
    {
      "epoch": 2.522629470247811,
      "grad_norm": 2.4375,
      "learning_rate": 0.0009495474105950438,
      "loss": 5.4565,
      "step": 17000
    },
    {
      "epoch": 2.5968244546668644,
      "grad_norm": 1.5625,
      "learning_rate": 0.0009480635109066628,
      "loss": 5.4576,
      "step": 17500
    },
    {
      "epoch": 2.6710194390859177,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0009465796112182816,
      "loss": 5.4535,
      "step": 18000
    },
    {
      "epoch": 2.745214423504971,
      "grad_norm": 3.4375,
      "learning_rate": 0.0009450957115299006,
      "loss": 5.458,
      "step": 18500
    },
    {
      "epoch": 2.8194094079240246,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0009436118118415196,
      "loss": 5.4522,
      "step": 19000
    },
    {
      "epoch": 2.893604392343078,
      "grad_norm": 0.93359375,
      "learning_rate": 0.0009421279121531385,
      "loss": 5.4521,
      "step": 19500
    },
    {
      "epoch": 2.967799376762131,
      "grad_norm": 2.03125,
      "learning_rate": 0.0009406440124647574,
      "loss": 5.4537,
      "step": 20000
    },
    {
      "epoch": 3.0,
      "eval_loss": 5.447722434997559,
      "eval_runtime": 2.4611,
      "eval_samples_per_second": 406.315,
      "eval_steps_per_second": 3.251,
      "step": 20217
    },
    {
      "epoch": 3.041994361181184,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0009391601127763763,
      "loss": 5.4561,
      "step": 20500
    },
    {
      "epoch": 3.1161893456002376,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0009376762130879952,
      "loss": 5.4494,
      "step": 21000
    },
    {
      "epoch": 3.190384330019291,
      "grad_norm": 3.453125,
      "learning_rate": 0.0009361923133996142,
      "loss": 5.4476,
      "step": 21500
    },
    {
      "epoch": 3.264579314438344,
      "grad_norm": 0.7890625,
      "learning_rate": 0.0009347084137112332,
      "loss": 5.4441,
      "step": 22000
    },
    {
      "epoch": 3.3387742988573974,
      "grad_norm": 0.8828125,
      "learning_rate": 0.000933224514022852,
      "loss": 5.4429,
      "step": 22500
    },
    {
      "epoch": 3.4129692832764507,
      "grad_norm": 1.40625,
      "learning_rate": 0.000931740614334471,
      "loss": 5.4421,
      "step": 23000
    },
    {
      "epoch": 3.487164267695504,
      "grad_norm": 0.97265625,
      "learning_rate": 0.00093025671464609,
      "loss": 5.4414,
      "step": 23500
    },
    {
      "epoch": 3.561359252114557,
      "grad_norm": 1.5390625,
      "learning_rate": 0.000928772814957709,
      "loss": 5.4417,
      "step": 24000
    },
    {
      "epoch": 3.6355542365336104,
      "grad_norm": 1.3125,
      "learning_rate": 0.0009272889152693278,
      "loss": 5.44,
      "step": 24500
    },
    {
      "epoch": 3.7097492209526637,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0009258050155809467,
      "loss": 5.4383,
      "step": 25000
    },
    {
      "epoch": 3.783944205371717,
      "grad_norm": 0.83203125,
      "learning_rate": 0.0009243211158925657,
      "loss": 5.4373,
      "step": 25500
    },
    {
      "epoch": 3.85813918979077,
      "grad_norm": 0.9140625,
      "learning_rate": 0.0009228372162041846,
      "loss": 5.4365,
      "step": 26000
    },
    {
      "epoch": 3.9323341742098235,
      "grad_norm": 0.8671875,
      "learning_rate": 0.0009213533165158036,
      "loss": 5.4409,
      "step": 26500
    },
    {
      "epoch": 4.0,
      "eval_loss": 5.42551326751709,
      "eval_runtime": 2.856,
      "eval_samples_per_second": 350.134,
      "eval_steps_per_second": 2.801,
      "step": 26956
    },
    {
      "epoch": 4.006529158628877,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0009198694168274225,
      "loss": 5.4357,
      "step": 27000
    },
    {
      "epoch": 4.08072414304793,
      "grad_norm": 0.74609375,
      "learning_rate": 0.0009183855171390414,
      "loss": 5.4394,
      "step": 27500
    },
    {
      "epoch": 4.154919127466983,
      "grad_norm": 0.875,
      "learning_rate": 0.0009169016174506604,
      "loss": 5.4285,
      "step": 28000
    },
    {
      "epoch": 4.2291141118860365,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0009154177177622794,
      "loss": 5.4331,
      "step": 28500
    },
    {
      "epoch": 4.30330909630509,
      "grad_norm": 0.94140625,
      "learning_rate": 0.0009139338180738981,
      "loss": 5.4298,
      "step": 29000
    },
    {
      "epoch": 4.377504080724143,
      "grad_norm": 1.078125,
      "learning_rate": 0.0009124499183855171,
      "loss": 5.4261,
      "step": 29500
    },
    {
      "epoch": 4.451699065143196,
      "grad_norm": 0.7421875,
      "learning_rate": 0.0009109660186971361,
      "loss": 5.4228,
      "step": 30000
    },
    {
      "epoch": 4.5258940495622495,
      "grad_norm": 0.8671875,
      "learning_rate": 0.000909482119008755,
      "loss": 5.4248,
      "step": 30500
    },
    {
      "epoch": 4.600089033981303,
      "grad_norm": 1.0703125,
      "learning_rate": 0.000907998219320374,
      "loss": 5.4221,
      "step": 31000
    },
    {
      "epoch": 4.674284018400356,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0009065143196319929,
      "loss": 5.4209,
      "step": 31500
    },
    {
      "epoch": 4.748479002819409,
      "grad_norm": 2.125,
      "learning_rate": 0.0009050304199436118,
      "loss": 5.4231,
      "step": 32000
    },
    {
      "epoch": 4.8226739872384625,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0009035465202552308,
      "loss": 5.4172,
      "step": 32500
    },
    {
      "epoch": 4.896868971657516,
      "grad_norm": 0.8515625,
      "learning_rate": 0.0009020626205668498,
      "loss": 5.4214,
      "step": 33000
    },
    {
      "epoch": 4.971063956076569,
      "grad_norm": 0.875,
      "learning_rate": 0.0009005787208784685,
      "loss": 5.4197,
      "step": 33500
    },
    {
      "epoch": 5.0,
      "eval_loss": 5.406287670135498,
      "eval_runtime": 2.2248,
      "eval_samples_per_second": 449.473,
      "eval_steps_per_second": 3.596,
      "step": 33695
    },
    {
      "epoch": 5.045258940495622,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0008990948211900875,
      "loss": 5.4097,
      "step": 34000
    },
    {
      "epoch": 5.1194539249146755,
      "grad_norm": 0.921875,
      "learning_rate": 0.0008976109215017065,
      "loss": 5.4088,
      "step": 34500
    },
    {
      "epoch": 5.193648909333729,
      "grad_norm": 0.8671875,
      "learning_rate": 0.0008961270218133254,
      "loss": 5.4096,
      "step": 35000
    },
    {
      "epoch": 5.267843893752782,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0008946431221249444,
      "loss": 5.4136,
      "step": 35500
    },
    {
      "epoch": 5.342038878171835,
      "grad_norm": 1.4375,
      "learning_rate": 0.0008931592224365633,
      "loss": 5.4113,
      "step": 36000
    },
    {
      "epoch": 5.416233862590889,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0008916753227481822,
      "loss": 5.4121,
      "step": 36500
    },
    {
      "epoch": 5.490428847009942,
      "grad_norm": 32.75,
      "learning_rate": 0.0008901914230598012,
      "loss": 5.4103,
      "step": 37000
    },
    {
      "epoch": 5.564623831428995,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0008887075233714202,
      "loss": 5.4097,
      "step": 37500
    },
    {
      "epoch": 5.638818815848048,
      "grad_norm": 1.078125,
      "learning_rate": 0.0008872236236830389,
      "loss": 5.4042,
      "step": 38000
    },
    {
      "epoch": 5.713013800267102,
      "grad_norm": 0.8515625,
      "learning_rate": 0.0008857397239946579,
      "loss": 5.4061,
      "step": 38500
    },
    {
      "epoch": 5.787208784686155,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0008842558243062769,
      "loss": 5.4004,
      "step": 39000
    },
    {
      "epoch": 5.861403769105208,
      "grad_norm": 0.78515625,
      "learning_rate": 0.0008827719246178958,
      "loss": 5.3987,
      "step": 39500
    },
    {
      "epoch": 5.935598753524262,
      "grad_norm": 0.75390625,
      "learning_rate": 0.0008812880249295148,
      "loss": 5.3989,
      "step": 40000
    },
    {
      "epoch": 6.0,
      "eval_loss": 5.391963481903076,
      "eval_runtime": 2.6622,
      "eval_samples_per_second": 375.626,
      "eval_steps_per_second": 3.005,
      "step": 40434
    },
    {
      "epoch": 6.009793737943315,
      "grad_norm": 1.421875,
      "learning_rate": 0.0008798041252411337,
      "loss": 5.3997,
      "step": 40500
    },
    {
      "epoch": 6.083988722362368,
      "grad_norm": 1.03125,
      "learning_rate": 0.0008783202255527527,
      "loss": 5.3956,
      "step": 41000
    },
    {
      "epoch": 6.158183706781422,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0008768363258643716,
      "loss": 5.3922,
      "step": 41500
    },
    {
      "epoch": 6.232378691200475,
      "grad_norm": 3.625,
      "learning_rate": 0.0008753524261759906,
      "loss": 5.3889,
      "step": 42000
    },
    {
      "epoch": 6.3065736756195285,
      "grad_norm": 0.7890625,
      "learning_rate": 0.0008738685264876095,
      "loss": 5.3919,
      "step": 42500
    },
    {
      "epoch": 6.380768660038582,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0008723846267992283,
      "loss": 5.3939,
      "step": 43000
    },
    {
      "epoch": 6.454963644457635,
      "grad_norm": 0.875,
      "learning_rate": 0.0008709007271108473,
      "loss": 5.3955,
      "step": 43500
    },
    {
      "epoch": 6.529158628876688,
      "grad_norm": 2.46875,
      "learning_rate": 0.0008694168274224663,
      "loss": 5.3926,
      "step": 44000
    },
    {
      "epoch": 6.6033536132957416,
      "grad_norm": 1.625,
      "learning_rate": 0.0008679329277340852,
      "loss": 5.3846,
      "step": 44500
    },
    {
      "epoch": 6.677548597714795,
      "grad_norm": 0.984375,
      "learning_rate": 0.0008664490280457041,
      "loss": 5.3893,
      "step": 45000
    },
    {
      "epoch": 6.751743582133848,
      "grad_norm": 0.90234375,
      "learning_rate": 0.0008649651283573231,
      "loss": 5.3905,
      "step": 45500
    },
    {
      "epoch": 6.825938566552901,
      "grad_norm": 0.69140625,
      "learning_rate": 0.000863481228668942,
      "loss": 5.3902,
      "step": 46000
    },
    {
      "epoch": 6.900133550971955,
      "grad_norm": 1.453125,
      "learning_rate": 0.000861997328980561,
      "loss": 5.3856,
      "step": 46500
    },
    {
      "epoch": 6.974328535391008,
      "grad_norm": 1.015625,
      "learning_rate": 0.0008605134292921799,
      "loss": 5.3859,
      "step": 47000
    },
    {
      "epoch": 7.0,
      "eval_loss": 5.379256725311279,
      "eval_runtime": 2.4552,
      "eval_samples_per_second": 407.295,
      "eval_steps_per_second": 3.258,
      "step": 47173
    },
    {
      "epoch": 7.048523519810061,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0008590295296037987,
      "loss": 5.3794,
      "step": 47500
    },
    {
      "epoch": 7.122718504229114,
      "grad_norm": 1.890625,
      "learning_rate": 0.0008575456299154177,
      "loss": 5.3824,
      "step": 48000
    },
    {
      "epoch": 7.196913488648168,
      "grad_norm": 0.8515625,
      "learning_rate": 0.0008560617302270367,
      "loss": 5.3814,
      "step": 48500
    },
    {
      "epoch": 7.271108473067221,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0008545778305386556,
      "loss": 5.3778,
      "step": 49000
    },
    {
      "epoch": 7.345303457486274,
      "grad_norm": 0.84765625,
      "learning_rate": 0.0008530939308502745,
      "loss": 5.3796,
      "step": 49500
    },
    {
      "epoch": 7.419498441905327,
      "grad_norm": 2.953125,
      "learning_rate": 0.0008516100311618935,
      "loss": 5.3802,
      "step": 50000
    },
    {
      "epoch": 7.493693426324381,
      "grad_norm": 0.875,
      "learning_rate": 0.0008501261314735124,
      "loss": 5.3821,
      "step": 50500
    },
    {
      "epoch": 7.567888410743434,
      "grad_norm": 1.03125,
      "learning_rate": 0.0008486422317851314,
      "loss": 5.3796,
      "step": 51000
    },
    {
      "epoch": 7.642083395162487,
      "grad_norm": 0.86328125,
      "learning_rate": 0.0008471583320967503,
      "loss": 5.3832,
      "step": 51500
    },
    {
      "epoch": 7.71627837958154,
      "grad_norm": 0.91796875,
      "learning_rate": 0.0008456744324083691,
      "loss": 5.3821,
      "step": 52000
    },
    {
      "epoch": 7.790473364000594,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0008441905327199881,
      "loss": 5.3779,
      "step": 52500
    },
    {
      "epoch": 7.864668348419647,
      "grad_norm": 1.203125,
      "learning_rate": 0.0008427066330316071,
      "loss": 5.3801,
      "step": 53000
    },
    {
      "epoch": 7.9388633328387,
      "grad_norm": 1.0859375,
      "learning_rate": 0.000841222733343226,
      "loss": 5.3784,
      "step": 53500
    },
    {
      "epoch": 8.0,
      "eval_loss": 5.376255512237549,
      "eval_runtime": 2.4385,
      "eval_samples_per_second": 410.092,
      "eval_steps_per_second": 3.281,
      "step": 53912
    },
    {
      "epoch": 8.013058317257753,
      "grad_norm": 1.2421875,
      "learning_rate": 0.000839738833654845,
      "loss": 5.3737,
      "step": 54000
    },
    {
      "epoch": 8.087253301676807,
      "grad_norm": 1.53125,
      "learning_rate": 0.0008382549339664639,
      "loss": 5.3727,
      "step": 54500
    },
    {
      "epoch": 8.16144828609586,
      "grad_norm": 0.80078125,
      "learning_rate": 0.0008367710342780828,
      "loss": 5.3665,
      "step": 55000
    },
    {
      "epoch": 8.235643270514913,
      "grad_norm": 1.078125,
      "learning_rate": 0.0008352871345897018,
      "loss": 5.3711,
      "step": 55500
    },
    {
      "epoch": 8.309838254933966,
      "grad_norm": 0.78515625,
      "learning_rate": 0.0008338032349013207,
      "loss": 5.3637,
      "step": 56000
    },
    {
      "epoch": 8.38403323935302,
      "grad_norm": 0.84375,
      "learning_rate": 0.0008323193352129396,
      "loss": 5.3708,
      "step": 56500
    },
    {
      "epoch": 8.458228223772073,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0008308354355245585,
      "loss": 5.3706,
      "step": 57000
    },
    {
      "epoch": 8.532423208191126,
      "grad_norm": 0.9375,
      "learning_rate": 0.0008293515358361775,
      "loss": 5.371,
      "step": 57500
    },
    {
      "epoch": 8.60661819261018,
      "grad_norm": 0.80859375,
      "learning_rate": 0.0008278676361477965,
      "loss": 5.3719,
      "step": 58000
    },
    {
      "epoch": 8.680813177029233,
      "grad_norm": 1.21875,
      "learning_rate": 0.0008263837364594153,
      "loss": 5.3708,
      "step": 58500
    },
    {
      "epoch": 8.755008161448286,
      "grad_norm": 0.81640625,
      "learning_rate": 0.0008248998367710343,
      "loss": 5.367,
      "step": 59000
    },
    {
      "epoch": 8.82920314586734,
      "grad_norm": 0.84375,
      "learning_rate": 0.0008234159370826533,
      "loss": 5.3645,
      "step": 59500
    },
    {
      "epoch": 8.903398130286392,
      "grad_norm": 1.015625,
      "learning_rate": 0.0008219320373942722,
      "loss": 5.3625,
      "step": 60000
    },
    {
      "epoch": 8.977593114705446,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0008204481377058911,
      "loss": 5.364,
      "step": 60500
    },
    {
      "epoch": 9.0,
      "eval_loss": 5.361752986907959,
      "eval_runtime": 2.4227,
      "eval_samples_per_second": 412.763,
      "eval_steps_per_second": 3.302,
      "step": 60651
    },
    {
      "epoch": 9.051788099124499,
      "grad_norm": 0.85546875,
      "learning_rate": 0.00081896423801751,
      "loss": 5.3608,
      "step": 61000
    },
    {
      "epoch": 9.125983083543552,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0008174803383291289,
      "loss": 5.3559,
      "step": 61500
    },
    {
      "epoch": 9.200178067962606,
      "grad_norm": 0.80078125,
      "learning_rate": 0.0008159964386407479,
      "loss": 5.3547,
      "step": 62000
    },
    {
      "epoch": 9.274373052381659,
      "grad_norm": 1.28125,
      "learning_rate": 0.0008145125389523669,
      "loss": 5.3533,
      "step": 62500
    },
    {
      "epoch": 9.348568036800712,
      "grad_norm": 0.859375,
      "learning_rate": 0.0008130286392639857,
      "loss": 5.3545,
      "step": 63000
    },
    {
      "epoch": 9.422763021219765,
      "grad_norm": 9.5625,
      "learning_rate": 0.0008115447395756047,
      "loss": 5.3574,
      "step": 63500
    },
    {
      "epoch": 9.496958005638819,
      "grad_norm": 1.40625,
      "learning_rate": 0.0008100608398872237,
      "loss": 5.3565,
      "step": 64000
    },
    {
      "epoch": 9.571152990057872,
      "grad_norm": 2.140625,
      "learning_rate": 0.0008085769401988426,
      "loss": 5.3529,
      "step": 64500
    },
    {
      "epoch": 9.645347974476925,
      "grad_norm": 1.421875,
      "learning_rate": 0.0008070930405104615,
      "loss": 5.3565,
      "step": 65000
    },
    {
      "epoch": 9.719542958895978,
      "grad_norm": 1.34375,
      "learning_rate": 0.0008056091408220804,
      "loss": 5.3566,
      "step": 65500
    },
    {
      "epoch": 9.793737943315032,
      "grad_norm": 1.15625,
      "learning_rate": 0.0008041252411336993,
      "loss": 5.3579,
      "step": 66000
    },
    {
      "epoch": 9.867932927734085,
      "grad_norm": 2.46875,
      "learning_rate": 0.0008026413414453183,
      "loss": 5.3545,
      "step": 66500
    },
    {
      "epoch": 9.942127912153138,
      "grad_norm": 1.953125,
      "learning_rate": 0.0008011574417569373,
      "loss": 5.3532,
      "step": 67000
    },
    {
      "epoch": 10.0,
      "eval_loss": 5.357708930969238,
      "eval_runtime": 2.5182,
      "eval_samples_per_second": 397.102,
      "eval_steps_per_second": 3.177,
      "step": 67390
    },
    {
      "epoch": 10.016322896572191,
      "grad_norm": 3.09375,
      "learning_rate": 0.0007996735420685562,
      "loss": 5.3531,
      "step": 67500
    },
    {
      "epoch": 10.090517880991245,
      "grad_norm": 5.59375,
      "learning_rate": 0.0007981896423801751,
      "loss": 5.3441,
      "step": 68000
    },
    {
      "epoch": 10.164712865410298,
      "grad_norm": 3.4375,
      "learning_rate": 0.0007967057426917941,
      "loss": 5.3464,
      "step": 68500
    },
    {
      "epoch": 10.238907849829351,
      "grad_norm": 1.0703125,
      "learning_rate": 0.000795221843003413,
      "loss": 5.3482,
      "step": 69000
    },
    {
      "epoch": 10.313102834248404,
      "grad_norm": 3.046875,
      "learning_rate": 0.0007937379433150319,
      "loss": 5.3481,
      "step": 69500
    },
    {
      "epoch": 10.387297818667458,
      "grad_norm": 0.74609375,
      "learning_rate": 0.0007922540436266508,
      "loss": 5.35,
      "step": 70000
    },
    {
      "epoch": 10.46149280308651,
      "grad_norm": 0.75390625,
      "learning_rate": 0.0007907701439382697,
      "loss": 5.3446,
      "step": 70500
    },
    {
      "epoch": 10.535687787505564,
      "grad_norm": 11.5,
      "learning_rate": 0.0007892862442498887,
      "loss": 5.3415,
      "step": 71000
    },
    {
      "epoch": 10.609882771924617,
      "grad_norm": 0.78515625,
      "learning_rate": 0.0007878023445615077,
      "loss": 5.3424,
      "step": 71500
    },
    {
      "epoch": 10.68407775634367,
      "grad_norm": 0.92578125,
      "learning_rate": 0.0007863184448731267,
      "loss": 5.3428,
      "step": 72000
    },
    {
      "epoch": 10.758272740762724,
      "grad_norm": 1.234375,
      "learning_rate": 0.0007848345451847455,
      "loss": 5.3442,
      "step": 72500
    },
    {
      "epoch": 10.832467725181777,
      "grad_norm": 4.21875,
      "learning_rate": 0.0007833506454963645,
      "loss": 5.3416,
      "step": 73000
    },
    {
      "epoch": 10.90666270960083,
      "grad_norm": 2.890625,
      "learning_rate": 0.0007818667458079835,
      "loss": 5.343,
      "step": 73500
    },
    {
      "epoch": 10.980857694019884,
      "grad_norm": 0.93359375,
      "learning_rate": 0.0007803828461196023,
      "loss": 5.3442,
      "step": 74000
    },
    {
      "epoch": 11.0,
      "eval_loss": 5.3484954833984375,
      "eval_runtime": 2.2047,
      "eval_samples_per_second": 453.582,
      "eval_steps_per_second": 3.629,
      "step": 74129
    },
    {
      "epoch": 11.055052678438937,
      "grad_norm": 14.625,
      "learning_rate": 0.0007788989464312212,
      "loss": 5.3356,
      "step": 74500
    },
    {
      "epoch": 11.12924766285799,
      "grad_norm": 1.25,
      "learning_rate": 0.0007774150467428402,
      "loss": 5.3352,
      "step": 75000
    },
    {
      "epoch": 11.203442647277043,
      "grad_norm": 0.80859375,
      "learning_rate": 0.0007759311470544591,
      "loss": 5.3376,
      "step": 75500
    },
    {
      "epoch": 11.277637631696097,
      "grad_norm": 1.0625,
      "learning_rate": 0.0007744472473660781,
      "loss": 5.3388,
      "step": 76000
    },
    {
      "epoch": 11.35183261611515,
      "grad_norm": 0.94140625,
      "learning_rate": 0.0007729633476776971,
      "loss": 5.3359,
      "step": 76500
    },
    {
      "epoch": 11.426027600534203,
      "grad_norm": 1.1875,
      "learning_rate": 0.0007714794479893159,
      "loss": 5.3373,
      "step": 77000
    },
    {
      "epoch": 11.500222584953256,
      "grad_norm": 0.9140625,
      "learning_rate": 0.0007699955483009349,
      "loss": 5.3385,
      "step": 77500
    },
    {
      "epoch": 11.57441756937231,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0007685116486125539,
      "loss": 5.3334,
      "step": 78000
    },
    {
      "epoch": 11.648612553791363,
      "grad_norm": 1.671875,
      "learning_rate": 0.0007670277489241727,
      "loss": 5.3325,
      "step": 78500
    },
    {
      "epoch": 11.722807538210416,
      "grad_norm": 3.890625,
      "learning_rate": 0.0007655438492357916,
      "loss": 5.3376,
      "step": 79000
    },
    {
      "epoch": 11.79700252262947,
      "grad_norm": 1.9765625,
      "learning_rate": 0.0007640599495474106,
      "loss": 5.3335,
      "step": 79500
    },
    {
      "epoch": 11.871197507048523,
      "grad_norm": 4.5625,
      "learning_rate": 0.0007625760498590295,
      "loss": 5.3407,
      "step": 80000
    },
    {
      "epoch": 11.945392491467576,
      "grad_norm": 2.046875,
      "learning_rate": 0.0007610921501706485,
      "loss": 5.3363,
      "step": 80500
    },
    {
      "epoch": 12.0,
      "eval_loss": 5.337391376495361,
      "eval_runtime": 2.4996,
      "eval_samples_per_second": 400.069,
      "eval_steps_per_second": 3.201,
      "step": 80868
    },
    {
      "epoch": 12.01958747588663,
      "grad_norm": 1.59375,
      "learning_rate": 0.0007596082504822675,
      "loss": 5.3345,
      "step": 81000
    },
    {
      "epoch": 12.093782460305682,
      "grad_norm": 1.0625,
      "learning_rate": 0.0007581243507938863,
      "loss": 5.3255,
      "step": 81500
    },
    {
      "epoch": 12.167977444724736,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0007566404511055053,
      "loss": 5.3327,
      "step": 82000
    },
    {
      "epoch": 12.242172429143789,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0007551565514171243,
      "loss": 5.3312,
      "step": 82500
    },
    {
      "epoch": 12.316367413562844,
      "grad_norm": 0.71875,
      "learning_rate": 0.0007536726517287431,
      "loss": 5.3318,
      "step": 83000
    },
    {
      "epoch": 12.390562397981896,
      "grad_norm": 0.88671875,
      "learning_rate": 0.000752188752040362,
      "loss": 5.332,
      "step": 83500
    },
    {
      "epoch": 12.46475738240095,
      "grad_norm": 0.91796875,
      "learning_rate": 0.000750704852351981,
      "loss": 5.3283,
      "step": 84000
    },
    {
      "epoch": 12.538952366820002,
      "grad_norm": 0.86328125,
      "learning_rate": 0.0007492209526635999,
      "loss": 5.3296,
      "step": 84500
    },
    {
      "epoch": 12.613147351239057,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0007477370529752189,
      "loss": 5.3338,
      "step": 85000
    },
    {
      "epoch": 12.68734233565811,
      "grad_norm": 2.6875,
      "learning_rate": 0.0007462531532868379,
      "loss": 5.3344,
      "step": 85500
    },
    {
      "epoch": 12.761537320077164,
      "grad_norm": 0.8515625,
      "learning_rate": 0.0007447692535984567,
      "loss": 5.328,
      "step": 86000
    },
    {
      "epoch": 12.835732304496217,
      "grad_norm": 2.921875,
      "learning_rate": 0.0007432853539100757,
      "loss": 5.3291,
      "step": 86500
    },
    {
      "epoch": 12.90992728891527,
      "grad_norm": 6.96875,
      "learning_rate": 0.0007418014542216947,
      "loss": 5.3239,
      "step": 87000
    },
    {
      "epoch": 12.984122273334323,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0007403175545333135,
      "loss": 5.3225,
      "step": 87500
    },
    {
      "epoch": 13.0,
      "eval_loss": 5.332010746002197,
      "eval_runtime": 2.4611,
      "eval_samples_per_second": 406.325,
      "eval_steps_per_second": 3.251,
      "step": 87607
    },
    {
      "epoch": 13.058317257753377,
      "grad_norm": 1.21875,
      "learning_rate": 0.0007388336548449324,
      "loss": 5.3172,
      "step": 88000
    },
    {
      "epoch": 13.13251224217243,
      "grad_norm": 0.94921875,
      "learning_rate": 0.0007373497551565514,
      "loss": 5.3177,
      "step": 88500
    },
    {
      "epoch": 13.206707226591483,
      "grad_norm": 0.9140625,
      "learning_rate": 0.0007358658554681704,
      "loss": 5.3229,
      "step": 89000
    },
    {
      "epoch": 13.280902211010536,
      "grad_norm": 5.46875,
      "learning_rate": 0.0007343819557797893,
      "loss": 5.3208,
      "step": 89500
    },
    {
      "epoch": 13.35509719542959,
      "grad_norm": 1.703125,
      "learning_rate": 0.0007328980560914083,
      "loss": 5.3127,
      "step": 90000
    },
    {
      "epoch": 13.429292179848643,
      "grad_norm": 0.921875,
      "learning_rate": 0.0007314141564030272,
      "loss": 5.3193,
      "step": 90500
    },
    {
      "epoch": 13.503487164267696,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0007299302567146461,
      "loss": 5.3168,
      "step": 91000
    },
    {
      "epoch": 13.57768214868675,
      "grad_norm": 0.87109375,
      "learning_rate": 0.000728446357026265,
      "loss": 5.3133,
      "step": 91500
    },
    {
      "epoch": 13.651877133105803,
      "grad_norm": 0.84375,
      "learning_rate": 0.000726962457337884,
      "loss": 5.3168,
      "step": 92000
    },
    {
      "epoch": 13.726072117524856,
      "grad_norm": 0.86328125,
      "learning_rate": 0.0007254785576495029,
      "loss": 5.3168,
      "step": 92500
    },
    {
      "epoch": 13.80026710194391,
      "grad_norm": 1.125,
      "learning_rate": 0.0007239946579611218,
      "loss": 5.3133,
      "step": 93000
    },
    {
      "epoch": 13.874462086362962,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0007225107582727408,
      "loss": 5.3155,
      "step": 93500
    },
    {
      "epoch": 13.948657070782016,
      "grad_norm": 1.0,
      "learning_rate": 0.0007210268585843597,
      "loss": 5.3147,
      "step": 94000
    },
    {
      "epoch": 14.0,
      "eval_loss": 5.325437545776367,
      "eval_runtime": 2.4718,
      "eval_samples_per_second": 404.568,
      "eval_steps_per_second": 3.237,
      "step": 94346
    },
    {
      "epoch": 14.022852055201069,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0007195429588959787,
      "loss": 5.3109,
      "step": 94500
    },
    {
      "epoch": 14.097047039620122,
      "grad_norm": 1.03125,
      "learning_rate": 0.0007180590592075977,
      "loss": 5.3044,
      "step": 95000
    },
    {
      "epoch": 14.171242024039175,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0007165751595192165,
      "loss": 5.3132,
      "step": 95500
    },
    {
      "epoch": 14.245437008458229,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0007150912598308354,
      "loss": 5.3108,
      "step": 96000
    },
    {
      "epoch": 14.319631992877282,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0007136073601424544,
      "loss": 5.3107,
      "step": 96500
    },
    {
      "epoch": 14.393826977296335,
      "grad_norm": 3.71875,
      "learning_rate": 0.0007121234604540733,
      "loss": 5.3075,
      "step": 97000
    },
    {
      "epoch": 14.468021961715388,
      "grad_norm": 0.88671875,
      "learning_rate": 0.0007106395607656922,
      "loss": 5.3084,
      "step": 97500
    },
    {
      "epoch": 14.542216946134442,
      "grad_norm": 0.8984375,
      "learning_rate": 0.0007091556610773112,
      "loss": 5.3067,
      "step": 98000
    },
    {
      "epoch": 14.616411930553495,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0007076717613889301,
      "loss": 5.3097,
      "step": 98500
    },
    {
      "epoch": 14.690606914972548,
      "grad_norm": 1.875,
      "learning_rate": 0.0007061878617005491,
      "loss": 5.3094,
      "step": 99000
    },
    {
      "epoch": 14.764801899391601,
      "grad_norm": 1.0078125,
      "learning_rate": 0.000704703962012168,
      "loss": 5.31,
      "step": 99500
    },
    {
      "epoch": 14.838996883810655,
      "grad_norm": 0.9296875,
      "learning_rate": 0.0007032200623237869,
      "loss": 5.3075,
      "step": 100000
    },
    {
      "epoch": 14.913191868229708,
      "grad_norm": 1.078125,
      "learning_rate": 0.0007017361626354058,
      "loss": 5.3088,
      "step": 100500
    },
    {
      "epoch": 14.987386852648761,
      "grad_norm": 0.828125,
      "learning_rate": 0.0007002522629470248,
      "loss": 5.3108,
      "step": 101000
    },
    {
      "epoch": 15.0,
      "eval_loss": 5.322704315185547,
      "eval_runtime": 2.0798,
      "eval_samples_per_second": 480.818,
      "eval_steps_per_second": 3.847,
      "step": 101085
    },
    {
      "epoch": 15.061581837067815,
      "grad_norm": 0.90625,
      "learning_rate": 0.0006987683632586437,
      "loss": 5.306,
      "step": 101500
    },
    {
      "epoch": 15.135776821486868,
      "grad_norm": 0.81640625,
      "learning_rate": 0.0006972844635702626,
      "loss": 5.3054,
      "step": 102000
    },
    {
      "epoch": 15.209971805905921,
      "grad_norm": 1.5,
      "learning_rate": 0.0006958005638818816,
      "loss": 5.3026,
      "step": 102500
    },
    {
      "epoch": 15.284166790324974,
      "grad_norm": 0.77734375,
      "learning_rate": 0.0006943166641935005,
      "loss": 5.3028,
      "step": 103000
    },
    {
      "epoch": 15.358361774744028,
      "grad_norm": 0.9140625,
      "learning_rate": 0.0006928327645051195,
      "loss": 5.3042,
      "step": 103500
    },
    {
      "epoch": 15.43255675916308,
      "grad_norm": 0.75,
      "learning_rate": 0.0006913488648167385,
      "loss": 5.3034,
      "step": 104000
    },
    {
      "epoch": 15.506751743582134,
      "grad_norm": 1.21875,
      "learning_rate": 0.0006898649651283574,
      "loss": 5.309,
      "step": 104500
    },
    {
      "epoch": 15.580946728001187,
      "grad_norm": 0.81640625,
      "learning_rate": 0.0006883810654399762,
      "loss": 5.3062,
      "step": 105000
    },
    {
      "epoch": 15.65514171242024,
      "grad_norm": 1.15625,
      "learning_rate": 0.0006868971657515952,
      "loss": 5.3026,
      "step": 105500
    },
    {
      "epoch": 15.729336696839294,
      "grad_norm": 0.984375,
      "learning_rate": 0.0006854132660632142,
      "loss": 5.3036,
      "step": 106000
    },
    {
      "epoch": 15.803531681258347,
      "grad_norm": 0.9921875,
      "learning_rate": 0.000683929366374833,
      "loss": 5.3002,
      "step": 106500
    },
    {
      "epoch": 15.8777266656774,
      "grad_norm": 1.1171875,
      "learning_rate": 0.000682445466686452,
      "loss": 5.302,
      "step": 107000
    },
    {
      "epoch": 15.951921650096454,
      "grad_norm": 0.90234375,
      "learning_rate": 0.000680961566998071,
      "loss": 5.3014,
      "step": 107500
    },
    {
      "epoch": 16.0,
      "eval_loss": 5.31771183013916,
      "eval_runtime": 2.1156,
      "eval_samples_per_second": 472.68,
      "eval_steps_per_second": 3.781,
      "step": 107824
    },
    {
      "epoch": 16.026116634515507,
      "grad_norm": 1.03125,
      "learning_rate": 0.0006794776673096899,
      "loss": 5.2981,
      "step": 108000
    },
    {
      "epoch": 16.10031161893456,
      "grad_norm": 4.15625,
      "learning_rate": 0.0006779937676213089,
      "loss": 5.2982,
      "step": 108500
    },
    {
      "epoch": 16.174506603353613,
      "grad_norm": 0.8359375,
      "learning_rate": 0.0006765098679329278,
      "loss": 5.2946,
      "step": 109000
    },
    {
      "epoch": 16.248701587772665,
      "grad_norm": 1.015625,
      "learning_rate": 0.0006750259682445466,
      "loss": 5.2957,
      "step": 109500
    },
    {
      "epoch": 16.32289657219172,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0006735420685561656,
      "loss": 5.2964,
      "step": 110000
    },
    {
      "epoch": 16.397091556610775,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0006720581688677846,
      "loss": 5.2931,
      "step": 110500
    },
    {
      "epoch": 16.471286541029826,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0006705742691794034,
      "loss": 5.2916,
      "step": 111000
    },
    {
      "epoch": 16.545481525448878,
      "grad_norm": 0.79296875,
      "learning_rate": 0.0006690903694910224,
      "loss": 5.2989,
      "step": 111500
    },
    {
      "epoch": 16.619676509867933,
      "grad_norm": 1.234375,
      "learning_rate": 0.0006676064698026414,
      "loss": 5.2992,
      "step": 112000
    },
    {
      "epoch": 16.693871494286988,
      "grad_norm": 7.375,
      "learning_rate": 0.0006661225701142603,
      "loss": 5.2971,
      "step": 112500
    },
    {
      "epoch": 16.76806647870604,
      "grad_norm": 2.796875,
      "learning_rate": 0.0006646386704258793,
      "loss": 5.2931,
      "step": 113000
    },
    {
      "epoch": 16.842261463125094,
      "grad_norm": 0.94921875,
      "learning_rate": 0.0006631547707374982,
      "loss": 5.2875,
      "step": 113500
    },
    {
      "epoch": 16.916456447544146,
      "grad_norm": 0.74609375,
      "learning_rate": 0.000661670871049117,
      "loss": 5.2904,
      "step": 114000
    },
    {
      "epoch": 16.9906514319632,
      "grad_norm": 0.8515625,
      "learning_rate": 0.000660186971360736,
      "loss": 5.2886,
      "step": 114500
    },
    {
      "epoch": 17.0,
      "eval_loss": 5.307115077972412,
      "eval_runtime": 2.5,
      "eval_samples_per_second": 399.995,
      "eval_steps_per_second": 3.2,
      "step": 114563
    },
    {
      "epoch": 17.064846416382252,
      "grad_norm": 1.125,
      "learning_rate": 0.000658703071672355,
      "loss": 5.2867,
      "step": 115000
    },
    {
      "epoch": 17.139041400801307,
      "grad_norm": 0.85546875,
      "learning_rate": 0.0006572191719839738,
      "loss": 5.2857,
      "step": 115500
    },
    {
      "epoch": 17.21323638522036,
      "grad_norm": 0.8515625,
      "learning_rate": 0.0006557352722955928,
      "loss": 5.2865,
      "step": 116000
    },
    {
      "epoch": 17.287431369639414,
      "grad_norm": 0.95703125,
      "learning_rate": 0.0006542513726072118,
      "loss": 5.2885,
      "step": 116500
    },
    {
      "epoch": 17.361626354058465,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0006527674729188307,
      "loss": 5.287,
      "step": 117000
    },
    {
      "epoch": 17.43582133847752,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0006512835732304497,
      "loss": 5.2837,
      "step": 117500
    },
    {
      "epoch": 17.510016322896572,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0006497996735420686,
      "loss": 5.2862,
      "step": 118000
    },
    {
      "epoch": 17.584211307315627,
      "grad_norm": 0.8984375,
      "learning_rate": 0.0006483157738536874,
      "loss": 5.2868,
      "step": 118500
    },
    {
      "epoch": 17.65840629173468,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0006468318741653064,
      "loss": 5.28,
      "step": 119000
    },
    {
      "epoch": 17.732601276153733,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0006453479744769254,
      "loss": 5.2887,
      "step": 119500
    },
    {
      "epoch": 17.806796260572785,
      "grad_norm": 2.015625,
      "learning_rate": 0.0006438640747885443,
      "loss": 5.2789,
      "step": 120000
    },
    {
      "epoch": 17.88099124499184,
      "grad_norm": 1.34375,
      "learning_rate": 0.0006423801751001632,
      "loss": 5.2849,
      "step": 120500
    },
    {
      "epoch": 17.95518622941089,
      "grad_norm": 0.85546875,
      "learning_rate": 0.0006408962754117822,
      "loss": 5.2823,
      "step": 121000
    },
    {
      "epoch": 18.0,
      "eval_loss": 5.3026299476623535,
      "eval_runtime": 2.0622,
      "eval_samples_per_second": 484.913,
      "eval_steps_per_second": 3.879,
      "step": 121302
    }
  ],
  "logging_steps": 500,
  "max_steps": 336950,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 50,
  "save_steps": 500,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 3,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 6.515022957932667e+17,
  "train_batch_size": 128,
  "trial_name": null,
  "trial_params": null
}