ການປັບປຸງ 15 LLMs ໃນ Coding ໃນຫນຶ່ງຕອນບ່າຍ. ມີການປ່ຽນແປງພຽງແຕ່ Harness
ການປັບປຸງ 15 LLMs ໃນ Coding ໃນຫນຶ່ງຕອນບ່າຍ. ມີການປ່ຽນແປງພຽງແຕ່ Harness ການວິເຄາະທີ່ສົມບູນແບບນີ້ຂອງການປັບປຸງສະເຫນີການກວດສອບລາຍລະອຽດຂອງອົງປະກອບຫຼັກຂອງມັນແລະຜົນສະທ້ອນທີ່ກວ້າງຂວາງ. ເຂດຈຸດສຸມ ການສົນທະນາໄດ້ສຸມໃສ່: ...
Mewayz Team
Editorial Team
ການປັບປຸງຕົວແບບພາສາໃຫຍ່ 15 ຕົວໃນການເຂົ້າລະຫັດໃນຕອນບ່າຍດຽວຟັງຄືວ່າເປັນສຽງລະຫວ່າງດວງຈັນ — ຈົນກວ່າທ່ານຮູ້ວ່າຕົວແບບຂອງມັນເອງບໍ່ເຄີຍປ່ຽນແປງ. ຕົວແປພຽງຢ່າງດຽວແມ່ນ harness: scaffolding, prompts, and evaluation framework wraped around each model.
ການຄົ້ນພົບນີ້ກຳລັງປ່ຽນຮູບແບບຂອງຜູ້ພັດທະນາ, ທີມຜະລິດຕະພັນ ແລະຜູ້ປະກອບການທຸລະກິດຄິດເຖິງການເຂົ້າລະຫັດທີ່ຊ່ວຍໂດຍ AI — ແລະມັນມີຜົນກະທົບອັນເລິກເຊິ່ງຕໍ່ກັບທຸກຄົນທີ່ສ້າງ ຫຼືຂະຫຍາຍທຸລະກິດທີ່ຂັບເຄື່ອນດ້ວຍຊອບແວໃນປີ 2026.
LLM Harness ແມ່ນຫຍັງ ແລະເປັນຫຍັງມັນຈຶ່ງຄວບຄຸມທຸກຢ່າງ?
ສາຍຮັດແມ່ນຊັ້ນລະຫວ່າງຕົວແບບພາສາດິບ ແລະຜົນຜະລິດຂອງໂລກທີ່ແທ້ຈິງຂອງມັນ. ມັນປະກອບມີການກະຕຸ້ນເຕືອນຂອງລະບົບ, ການສີດເນື້ອໃນ, ການກໍານົດເຄື່ອງມື, ເຫດຜົນການດຶງຂໍ້ມູນ, ແລະເງື່ອນໄຂການປະເມີນຜົນທີ່ໃຊ້ເພື່ອຕັດສິນວ່າຕົວແບບປະສົບຜົນສໍາເລັດ. ຄິດວ່າມັນເປັນຫ້ອງນັກບິນຂອງເຮືອບິນ: ເຄື່ອງຈັກ (LLM) ຍັງຄົງທີ່, ແຕ່ເຄື່ອງມື ແລະການຄວບຄຸມຈະກຳນົດວ່າຖ້ຽວບິນລົງຈອດຢ່າງປອດໄພ.
ເມື່ອນັກຄົ້ນຄວ້າໄດ້ທົດສອບ 15 LLMs ທີ່ແຕກຕ່າງກັນຕໍ່ກັບຊຸດມາດຕະຖານຂອງມາດຕະຖານການເຂົ້າລະຫັດ, ເຂົາເຈົ້າພົບວ່າການປັບສາຍຮັດ - ບໍ່ປັບນ້ຳໜັກ, ບໍ່ປ່ຽນຜູ້ໃຫ້ບໍລິການ - ຍ້າຍຄະແນນຄວາມຖືກຕ້ອງຢ່າງຕໍ່ເນື່ອງໂດຍ 12–28%. ຮູບແບບດັ່ງກ່າວມີຕັ້ງແຕ່ທາງເລືອກແຫຼ່ງເປີດເຊັ່ນ Mistral ແລະ CodeLlama ຈົນເຖິງຍັກໃຫຍ່ທີ່ເປັນເຈົ້າຂອງເຊັ່ນ GPT-4o ແລະ Claude. ໃນທຸກໆກໍລະນີ, ສາຍຮັດທີ່ອອກແບບມາດີໄດ້ດີກວ່າຊຸດທີ່ອອກແບບມາບໍ່ດີໂດຍໃຊ້ຕົວແບບດຽວກັນ.
"ຕົວແບບແມ່ນວັດຖຸດິບ. ສາຍຮັດແມ່ນສູດ. ທ່ານສາມາດມີແປ້ງທີ່ດີທີ່ສຸດໃນໂລກ ແລະຍັງເຮັດເຂົ້າໜົມທີ່ຮ້າຍແຮງ ຖ້າເຕັກນິກຜິດພາດ." — AI Systems Research, 2025
ການປ່ຽນສາຍຮັດໄດ້ປັບປຸງ 15 LLMs ໃນຕອນບ່າຍດຽວແນວໃດ?
ການທົດລອງໄດ້ປະຕິບັດຕາມວິທີການທີ່ມີລະບຽບວິໄນ, ເຮັດຊ້ຳ. ນັກຄົ້ນຄວ້າໄດ້ລະບຸຕົວແປ 5 ອັນທີ່ມີຜົນກະທົບສູງສຸດໃນການປະຕິບັດວຽກງານການຂຽນລະຫັດ:
- ຄວາມສະເພາະຂອງການກະຕຸ້ນລະບົບ — ການທົດແທນຄໍາແນະນໍາທີ່ບໍ່ຊັດເຈນເຊັ່ນ: "ຂຽນລະຫັດທີ່ດີ" ໂດຍມີຂໍ້ຈໍາກັດຢ່າງຊັດເຈນກ່ຽວກັບການສະບັບພາສາ, ຮູບແບບການຈັດການຄວາມຜິດພາດ, ແລະຮູບແບບຜົນຜະລິດ.
- ການຈັດລຳດັບຄວາມສຳຄັນຂອງໜ້າຕ່າງບໍລິບົດ — ຍ້າຍຂໍ້ຍ່ອຍຂອງລະຫັດ ແລະເອກະສານທີ່ກ່ຽວຂ້ອງທີ່ສຸດໄປໃສ່ເທິງສຸດຂອງບໍລິບົດ ແທນທີ່ຈະເອົາພວກມັນເຂົ້າທ້າຍ.
- ຕ່ອງໂສ້ການຄິດຕຶກຕອງ — ຕ້ອງການຕົວແບບເພື່ອຫາເຫດຜົນຜ່ານບັນຫາເທື່ອລະກ້າວ ກ່ອນທີ່ຈະສ້າງລະຫັດໃດໆ, ຫຼຸດຜ່ອນການກະໂດດຂອງເຫດຜົນທາງປັນຍາ.
- ການຈັດຮູບແບບຜົນຜະລິດໂດຍການທົດສອບ — ການຮ້ອງຂໍແບບຈໍາລອງເພື່ອຜະລິດການທົດສອບຫົວຫນ່ວຍຄຽງຄູ່ກັບລະຫັດການປະຕິບັດ, ການສ້າງໃນຕົວຂອງກົນໄກການກວດສອບດ້ວຍຕົນເອງ.
- ການນັບແບບຄວາມລົ້ມເຫຼວ — ການກະຕຸ້ນໃຫ້ຕົວແບບໃຫ້ລາຍຊື່ບັນຊີຂອບຢ່າງຊັດເຈນກ່ອນທີ່ຈະຂຽນການແກ້ໄຂ, ປັບປຸງຄວາມສົມບູນໂດຍສະເລ່ຍ 19%.
ແຕ່ລະການປ່ຽນແປງໃຊ້ເວລານາທີເພື່ອປະຕິບັດ. ໃນທົ່ວ 15 ຮູບແບບ, ຜົນກະທົບສະສົມແມ່ນຢ່າງຫຼວງຫຼາຍ. ບໍ່ມີກຸ່ມ GPU, ບໍ່ມີຂໍ້ມູນການຝຶກອົບຮົມເພີ່ມເຕີມ, ບໍ່ມີການອັບເກຣດໃບອະນຸຍາດ - ພຽງແຕ່ເປັນການໂຕ້ຕອບທີ່ສະຫຼາດກວ່າລະຫວ່າງຄວາມຕັ້ງໃຈຂອງມະນຸດ ແລະຜົນຜະລິດຂອງເຄື່ອງຈັກ.
ນີ້ໝາຍຄວາມວ່າແນວໃດສຳລັບທຸລະກິດທີ່ອີງໃສ່ເຄື່ອງມືການຂຽນລະຫັດ AI?
ສຳລັບບໍລິສັດສ່ວນໃຫຍ່, takeaway ແມ່ນທັງການຖ່ອມຕົວ ແລະການປົດປ່ອຍ. ຄວາມຖ່ອມຕົວເພາະວ່າອົງການຈັດຕັ້ງໄດ້ໃຊ້ເວລາຫຼາຍລ້ານຄົນຕາມແບບ "ທີ່ດີທີ່ສຸດ", ໃນເວລາທີ່ສາຍຮັດໄດ້ເປັນຄໍຂວດຕະຫຼອດເວລາ. ການປົດປ່ອຍເນື່ອງຈາກວ່າມັນຫມາຍຄວາມວ່າການປັບປຸງທີ່ມີຄວາມຫມາຍແມ່ນສາມາດເຂົ້າເຖິງໄດ້ໃນຂະນະນີ້, ໂດຍບໍ່ຕ້ອງລໍຖ້າ GPT-5 ຫຼືການປ່ອຍຕົວຕໍ່ໄປ.
ຜູ້ປະກອບການທຸລະກິດທີ່ດໍາເນີນການຂະບວນການເຮັດວຽກຫນັກຊອບແວ — ຈາກເວທີ SaaS ກັບເຄື່ອງມືພາຍໃນເພື່ອການປະເຊີນຫນ້າກັບລູກຄ້າ — ສາມາດບັນລຸຜົນໄດ້ຮັບໃນທັນທີໂດຍການກວດສອບຊັ້ນການກະຕຸ້ນໃຫ້ທີມງານຂອງເຂົາເຈົ້ານໍາໃຊ້ປະຈໍາວັນ. ອັນນີ້ມີຄວາມກ່ຽວຂ້ອງໂດຍສະເພາະກັບທຸລະກິດທີ່ຈັດການຂະບວນການເຮັດວຽກຂອງ AI ຫຼາຍໆອັນພ້ອມກັນ, ເຊິ່ງອົງປະກອບການອອກແບບສາຍຮັດທີ່ບໍ່ສອດຄ່ອງກັນໄປສູ່ຄວາມບໍ່ມີປະສິດທິພາບຂະໜາດໃຫຍ່.
ແພລດຟອມເຊັ່ນ Mewayz, ເຊິ່ງລວມ 207 ໂມດູນທຸລະກິດເຂົ້າເປັນລະບົບປະຕິບັດການດຽວ, ແມ່ນສ້າງຂຶ້ນໃນຫຼັກການນີ້ແທ້ໆ: ສະຖາປັດຕະຍະກໍາທີ່ເຊື່ອມຕໍ່ເຄື່ອງມືຂອງເຈົ້າມີຄວາມສໍາຄັນຫຼາຍເທົ່າກັບເຄື່ອງມືຂອງຕົນເອງ. ເມື່ອ CRM, ທໍ່ເນື້ອຫາ, ແຜງໜ້າປັດການວິເຄາະ ແລະຊັ້ນອັດຕະໂນມັດຂອງທ່ານແບ່ງປັນກອບວຽກທີ່ສອດຄ່ອງກັນ, ທຸກໆອົງປະກອບເຮັດວຽກໄດ້ດີຂຶ້ນ — ໃນທາງດຽວກັນກັບສາຍຮັດທີ່ອອກແບບມາດີຈະປົດລັອກທຸກ LLM ທີ່ມັນຫໍ່ໄວ້.
💡 DID YOU KNOW?
Mewayz replaces 8+ business tools in one platform
CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.
Start Free →ຜູ້ພັດທະນາຄວນຈະກວດສອບ ແລະອອກແບບຊຸດ LLM ຂອງເຂົາເຈົ້າຄືນໃໝ່ແນວໃດ?
ການກວດສອບສາຍຮັດເປັນຂະບວນການທີ່ມີໂຄງສ້າງ, ບໍ່ແມ່ນເກມການຄາດເດົາທີ່ສ້າງສັນ. ເລີ່ມຕົ້ນໂດຍການວັດແທກສິ່ງທີ່ທ່ານມີ. ດໍາເນີນການກະຕຸ້ນເຕືອນໃນປະຈຸບັນຂອງທ່ານຕໍ່ກັບຊຸດຄົງທີ່ຂອງຫນ້າວຽກລະຫັດແລະບັນທຶກຜົນໄດ້ຮັບ. ຫຼັງຈາກນັ້ນ, ແນະນໍາຕົວແປຫນຶ່ງສາຍຕໍ່ເວລາ - ປ່ຽນການເຕືອນລະບົບ, ຫຼືເພີ່ມລະບົບຕ່ອງໂສ້ຄວາມຄິດ, ແຕ່ບໍ່ແມ່ນທັງສອງໃນເວລາດຽວກັນ. ນີ້ແມ່ນແຍກອອກສິ່ງທີ່ແທ້ຈິງແລ້ວການປັບປຸງ.
ເອກະສານທຸກສະບັບ. ຄວາມຜິດພາດທົ່ວໄປທີ່ສຸດທີ່ທີມງານເຮັດແມ່ນ iterating ໂດຍບໍ່ມີການ changelog, ເຮັດໃຫ້ມັນເປັນໄປບໍ່ໄດ້ທີ່ຈະຮູ້ວ່າການປ່ຽນແປງ harness ເຮັດໃຫ້ເກີດການຖົດຖອຍ. ປະຕິບັດຕໍ່ harness ຂອງທ່ານເຊັ່ນ: ລະຫັດແຫຼ່ງ: ສະບັບມັນ, ທົບທວນຄືນມັນ, ແລະທົດສອບມັນກ່ອນທີ່ຈະສົ່ງການປ່ຽນແປງຂັ້ນຕອນການຜະລິດ.
ສຸດທ້າຍ, ປະເມີນຜົນໄດ້ຮັບໃນຂະໜາດທີ່ເກີນກວ່າ "ມັນແລ່ນໄດ້ບໍ." ພິຈາລະນາຄວາມສາມາດໃນການອ່ານ, ການຮັກສາໄວ້, ສອດຄ່ອງກັບຄູ່ມືຮູບແບບພາຍໃນ, ແລະເລື້ອຍໆວ່າຜົນຜະລິດຕ້ອງການການແກ້ໄຂຂອງມະນຸດ. ຮູບແບບທີ່ສ້າງລະຫັດທີ່ຖືກຕ້ອງຕາມທາງສະຖາປັດຕະຍະກຳ ແຕ່ມີສະຖາປັດຕະຍະກຳທີ່ເສື່ອມໂຊມບໍ່ໄດ້ຜົນດີ - ສາຍຮັດຂອງທ່ານຕ້ອງການເຂົ້າລະຫັດມາດຕະຖານເຫຼົ່ານັ້ນຢ່າງຈະແຈ້ງ.
ເປັນຫຍັງຫຼັກການ Harness ຈຶ່ງໃຫຍ່ກວ່າໜ້າທີ່ການຂຽນລະຫັດ?
ຄວາມເຂົ້າໃຈກ່ຽວກັບ harness generalizes ດີເກີນກວ່າການສ້າງລະຫັດ. ໂດເມນໃດກໍ່ຕາມທີ່ LLMs ຖືກນໍາໄປໃຊ້ - ການສະຫນັບສະຫນູນລູກຄ້າ, ການສ້າງເນື້ອຫາ, ການວິເຄາະຂໍ້ມູນ, ການເຮັດວຽກອັດຕະໂນມັດ - ປະຕິບັດຕາມຮູບແບບດຽວກັນ. ຄວາມສາມາດດິບຂອງຕົວແບບແມ່ນເພດານ, ແຕ່ສາຍເຊືອກກຳນົດວ່າເຈົ້າເຂົ້າໄປໃກ້ເພດານນັ້ນພຽງໃດ.
ສຳລັບຜູ້ນຳທຸລະກິດ, ນີ້ຈະປ່ຽນແປງບົດສົນທະນາ AI ທັງໝົດ. ຂໍ້ໄດ້ປຽບໃນການແຂ່ງຂັນບໍ່ແມ່ນ "ຮູບແບບໃດທີ່ທ່ານເຂົ້າເຖິງໄດ້" — ຮູບແບບສ່ວນໃຫຍ່ສາມາດເຂົ້າເຖິງໄດ້ກັບທຸກຄົນທີ່ມີລະຫັດ API. ຂໍ້ໄດ້ປຽບແມ່ນການດຳເນີນງານ: ອົງກອນຂອງເຈົ້າອອກແບບ, ທົດສອບ, ແລະເຮັດຊ້ຳໃນສາຍຮັດທີ່ຫໍ່ຕົວແບບເຫຼົ່ານັ້ນຢ່າງເປັນລະບົບແນວໃດ?
ບໍລິສັດທີ່ພັດທະນາຄວາມຊໍານານໃນສາຍຮັດພາຍໃນຈະສະກັດມູນຄ່າຫຼາຍຂຶ້ນຈາກແບບດຽວກັນທີ່ຄູ່ແຂ່ງຂອງພວກເຂົາໃຊ້. ຄວາມຊຳນານນັ້ນເພີ່ມຂຶ້ນໃນໄລຍະເວລາ, ສ້າງໂຄງສ້າງທີ່ເຂົ້າເຖິງຮູບແບບວັດຖຸດິບບໍ່ສາມາດເຮັດຊ້ຳໄດ້.
ຄຳຖາມທີ່ຖາມເລື້ອຍໆ
ສາຍຮັດທີ່ດີຂຶ້ນສາມາດເຮັດໃຫ້ຕົວແບບທີ່ມີຂະໜາດນ້ອຍກວ່າ ແລະລາຄາຖືກກວ່າຕົວທີ່ໃຫຍ່ກວ່າໄດ້ບໍ?
ແມ່ນແລ້ວ, ແລະອັນນີ້ໄດ້ຖືກສະແດງໃຫ້ເຫັນຊ້ຳແລ້ວຊ້ຳອີກໃນຕົວຊີ້ວັດ. ຮູບແບບລະດັບກາງທີ່ມີສາຍຮັດດີມັກຈະກົງກັນ ຫຼືເກີນຕົວແບບເຮືອທຸງທີ່ເຮັດວຽກພາຍໃຕ້ການເຕືອນທົ່ວໄປ. ສໍາລັບທີມງານທີ່ມີງົບປະມານ, ການເພີ່ມປະສິດທິພາບ harness ແມ່ນການລົງທືນທີ່ມີ ROI ສູງສຸດກ່ອນທີ່ຈະອັບເກຣດເປັນແບບຈໍາລອງທີ່ແພງກວ່າ.
ມັນໃຊ້ເວລາດົນປານໃດເພື່ອເບິ່ງການປັບປຸງທີ່ວັດແທກໄດ້ຫຼັງຈາກການອອກແບບໃຫມ່ harness?
ດ້ວຍໂປຣໂຕຄໍການທົດສອບທີ່ມີໂຄງສ້າງ ແລະຊຸດການປະເມີນທີ່ກຳນົດໄວ້, ໂດຍປົກກະຕິແລ້ວ ທີມງານຈະເຫັນຄວາມແຕກຕ່າງທີ່ສາມາດວັດແທກໄດ້ພາຍໃນຊົ່ວໂມງ, ບໍ່ແມ່ນຫຼາຍອາທິດ. ໄລຍະເວລາໃນຕອນບ່າຍໃນການຄົ້ນຄວ້າຕົ້ນສະບັບແມ່ນເປັນຈິງສໍາລັບທີມງານທີ່ສຸມໃສ່ທີ່ມີມາດຕະຖານທີ່ຊັດເຈນຢູ່ແລ້ວ.
ຄຸນນະພາບ harness ມີຄວາມສໍາຄັນສໍາລັບບາງພາສາໂຄງການກ່ວາອື່ນໆບໍ?
ແມ່ນ. ພາສາທີ່ມີສົນທິສັນຍາທີ່ຊັດເຈນກວ່າ - Python, JavaScript - ມີແນວໂນ້ມທີ່ຈະໄດ້ຮັບຜົນປະໂຫຍດຫຼາຍກວ່າການຊີ້ນໍາ harness ຢ່າງຊັດເຈນເພາະວ່າຕົວແບບມີລະດັບເສລີພາບຫຼາຍຂຶ້ນ. ພາສາທີ່ພິມຢ່າງແຮງເຊັ່ນ Rust ຫຼື Go ໂດຍທໍາມະຊາດຈະຈຳກັດຜົນຜະລິດຫຼາຍ, ເຖິງແມ່ນວ່າການອອກແບບສາຍເຊືອກຍັງສົ່ງຜົນກະທົບຕໍ່ຄຸນນະພາບສະຖາປັດຕະຍະກຳ ແລະການຈັດການດ້ານຂອບ.
ພ້ອມແລ້ວທີ່ຈະສ້າງຄວາມສະຫຼາດຂຶ້ນ, ບໍ່ພຽງແຕ່ໃຫຍ່ຂຶ້ນບໍ?
ບົດຮຽນຈາກການປັບປຸງ 15 LLMs ໃນຕອນບ່າຍຫນຶ່ງແມ່ນບົດຮຽນດຽວກັນທີ່ຂັບລົດທຸລະກິດທີ່ດີທີ່ສຸດໃນປີ 2026: ຂອບວຽກທີ່ທ່ານດໍາເນີນການພາຍໃນກໍານົດຜົນໄດ້ຮັບຂອງທ່ານຫຼາຍກວ່າເຄື່ອງມືສ່ວນບຸກຄົນ. Mewayz ຖືກສ້າງຂຶ້ນໃນຫຼັກການນີ້ — 207 ໂມດູນທຸລະກິດປະສົມປະສານ, ເປັນລະບົບປະຕິບັດການລວມສໍາລັບຜູ້ໃຊ້ຫຼາຍກວ່າ 138,000 ຄົນ, ເລີ່ມຕົ້ນພຽງແຕ່ $19/ເດືອນ.
ຢຸດ patching ເຄື່ອງມືທີ່ຕັດການເຊື່ອມຕໍ່ຮ່ວມກັນ ແລະເລີ່ມຕົ້ນການປະຕິບັດຈາກລະບົບທີ່ຖືກອອກແບບເພື່ອເຮັດວຽກ. ເປີດພື້ນທີ່ເຮັດວຽກ Mewayz ຂອງທ່ານມື້ນີ້ທີ່ app.mewayz.com ແລະສຳຜັດກັບຄວາມຮູ້ສຶກຂອງທຸລະກິດທີ່ສອດຄ່ອງກັນ.
Try Mewayz Free
All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.
Get more articles like this
Weekly business tips and product updates. Free forever.
You're subscribed!
Start managing your business smarter today
Join 30,000+ businesses. Free forever plan · No credit card required.
Ready to put this into practice?
Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.
Start Free Trial →Related articles
Hacker News
Dear Heroku: Uhh What's Going On?
Apr 7, 2026
Hacker News
Solod – A Subset of Go That Translates to C
Apr 7, 2026
Hacker News
After 20 years I turned off Google Adsense for my websites (2025)
Apr 6, 2026
Hacker News
Anthropic expands partnership with Google and Broadcom for next-gen compute
Apr 6, 2026
Hacker News
Show HN: Hippo, biologically inspired memory for AI agents
Apr 6, 2026
Hacker News
HackerRank (YC S11) Is Hiring
Apr 6, 2026
Ready to take action?
Start your free Mewayz trial today
All-in-one business platform. No credit card required.
Start Free →14-day free trial · No credit card · Cancel anytime