Hacker News

15 × vs ~ 1.37 ×: Ag ath-àireamhachadh GPT-5.3-Codex-Spark air SWE-Bench Pro

15 × vs ~ 1.37 ×: Ag ath-àireamhachadh GPT-5.3-Codex-Spark air SWE-Bench Pro Tha an sgrùdadh coileanta seo air ath-àireamhachadh a’ toirt seachad sgrùdadh mionaideach air na prìomh phàirtean aige agus builean nas fharsainge. Prìomh Raointean Fòcas Tha an deasbad stèidhichte air: ...

10 min read Via twitter.com

Mewayz Team

Editorial Team

Hacker News

Bha an ceann-naidheachd ag agairt leum coileanaidh 15 × airson GPT-5.3-Codex-Spark air SWE-Bench Pro - ach tha sùil nas mionaidiche air an dòigh-obrach a’ nochdadh gu bheil buannachd an t-saoghail nas fhaisge air ~ 1.37 ×, figear a dh’ atharraicheas a h-uile càil a thaobh mar a bu chòir do luchd-leasachaidh agus gnìomhachasan innealan còdaidh AI a mheasadh. Chan eil tuigse air an ath-àireamhachadh seo dìreach acadaimigeach; bidh buaidh dhìreach aige air na h-innealan anns a bheil thu a’ tasgadh agus mar a thogas tu sruthan-obrach cinneasach, so-ruigsinneach.

Dè a th’ ann an SWE-Bench Pro agus Carson a tha an comharra-tomhais cudromach?

’S e frèam measaidh teann a th’ ann an SWE-Bench Pro a chaidh a dhealbhadh gus tomhas dè cho math ‘s a tha modalan cànain mòra a’ fuasgladh chùisean GitHub san t-saoghal fhìor thar diofar stòran còd. Eu-coltach ri slatan-tomhais synthetigeach a bhios a’ dèanamh deuchainn air gnìomhan a tha air am mìneachadh gu cumhang, tha SWE-Bench Pro a’ nochdadh mhodalan gu duilgheadasan meallta, neo-ainmichte, ìre toraidh - an seòrsa innleadairean bathar-bog a choinnicheas. Bidh e a’ sgòradh mhodalan a thaobh an urrainn dhaibh badan a ghineadh a thèid seachad air na seòmraichean deuchainn a th’ ann mar-thà gun a bhith a’ briseadh gnìomhachd neo-cheangailte.

Tha an slat-tomhais cudromach leis gu bheil sgiobaidhean iomairt, luchd-leasachaidh neo-eisimeileach, agus luchd-togail àrd-ùrlaran a’ cleachdadh na h-àireamhan sin gus co-dhùnaidhean ceannach is amalachaidh a dhèanamh. Nuair a dh’ fhoillsicheas neach-reic ceann-uidhe leasachaidh 15 ×, tha e a’ ciallachadh gun toir gnìomh a bheir uair a thìde a-nis ceithir mionaidean. Mas e 1.37 × an fhìor leasachadh, bheir an aon ghnìomh sin timcheall air 44 mionaidean - fhathast buannachadh, ach fear a dh’ fheumas ro-innleachd àireamhachaidh ROI gu tur eadar-dhealaichte agus ath-dhealbhadh sruth-obrach.

Ciamar a chaidh an tagradh 15 × a thomhas - agus càite an deach e ceàrr?

Thàinig am figear 15 × a-mach à coimeas cumhang: coileanadh GPT-5.3-Codex-Spark air fo-sheata sìoltachaidh de ghnìomhan SWE-Bench Pro - gu sònraichte, an fheadhainn a tha air an seòrsachadh mar “iom-fhillteachd beag” le tuairisgeulan cùise soilleir le deagh raon agus cùisean deuchainn fàiligeadh a tha ann mar-thà. Anns an àrainneachd chuingealaichte sin, dh’ fhuasgail am modail timcheall air 15 × barrachd chùisean na a’ bhun-loidhne ris an deach coimeas a dhèanamh, a bha na àidseant còdaidh mòran nas laige na bu thràithe.

Tha an duilgheadas a’ cur ri claonadh taghaidh bun-loidhne. Cha b’ e siostam cho-aoisean a bh’ anns a’ mhodail coimeas a chaidh a chleachdadh mar an t-ainmiche - b’ e LLM adhbhar coitcheann a bh’ ann gun sgafallachd àidseant, air a chuir an sàs ann an gnìomhan còdaidh taobh a-muigh an targaid optimization aige. Le bhith ag ath-àireamhachadh an aghaidh bun-loidhne ceart cho-aoisean (siostam còdaidh àidseant co-aimsireil le sgafallachd coimeasach) tuitidh sinn an co-mheas sin gu timcheall air 1.37 ×. Chan e snìomh a tha sin - is e sin a chanas na h-àireamhan nuair a tha an coimeas onarach.

Prìomh shealladh: Chan eil iomadachadh slat-tomhais ach cho creidsinneach ris an t-seòrsaiche aige. Chan eil leasachadh 15 × thairis air bun-loidhne connlaich na leasachadh 15 × thairis air an ìre as ùire - agus ma chosgas e an dà chuid airgead dha-rìribh do ghnìomhachasan ann am buidseatan innealan mì-riaraichte.

Dè tha ~1.37 × a’ ciallachadh dha-rìribh airson leasachadh bathar-bog san fhìor shaoghal?

Tha leasachadh 37% ann am fuasgladh chùisean fèin-riaghailteach fhathast brìoghmhor - ach tha feum air frèamadh onarach. Seo mar a tha an àireamh sin ag eadar-theangachadh ann an cleachdadh:

  • Tha buannachdan tro chur-a-steach mean air mhean, chan e cruth-atharrachail: Dh’ fhaodadh sgiobaidhean a bhios a’ làimhseachadh 100 tiogaid bug gach sprint fèin-ghluasad a dhèanamh air 5–8 rùn a bharrachd, chan e 85.
  • Lèirmheas daonna fhathast riatanach: Fiù ‘s aig coileanadh 1.37 ×, tha càileachd paiste air cùisean iom-fhillte, ioma-fhaidhlichean neo-chunbhalach agus feumar dearbhadh bhon leasaiche mus tèid an aonachadh.
  • Tha ROI a' crochadh air sgaoileadh nan gnìomhan: Ma tha an cùl-stòr agad a' dol a dh'ionnsaigh cùisean beaga, bheir thu a-mach barrachd luach; ma tha e fo smachd draghan ailtireil no tar-ghearraidh, chan eil mòran bhuannachdan ann.
  • Cùisean os cionn aonachadh: Tha feum air orcastra, stiùireadh dìomhaireachd, agus dubhan CI/CD airson cleachdadh siostam còdaidh àidseant - cosgaisean a dh’ fheumar a thomhas mu choinneamh cnap trochur de 37%.
  • Chan eil coileanadh a’ chomharran-tomhais co-ionann ri coileanadh cinneasachaidh: Bidh SWE-Bench Pro a’ cleachdadh stòran glèidhte; bheir an còd-còd a-staigh agad, le gnàthasan sònraichte agus fiachan teicnigeach cruinnichte, toraidhean eadar-dhealaichte.

Ciamar a bu chòir do ghnìomhachasan innealan còdaidh AI a mheasadh gun a bhith air am mealladh le comharran-tomhais?

Tha an ath-àireamhachadh GPT-5.3-Codex-Spark na sgrùdadh cùise air carson a tha feum aig gnìomhachasan air frèam measaidh structaraichte seach àireamhan foillsichte le reiceadair. Tòisich le bhith ag aithneachadh an fhìor chuairteachadh gnìomh agad - dè an ceudad den chùl-raon innleadaireachd agad a tha air a dhèanamh suas de bhiteagan fèin-chumanta, le deagh shònrachadh an aghaidh obair feart fosgailte no ath-fhactaraidh? An uairsin pìleat inneal còdaidh AI sam bith an aghaidh sampall riochdachail de na cùisean agad fhèin, chan e slatan-tomhais synthetigeach.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

A bharrachd air ìrean mionaideachd, tomhais lughdachadh ùine rothaireachd, ìrean dearbhach meallta (pìosan a thèid seachad air deuchainnean ach a bheir a-steach ath-thilleadh), agus na h-uairean innleadaireachd a tha riatanach airson innleadaireachd sgiobalta agus ath-sgrùdadh paiste. Faodaidh inneal a dh ’fhuasgladh 40% a bharrachd chùisean ach a dh’ fheumas 30% a bharrachd ùine ath-bhreithneachaidh cinneasachd lom àicheil a lìbhrigeadh don sgioba sònraichte agad. Chan e a’ cheist cheart “dè tha an slat-tomhais ag ràdh?” — 's e "dè nì an t-inneal seo airson mo codebase, mo sgioba, agus mo sruth-obrach?"

Ciamar as urrainn do OS gnìomhachais uile-ann-aon do chuideachadh gus co-dhùnaidhean inneal AI nas glice a dhèanamh?

Seo far am bi Mewayz buntainneach gu dìreach. Tha Mewayz na shiostam obrachaidh gnìomhachais 207-modal air a chleachdadh le còrr air 138,000 neach-cleachdaidh, a chaidh a thogail gus daingneachadh an inneal sprawling air a bheil gnìomhachasan an latha an-diugh an urra - bho riaghladh pròiseict agus CRM gu sruthan obrach susbaint agus co-obrachadh sgioba. Nuair a bhios tu a’ dèanamh measadh am bu chòir dhut àidseant còdaidh AI, àrd-ùrlar fèin-ghluasaid margaidheachd, no inneal sam bith eile le cumhachd AI fhilleadh a-steach, tha siostam meadhanaichte agad gus sùil a chumail air uchd-mhacachd, càileachd toraidh a thomhas, agus cosgaisean a dhaingneachadh na bhuannachd ro-innleachdail.

An àite a bhith a’ dèanamh cho-dhùnaidhean iomallach mu innealan fa leth stèidhichte air cinn-litrichean, tha Mewayz a’ toirt faicsinneachd obrachaidh do sgiobaidhean pìleatan structaraichte a-staigh a ruith, coimeas a dhèanamh eadar coileanadh agus fìor mheatairean gnìomhachais, agus riaghladh aonachadh taobh a-staigh àrd-ùrlar aonaichte - aig planaichean a’ tòiseachadh bho dìreach $19 gu $49 gach mìos. Sin an seòrsa bun-structair a tha a’ tionndadh AI hype gu bhith na bhuannachdan cinneasachd cunntachail, a ghabhas tomhas.

Ceistean Bitheanta

Dè a th’ ann an GPT-5.3-Codex-Spark agus ciamar a tha e a’ coileanadh air SWE-Bench Pro?

Tha GPT-5.3-Codex-Spark na mhodail còdaidh àidseant sònraichte air a mheasadh air SWE-Bench Pro, slat-tomhais a’ tomhas fuasgladh fèin-riaghailteach air cùisean GitHub san t-saoghal fhìor. Fhad ‘s a bha tagraidhean reiceadair ag ainmeachadh leasachadh 15 ×, tha ath-àireamhachadh neo-eisimeileach a’ cleachdadh bun-loidhne cho-aoisean ceart a ’nochdadh gu bheil an fhìor bhuannachd coileanaidh timcheall air 1.37 × thairis air siostaman co-aimsireil coimeasach - leasachadh brìoghmhor ach fada nas lugha na tha am prìomh fhigear a’ moladh.

Carson a bheir ath-àireamhachadh slat-tomhais a-mach àireamhan cho eadar-dhealaichte?

Tha iomadachaidhean comharran-tomhais gu math mothachail air taghadh bun-loidhne. Rinn am figear 15 × coimeas eadar GPT-5.3-Codex-Spark an aghaidh bun-loidhne lag, neo-ghnìomhach seach àidseant còdaidh cho-aoisean. Nuair a bhios tu ag ath-àireamhachadh a’ cleachdadh siostam àidseant co-aimsireil le sgafallachd co-ionann, tuitidh an delta dèanadais bho 15 × gu ~ 1.37 ×. Tha seo na phàtran aithnichte ann an slat-tomhais AI far a bheil roghainnean bun-loidhne fàbharach ag àrdachadh buannachdan follaiseach gun a bhith a’ mì-riochdachadh sgòran amh.

Ciamar a bu chòir do sgiobaidhean leasachaidh toraidhean SWE-Bench Pro a chleachdadh nuair a thaghas iad innealan còdaidh AI?

Dèilig sgòran SWE-Bench Pro mar chomharradh, chan e co-dhùnadh. Coimhead airson follaiseachd ann an taghadh bun-loidhne, dearbhaich gu bheil na gnìomhan slat-tomhais coltach ris an fhìor eallach obrach agad, agus an-còmhnaidh ruith pìleat a-staigh air sliseag riochdaire den bhun-chòd agad fhèin mus dèan thu gealltainn inneal. Cuir ri dàta slat-tomhais le meatrach cinneasachaidh: ìrean gabhail ri paiste, ath-sgrùdadh os cionn, ìrean ais-tharraing, agus sgòran riarachaidh leasaiche.


Is e gearradh tro fhuaim slat-tomhais dìreach an seòrsa smachd co-dhùnaidh a tha a’ sgaradh sgiobaidhean àrd-choileanaidh bhon fheadhainn a tha a’ ruith innealan. Bheir Mewayz bunait obrachaidh don ghnìomhachas agad airson measadh, amalachadh agus tomhas a h-uile inneal - AI no eile - le soilleireachd agus cunntachalachd. Le 207 modal a’ còmhdach farsaingeachd gnìomhachd gnìomhachais an latha an-diugh agus planaichean a’ tòiseachadh aig $19/mìos, is e an OS gnìomhachais a chaidh a thogail airson sgiobaidhean a tha ag iarraidh toraidhean, chan e cinn-naidheachd.

Tòisich an t-àite-obrach Mewayz agad an-diugh aig app.mewayz.com agus thoir an aon smaoineachadh teann, stèidhichte air dàta gu gach pàirt den ghnìomhachas agad - chan e dìreach do stac AI.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime