Hacker News

Apache Arrow 10 salî ye

Apache Arrow 10 salî ye Vê analîza berfireh a apache lêkolînek hûrgulî ya pêkhateyên wê yên bingehîn û encamên berfirehtir pêşkêşî dike. Herêmên sereke yên Focus Nîqaş li ser: Mekanîzma û pêvajoyên bingehîn ...

11 min read Via arrow.apache.org

Mewayz Team

Editorial Team

Hacker News

Apache Arrow, platforma pêşkeftina hev-zimanî ya vekirî-çavkaniya vekirî ya ji bo daneyên di bîranînê de, 10-emîn salvegera xwe di sala 2026-an de pîroz dike - qonaxek ku dehsalek veguherînek nîşan dide ka karsaziyên nûjen çawa daneyan bi pîvan pêvajoyê dikin, parve dikin û analîz dikin. Ji eslê xwe yê nefsbiçûk wekî taybetmendiyek forma bîranînê ya stûnî, Arrow bûye yek ji qatên herî bingehîn ên stûna daneya nûjen, bi bêdengî hêz dide amûrên ku bi mîlyonan pêşdebir û analîst her roj xwe dispêrin wan.

Bi rastî Apache Arrow Çi ye û Çima Ew Ji Roja Yekem ve Girîng bû?

Apache Arrow ji xemgîniyek hêsan lê kûr çêbû: her amûrek daneyê bi zimanek navxweyî ya cihê diaxivî. Pandas xwedan rêzika bîranîna xwe bû. Spark din hebû. R dîsa hebû. Her gava ku dane di navbera pergalan de diçûn, diviyabû ku ew bi serialîzekirin, deserialîzekirin û ji nû ve formatkirin - pêvajoyek ku çerxên CPU-yê dişewitîne, bîranînê dixwe, û derengiyê li boriyên ku tîmê hewce dikir bilez be zêde dike.

Pêşniyara Arrow xweş bû: formatek bîra stûnî ya yekane û standardkirî ku her zimanek an dema xebitandinê dikare bêyî kopîkirin an veguheztinê bixwîne diyar bike. Dema ku skrîptek Python bi Arrowê daneyan dide pirtûkxaneya Rust, ti veguhertin çênabe. Bitikên li ser rûpelê yek in. Di cîhanek ku endezyariya daneyê her ku diçû pir zêde dibû, ev pêwendiya kopiya sifir bi rastî şoreşger bû.

Di salên xwe yên yekem de, Arrow ji tîmên li pişt Pandas, Dremio, Wes McKinney, û lîstikvanên sereke yên binesaziya ewr beşdar bûn. Rastiya ku ew di sala 2016-an de ji înkubasyona Apache-yê bi piştgiriyek wusa berfireh a pîşesaziyê mezûn bû, nîşan da ku civata daneyê nas kir ku ev ne tenê formek din e - ew hewldanek bû ku di asta binesaziyê de pirsgirêkek pergalê çareser bike.

Apache Arrow Di Deh salên Raborî de Çawa Pêşve çû?

Di deh salan de, Arrow ji formatek bîranînê pir wêdetir e. Proje di ekosîstemek dewlemend a taybetmendî û pêkanînên têkildar de berfireh bûye:

  • Firîna Arrow: Protokolek veguheztina daneyê ya bi performansa bilind ku li ser gRPC hatî çêkirin, dihêle ku daneyên Arrow di navbera karûbaran de bi leza têl bêyî sernavê serialkirinê bigerin.
  • Arrow Flight SQL: Berfirehkirinek ku destûrê dide databasan ku bi karanîna Arrow Flight navbeynkariyên SQL derxînin holê, çerxa lêgerîn-encam-fetchê ya kevneşopî di nav herikek bikêrhatî de hilweşîne.
  • Apache Arrow DataFusion: Motora lêpirsînê ya Rust-a xwecî ku Arrow wekî formata xweya bîranîna xwemalî bikar tîne, analîtîkên bicîbûyî bêyî pêvajoyek databasa cihê çalak dike.
  • ADBC (Pêwendiya Database Arrow): API-ya girêdana databasê ya ku li gorî ODBC û JDBC hatî model kirin, lê Arrow-xwecihî ye, dihêle ku sepan li databasan bipirsin û encaman rasterast di forma Arrow de werbigirin.
  • Forma IPC-a Arrow: Pelê û formatek weşana ku dihêle daneyên Arrow-ê di nav pêvajo û makîneyan de bi heman karîgeriya sifir-kopîkirinê were domandin û veguheztin.

Di nav 13 pêkanînên zimanên fermî de - di nav de C++, Java, Go, Rust, Python, JavaScript, C#, û hêj bêtir - Arrow gihîştiye celebê pejirandina cross-ekosîstema ku piraniya projeyên çavkaniya vekirî tenê li ser xewnan dibînin. Pirtûkxaneyên mîna Polars, DuckDB, û InfluxDB 3.0 tevahiya motorên xwe li dora formata stûnî ya Arrow ava kirine, û ne wekî qatek pêvekêşanê lê wekî nûnertiya daneya bingehîn digirin dest.

Çi Bandora Dinyaya Rastî Tîr li Karsaziyên Dane-Davan Hebû?

"Apache Arrow ne tenê daneyan bileztir hişt - ew ji nû ve diyar kir ku qata daneya platformek karsaziyê çawa dikare xuya bike. Dema ku binesaziya di standardan de winda bibe, çêker dikarin bala xwe bidin ser nirxê."

Bandora karsaziya Arrow di du deveran de herî zêde xuya ye: kêmkirina lêçûn û leza dubarekirinê. Tîmên ku berê demjimêrên derengiya boriyê ji bo tevgera daneya cross-pergalê budce dikirin, naha bi milî çirkeyan dipîvin. Analîtîkên ku ji komikên depoya daneya diyarkirî hewce dikirin, naha dikarin di serverên serîlêdanê de bi karanîna DataFusion an DuckDB-ê vebikin. Kêmkirina lêçûna xebitandinê tê pîvandin - û ji bo karsaziyên ku bi pîvanê dixebitin, girîng e.

Ji bo pergalên xebitandinê yên karsaziya nûjen ên mîna Mewayz, ku 207 modulên ku CRM, kirrûbirra, e-bazirganî, plansazkirin, û analîtîk di nav platformek yek de vedihewîne yek dike, dersên mîmarî yên Arrow bi kûr ve têkildar in. Nûnertiya daneya navxweyî ya standardkirî, tevgera bikêrhatî ya di navbera karûbaran de, û parvekirina zero-kopî ya di navbera modulan de tam taybetmendiyên endezyariyê ne ku dihêle ku pergalek 207-module hevgirtî û bilez bimîne bêyî ku bibe tevliheviyek tevlihev a entegrasyonên diyarkirî.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

Mîmariya Arrow bi Nêzîktêdayînên Veguheztina Daneyên Kevneşopî re Çawa Berawird Dike?

Berî Arrow, formatên danûstendinê yên serdest rêz-oriented bûn: CSV, JSON, û firotgehên rêza peywendîdar. Van formatan xwendin û nerm in, lê ji bo barkêşên analîtîk ên ku stûnan di nav mîlyon rêzan de dişoxilînin, kûr bêbandor in. Xwendina stûnek yek ji CSV tê wateya parkirina her rêzê. Xwendina stûnek ji tabloya Tîrê tê wateya şopandina bîranînê ya yekgirtî - operasyonek ku xetên cacheya CPU têr dike û ji vektorîzasyona SIMD sûd werdigire.

Li gorî Parquet, pismamê herî nêzîk ê Arrow, cihêrengiya sereke di bîranînê de li hember xweşbînkirina dîskê ye. Parket ji bo hilanîn û xwendina li pey hev pir tê pêçan û xweşbîn e. Arrow ji bo hesabkirina çalak xweştir e - ew formata ku hûn bikar tînin dema ku dane zindî ne û têne hilberandin, ne dema ku ew li ser dîskê radiweste. Di pratîkê de, pergalên daneya nûjen herduyan bikar tînin: Parket ji bo hilanînê, Arrow ji bo hesabkirinê, bi veguhertina bikêrhatî di navbera wan de.

Dersa ji bo mîmarên nermalava karsaziyê ev e ku hilbijartina formatê ne biryarek bêalî ye. Hilberîna rêz-oriented nivîsandina danûstendinê bilez dike. Nûnertiya stûnê ya di bîranînê de xwendina analîtîk bilez dike. Platformek gihîştî her duyan jî bi rê ve dibe, di wextê rast de daneyan bi nûnertiya rast dişoxilîne - tam celebek binesaziya nedîtbar ku ferqê di navbera platformek ku mezin dibe û ya ku nake de dike.

Dehsala Pêşîn ji bo Apache Arrow çawa xuya dike?

Trajektora Arrow ber bi pêvekirina kûrtir û standardîzekirina firehtir ve îşaret dike. Gava ku barkêşên AI û fêrbûna makîneyê ji bo karûbarên karsaziyê dibin navend, forma stûnê ya Arrow bi xwezayî bi nûnertiyên tensor ên ku di çarçoveyên ML-yê de têne bikar anîn re hevaheng dike. Proje jixwe Arrow-ê wekî pirek di navbera daneyên karsaziya tabloyî û lûleyên ML-ya xwemalî yên tensor-ê de vedikolin, sermaya veguherînê ya ku niha boriyên taybetmendiya AI-ê hêdî dike kêm dike.

Înîsiyatîfa ADBC pêşerojek pêşnîyar dike ku koda serîlêdanê li her databasê dipirse û encaman bi rengek gerdûnî ya ku tê xerckirin distîne, bêyî kêşeyên ajoker-taybet an bacên serialîzasyonê. Ji bo platformên SaaS ku çavkaniyên daneya cihêreng di nav bi hezaran xerîdar de birêve dibin, ev celeb standardîzekirin di qata pêwendiyê de bi qasî ku HTTP ji bo karûbarên malperê bingeh bû.

Pirsên Pir Pir tên Pirsîn

Apache Arrow databasek e an formatek pelê ye?

Apache Arrow ne databasek e û ne jî formatek pelê ya hêsan e - ew taybetmendiyek e ji bo nûnertiya daneya stûnî ya nav-bîrê, digel malbatek protokol û amûrên têkildar. Weke zimanekî hevpar bifikirin ku databasên cihêreng, motorên lêpirsînê, û zimanên bernamesaziyê yên cihêreng dikarin bi xwemalî biaxivin, serweriya wergerê ya ku bi gelemperî dema ku dane sînorên pergalê derbas dikin ji holê radikin.

Ma Apache Arrow şûna Parquet digire?

Na - Arrow û Parquet pirsgirêkên cûda çareser dikin û bi hev re çêtirîn dixebitin. Parquet ji bo hilanîna pêçandî, bikêrhatî ya li ser dîskê xweşbîn e û ji bo golên daneyan forma pelê stûnek serdest e. Arrow ji bo hesabkirina nav-bîrê û parvekirina daneya-pergalê bêyî kopîkirinê xweşbîn e. Pergalên daneya nûjen bi gelemperî daneyan wekî Parquet hilînin û ji bo pêvajoyek çalak di forma Arrow de bar dikin.

Apache Arrow çawa bi platformên nermalava karsaziyê re têkildar e?

Ji bo platformên karsaziyê yên yekbûyî, prensîbên mîmarî yên Arrow - temsîla daneya navxweyî ya standardkirî, parvekirina sifir-kopî di navbera pêkhateyan de, û gihîştina analîtîk a bikêr - rasterast bandor dike ka pergalek pir-modul bêyî berhevkirina deynê entegrasyonê çiqasî baş dikare pîvan bike. Platformên ku van prensîban di hundurê xwe de dihêlin dikarin fonksiyoneliyê lê zêde bikin bêyî ku tevliheviyê zêde bikin.

Li Mewayz, me pergalek xebitandina karsaziya 207-module ava kir ku ji hêla zêdetirî 138,000 karsazî li çaraliyê cîhanê ve tê bikar anîn, ji CRM û kirrûbirra e-nameyê bigire heya e-bazirganî û analîtîk di yek platformek hevgirtî de. Mîna nêzîkatiya Arrow ya ji binesaziya daneyê, em bawer dikin ku nermalava karsaziya mezin divê di tevliheviya xwe de nedîtbar û di nirxa xwe de diyar be. Plan bi tenê 19 $/mehê dest pê dikin.

Dîraza xwe ya belaş li app.mewayz.com dest pê bikin û biceribînin ku OS-ya karsaziyek bi rastî ya yekbûyî çawa dixuye - li ser heman felsefeyê hatî çêkirin ku Apache Arrow neçar kir: xebata dijwar di asta binesaziyê de bikin da ku çêker li ser tiştên girîng bisekinin.