Hacker News

Apache Arrow មានអាយុ 10 ឆ្នាំ។

Apache Arrow មានអាយុ 10 ឆ្នាំ។ ការវិភាគដ៏ទូលំទូលាយនៃ apache នេះផ្តល់នូវការពិនិត្យលម្អិតនៃសមាសធាតុស្នូលរបស់វា និងផលប៉ះពាល់យ៉ាងទូលំទូលាយ។ តំបន់សំខាន់ៗនៃការផ្តោតអារម្មណ៍ ការពិភាក្សាផ្តោតលើ៖ យន្តការ និងដំណើរការស្នូល ...

1 min read Via arrow.apache.org

Mewayz Team

Editorial Team

Hacker News

Apache Arrow ដែលជាវេទិកាអភិវឌ្ឍន៍ភាសាឆ្លងប្រភពបើកចំហសម្រាប់ទិន្នន័យក្នុងអង្គចងចាំ ប្រារព្ធខួបលើកទី 10 របស់ខ្លួននៅឆ្នាំ 2026 ដែលជាព្រឹត្តិការណ៍ដ៏សំខាន់មួយដែលកត់សម្គាល់រយៈពេលមួយទសវត្សរ៍នៃការផ្លាស់ប្តូររបៀបដែលអាជីវកម្មទំនើបដំណើរការ ចែករំលែក និងវិភាគទិន្នន័យតាមខ្នាត។ ពីប្រភពដើមដ៏រាបទាបរបស់វា ជាការបញ្ជាក់ទ្រង់ទ្រាយអង្គចងចាំជួរឈរ Arrow បានរីកចម្រើនទៅជាស្រទាប់មូលដ្ឋានបំផុតមួយនៃបណ្តុំទិន្នន័យទំនើប ឧបករណ៍ផ្តល់ថាមពលដោយស្ងាត់ស្ងៀម ដែលអ្នកអភិវឌ្ឍន៍ និងអ្នកវិភាគរាប់លាននាក់ពឹងផ្អែកលើជារៀងរាល់ថ្ងៃ។

តើ Apache Arrow ជាអ្វីពិតប្រាកដ ហើយហេតុអ្វីបានជាវាសំខាន់តាំងពីថ្ងៃដំបូង?

Apache Arrow កើតចេញពីការខកចិត្តដ៏សាមញ្ញមួយ ប៉ុន្តែយ៉ាងជ្រាលជ្រៅ៖ រាល់ឧបករណ៍ទិន្នន័យនិយាយភាសាខាងក្នុងផ្សេងគ្នា។ ខ្លាឃ្មុំផេនដាមានប្លង់អង្គចងចាំផ្ទាល់ខ្លួន។ Spark មានមួយទៀត។ R មានមួយទៀត។ រាល់ពេលដែលទិន្នន័យផ្លាស់ទីរវាងប្រព័ន្ធ វាត្រូវតែត្រូវបានសៀរៀល បំបែក និងធ្វើទ្រង់ទ្រាយឡើងវិញ — ដំណើរការដែលដុតបំផ្លាញស៊ីភីយូ ស៊ីមេម៉ូរី និងបន្ថែមភាពយឺតយ៉ាវទៅកាន់បំពង់ដែលក្រុមត្រូវការលឿន។

សំណើរបស់ Arrow មានភាពឆើតឆាយ៖ កំណត់ទម្រង់អង្គចងចាំជួរឈរស្តង់ដារតែមួយ ដែលភាសា ឬពេលដំណើរការអាចអានបានដោយមិនចាំបាច់ចម្លង ឬបំប្លែង។ នៅពេលដែលស្គ្រីប Python ប្រគល់ទិន្នន័យទៅបណ្ណាល័យ Rust តាមរយៈព្រួញ គ្មានការបំប្លែងណាមួយកើតឡើងទេ។ ប៊ីតនៅលើទំព័រគឺដូចគ្នា។ ភាពអន្តរប្រតិបត្តិការនៃការចម្លងសូន្យនេះគឺជាការបដិវត្តយ៉ាងពិតប្រាកដនៅក្នុងពិភពលោកដែលវិស្វកម្មទិន្នន័យកំពុងក្លាយជាពហុកោណកាន់តែខ្លាំងឡើង។

នៅក្នុងឆ្នាំដំបូងរបស់ខ្លួន Arrow បានទាក់ទាញការរួមចំណែកពីក្រុមដែលនៅពីក្រោយ Pandas, Dremio, Wes McKinney និងអ្នកលេងហេដ្ឋារចនាសម្ព័ន្ធពពកសំខាន់ៗ។ ការពិតដែលថាវាបានបញ្ចប់ការសិក្សាពីកម្មវិធី Apache incubation ក្នុងឆ្នាំ 2016 ជាមួយនឹងការគាំទ្រផ្នែកឧស្សាហកម្មយ៉ាងទូលំទូលាយបែបនេះ បានបង្ហាញសញ្ញាថាសហគមន៍ទិន្នន័យបានទទួលស្គាល់នេះមិនមែនគ្រាន់តែជាទម្រង់មួយផ្សេងទៀតនោះទេ វាគឺជាការប៉ុនប៉ងដើម្បីដោះស្រាយបញ្ហាប្រព័ន្ធនៅកម្រិតហេដ្ឋារចនាសម្ព័ន្ធ។

តើ Apache Arrow បានវិវឌ្ឍន៍យ៉ាងណាក្នុងទសវត្សរ៍កន្លងមក?

ដប់ឆ្នាំមកនេះ ព្រួញគឺលើសពីទម្រង់អង្គចងចាំ។ គម្រោង​នេះ​បាន​ពង្រីក​ទៅ​ក្នុង​ប្រព័ន្ធ​អេកូឡូស៊ី​ដ៏​សម្បូរ​បែប​នៃ​ការ​បញ្ជាក់​និង​ការ​អនុវត្ត​ពាក់ព័ន្ធ៖

  • ការហោះហើរព្រួញ៖ ពិធីការដឹកជញ្ជូនទិន្នន័យដែលមានប្រសិទ្ធភាពខ្ពស់ដែលបង្កើតឡើងនៅលើ gRPC ដែលអនុញ្ញាតឱ្យទិន្នន័យព្រួញផ្លាស់ទីរវាងសេវាកម្មក្នុងល្បឿនខ្សែដោយមិនមានសៀរៀលពីលើក្បាល។
  • Arrow Flight SQL៖ ផ្នែកបន្ថែមដែលអនុញ្ញាតឱ្យមូលដ្ឋានទិន្នន័យបង្ហាញចំណុចប្រទាក់ SQL ដោយប្រើ Arrow Flight ដោយបង្រួមវដ្តសំណួរ-លទ្ធផល-fetch ប្រពៃណីទៅជាស្ទ្រីមដ៏មានប្រសិទ្ធភាពតែមួយ។
  • Apache Arrow DataFusion៖ ម៉ាស៊ីន​សំណួរ​ដើម​ច្រែះ​ដែល​ប្រើ​ព្រួញ​ជា​ទ្រង់ទ្រាយ​អង្គ​ចងចាំ​ដើម​របស់វា បើក​ការ​វិភាគ​ដែល​បង្កប់​ដោយ​មិន​ចាំបាច់​មាន​ដំណើរការ​មូលដ្ឋាន​ទិន្នន័យ​ដាច់ដោយឡែក។
  • ADBC (ការភ្ជាប់មូលដ្ឋានទិន្នន័យព្រួញ)៖ API ការតភ្ជាប់មូលដ្ឋានទិន្នន័យដែលបានយកគំរូតាម ODBC និង JDBC ប៉ុន្តែ Arrow-native ដែលអនុញ្ញាតឱ្យកម្មវិធីសាកសួរមូលដ្ឋានទិន្នន័យ និងទទួលលទ្ធផលដោយផ្ទាល់ជាទម្រង់ព្រួញ។
  • ទម្រង់ Arrow IPC៖ ឯកសារ និងទម្រង់ស្ទ្រីមដែលអនុញ្ញាតឱ្យទិន្នន័យ Arrow ត្រូវបានបន្ត និងផ្លាស់ប្តូរនៅទូទាំងដំណើរការ និងម៉ាស៊ីនជាមួយនឹងប្រសិទ្ធភាពនៃការចម្លងសូន្យដូចគ្នា។

តាមរយៈការអនុវត្តភាសាផ្លូវការចំនួន 13 — រួមមាន C++, Java, Go, Rust, Python, JavaScript, C# និងច្រើនទៀត — Arrow សម្រេចបាននូវប្រភេទនៃការទទួលយកប្រព័ន្ធអេកូឆ្លង ដែលគម្រោងប្រភពបើកចំហភាគច្រើនស្រមៃចង់បាន។ បណ្ណាល័យដូចជា Polars, DuckDB និង InfluxDB 3.0 បានបង្កើតម៉ាស៊ីនទាំងមូលរបស់ពួកគេជុំវិញទម្រង់ Arrow columnar ដោយចាត់ទុកវាមិនមែនជាស្រទាប់អន្តរប្រតិបត្តិការទេ ប៉ុន្តែជាតំណាងទិន្នន័យស្នូលរបស់ពួកគេ។

តើ​ព្រួញ​មាន​ឥទ្ធិពល​អ្វី​លើ​ពិភព​លោក​លើ​អាជីវកម្ម​ដែល​ជំរុញ​ដោយ​ទិន្នន័យ?

"Apache Arrow មិនត្រឹមតែធ្វើឱ្យទិន្នន័យផ្លាស់ទីលឿនជាងមុនប៉ុណ្ណោះទេ វាបានកំណត់ឡើងវិញនូវអ្វីដែលស្រទាប់ទិន្នន័យនៃវេទិកាអាជីវកម្មអាចមានរូបរាង។ នៅពេលដែលហេដ្ឋារចនាសម្ព័ន្ធបាត់បង់ទៅជាស្តង់ដារ អ្នកសាងសង់អាចផ្តោតលើតម្លៃ។"

ឥទ្ធិពលអាជីវកម្មរបស់ Arrow គឺអាចមើលឃើញច្រើនបំផុតនៅក្នុងផ្នែកពីរ៖ ការកាត់បន្ថយថ្លៃដើម និងល្បឿនដំណើរការឡើងវិញ។ ក្រុមដែលធ្លាប់បានកំណត់ថវិការាប់ម៉ោងនៃភាពយឺតយ៉ាវនៃបំពង់សម្រាប់ចលនាទិន្នន័យឆ្លងប្រព័ន្ធឥឡូវនេះវាស់ជាមិល្លីវិនាទី។ ការវិភាគដែលទាមទារចង្កោមឃ្លាំងទិន្នន័យដែលខិតខំប្រឹងប្រែងឥឡូវនេះអាចដំណើរការបានបង្កប់នៅក្នុងម៉ាស៊ីនមេកម្មវិធីដោយប្រើ DataFusion ឬ DuckDB ។ ការកាត់បន្ថយថ្លៃដើមប្រតិបត្តិការគឺអាចវាស់វែងបាន ហើយសម្រាប់អាជីវកម្មដែលដំណើរការតាមខ្នាត វាមានសារសំខាន់។

សម្រាប់ប្រព័ន្ធប្រតិបត្តិការអាជីវកម្មទំនើបដូចជា Mewayz ដែលរួមបញ្ចូលម៉ូឌុលចំនួន 207 ដែលលាតសន្ធឹងលើ CRM ទីផ្សារ e-commerce ការកំណត់កាលវិភាគ និងការវិភាគទៅក្នុងវេទិកាតែមួយ មេរៀនស្ថាបត្យកម្មរបស់ Arrow គឺពាក់ព័ន្ធយ៉ាងជ្រាលជ្រៅ។ ការតំណាងទិន្នន័យខាងក្នុងស្តង់ដារ ចលនាប្រកបដោយប្រសិទ្ធភាពរវាងសេវាកម្ម និងការចែករំលែកសូន្យចម្លងរវាងម៉ូឌុលគឺពិតជាលក្ខណៈសម្បត្តិវិស្វកម្មដែលអនុញ្ញាតឱ្យប្រព័ន្ធ 207-ម៉ូឌុលរក្សាភាពស៊ីសង្វាក់គ្នា និងលឿនដោយមិនក្លាយជាភាពច្របូកច្របល់នៃការរួមបញ្ចូលតាមតម្រូវការ។

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

តើ​ស្ថាបត្យកម្ម​ព្រួញ​ប្រៀប​ធៀប​នឹង​វិធី​ផ្លាស់​ប្តូរ​ទិន្នន័យ​បែប​បុរាណ​ដោយ​របៀប​ណា?

មុននឹង Arrow ទម្រង់ផ្លាស់ប្តូរលេចធ្លោត្រូវបានតម្រង់ជួរ៖ CSV, JSON និងហាងជួរដេកទំនាក់ទំនង។ ទម្រង់ទាំងនេះអាចអានបាន និងអាចបត់បែនបាន ប៉ុន្តែគ្មានប្រសិទ្ធភាពខ្លាំងសម្រាប់បន្ទុកការងារវិភាគ ដែលស្កេនជួរឈរឆ្លងកាត់រាប់លានជួរ។ ការអានជួរឈរតែមួយពី CSV មានន័យថាញែកគ្រប់ជួរ។ ការអានជួរឈរពីតារាងព្រួញមានន័យថាការស្កេនអង្គចងចាំជាប់គ្នាតែមួយ - ប្រតិបត្តិការដែលបំពេញបន្ទាត់ឃ្លាំងសម្ងាត់ស៊ីភីយូ និងអត្ថប្រយោជន៍ពីការធ្វើវ៉ិចទ័រស៊ីមឌី។

បើប្រៀបធៀបទៅនឹង Parquet ដែលជាបងប្អូនជីដូនមួយជិតស្និទ្ធបំផុតរបស់ Arrow ភាពខុសគ្នាសំខាន់គឺនៅក្នុងអង្គចងចាំធៀបនឹងការបង្កើនប្រសិទ្ធភាពនៅលើឌីស។ Parquet ត្រូវបានបង្ហាប់យ៉ាងខ្លាំង និងធ្វើឱ្យប្រសើរសម្រាប់ការផ្ទុក និងការអានតាមលំដាប់លំដោយ។ ព្រួញ​ត្រូវ​បាន​ធ្វើ​ឱ្យ​ប្រសើរ​ឡើង​សម្រាប់​ការ​គណនា​សកម្ម — វា​គឺ​ជា​ទម្រង់​ដែល​អ្នក​ប្រើ​នៅ​ពេល​ដែល​ទិន្នន័យ​នៅ​មាន​ជីវិត និង​កំពុង​ត្រូវ​បាន​ដំណើរការ មិន​មែន​នៅ​ពេល​ដែល​វា​សម្រាក​នៅ​លើ​ថាស​នោះ​ទេ។ នៅក្នុងការអនុវត្តជាក់ស្តែង ប្រព័ន្ធទិន្នន័យទំនើបប្រើទាំងពីរ៖ ប៉ារ៉ាក់សម្រាប់ផ្ទុក ព្រួញសម្រាប់ការគណនា ជាមួយនឹងការបំប្លែងដ៏មានប្រសិទ្ធភាពរវាងពួកវា។

មេរៀនសម្រាប់ស្ថាបត្យករកម្មវិធីអាជីវកម្មគឺថា ការជ្រើសរើសទម្រង់មិនមែនជាការសម្រេចចិត្តអព្យាក្រឹតទេ។ ការផ្ទុកតម្រង់ជួរធ្វើឱ្យប្រតិបត្តិការសរសេរលឿន។ ការ​តំណាង​ជួរ​ឈរ​ក្នុង​អង្គ​ចងចាំ​ធ្វើ​ឱ្យ​ការ​អាន​វិភាគ​បាន​លឿន។ វេទិកាដែលមានភាពចាស់ទុំគ្រប់គ្រងទាំងពីរ ដោយបញ្ជូនទិន្នន័យតាមរយៈការតំណាងត្រឹមត្រូវនៅពេលដ៏ត្រឹមត្រូវ — ជាប្រភេទហេដ្ឋារចនាសម្ព័ន្ធដែលមើលមិនឃើញ ដែលបង្កើតភាពខុសគ្នារវាងវេទិកាដែលធ្វើមាត្រដ្ឋាន និងមួយដែលមិនមាន។

តើ​ទសវត្សរ៍​ក្រោយ​មើលទៅ​ដូច​ម្តេច​សម្រាប់ Apache Arrow?

គន្លង​នៃ​ព្រួញ​ចង្អុល​ឆ្ពោះ​ទៅ​រក​ការ​បង្កប់​កាន់តែ​ស៊ីជម្រៅ និង​ស្តង់ដារ​ទូលំទូលាយ។ នៅពេលដែលបន្ទុកការងាររបស់ AI និងម៉ាស៊ីនក្លាយជាចំណុចកណ្តាលនៃប្រតិបត្តិការអាជីវកម្ម ទម្រង់ជួរឈររបស់ Arrow តម្រឹមតាមធម្មជាតិជាមួយនឹងតំណាង tensor ដែលប្រើក្នុងក្របខ័ណ្ឌ ML ។ គម្រោងកំពុងរុករក Arrow ជាស្ពានមួយរវាងទិន្នន័យអាជីវកម្មតារាង និងបំពង់ ML ដើមដោយកាត់បន្ថយការបំប្លែងលើក្បាល ដែលបច្ចុប្បន្នធ្វើឱ្យបំពង់មុខងារ AI យឺត។

គំនិតផ្តួចផ្តើមរបស់ ADBC បង្ហាញអំពីអនាគតដែលកូដកម្មវិធីសាកសួរមូលដ្ឋានទិន្នន័យណាមួយ ហើយទទួលបានលទ្ធផលជាទម្រង់ដែលអាចប្រើប្រាស់បានជាសកល ដោយមិនមានការគិតគូរពីអ្នកបើកបរ ឬពន្ធសៀរៀល។ សម្រាប់វេទិកា SaaS ដែលគ្រប់គ្រងប្រភពទិន្នន័យចម្រុះនៅទូទាំងអតិថិជនរាប់ពាន់នាក់ ប្រភេទនៃស្តង់ដារនេះនៅស្រទាប់តភ្ជាប់គឺជាមូលដ្ឋានដូច HTTP សម្រាប់សេវាកម្មគេហទំព័រ។

សំណួរដែលគេសួរញឹកញាប់

តើ Apache Arrow ជាមូលដ្ឋានទិន្នន័យ ឬជាទម្រង់ឯកសារ?

Apache Arrow មិន​មែន​ជា​មូលដ្ឋាន​ទិន្នន័យ ឬ​ទម្រង់​ឯកសារ​សាមញ្ញ​ឡើយ — វា​គឺ​ជា​ការ​បញ្ជាក់​សម្រាប់​តំណាង​ទិន្នន័យ​ជួរ​ឈរ​ក្នុង​អង្គចងចាំ រួម​ជាមួយ​គ្រួសារ​នៃ​ពិធីការ និង​ឧបករណ៍​ដែល​ពាក់ព័ន្ធ។ គិតថាវាជាភាសាចែករំលែកដែលមូលដ្ឋានទិន្នន័យផ្សេងគ្នា ម៉ាស៊ីនសំណួរ និងភាសាសរសេរកម្មវិធីទាំងអស់អាចនិយាយដើមកំណើត ដោយលុបបំបាត់ការបកប្រែលើសដែលជាធម្មតាកើតឡើងនៅពេលដែលទិន្នន័យឆ្លងកាត់ព្រំដែនប្រព័ន្ធ។

តើ Apache Arrow ជំនួស Parquet ទេ?

ទេ — Arrow និង Parquet ដោះស្រាយបញ្ហាផ្សេងៗគ្នា ហើយធ្វើការជាមួយគ្នាបានល្អបំផុត។ Parquet ត្រូវ​បាន​ធ្វើ​ឱ្យ​ប្រសើរ​ឡើង​សម្រាប់​ការ​បង្ហាប់ ដែល​មាន​ប្រសិទ្ធភាព​ការ​ផ្ទុក​នៅ​លើ​ថាស ហើយ​ជា​ទម្រង់​ឯកសារ columnar លេចធ្លោ​សម្រាប់​ទិន្នន័យ​បឹង។ ព្រួញត្រូវបានធ្វើឱ្យប្រសើរសម្រាប់ការគណនាក្នុងអង្គចងចាំ និងការចែករំលែកទិន្នន័យឆ្លងប្រព័ន្ធដោយមិនចាំបាច់ចម្លង។ ប្រព័ន្ធទិន្នន័យទំនើបជាធម្មតារក្សាទុកទិន្នន័យជា Parquet ហើយផ្ទុកវាទៅក្នុងទម្រង់ Arrow សម្រាប់ដំណើរការសកម្ម។

តើ Apache Arrow ពាក់ព័ន្ធ​នឹង​វេទិកា​កម្មវិធី​អាជីវកម្ម​ដោយ​របៀបណា?

សម្រាប់វេទិកាធុរកិច្ចរួមបញ្ចូលគ្នា គោលការណ៍ស្ថាបត្យកម្មរបស់ Arrow — តំណាងទិន្នន័យខាងក្នុងស្តង់ដារ ការចែករំលែកសូន្យចម្លងរវាងសមាសធាតុ និងការចូលប្រើការវិភាគប្រកបដោយប្រសិទ្ធភាព — មានឥទ្ធិពលដោយផ្ទាល់ទៅលើរបៀបដែលប្រព័ន្ធពហុម៉ូឌុលអាចធ្វើមាត្រដ្ឋានដោយមិនប្រមូលបំណុលសមាហរណកម្ម។ វេទិកាដែលធ្វើឲ្យគោលការណ៍ទាំងនេះផ្ទៃក្នុងអាចបន្ថែមមុខងារដោយមិនចាំបាច់បន្ថែមភាពស្មុគស្មាញតាមសមាមាត្រ។

នៅ Mewayz យើងបានបង្កើតប្រព័ន្ធប្រតិបត្តិការអាជីវកម្ម 207-module ដែលប្រើដោយអាជីវកម្មជាង 138,000 នៅទូទាំងពិភពលោក ដោយរួមបញ្ចូលអ្វីគ្រប់យ៉ាងពី CRM និង email marketing ទៅ e-commerce និង analytics នៅក្នុង platform តែមួយ។ ដូចជាវិធីសាស្រ្តរបស់ Arrow ចំពោះហេដ្ឋារចនាសម្ព័ន្ធទិន្នន័យ យើងជឿថាកម្មវិធីអាជីវកម្មដ៏អស្ចារ្យគួរតែមើលមិនឃើញនៅក្នុងភាពស្មុគស្មាញរបស់វា និងជាក់ស្តែងនៅក្នុងតម្លៃរបស់វា។ គម្រោងចាប់ផ្តើមត្រឹមតែ $19/ខែ។

ចាប់ផ្តើមការសាកល្បងឥតគិតថ្លៃរបស់អ្នកនៅ app.mewayz.com និងទទួលបានបទពិសោធន៍ពីអ្វីដែលប្រព័ន្ធប្រតិបត្តិការអាជីវកម្មរួមបញ្ចូលគ្នាយ៉ាងពិតប្រាកដ - ផ្អែកលើទស្សនវិជ្ជាដូចគ្នាដែលធ្វើឱ្យ Apache Arrow មិនអាចខ្វះបាន៖ ធ្វើការយ៉ាងលំបាកនៅកម្រិតហេដ្ឋារចនាសម្ព័ន្ធ ដូច្នេះអ្នកសាងសង់អាចផ្តោតលើអ្វីដែលសំខាន់។

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime