ഞങ്ങൾ ഒരു LLM-ന് ടെറാബൈറ്റ് CI ലോഗുകൾ നൽകി | Mewayz Blog Skip to main content
Hacker News

ഞങ്ങൾ ഒരു LLM-ന് ടെറാബൈറ്റ് CI ലോഗുകൾ നൽകി

അഭിപ്രായങ്ങൾ

1 min read Via www.mendral.com

Mewayz Team

Editorial Team

Hacker News

നിങ്ങളുടെ CI പൈപ്പ് ലൈനിൽ ഇരിക്കുന്ന മറഞ്ഞിരിക്കുന്ന സ്വർണ്ണ ഖനി

എല്ലാ എഞ്ചിനീയറിംഗ് ടീമും അവ സൃഷ്ടിക്കുന്നു. ദശലക്ഷക്കണക്കിന് വരികൾ, ഓരോ ദിവസവും - ടൈംസ്റ്റാമ്പുകൾ, സ്റ്റാക്ക് ട്രെയ്‌സുകൾ, ഡിപൻഡൻസി റെസല്യൂഷനുകൾ, ടെസ്റ്റ് ഫലങ്ങൾ, ബിൽഡ് ആർട്ടിഫാക്‌റ്റുകൾ, ആർക്കും വായിക്കാൻ കഴിയുന്നതിനേക്കാൾ വേഗത്തിൽ സ്‌ക്രോൾ ചെയ്യുന്ന നിഗൂഢമായ പിശക് സന്ദേശങ്ങൾ. ആധുനിക സോഫ്‌റ്റ്‌വെയർ വികസനത്തിൻ്റെ എക്‌സ്‌ഹോസ്റ്റ് പുകകളാണ് CI ലോഗുകൾ, മിക്ക ഓർഗനൈസേഷനുകൾക്കും അവ എക്‌സ്‌ഹോസ്റ്റ് പോലെയാണ് പരിഗണിക്കുന്നത്: സംഭരണത്തിലേക്ക് വലിച്ചെറിയപ്പെടുകയും മറന്നുപോകുകയും ചെയ്യുന്നു. പക്ഷേ, പരാജയങ്ങൾ സംഭവിക്കുന്നതിന് മുമ്പ് പ്രവചിക്കാൻ കഴിയുന്ന പാറ്റേണുകൾ ആ ലോഗുകളിൽ അടങ്ങിയിട്ടുണ്ടെങ്കിൽ, നിങ്ങളുടെ ടീമിന് ഒരു പാദത്തിൽ നൂറുകണക്കിന് മണിക്കൂർ ചിലവാകുന്ന തടസ്സങ്ങൾ തിരിച്ചറിയുകയും ഒരു എഞ്ചിനീയർ പോലും കാണാത്ത വ്യവസ്ഥാപരമായ പ്രശ്നങ്ങൾ വെളിപ്പെടുത്തുകയും ചെയ്താലോ? ഒരു വലിയ ഭാഷാ മോഡലിലേക്ക് ടെറാബൈറ്റ് CI ലോഗ് ഡാറ്റ നൽകിക്കൊണ്ട് കണ്ടെത്താൻ ഞങ്ങൾ തീരുമാനിച്ചു - ഞങ്ങൾ കണ്ടെത്തിയ കാര്യങ്ങൾ DevOps-നെ കുറിച്ച് ഞങ്ങൾ ചിന്തിക്കുന്ന രീതിയെ മാറ്റിമറിച്ചു.

സോഫ്‌റ്റ്‌വെയർ എഞ്ചിനീയറിംഗിൽ CI ലോഗുകൾ ഏറ്റവും ഉപയോഗശൂന്യമായ ഡാറ്റ എന്തുകൊണ്ട്

ശരിയായ വോളിയം പരിഗണിക്കുക. ഒന്നിലധികം റിപ്പോസിറ്ററികളിൽ പ്രതിദിനം 200 ബിൽഡുകൾ പ്രവർത്തിക്കുന്ന ഒരു ഇടത്തരം എഞ്ചിനീയറിംഗ് ടീം പ്രതിദിനം ഏകദേശം 2-4 GB റോ ലോഗ് ഡാറ്റ സൃഷ്ടിക്കുന്നു. ഒരു വർഷത്തിലേറെയായി, ഓരോ കംപൈലേഷനും ഓരോ ടെസ്റ്റ് സ്യൂട്ട് നിർവ്വഹണവും ഓരോ വിന്യാസ ഘട്ടവും നിങ്ങളുടെ സിസ്റ്റം ഇതുവരെ നേരിട്ട എല്ലാ പരാജയ മോഡും ക്യാപ്‌ചർ ചെയ്യുന്ന ഒരു ടെറാബൈറ്റ് ഘടനാപരമായതും അർദ്ധ-ഘടനാപരമായതുമായ വാചകം. ഇത് നിങ്ങളുടെ എഞ്ചിനീയറിംഗ് ഓർഗനൈസേഷൻ്റെ ഉൽപ്പാദനക്ഷമതയുടെ പൂർണ്ണമായ പുരാവസ്തു രേഖയാണ് - മിക്കവാറും ആരും ഇത് വായിക്കുന്നില്ല.

ഡാറ്റയ്ക്ക് മൂല്യമില്ല എന്നതല്ല പ്രശ്നം. സിഗ്നൽ-ടു-നോയ്‌സ് അനുപാതം ക്രൂരമാണ്. ഒരു സാധാരണ CI റൺ ആയിരക്കണക്കിന് ലൈനുകൾ ഔട്ട്പുട്ട് ഉൽപ്പാദിപ്പിക്കുന്നു, ആ വരികളിൽ 3-5 എണ്ണം പ്രവർത്തനക്ഷമമായ വിവരങ്ങൾ ഉൾക്കൊള്ളുന്നു. എഞ്ചിനീയർമാർ ചുവന്ന ടെക്‌സ്‌റ്റിനായി സ്കാൻ ചെയ്യാനും "പരാജയപ്പെട്ടു" എന്നതിന് grep സ്കാൻ ചെയ്യാനും മുന്നോട്ട് പോകാനും പഠിക്കുന്നു. എന്നാൽ ഏറ്റവും പ്രധാനപ്പെട്ട പാറ്റേണുകൾ - എല്ലാ ചൊവ്വാഴ്ചയും പരാജയപ്പെടുന്ന ഫ്ലാക്കി ടെസ്റ്റ്, ഓരോ ബിൽഡിനും 40 സെക്കൻഡ് ചേർക്കുന്ന ഡിപൻഡൻസി, മൂന്ന് നിർദ്ദിഷ്ട സേവനങ്ങൾ ഒരേസമയം പ്രവർത്തിക്കുമ്പോൾ മാത്രം ദൃശ്യമാകുന്ന മെമ്മറി ലീക്ക് - വ്യക്തിഗത ലോഗ് തലത്തിൽ ആ പാറ്റേണുകൾ അദൃശ്യമാണ്. അവ സ്കെയിലിൽ മാത്രമേ പുറത്തുവരൂ.

ELK സ്റ്റാക്കുകളും ഡാറ്റാഡോഗും പോലുള്ള പരമ്പരാഗത ലോഗ് വിശകലന ടൂളുകൾക്ക് മെട്രിക്‌സും ഉപരിതല കീവേഡ് പൊരുത്തങ്ങളും സമാഹരിക്കാൻ കഴിയും, എന്നാൽ അവ CI ഔട്ട്‌പുട്ടിൻ്റെ സെമാൻ്റിക് സങ്കീർണ്ണതയുമായി പോരാടുന്നു. "പോർട്ട് 5432-ൽ കണക്ഷൻ നിരസിച്ചു" എന്ന് വായിക്കുന്ന ഒരു ബിൽഡ് പരാജയ സന്ദേശവും "മാരകമായത്: ഉപയോക്താവ് 'വിന്യസിക്കാൻ' പാസ്‌വേഡ് പ്രാമാണീകരണം പരാജയപ്പെട്ടു" എന്ന് വായിക്കുന്നതും രണ്ട് ഡാറ്റാബേസുമായി ബന്ധപ്പെട്ട പരാജയങ്ങളാണ്, എന്നാൽ അവയ്ക്ക് തികച്ചും വ്യത്യസ്തമായ മൂലകാരണങ്ങളും പരിഹാരങ്ങളുമുണ്ട്. ഈ വേർതിരിവ് മനസ്സിലാക്കുന്നതിന്, സമീപകാലം വരെ, മനുഷ്യർക്ക് മാത്രം നൽകാൻ കഴിയുന്ന തരത്തിലുള്ള സാന്ദർഭിക ന്യായവാദം ആവശ്യമാണ്.

പരീക്ഷണം: ഒരു LLM-ലേക്ക് 3.2 ടെറാബൈറ്റ് ബിൽഡ് ഹിസ്റ്ററി നൽകുന്നു

സജ്ജീകരണം ആശയത്തിൽ നേരായതും നിർവ്വഹണത്തിൽ പേടിസ്വപ്നവുമായിരുന്നു. 138,000-ലധികം ഉപയോക്താക്കൾക്ക് സേവനം നൽകുന്ന ഒരു പ്ലാറ്റ്‌ഫോമിൽ നിന്ന് ഞങ്ങൾ 14 മാസത്തെ CI ലോഗുകൾ ശേഖരിച്ചു - ഒന്നിലധികം സേവനങ്ങൾ, പരിതസ്ഥിതികൾ, വിന്യാസ ലക്ഷ്യങ്ങൾ എന്നിവയിലുടനീളം ബിൽഡുകൾ ഉൾക്കൊള്ളുന്നു. അസംസ്‌കൃത ഡാറ്റാസെറ്റ് 3.2 ടെറാബൈറ്റായി: ഏകദേശം 847 ദശലക്ഷം വ്യക്തിഗത ലോഗ് ലൈനുകൾ 1.6 ദശലക്ഷം CI പൈപ്പ്‌ലൈൻ റണ്ണുകൾ. ഞങ്ങൾ ഈ ഡാറ്റ ചങ്ക് ചെയ്യുകയും ഉൾച്ചേർക്കുകയും ഇൻഡെക്‌സ് ചെയ്യുകയും ചെയ്‌തു, തുടർന്ന് ഞങ്ങളുടെ ബിൽഡ് ഹിസ്റ്ററിയെക്കുറിച്ചുള്ള സ്വാഭാവിക ഭാഷാ ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകാൻ കഴിയുന്ന ഒരു വീണ്ടെടുക്കൽ-ഓഗ്‌മെൻ്റഡ് ജനറേഷൻ (RAG) പൈപ്പ്‌ലൈൻ നിർമ്മിച്ചു.

പ്രീപ്രോസസ്സിംഗ് ആയിരുന്നു ആദ്യത്തെ വെല്ലുവിളി. CI ലോഗുകൾ ക്ലീൻ ടെക്‌സ്‌റ്റല്ല. അവയിൽ ANSI കളർ കോഡുകൾ, സ്വയം തിരുത്തിയെഴുതുന്ന പ്രോഗ്രസ് ബാറുകൾ, ബൈനറി ആർട്ടിഫാക്‌റ്റ് ചെക്ക്‌സമുകൾ, ഏത് ടൂൾ സൃഷ്‌ടിച്ചു എന്നതിനെ ആശ്രയിച്ച് കുറഞ്ഞത് നാല് വ്യത്യസ്ത ഫോർമാറ്റുകളിലുള്ള ടൈംസ്റ്റാമ്പുകൾ എന്നിവ അടങ്ങിയിരിക്കുന്നു. നോർമലൈസേഷനായി ഞങ്ങൾ മൂന്നാഴ്ച ചിലവഴിച്ചു - നോയ്സ് നീക്കം ചെയ്യുക, ടൈംസ്റ്റാമ്പുകൾ സ്റ്റാൻഡേർഡ് ചെയ്യുക, പൈപ്പ്ലൈൻ സ്റ്റേജ്, റിപ്പോസിറ്ററി, ബ്രാഞ്ച്, പരിസ്ഥിതി എന്നിവയെക്കുറിച്ചുള്ള മെറ്റാഡാറ്റ ഉപയോഗിച്ച് ഓരോ ലോഗ് സെഗ്മെൻ്റും ടാഗ് ചെയ്യുക.

രണ്ടാമത്തെ വെല്ലുവിളി ചെലവായിരുന്നു. അഗ്രസീവ് ചങ്കിംഗും വീണ്ടെടുക്കൽ ഒപ്റ്റിമൈസേഷനും ഉപയോഗിച്ച് പോലും ടെറാബൈറ്റ് ടെക്‌സ്‌റ്റിൽ അനുമാനം പ്രവർത്തിക്കുന്നത് വിലകുറഞ്ഞതല്ല. ഞങ്ങളുടെ പ്രാരംഭ സമീപനം വളരെ നിഷ്കളങ്കമായതിനാൽ - ഓരോ ചോദ്യത്തിനും വളരെയധികം സന്ദർഭം അയയ്‌ക്കുന്നതും ഏത് ലോഗ് സെഗ്‌മെൻ്റുകൾ പ്രസക്തമാണ് എന്നതിനെ കുറിച്ച് വേണ്ടത്ര തിരഞ്ഞെടുക്കാത്തതും ആയതിനാൽ, ആദ്യ മാസത്തിൽ തന്നെ ഞങ്ങൾ ഗണ്യമായ കമ്പ്യൂട്ട് ക്രെഡിറ്റുകൾ നേടി. രണ്ടാമത്തെ മാസാവസാനത്തോടെ, മികച്ച ഉൾച്ചേർക്കൽ തന്ത്രങ്ങളിലൂടെയും വലിയ മോഡലിലേക്ക് അയയ്‌ക്കുന്നതിന് മുമ്പ് ഒരു ചെറിയ മോഡൽ പ്രീ-ഫിൽട്ടർ ചെയ്യാൻ ഉപയോഗിക്കുന്ന രണ്ട്-ഘട്ട വീണ്ടെടുക്കൽ സംവിധാനത്തിലൂടെയും ഓരോ ചോദ്യത്തിനും ഞങ്ങൾ 87% ചെലവ് കുറയ്ക്കും.

മനുഷ്യർ ഒരിക്കലും ആഗ്രഹിക്കാത്ത LLM കണ്ടെത്തിയ അഞ്ച് പാറ്റേണുകൾ

ചോദ്യങ്ങൾ പ്രവർത്തിപ്പിച്ചതിൻ്റെ ആദ്യ ആഴ്‌ചയ്‌ക്കുള്ളിൽ, ഒരു ഹ്യൂമൻ അനലിസ്റ്റിന് സ്വമേധയാ കണ്ടെത്തുന്നതിന് മാസങ്ങളെടുക്കുമായിരുന്ന സ്ഥിതിവിവരക്കണക്കുകൾ സിസ്റ്റം പുറത്തുവന്നു. ഇവ എഡ്ജ് കേസുകളോ ജിജ്ഞാസകളോ ആയിരുന്നില്ല - യഥാർത്ഥ എഞ്ചിനീയറിംഗ് സമയങ്ങളിൽ രക്തസ്രാവം സൃഷ്ടിക്കുന്ന വ്യവസ്ഥാപരമായ പ്രശ്നങ്ങളായിരുന്നു.

  1. ഫാൻ്റം ഡിപൻഡൻസി കാസ്കേഡ്. 9 മാസം മുമ്പുള്ള ഒരൊറ്റ npm പാക്കേജ് അപ്‌ഡേറ്റ് എല്ലാ JavaScript ബിൽഡിനും 22-സെക്കൻഡ് കാലതാമസം അവതരിപ്പിച്ചിരുന്നു. CI ഇൻഫ്രാസ്ട്രക്ചർ അപ്‌ഗ്രേഡുമായി ഒത്തുചേർന്നതിനാൽ കാലതാമസം മറയ്ക്കപ്പെട്ടു. നെറ്റ്-നെറ്റ്, ബിൽഡുകൾ വേഗത്തിൽ പ്രത്യക്ഷപ്പെട്ടു, പക്ഷേ അവയ്ക്ക് 22 സെക്കൻഡ് വേഗത്തിലാകാമായിരുന്നു. പ്രതിദിനം 400+ JS ബിൽഡുകൾ, അത് പ്രതിദിനം 2.4 മണിക്കൂർ പാഴാക്കിയ കണക്കുകൂട്ടൽ ആയിരുന്നു.
  2. സമയമേഖല ഫ്ലേക്ക്. ഒരു ടെസ്റ്റ് സ്യൂട്ടിന് 4.7% പരാജയ നിരക്ക് ഉണ്ടായിരുന്നു - ശല്യപ്പെടുത്താൻ മാത്രം ഉയർന്നതാണ്, അത് പരിഹരിക്കുന്നതിന് ആരും മുൻഗണന നൽകാത്തത്ര കുറവാണ്. 23:00 നും 01:00 UTC നും ഇടയിൽ, ഒരു തീയതി-താരതമ്യ ഫംഗ്‌ഷൻ ഒരു ദിവസത്തെ അതിരുകൾ കടന്നപ്പോൾ, ബിൽഡുകളുമായി പരാജയങ്ങൾ ഏതാണ്ട് പൂർണമായി ബന്ധപ്പെട്ടിരിക്കുന്നുവെന്ന് LLM തിരിച്ചറിഞ്ഞു. രണ്ട്-വരി ശരിയാക്കിയത് ഫ്ലേക്കിനെ പൂർണ്ണമായും ഇല്ലാതാക്കി.
  3. സൈലൻ്റ് റോൾബാക്ക് പാറ്റേൺ. സ്റ്റേജിംഗിലേക്കുള്ള വിന്യാസങ്ങൾ 99.2% സമയവും വിജയിച്ചു, എന്നാൽ 31% "വിജയകരമായ" സ്റ്റേജിംഗ് വിന്യസിച്ചതിന് ശേഷം 45 മിനിറ്റിനുള്ളിൽ അതേ സേവനത്തിൻ്റെ മറ്റൊരു വിന്യാസം വന്നതായി LLM ശ്രദ്ധിച്ചു - എല്ലാ പരിശോധനകളും കടന്നുപോയിട്ടും ആദ്യ വിന്യാസം പ്രവർത്തനരഹിതമായിരുന്നു. ഒരു മോക്ക് സേവനത്തിൽ നിന്നുള്ള കാഷെ ചെയ്‌ത പ്രതികരണങ്ങൾ കാരണം ഒരു ഇൻ്റഗ്രേഷൻ ടെസ്റ്റ് കടന്നുപോകുന്നതായി ഇത് കണ്ടെത്തി.
  4. തിങ്കൾ രാവിലത്തെ തടസ്സം. എല്ലാ തിങ്കളാഴ്ചയും പ്രാദേശിക സമയം 9:00 നും 10:30 AM നും ഇടയിൽ ബിൽഡ് ക്യൂ സമയം 340% വർദ്ധിച്ചു, കാരണം വാരാന്ത്യത്തിൽ ജോലി ചെയ്യുന്ന ഡവലപ്പർമാരെല്ലാം സ്റ്റാൻഡപ്പിന് മുമ്പായി അവരുടെ മാറ്റങ്ങൾ വരുത്തി. തിരുത്തൽ സാങ്കേതികമായിരുന്നില്ല - അത് പ്രവർത്തനക്ഷമമായിരുന്നു: തിങ്കളാഴ്ചത്തെ കുതിച്ചുചാട്ടങ്ങൾ മുൻകൂട്ടി കാണുന്നതിന് CI റണ്ണർ പൂൾ സ്കെയിലിംഗ് ഷെഡ്യൂൾ അമ്പരപ്പിക്കുന്നു.
  5. ആരും സജ്ജീകരിക്കാത്ത കംപൈലർ ഫ്ലാഗ്. 67% C++ ബിൽഡുകളും ഇൻക്രിമെൻ്റൽ കംപൈലേഷൻ പ്രവർത്തനക്ഷമമാക്കാതെയാണ് പ്രവർത്തിക്കുന്നത്, ഓരോ ബിൽഡിനും ശരാശരി 3.8 മിനിറ്റ് വീതം. ഫ്ലാഗ് ഓൺബോർഡിംഗ് ഗൈഡിൽ രേഖപ്പെടുത്തിയിട്ടുണ്ടെങ്കിലും പങ്കിട്ട CI കോൺഫിഗറേഷൻ ടെംപ്ലേറ്റിലേക്ക് ഒരിക്കലും ചേർത്തിട്ടില്ല.

"ഏറ്റവും വിലകൂടിയ ബഗുകൾ നിങ്ങളുടെ ആപ്ലിക്കേഷനെ ക്രാഷ് ചെയ്യുന്നവയല്ല. ഓരോ ബിൽഡിൽ നിന്നും, എല്ലാ ദിവസവും, വർഷങ്ങളോളം നിശ്ശബ്ദമായി 30 സെക്കൻഡ് മോഷ്ടിക്കുന്നവയാണ് അവ — ശരിയായ ഡാറ്റാസെറ്റിൻ്റെ ശരിയായ ചോദ്യം ആരെങ്കിലും ചോദിക്കുന്നതുവരെ."

ഒരു പ്രായോഗിക CI ഇൻ്റലിജൻസ് ലെയർ നിർമ്മിക്കുന്നു

എൽഎൽഎം-പവേർഡ് ലോഗ് വിശകലനം ഒരു പുതുമയല്ലെന്ന് പരീക്ഷണം ഞങ്ങളെ ബോധ്യപ്പെടുത്തി - ഇത് ഒരു യഥാർത്ഥ പ്രവർത്തന ശേഷിയാണ്. എന്നാൽ അത് പ്രായോഗികമാക്കുന്നതിന് ചിന്തനീയമായ വാസ്തുവിദ്യ ആവശ്യമാണ്. നിങ്ങൾക്ക് ഒരു ചാറ്റ് ഇൻ്റർഫേസിലേക്ക് റോ ലോഗുകൾ പൈപ്പ് ചെയ്യാനും ഉപയോഗപ്രദമായ ഉത്തരങ്ങൾ പ്രതീക്ഷിക്കാനും കഴിയില്ല. സിസ്റ്റത്തിന് ഘടന ആവശ്യമാണ്, എഞ്ചിനീയർമാർ ഇതിനകം ഉപയോഗിക്കുന്ന വർക്ക്ഫ്ലോകളിലേക്ക് ഇത് സംയോജിപ്പിക്കേണ്ടതുണ്ട്.

ഞങ്ങൾ ത്രിതല സമീപനം സ്വീകരിച്ചു. ആദ്യ ടയർ ഓട്ടോമേറ്റഡ് ട്രയേജ് ആണ്: പരാജയപ്പെട്ട ഓരോ ബിൽഡും ഒരു കോൺഫിഡൻസ് സ്‌കോറിനൊപ്പം റൂട്ട് കോസ് വിഭാഗം (ഇൻഫ്രാസ്ട്രക്ചർ, ഡിപൻഡൻസി, ടെസ്റ്റ് ലോജിക്, കോൺഫിഗറേഷൻ അല്ലെങ്കിൽ ഫ്ലേക്ക്) പ്രകാരം സ്വയമേവ തരംതിരിക്കും. ബിൽഡ് പരാജയങ്ങൾ പരിഹരിക്കുന്നതിനുള്ള ശരാശരി സമയം ഇത് മാത്രം 34% കുറച്ചു, കാരണം എഞ്ചിനീയർമാർക്ക് ലോഗുകൾ വായിക്കാൻ 10 മിനിറ്റ് ചെലവഴിക്കേണ്ടി വന്നില്ല. രണ്ടാമത്തെ ടയർ ട്രെൻഡ് കണ്ടെത്തൽ ആണ്: ഉയർന്നുവരുന്ന പാറ്റേണുകൾ - വർദ്ധിച്ചുവരുന്ന പരാജയ നിരക്ക്, വളരുന്ന ബിൽഡ് ടൈംസ്, പുതിയ പിശക് ഒപ്പുകൾ - അവ നിർണായകമാകുന്നതിന് മുമ്പ് പ്രതിവാര ഡൈജസ്റ്റ്. മൂന്നാമത്തെ ടയർ ഇൻ്ററാക്ടീവ് ഇൻവെസ്റ്റിഗേഷൻ ആണ്: "മാർച്ച് റിലീസിന് ശേഷം എന്തുകൊണ്ട് സർവീസ് X പലപ്പോഴും പരാജയപ്പെട്ടു?" പോലെയുള്ള ബിൽഡ് ഹിസ്റ്ററിയെക്കുറിച്ച് സ്വാഭാവിക ഭാഷാ ചോദ്യങ്ങൾ ചോദിക്കാൻ എഞ്ചിനീയർമാർക്ക് കഴിയുന്ന ഒരു ഇൻ്റർഫേസ്. അല്ലെങ്കിൽ "പേയ്‌മെൻ്റ് പൈപ്പ്‌ലൈനിൽ കാലഹരണപ്പെട്ട പിശകുകളുടെ ഏറ്റവും സാധാരണമായ കാരണം എന്താണ്?"

സങ്കീർണ്ണമായ പ്രവർത്തനങ്ങൾ നടത്തുന്ന ടീമുകൾക്ക് - പ്രത്യേകിച്ച് 207 സംയോജിത മൊഡ്യൂളുകൾ സംഘടിപ്പിക്കുന്ന Mewayz പോലുള്ള പ്ലാറ്റ്‌ഫോമുകളിലൂടെ CRM, ഇൻവോയ്‌സിംഗ്, പേറോൾ, അനലിറ്റിക്‌സ് എന്നിവ പോലുള്ള ഒന്നിലധികം ബിസിനസ്സ് പ്രവർത്തനങ്ങൾ കൈകാര്യം ചെയ്യുന്നവർക്ക് - ഇത്തരത്തിലുള്ള നിരീക്ഷണം കൂടുതൽ നിർണായകമാകും. ഒരൊറ്റ വിന്യാസം ഉപഭോക്താവിനെ അഭിമുഖീകരിക്കുന്ന വർക്ക്ഫ്ലോകൾ, ബില്ലിംഗ് ലോജിക്, എച്ച്ആർ സിസ്റ്റങ്ങൾ എന്നിവയെ ഒരേസമയം സ്പർശിക്കുമ്പോൾ, നിങ്ങളുടെ CI പൈപ്പ്ലൈനിലെ പരസ്പരാശ്രിതത്വം മനസ്സിലാക്കുന്നത് ഓപ്ഷണൽ അല്ല. 138,000+ ഉപയോക്താക്കൾ ആശ്രയിക്കുന്ന വിശ്വാസ്യത നിലനിർത്തുന്നതിന് ഇത് അത്യന്താപേക്ഷിതമാണ്.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

എന്താണ് പ്രവർത്തിക്കാത്തത് (ഇപ്പോഴും)

ഹൈപ്പിനെക്കാൾ സത്യസന്ധത പ്രധാനമാണ്. ഈ സമീപനത്തിന് വ്യക്തമായ പരിമിതികളുണ്ട്, അത് പരിഗണിക്കുന്ന ആർക്കും മനസ്സിലാക്കണം. LLM-കൾ ഭ്രമാത്മകത കാണിക്കുന്നു, കൂടാതെ CI ലോഗുകളെക്കുറിച്ച് അവർ ഭ്രമിക്കുമ്പോൾ, ഫലങ്ങൾ ബോധ്യപ്പെടുത്തുന്ന രീതിയിൽ തെറ്റായിരിക്കാം. ഒരിക്കലും നിലവിലില്ലാത്ത, കെട്ടിച്ചമച്ച പതിപ്പ് നമ്പറുകൾ ഉപയോഗിച്ച് പൂർണ്ണമായ ഒരു ഡിപൻഡൻസി വൈരുദ്ധ്യത്തിന് ഒരു ബിൽഡ് പരാജയത്തിന് സിസ്റ്റം ആത്മവിശ്വാസത്തോടെ ആരോപിക്കുന്നത് ഞങ്ങൾ കണ്ടു. RAG പൈപ്പ്ലൈൻ ഇത് ഗണ്യമായി കുറയ്ക്കുന്നു, പക്ഷേ അത് ഇല്ലാതാക്കുന്നില്ല. സിസ്‌റ്റം സൃഷ്‌ടിക്കുന്ന എല്ലാ ഉൾക്കാഴ്‌ചയ്‌ക്കും തുടർന്നും പ്രവർത്തനത്തിന് മുമ്പ് മാനുഷിക പരിശോധന ആവശ്യമാണ്.

സ്കെയിൽ ഒരു വെല്ലുവിളിയായി തുടരുന്നു. വീണ്ടെടുക്കൽ സംവിധാനത്തിന് അന്വേഷണങ്ങൾ കാര്യക്ഷമമായി കൈകാര്യം ചെയ്യാൻ കഴിയുമെങ്കിലും, പുതിയ ലോഗുകളുടെ പ്രാരംഭ സൂചികയും ഉൾച്ചേർക്കലും ഗണിതപരമായി ചെലവേറിയതാണ്. ഞങ്ങൾ പ്രതിദിനം ഏകദേശം 800,000 പുതിയ ലോഗ് ലൈനുകൾ പ്രോസസ്സ് ചെയ്യുന്നു, സൂചിക പുതുതായി നിലനിർത്തുന്നതിന് സമർപ്പിത ഇൻഫ്രാസ്ട്രക്ചർ ആവശ്യമാണ്. ചെറിയ ടീമുകൾക്ക്, ചെലവ്-ആനുകൂല്യ കണക്കുകൂട്ടൽ ഈ സമീപനത്തെ അനുകൂലിച്ചേക്കില്ല - കുറഞ്ഞത് ഇതുവരെ. മോഡൽ ചെലവുകൾ കുറയുന്നത് തുടരുന്നതിനാൽ (തത്തുല്യമായ ശേഷിക്ക് കഴിഞ്ഞ 18 മാസങ്ങളിൽ അവ ഏകദേശം 90% കുറഞ്ഞു), സാമ്പത്തികശാസ്ത്രം മാറും.

സുരക്ഷയുടെ ചോദ്യവുമുണ്ട്. CI ലോഗുകളിൽ രഹസ്യങ്ങൾ അടങ്ങിയിരിക്കാം - API കീകൾ, കണക്ഷൻ സ്‌ട്രിംഗുകൾ, ആന്തരിക URL-കൾ - അവ സ്‌ക്രബ് ചെയ്യാൻ പരമാവധി ശ്രമിച്ചിട്ടും. ബാഹ്യ LLM API-കളിലേക്ക് ഈ ഡാറ്റ അയയ്ക്കുന്നത് അപകടസാധ്യത അവതരിപ്പിക്കുന്നു. ഒരു പ്രാദേശിക സ്‌ക്രബ്ബിംഗ് പൈപ്പ്‌ലൈൻ ഉപയോഗിച്ചും സെൻസിറ്റീവ് റിപ്പോസിറ്ററികൾക്കായി സ്വയം ഹോസ്റ്റ് ചെയ്‌ത മോഡലുകളിൽ അനുമാനം പ്രവർത്തിപ്പിച്ചും ഞങ്ങൾ ഇത് ലഘൂകരിക്കുന്നു, പക്ഷേ ഇത് സങ്കീർണ്ണതയും ചെലവും ചേർക്കുന്നു. സമാനമായ എന്തെങ്കിലും നടപ്പിലാക്കുന്നതിന് മുമ്പ് ടീമുകൾ അവരുടെ ഭീഷണി മോഡൽ ശ്രദ്ധാപൂർവ്വം വിലയിരുത്തണം.

ടെറാബൈറ്റുകൾ ഇല്ലാതെ ആരംഭിക്കുന്നു

നിങ്ങളുടെ CI ലോഗുകളിൽ നിന്ന് മൂല്യം എക്‌സ്‌ട്രാക്റ്റുചെയ്യാൻ ആരംഭിക്കുന്നതിന് നിങ്ങൾക്ക് ഒരു വലിയ ഡാറ്റാസെറ്റോ സമർപ്പിത ML എഞ്ചിനീയറിംഗ് ടീമോ ആവശ്യമില്ല. ആഴ്‌ചയിൽ നൂറുകണക്കിന് ബിൽഡുകളുള്ള ഏതൊരു ടീമിനും നടപ്പിലാക്കാൻ കഴിയുന്ന ഒരു പ്രായോഗിക ആരംഭ പോയിൻ്റ് ഇതാ:

  • പരാജയ വർഗ്ഗീകരണത്തോടെ ആരംഭിക്കുക. നിങ്ങളുടെ കഴിഞ്ഞ 90 ദിവസത്തെ പരാജയപ്പെട്ട ബിൽഡ് ലോഗുകൾ കയറ്റുമതി ചെയ്യുക. ഓരോ പരാജയവും വിഭാഗങ്ങളായി തരംതിരിക്കുന്നതിന് ഏതെങ്കിലും LLM API ഉപയോഗിക്കുക. ഒരു ലളിതമായ ടാക്‌സോണമി പോലും (ഇൻഫ്രാ വേഴ്സസ് കോഡ് വേഴ്സസ്. കോൺഫിഗ് വേഴ്സസ് ഫ്ലേക്ക്) മുൻഗണനാക്രമത്തിന് ഉടനടി മൂല്യം നൽകുന്നു.
  • ബിൽഡ് ദൈർഘ്യ ട്രെൻഡുകൾ ട്രാക്കുചെയ്യുക. ഓരോ പൈപ്പ്‌ലൈൻ ഘട്ടത്തിലും ബിൽഡ് ദൈർഘ്യങ്ങളുടെ ഒരു സമയ ശ്രേണി സൃഷ്ടിക്കാൻ നിങ്ങളുടെ ലോഗുകളിൽ നിന്ന് ടൈംസ്റ്റാമ്പുകൾ പാഴ്‌സ് ചെയ്യുക. ചുറ്റുമുള്ള ലോഗ് സന്ദർഭം ഉള്ള ഒരു LLM-ന് അപാകതകൾ നൽകുകയും മൂലകാരണ സിദ്ധാന്തങ്ങൾ ആവശ്യപ്പെടുകയും ചെയ്യുക.
  • "വ്യക്തമായ" ചോദ്യങ്ങൾ യാന്ത്രികമാക്കുക. ഒരു LLM-ലേക്ക് പരാജയപ്പെട്ട ബിൽഡിൻ്റെ അവസാന 500 വരികൾ അയയ്ക്കുന്ന ഒരു പോസ്റ്റ്-പരാജയ ഹുക്ക് സജ്ജീകരിക്കുക: "ഈ CI പരാജയം ഒരു വാചകത്തിൽ സംഗ്രഹിച്ച് ഏറ്റവും സാധ്യതയുള്ള പരിഹാരം നിർദ്ദേശിക്കുക." ഇത് മാത്രം ടീമിലെ ഓരോ എഞ്ചിനീയർക്കും ഓരോ പരാജയത്തിനും 5-10 മിനിറ്റ് ലാഭിക്കുന്നു.
  • തിരഞ്ഞെടുക്കാൻ കഴിയുന്ന ഒരു ആർക്കൈവ് നിർമ്മിക്കുക. നിങ്ങളുടെ ലോഗ് ചരിത്രം സ്വാഭാവിക ഭാഷയിൽ ചോദ്യം ചെയ്യാവുന്നതാക്കാൻ എംബെഡിംഗുകൾ ഉപയോഗിക്കുക. LangChain, LlamaIndex എന്നിവ പോലെയുള്ള ടൂളുകൾ ML അനുഭവം ഇല്ലാത്ത ടീമുകൾക്ക് പോലും ഇത് ആശ്ചര്യകരമാം വിധം ആക്‌സസ് ചെയ്യാവുന്നതാണ്.

ചെറിയതായി ആരംഭിക്കുക, സ്ഥിതിവിവരക്കണക്കുകൾ കൃത്യമാണെന്ന് സാധൂകരിക്കുക, ക്രമേണ വികസിപ്പിക്കുക എന്നിവയാണ് പ്രധാനം. ഇത്തരത്തിലുള്ള വിശകലനത്തിനുള്ള ടൂളിംഗ് ഇക്കോസിസ്റ്റം അതിവേഗം പക്വത പ്രാപിക്കുന്നു, കൂടാതെ ഒരു വർഷം മുമ്പ് ആവശ്യമായ ഇഷ്‌ടാനുസൃത ഇൻഫ്രാസ്ട്രക്ചർ ഓഫ്-ദി-ഷെൽഫ് ഘടകങ്ങളായി കൂടുതലായി ലഭ്യമാണ്.

ഭാവി പ്രവർത്തന ബുദ്ധിയാണ്

ഞങ്ങൾ യഥാർത്ഥത്തിൽ സംസാരിക്കുന്നത് ലോഗ് വിശകലനത്തെക്കുറിച്ചല്ല - ഇത് പ്രവർത്തന ബുദ്ധിയിലേക്കുള്ള അടിസ്ഥാനപരമായ മാറ്റമാണ്. CI ലോഗുകൾക്കായി പ്രവർത്തിക്കുന്ന അതേ സമീപനം ഉപഭോക്തൃ പിന്തുണ ടിക്കറ്റുകൾ, വിൽപ്പന പൈപ്പ്ലൈൻ ഡാറ്റ, സാമ്പത്തിക ഇടപാടുകൾ, പ്രവർത്തന വർക്ക്ഫ്ലോകൾ എന്നിവയ്ക്കും ബാധകമാണ്. പ്രവർത്തനക്ഷമമായ പാറ്റേണുകൾ ഉൾക്കൊള്ളുന്ന വലിയ അളവിലുള്ള അർദ്ധ-ഘടനാപരമായ ടെക്സ്റ്റ് ഡാറ്റ ഓർഗനൈസേഷനുകൾ സൃഷ്ടിക്കുന്നു എന്നതാണ് പൊതുവായ ത്രെഡ്, കൂടാതെ LLM-കൾ ആ പാറ്റേണുകൾ കണ്ടെത്തുന്നതിന് അദ്വിതീയമായി അനുയോജ്യമാണ്.

ബിസിനസ് പ്രവർത്തനങ്ങൾ കേന്ദ്രീകരിക്കുന്ന പ്ലാറ്റ്‌ഫോമുകൾക്ക് ഘടനാപരമായ നേട്ടം ഉള്ളത് അതുകൊണ്ടാണ്. നിങ്ങളുടെ CRM ഡാറ്റ, പ്രോജക്റ്റ് മാനേജ്‌മെൻ്റ്, ഇൻവോയ്‌സിംഗ്, എച്ച്ആർ റെക്കോർഡുകൾ, അനലിറ്റിക്‌സ് എന്നിവയെല്ലാം ഒരു സിസ്റ്റത്തിൽ ജീവിക്കുമ്പോൾ — Mewayz ൻ്റെ ഇൻ്റഗ്രേറ്റഡ് മൊഡ്യൂൾ ആർക്കിടെക്ചർ ഉപയോഗിക്കുന്ന ടീമുകൾക്കായി അവർ ചെയ്യുന്നതുപോലെ — ക്രോസ്-ഡൊമെയ്ൻ ഇൻ്റലിജൻസിൻ്റെ സാധ്യതകൾ വർദ്ധിക്കുന്നു. നിങ്ങളുടെ CI ലോഗുകളിലെ ഒരു പാറ്റേൺ ഉപഭോക്തൃ ചോർച്ചയുമായി ബന്ധപ്പെട്ടിരിക്കാം. പിന്തുണാ ടിക്കറ്റുകളിലെ വർദ്ധനവ് വിന്യാസ പരാജയം പ്രവചിച്ചേക്കാം. ഈ കണക്ഷനുകൾ ദൃശ്യമാകുന്നത് ഡാറ്റ ഒറ്റപ്പെട്ട സിലോകൾക്ക് പകരം കണക്റ്റുചെയ്ത സിസ്റ്റങ്ങളിൽ ജീവിക്കുമ്പോൾ മാത്രമാണ്.

അടുത്ത ദശകത്തിൽ അഭിവൃദ്ധി പ്രാപിക്കുന്ന ടീമുകൾ ഏറ്റവും കൂടുതൽ എഞ്ചിനീയർമാരുള്ളവരോ ഏറ്റവും വലിയ ബഡ്ജറ്റുകളുള്ളവരോ ആയിരിക്കണമെന്നില്ല. അവരാണ് അവരുടെ സ്വന്തം ഡാറ്റ കേൾക്കാൻ പഠിക്കുന്നത് - അവർ വലിച്ചെറിയുന്ന ടെറാബൈറ്റുകൾ ഉൾപ്പെടെ. നിങ്ങളുടെ CI ലോഗുകൾ സംസാരിക്കുന്നു. അവർക്ക് പറയാനുള്ളത് കേൾക്കാൻ നിങ്ങൾ തയ്യാറാണോ എന്നതാണ് ചോദ്യം.

പതിവ് ചോദിക്കുന്ന ചോദ്യങ്ങൾ

സിഐ ലോഗുകളിൽ LLM-കൾക്ക് ശരിക്കും ഉപയോഗപ്രദമായ പാറ്റേണുകൾ കണ്ടെത്താൻ കഴിയുമോ?

തീർച്ചയായും. വലിയ ഘടനാരഹിതമായ ടെക്‌സ്‌റ്റിലുടനീളം ആവർത്തിച്ചുള്ള പാറ്റേണുകൾ തിരിച്ചറിയുന്നതിൽ വലിയ ഭാഷാ മോഡലുകൾ മികവ് പുലർത്തുന്നു. സിഐ ലോഗുകളുടെ ടെറാബൈറ്റുകളിലേക്ക് ചൂണ്ടിക്കാണിക്കുമ്പോൾ, മനുഷ്യ എഞ്ചിനീയർമാർ ഒരിക്കലും കൈകൊണ്ട് പിടിക്കാത്ത പരാജയ പരസ്പര ബന്ധങ്ങൾ, ഫ്ലേക്കി ടെസ്റ്റ് സിഗ്നേച്ചറുകൾ, ഡിപൻഡൻസി വൈരുദ്ധ്യങ്ങൾ എന്നിവ ഉപരിതലത്തിലേക്ക് കൊണ്ടുവരാൻ അവയ്ക്ക് കഴിയും. അസംസ്‌കൃത ശബ്‌ദത്തിനുപകരം ശരിയായി കഷണങ്ങളുള്ളതും സാന്ദർഭികമായി സമ്പുഷ്ടവുമായ ലോഗ് സെഗ്‌മെൻ്റുകൾ മോഡലിന് ലഭിക്കുന്നതിനാൽ ഇൻജസ്‌ഷൻ പൈപ്പ്‌ലൈൻ ശരിയായി രൂപപ്പെടുത്തുകയാണ് പ്രധാനം.

ലോഗ് വിശകലനം ഉപയോഗിച്ച് ഏത് തരത്തിലുള്ള CI പരാജയങ്ങൾ പ്രവചിക്കാനാകും?

എൽഎൽഎം നയിക്കുന്ന ലോഗ് വിശകലനത്തിന് ഇൻഫ്രാസ്ട്രക്ചറുമായി ബന്ധപ്പെട്ട ടൈംഔട്ടുകൾ, ആവർത്തിച്ചുള്ള ഡിപൻഡൻസി റെസല്യൂഷൻ പരാജയങ്ങൾ, മെമ്മറി-ബൗണ്ട് ബിൽഡ് ക്രാഷുകൾ, നിർദ്ദിഷ്ട കോഡ് പാത്തുകളാൽ ട്രിഗർ ചെയ്യുന്ന ഫ്ലാക്കി ടെസ്റ്റുകൾ എന്നിവ പ്രവചിക്കാൻ കഴിയും. ആഴ്‌ചകൾകൊണ്ട് ബിൽഡ് ടൈം ക്രമേണ വർദ്ധിക്കുന്ന സ്ലോ-ഇഴയുന്ന റിഗ്രഷനുകളും ഇത് തിരിച്ചറിയുന്നു. ഈ സമീപനം ഉപയോഗിക്കുന്ന ടീമുകൾ, ഉൽപ്പാദന വിന്യാസത്തിലെ സംഭവങ്ങൾ തടയുന്നതിന് മുമ്പ് കാസ്കേഡിംഗ് പരാജയ പാറ്റേണുകൾ രണ്ടോ മൂന്നോ സ്പ്രിൻ്റുകൾ പിടിക്കുന്നു.

വിശകലനം മൂല്യവത്താകുന്നതിന് മുമ്പ് നിങ്ങൾക്ക് എത്ര CI ലോഗ് ഡാറ്റ ആവശ്യമാണ്?

ഒന്നിലധികം ശാഖകളിലുടനീളമുള്ള 30 മുതൽ 90 ദിവസത്തെ തുടർച്ചയായ പൈപ്പ്‌ലൈൻ ചരിത്രം വിശകലനം ചെയ്തതിന് ശേഷം അർത്ഥവത്തായ പാറ്റേണുകൾ സാധാരണയായി ഉയർന്നുവരുന്നു. ചെറിയ ഡാറ്റാസെറ്റുകൾ ഉപരിതല-ലെവൽ സ്ഥിതിവിവരക്കണക്കുകൾ നൽകുന്നു, എന്നാൽ യഥാർത്ഥ മൂല്യം ആയിരക്കണക്കിന് ബിൽഡ് റണ്ണുകളുടെ ക്രോസ്-റഫറൻസിൽ നിന്നാണ്. അവരുടെ CI പൈപ്പ് ലൈനുകൾക്കൊപ്പം സങ്കീർണ്ണമായ വർക്ക്ഫ്ലോകൾ കൈകാര്യം ചെയ്യുന്ന ടീമുകൾക്ക്, app.mewayz.com എന്നതിലെ പ്രവർത്തന ഡാറ്റ കേന്ദ്രീകരിക്കുന്നതിന് Mewayz പോലുള്ള പ്ലാറ്റ്‌ഫോമുകൾ $19/mo മുതൽ 207 സംയോജിത മൊഡ്യൂളുകൾ വാഗ്ദാനം ചെയ്യുന്നു.

ഒരു LLM-ലേക്ക് CI ലോഗുകൾ നൽകുന്നത് ഒരു സുരക്ഷാ അപകടമാണോ?

അശ്രദ്ധമായി കൈകാര്യം ചെയ്താൽ അത് സംഭവിക്കാം. CI ലോഗുകളിൽ പലപ്പോഴും പരിസ്ഥിതി വേരിയബിളുകൾ, API കീകൾ, ആന്തരിക URL-കൾ, ഇൻഫ്രാസ്ട്രക്ചർ വിശദാംശങ്ങൾ എന്നിവ അടങ്ങിയിരിക്കുന്നു. ഏതെങ്കിലും LLM മുഖേന ലോഗുകൾ പ്രോസസ്സ് ചെയ്യുന്നതിന് മുമ്പ്, രഹസ്യങ്ങളും ക്രെഡൻഷ്യലുകളും വ്യക്തിപരമായി തിരിച്ചറിയാനാകുന്ന വിവരങ്ങളും നീക്കം ചെയ്യുന്ന ശക്തമായ റിഡക്ഷൻ പൈപ്പ്ലൈനുകൾ നിങ്ങൾ നടപ്പിലാക്കണം. മൂന്നാം കക്ഷി ക്ലൗഡ് അധിഷ്‌ഠിത അനുമാന എൻഡ്‌പോയിൻ്റുകളിലേക്ക് റോ ലോഗുകൾ അയയ്‌ക്കുന്നതുമായി താരതമ്യം ചെയ്യുമ്പോൾ സ്വയം-ഹോസ്‌റ്റ് ചെയ്‌തതോ ഓൺ-പ്രെമൈസ് മോഡൽ വിന്യാസമോ എക്‌സ്‌പോഷർ ഗണ്യമായി കുറയ്ക്കുന്നു.