Nvidia PersonaPlex 7B на силикон на Apple: целосно дуплекс говор во говор во Swift | Mewayz Blog Skip to main content
Hacker News

Nvidia PersonaPlex 7B на силикон на Apple: целосно дуплекс говор во говор во Swift

Коментари

1 min read Via blog.ivan.digital

Mewayz Team

Editorial Team

Hacker News

Воведување на новата граница на гласовната вештачка интелигенција

Пејсажот на вештачката интелигенција се префрла од облакот кон работ, а силиконот на Apple го предводи полнењето. За програмерите, можноста за локално извршување моќни модели отвора нов свет на можности за одговорни, приватни и офлајн апликации. Влезете во Nvidia's PersonaPlex 7B, најсовремен модел дизајниран за природна, експресивна разговорна вештачка интелигенција. Кога овој моќен модел е поврзан со моќта на нервниот мотор на Mac од серијата M и рационализираната имплементација на Swift, резултатот е пробив во реално време, целосно дуплекс интеракција говор-во-говор.

Што е Full-Duplex говор во говор?

Пред да се нурнете во техничката магија, од клучно значење е да ја разберете компонентата „full-duplex“. За разлика од едноставните гласовни асистенти кои бараат од вас да притиснете копче и да чекате одговор, целосно дуплекс интеракцијата имитира природен човечки разговор. Овозможува симултано зборување и слушање, овозможувајќи прекини, паузи и вистински дијалог напред-назад. Ова значи дека вештачката интелигенција може да го обработи она што го кажувате додека сè уште зборувате и да формулира одговор што започнува во моментот кога ќе завршите - или дури и нежно да се меша ако паузирате. Постигнувањето на ова на локален уред, без испраќање аудио до далечен сервер, е светиот грал за создавање беспрекорни и интуитивни кориснички искуства.

Искористување на унифицираната архитектура на силиконот на Apple

Клучот за да се направи ова изводливо на лаптоп или десктоп е уникатната архитектура на силиконот на Apple. Чиповите од серијата М ги комбинираат процесорот, графичкиот процесор и моќниот невронски мотор (NE) на едно парче силикон. Оваа унифицирана мемориска архитектура е идеална за машинско учење. Големите модели како PersonaPlex 7B може да се вчитаат директно во споделената меморија, овозможувајќи му на процесорот да се справи со логиката на апликацијата во Swift, графичкиот процесор да забрзува одредени пресметки и Невралниот мотор да ги раскине операциите на јадрото на тензорот на моделот со екстремна ефикасност. Оваа синергија ги елиминира тесните грла за преместување на податоци помеѓу одделни компоненти, што го прави заклучувањето во реално време не само возможно, туку непречено и енергетски ефикасни.

  • Приватност и брзина: Целата обработка се одвива локално на уредот. Вашите чувствителни разговори никогаш не се испраќаат во облакот, со што се обезбедува целосна приватност на податоците, а истовремено има корист од речиси нула латентност.
  • Офлајн функционалност: Апликациите создадени со овој стек работат насекаде, без интернет конекција, што ги прави неверојатно сигурни.
  • Матични перформанси: Користењето на Swift и домашните рамки како Core ML овозможува длабока интеграција со macOS, што резултира со мазно искуство што се чувствува како дел од самиот оперативен систем.

Градење на гасоводот со Swift

Создавањето на овој целосно дуплекс гасовод во Swift вклучува оркестрирање на неколку компоненти. Прво, рамката AVFoundation снима аудио влез од микрофонот. Овој аудио пренос потоа се претвора во текст користејќи локален модел за препознавање говор, како што е рамката за говор на уредот на Apple. Добиениот текст се внесува во моделот Nvidia PersonaPlex 7B, кој е оптимизиран да работи преку Core ML или друг мотор за заклучување компатибилен со Swift, како што е MLX. Моделот генерира внимателен текстуален одговор за контекстот. Конечно, овој текст повторно се претвора во реалистичен говор со помош на локален мотор за текст во говор (TTS). Вистинскиот предизвик лежи во управувањето со овие компоненти истовремено за да се постигне ефектот на целосно дуплекс - задача каде што модерниот модел на истовременост на Свифт со async/wait се истакнува.

„Способноста да се изврши локално модел од овој калибар на силиконот на Apple суштински го менува начинот на кој размислуваме за интегрирање на вештачката интелигенција во нашите секојдневни работни процеси. – Виш програмер во Mewayz

Импликации за платформи како Mewayz

За модуларен деловен оперативен систем како Mewayz, овој технолошки скок е трансформативен. Замислете интелигентни гласовни агенти во вашиот деловен софтвер кои можат да ви помогнат да нацртате е-пошта, да управувате со сложени временски линии на проекти или да анализирате податоци - сето тоа преку природен разговор, без да ги загрозувате чувствителните корпоративни податоци. Модулот Mewayz напојуван од локалниот PersonaPlex 7B може да понуди:

Невидена приватност за ракување со доверливи деловни информации, помагала за соработка во реално време кои се чувствуваат како да имате експерт колега во просторијата и високо одговорни ботови за поддршка на клиенти интегрирани директно во работниот простор на компанијата Mewayz. Оваа технологија му овозможува на Mewayz да ги помести границите на она што може да го направи деловниот оперативен систем, преминувајќи надвор од едноставните интерфејси засновани на команди до вистински разговорни и интелигентни системи кои безбедно и ефикасно ја зголемуваат човечката способност.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

Комбинацијата на Nvidia's PersonaPlex 7B, сировата моќ на Apple Silicon и елеганцијата на Swift е повеќе од само техничко демо; тоа е план за иднината на интеракцијата човек-компјутер. Ветува свет во кој нашите уреди не разбираат како команданти кои даваат наредби, туку како партнери во разговорот.

Често поставувани прашања

Воведување на новата граница на гласовната вештачка интелигенција

Пејсажот на вештачката интелигенција се префрла од облакот кон работ, а силиконот на Apple го предводи полнењето. За програмерите, можноста за локално извршување моќни модели отвора нов свет на можности за одговорни, приватни и офлајн апликации. Влезете во Nvidia's PersonaPlex 7B, најсовремен модел дизајниран за природна, експресивна разговорна вештачка интелигенција. Кога овој моќен модел е поврзан со моќта на нервниот мотор на Mac од серијата M и рационализираната имплементација на Swift, резултатот е пробив во реално време, целосно дуплекс интеракција говор-во-говор.

Што е Full-Duplex говор во говор?

Пред да се нурнете во техничката магија, од клучно значење е да ја разберете компонентата „full-duplex“. За разлика од едноставните гласовни асистенти кои бараат од вас да притиснете копче и да чекате одговор, целосно дуплекс интеракцијата имитира природен човечки разговор. Овозможува симултано зборување и слушање, овозможувајќи прекини, паузи и вистински дијалог напред-назад. Ова значи дека вештачката интелигенција може да го обработи она што го кажувате додека сè уште зборувате и да формулира одговор што започнува во моментот кога ќе завршите - или дури и нежно да се меша ако паузирате. Постигнувањето на ова на локален уред, без испраќање аудио до далечен сервер, е светиот грал за создавање беспрекорни и интуитивни кориснички искуства.

Искористување на унифицираната архитектура на силиконот на Apple

Клучот за да се направи ова изводливо на лаптоп или десктоп е уникатната архитектура на силиконот на Apple. Чиповите од серијата М ги комбинираат процесорот, графичкиот процесор и моќниот невронски мотор (NE) на едно парче силикон. Оваа унифицирана мемориска архитектура е идеална за машинско учење. Големите модели како PersonaPlex 7B може да се вчитаат директно во споделената меморија, овозможувајќи му на процесорот да се справи со логиката на апликацијата во Swift, графичкиот процесор да забрзува одредени пресметки и Невралниот мотор да ги раскине операциите на јадрото на тензорот на моделот со екстремна ефикасност. Оваа синергија ги елиминира тесните грла за преместување на податоци помеѓу одделни компоненти, што го прави заклучувањето во реално време не само возможно, туку непречено и енергетски ефикасни.

Градење на гасоводот со Swift

Создавањето на овој целосно дуплекс гасовод во Swift вклучува оркестрирање на неколку компоненти. Прво, рамката AVFoundation снима аудио влез од микрофонот. Овој аудио пренос потоа се претвора во текст користејќи локален модел за препознавање говор, како што е рамката за говор на уредот на Apple. Добиениот текст се внесува во моделот Nvidia PersonaPlex 7B, кој е оптимизиран да работи преку Core ML или друг мотор за заклучување компатибилен со Swift, како што е MLX. Моделот генерира внимателен текстуален одговор за контекстот. Конечно, овој текст повторно се претвора во реалистичен говор со помош на локален мотор за текст во говор (TTS). Вистинскиот предизвик лежи во истовремено управување со овие компоненти за да се постигне ефектот на целосно дуплекс - задача каде што модерниот модел на истовременост на Свифт со асинхронизација/чекање е одличен.

Импликации за платформи како Mewayz

За модуларен деловен оперативен систем како Mewayz, овој технолошки скок е трансформативен. Замислете интелигентни гласовни агенти во вашиот деловен софтвер кои можат да ви помогнат да нацртате е-пошта, да управувате со сложени временски линии на проекти или да анализирате податоци - сето тоа преку природен разговор, без да ги загрозувате чувствителните корпоративни податоци. Модулот Mewayz напојуван од локалниот PersonaPlex 7B може да понуди:

Рализирајте го вашиот бизнис со Mewayz

Mewayz носи 207 деловни модули во една платформа - CRM, фактурирање, управување со проекти и многу повеќе. Придружете се на над 138.000 корисници кои го поедноставија нивниот работен тек.

Бесплатно денес