Wirtualny asystent w realnym handlu
Przejęcie rutynowych pytań przez głosowych wirtualnych asystentów stanowi największą wartość, jaką generujemy dla firm - ich pracownicy mogą wtedy skoncentrować się na rozwiązywaniu naprawdę skomplikowanych problemów - mówi Katarzyna Dorsey, założycielka i CEO Yosh.AI.
"MMP": Yosh.AI, firma z branży deep tech, którą założyłaś, specjalizuje się w konwersacyjnej sztucznej inteligencji. Przybliż naszym czytelnikom, czym dokładnie się zajmujecie.
Katarzyna Dorsey: Rozwiązania, które budujemy, czyli wirtualni asystenci, opierają się na wielu technologiach wykorzystujących sztuczną inteligencję. Generalnie założeniem jest umożliwienie komunikowania się między maszyną a użytkownikiem poprzez naturalną rozmowę w formie głosowej lub tekstowej. Wszyscy znamy Asystenta Google, Alexę czy Siri, my natomiast tworzymy takich asystentów dla firm. Umożliwiają oni klientom pozyskanie informacji lub załatwienie spraw właśnie poprzez takiego wirtualnego pomocnika. Jest on przez nas trenowany w konkretnym obszarze, w jakim funkcjonuje firma, np. w handlu detalicznym może wspierać proces zakupowy, a w bankowości przeprowadzać cały proces uwierzytelniania (potwierdzania tożsamości).
Wirtualni asystenci są oparci na wielu bardzo zaawansowanych technologiach. W przypadku asystentów głosowych w pierwszym etapie chodzi o rozpoznawanie mowy i transkrypcję do formy tekstowej tego, co powiedział użytkownik (czyli technologia speech to text, znana też jako ASR – Automatic Speech Recognition). Następnie tekst jest przesyłany do modułu NLP (Natural Language Processing – przetwarzanie języka naturalnego), gdzie następuje analiza, o co użytkownik pyta, oraz wyszukiwanie i generowanie odpowiedzi na zadane pytanie. Z formy tekstowej odpowiedź konwertowana jest z powrotem na formę głosową z wykorzystaniem technologii text to speech.
Zanim weszłaś w fascynujący świat deep tech, zajmowałaś się marketingiem w Coca-Coli, odpowiadając za marki na dziewięciu rynkach. Jakie doświadczenia z tej pracy przydają się najbardziej w tym, co robisz obecnie?
Bardzo cenię lata doświadczeń z korporacji. Nauczyłam się planowania strategicznego, zrozumiałam, jakie są potrzeby właśnie klientów typu enterprise. Teraz przekłada się to na owocną i długoterminową współpracę z naszymi klientami korporacyjnymi. Ja rozumiem ich wyzwania i dbam, by rozwiązania i technologie, które tworzymy, odpowiadały na konkretne potrzeby biznesowe.
Niewątpliwie zdobyłam doświadczenia w zarządzaniu projektami na wielu rynkach, z kilkoma zespołami jednocześnie, ale budując start-up technologiczny, musiałam się w tym obszarze nauczyć wszystkiego właściwie od zera. Są to zupełnie inne projekty, a kultura organizacyjna spółki technologicznej opiera się na innych wartościach. Tutaj wiedzę zdobywałam przede wszystkim poprzez Google Campus, gdzie miałam szansę pracować z fantastycznymi mentorami. Brałam udział w programie akceleracyjnym Blackbox w Silicon Valley właśnie dzięki Google for Startups.
Zebrałaś grupę niezwykle utalentowanych ludzi, na czele z Pawłem Wnukiem, doktorem fizyki, który przyszedł do Yosh.AI z działu R&D w Samsungu. Co skłoniło ich do pracy w start-upie?
Tak, myślę, że nasz zespół jest absolutnie wyjątkowy. Wiele osób dołączyło do nas z Samsung R&D, Google i Amazon, są wśród nich specjaliści od AI i data science, inżynierowie i lingwiści. Mają wyjątkowe kompetencje, doświadczenie we wdrażaniu najbardziej innowacyjnych rozwiązań w wiodących korporacjach. Są bardzo ambitni, wielu posiada doktoraty, ale to też po prostu bardzo sympatyczni i serdeczni ludzie. Stąd pozytywna atmosfera i dużo humoru na spotkaniach. Wielką zasługę przypisuje tu Pawłowi, wybitnemu naukowcowi, osobie bardzo pozytywnej, która niesamowicie motywuje zespół swoją postawą i osobowością. Jestem ogromnie wdzięczna, że mam takiego late co-foundera. Paweł i inne osoby dołączyły do nas, gdyż u nas wciąż dzieje się coś nowego, codziennie rozwiązujemy nowe wyzwania naukowe i biznesowe, a tempo, jakie narzucamy, jest znacznie większe niż to w korporacjach. Dodatkowo wszyscy są obdarzeni ogromnym zaufaniem. Nasz zespół to zdecydowanie największa wartość naszej firmy.
CCC, Frisco.pl, MediaMarkt i W.Kruk to wasi klienci w branży retail. Z jakim wyzwaniami przyszli i co im zaproponowaliście?
Frisco miało bardzo konkretną wizję, jako lider rynkowy w sektorze e-handlu spożywczego chciało zaoferować swoim użytkownikom możliwość robienia zakupów za pomocą konwersacji głosowej podczas np. jazdy samochodem czy pracy w kuchni. Asystent Frisco pobiera listę zakupów użytkownika, oczywiście z możliwością modyfikacji jej, i umożliwia zamówienie kuriera. To oszczędność czasu dla użytkownika i duża wygoda.
W asystencie CCC mamy natomiast wiele innych przydatnych funkcjonalności. Przykładowo użytkownik może wyszukać dowolny produkt nie tylko w formie głosowej czy tekstowej, ale także obrazem, wysyłając zdjęcie produktu, który właśnie widział np. na Instagramie. My na podstawie tego zdjęcia znajdujemy podobne produkty z oferty CCC. Dodatkowo asystent potrafi poinformować, gdzie ten produkt jest dostępny w danym rozmiarze w najbliższych sklepach stacjonarnych. To wyjątkowo innowacyjne rozwiązanie omnichannelowe w modelu ROPO (Research Online Purchase Offline, czyli „sprawdzamy online, kupujemy offline”). Oczywiście asystent daje wsparcie także w procesach posprzedażowych – można na przykład sprawdzić status zamówienia czy opcje zwrotu towaru. Asystent CCC jest dostępny w wielu kanałach komunikacji - od strony WWW, przez Messengera, Whatsapp, aż do infolinii, oferując wsparcie 24/7. Z CCC wprowadziliśmy asystenta już na wielu rynkach, podobnie zresztą wyszukiwanie obrazem. Daje to użytkownikom znacznie większą wygodę zakupów.Handel detaliczny jest zdecydowanie naszą domeną, gdyż oferujemy najbardziej zaawansowane rozwiązania w skali globalnej poprzez połączenie konwersacyjnej sztucznej inteligencji z wyszukiwaniem obrazem, czego nie ma w ofercie nikt inny. Działamy także w innych branżach, jak bankowość, ubezpieczenia czy nawet farmacja i opieka zdrowotna, gdzie nasi asystenci także wspierają użytkowników w pozyskiwaniu informacji i załatwianiu spraw. Wprowadzamy do tych firm automatyzację komunikacji i podnosimy jej komfort, zastępując proces tonowego wyboru tematu rozmowy opcją naturalnego powiadomienia, w jakiej sprawie użytkownik się kontaktuje.
Wyszukiwanie obrazem odgrywa coraz większą rolę w internecie, zwłaszcza w przypadku branż takich jak moda. Jakie są jego największe zalety?
Przede wszystkim znacznie poprawia całe doświadczenie zakupowe użytkownika oraz oszczędza czas. Większość inspiracji, zwłaszcza w branży modowej, jest właśnie wizualna – widzimy fajną sukienkę czy buty w mediach społecznościowych, magazynie modowym, na ulicy i po prostu chcemy taki produkt mieć. Zamiast trudzić się nad opisem, wystarczy przesłać zdjęcie czy link do strony, na której został znaleziony. Wyszukiwanie jest dużo szybsze, a także zacznie dokładniejsze, gdyż opiera się na podobieństwie wyglądu, a nie mniej uchwytnych cechach, które musimy opisać słowami. Sprawdza się to także, gdy szukamy np. tańszej alternatywy dla produktów premium. Takie wyszukiwanie nie tylko zajmuje mniej czasu użytkownikom, ale daje znacznie lepsze rezultaty sprzedażowe naszym klientom. Z badań CCC wynika, że konwersja poprzez visual search jest cztery razy wyższa niż przez tradycyjne wyszukiwanie słowne. Jest to idealne rozwiązanie dla branż takich jak moda, wyposażenie wnętrz czy biżuteria – ostatnio nasze rozwiązanie wdrożył W. Kruk. Również w biżuterii ciężko dokładnie opisać słowami, czego się szuka, łatwiej wysłać zdjęcie.
Wyszukiwanie obrazem pomaga też odnajdywać podobne produkty w ramach oferty sklepu – sprawdza się w tym znacznie lepiej niż tradycyjne silniki rekomendacyjne. Stosuje się je także do rozwiązania, które wspiera proces wyszukiwania – do automatycznego tagowania. Nasza modele oparte na sztucznej inteligencji zostały “wyuczone” automatycznego nadawania atrybutów produktów na podstawie zdjęcia. Coś, co zespołom ludzi zajmuje tygodnie, nasz model robi w kilka minut. To rozwiązanie bardzo efektywne kosztowo, ale także dokładniejsze, dzięki wielu przypisanym atrybutom.
Wiadomo, że chatboty i asystenci AI to przyszłość komunikacji z konsumentem. Maszyny nie mają zastąpić ludzi, tylko odciążyć ich od najbardziej powtarzalnych i rutynowych czynności. Jak jednak radzić sobie w sytuacjach – nadal częstych – gdy konsument nie potrafi "dogadać się" z maszyną i potrzebny jest żywy człowiek? Jak zsynchronizować te dwa obszary komunikacji?
Te sytuacje nie są już tak częste jak kiedyś, technologia jest obecnie znacznie bardziej zaawansowana i skuteczność naszych asystentów przekracza 80% rozwiązanych spraw. Oczywiście jeszcze długo maszyna nie będzie w stanie odpowiedzieć na wszystkie zapytania, ale w tych łatwych do zautomatyzowania jak np. status zamówienia, autoryzacja w banku, już obecnie osiąga prawie 100% skuteczności. Mniej skomplikowane zapytania mogą być obsłużone przez wirtualnych asystentów, oszczędzając tym samym czas pracy ludzi np. w call center. To właśnie przejęcie rutynowych pytań przez głosowych wirtualnych asystentów stanowi największą wartość, jaką generujemy dla firm – ich pracownicy mogą się wtedy skoncentrować się na rozwiązywaniu naprawdę skomplikowanych problemów.
Co Yosh.AI wyniosło z trzymiesięcznego europejskiego programu akceleracyjnego prowadzonego na przełomie 2020 i 2021 przez zespół Google for Startups w Warszawie?
Poza częścią edukacyjną było to przede wszystkim wsparcie w naszej ekspansji na rynki europejskie. Dzięki programowi nawiązaliśmy współpracę z Google Niemcy i już wprowadziliśmy bardzo duży projekt asystenta głosowego dla jednego z największych retailerów na rynku niemieckim. Podobnie rozpoczynamy współpracę z Google Francja oraz z osobami odpowiedzialnymi za Call Center AI w EMEA jak także w US, by powielić udaną współpracę z Google w Polsce i w Niemczech na innych rynkach.
W trakcie programu spotkaliśmy bardzo inspirujące osoby, m.in. Adama Chayera, współtwórcę Siri, także Bixby – wirtualnego asystenta Samsunga, czy taką sławę jak Peter Norvig – dyrektor badań w Google. Wynieśliśmy dużo wiedzy o tym, jak skalować biznes globalnie. Google for Startups wspiera nas od wielu lat, m.in. poprzez udział w innym programie akceleracyjnym Blackbox w Dolinie Krzemowej, gdzie zmieniliśmy sposób myślenia o sukcesie, a także budowaniu firmy technologicznej i globalnej. Nauczyliśmy się, jak realizować nasze wielkie marzenie – zdobycie pozycji jednorożca. Na razie jesteśmy na początku drogi, ale widząc nasz wzrost, sukcesy biznesowe, wsparcie finansowe – otrzymaliśmy już dwa granty na rozwój technologii z Narodowego Centrum Badań i Rozwoju na kwotę prawie 20 mln zł, a ponadto finalizujemy rundę inwestycyjną z międzynarodowymi inwestorami – wydaje się, że jesteśmy na właściwej ścieżce.
Najświeższe potwierdzenie, że tak właśnie jest, to prezentacja Yosh.AI podczas jednego z paneli na tegorocznej konferencji Google I/O w Mounain View w Kalifornii.
Tak, to wielkie wydarzenie w świecie deweloperów, ogłaszane są tam nowe produkty i prezentowane innowacyjne na skalę globalną rozwiązania. A my będziemy pokazywani 18 maja podczas „Google for Startups Women Founders Meetup” jako przykład tego, jak budować i skalować firmy. Jesteśmy z tego powodu bardzo dumni, gdyż prawdopodobnie jesteśmy jedynym start-upem z Polski, który został tak doceniony przez Google.
Rozmawiał: Paweł Piasecki
Katarzyna Dorsey, założycielka i CEO Yosh.AI, start-upu z siedzibą w Londynie i Warszawie, który automatyzuje komunikację między firmami (koncentrując się na handlu detalicznym) a ich użytkownikami, poprzez asystentów głosowych z wykorzystaniem sztucznej inteligencji. Yosh.AI jest globalnym partnerem Google i został oficjalnie wyróżniony – jako pierwsza firma w Europie Środkowo-Wschodniej – za wysokiej jakości działania na Asystencie Google. „Forbes” uznał w 2019 r. Yosh.AI za jedną z pięciu firm, które kształtują przyszłość handlu detalicznego. To samo pismo umieściło założycielkę start-upu na liście "100 European Female Founders". Dorsey jest również mentorką w wielu organizacjach wspierających kobiety, w tym Vital Voices oraz Women in Tech.

Specjalizuje się w e-commerce i nowych technologiach. Pracował m.in jako tłumacz i redaktor, przez ponad 5 lat przygotowywał codzienny serwis prasowy dla przedstawicielstwa Komisji Europejskiej w Polsce. Miłośnik muzyki klasycznej i jazzu.