Jaki to język? 5 narzędzi do identyfikacji nieznanych języków

  • Michael Cain
  • 0
  • 2809
  • 640
Reklama

ja??´ ja›¹ja'¬ja??´jaŠ¸ja-?? í ™˜ja˜?? ja??´ê²ƒì ?? € ë³´mi¸° ì›??mi³¸ja??´mi‹¤

Jaki to język? Chiński? język japoński?

Właściwie to koreański. Ręczne wykrycie tego zajęłoby mi dużo czasu. Na szczęście znalazłem bardzo dokładne narzędzia, które mogą to zrobić automatycznie. Wszystkie są wymienione poniżej.

Eksperyment: Testowałem strony internetowe, używając przykładowego tekstu (1-2 zdania z 8 słowami) z następujących języków: portugalski, rosyjski, koreański, wietnamski, włoski, turecki, polski, ukraiński, azerbejdżański, słoweński, macedoński, holenderski, filipiński (tagalog), Grecki, galicyjski, czeski, białoruski, fiński, tatarski i norweski.

Ogólnie przetestowałem 20 różnych języków.

3 narzędzia do wykrywania tekstu w nieznanym języku

1. LangId (zdał 18 z 20 testów, nie zaliczył języka tatarskiego i białoruskiego)

Plusy: Ogólnie rzecz biorąc, świetne narzędzie online. Oferuje podstawową funkcję wykrywania tekstu, a także ma boty do wykrywania Twittera i poczty e-mail w celu uzyskania jeszcze szybszych wyników.

Cons: Ich silnik jest oparty na Google API, ale wydają się mieć lepsze wyniki niż opisany poniżej wykrywacz Google. Wygląda na to, że potrafią bardzo dobrze wykorzystywać rzeczy. Nie podobało mi się, że nie mają własnego unikalnego algorytmu do wykrywania języków.

2). Google Language Detector [już niedostępny] (zdał 17 z 20 testów, nie zaliczył portugalskiego, taglogu i białoruskiego)

Plusy: Google ma jeden z najlepszych na świecie interfejsów API do wykrywania języków. Dobrą rzeczą jest to, że widzisz prawdopodobieństwo, że wyświetlany wynik jest prawdziwy. Udało im się przejść większość próbnych testów.

Cons: Byłem dość zaskoczony, że nie zdali portugalskiego testu. Wygląda na to, że mają (mam nadzieję tymczasowy) błąd w tym języku. Mogą też z pewnością lepiej wykonać projekt strony.

3). Jaki to język (zdał 11 z 20 testów, nie zaliczył języka rosyjskiego, koreańskiego, ukraińskiego, azerbejdżańskiego, macedońskiego, tagalog, greckiego, galicyjskiego i tatarskiego)

Plusy: Niektóre języki, takie jak język południowosłowiański (serbski, chorwacki, słoweński) są dość podobne. Jeśli wpiszesz jakiś tekst chorwacki, powiedzmy, ta strona powie ci, że tekst może być również serbski lub słoweński.

Cons: Muszą pracować nad udoskonaleniem swojego systemu wykrywania. Myślałem o umieszczeniu Translated.net (innej witryny do wykrywania języków) zamiast tej, ale Translated obiecał wykrycie większej liczby języków i faktycznie zrobił to gorzej niż WhatLanguageIsThis.com.

2 narzędzia do wykrywania stron internetowych w nieznanych językach

4. tłumacz Google z Wykryj język jako pierwsza opcja

Zaliczone: 18 na 20, nie zaliczył Białorusi i Tataru.

Plusy: To narzędzie wykonuje swoją pracę bardzo dobrze. To, co lubię w Tłumaczu Google Tłumacz Google 2.1 Pokazuje z natywną obsługą iOS 7 Klawiatura i więcej Obsługa języka Google Translate 2.1 Pokazuje z natywną Obsługa iOS 7 Klawiatura i więcej Aktualizacja do Google Translate 2.1 na urządzeniu z systemem iOS i zapewnianie wsparcia dla tłumaczenia i obsługa wprowadzania pisma ręcznego dla nowych języków. Tłumacz Google w końcu otrzymuje nową klawiaturę iOS 7, która wykonuje wszystkie… jeśli nie obsługuje określonego języka, wyświetla się następujący ekran:

To świetny wykrywacz języka, jeśli mnie o to poprosisz!

5. Microsoft Bing Translator z Automatyczne wykrywanie jako pierwsza opcja.

Zaliczone: 8 na 20, nie zaliczył holenderskiego, wietnamskiego, tureckiego, ukraińskiego, azerbejdżańskiego, słoweńskiego, macedońskiego, tagalog, greckiego, galicyjskiego, czeskiego i białoruskiego

Plusy: Obsługuje ograniczoną liczbę języków. W przypadku tych języków działa dobrze.

Cons: Jestem bardzo rozczarowany Microsoftem. Mają bardzo ograniczoną liczbę języków do wykrywania i tłumaczenia Top 4 Online Translation Services Top 4 Online Translation Services, a ich funkcja Auto-Detect jest straszna. Jeśli wpiszesz język, którego nie obsługują, otrzymasz błędny wynik zamiast mówić, że nie obsługują tego języka.

Myśli

Ogólnie rzecz biorąc, moim zdaniem powyższe narzędzia zmierzają w dobrym kierunku. Obecnie są one najlepsze do wykrywania języków online i całkiem nieźle radzą sobie z popularnymi językami. Muszą jednak pracować nad dodawaniem bardziej niejasnych języków (żadne z narzędzi nie było w stanie rozpoznać tatarskiego) i jestem pewien, że wszystkie z nich, szczególnie Google, pójdą w tym kierunku w najbliższej przyszłości.

Źródło zdjęcia: Kanko *




Jeszcze bez komentarzy

O nowoczesnej technologii, prostej i niedrogiej.
Twój przewodnik w świecie nowoczesnych technologii. Dowiedz się, jak korzystać z technologii i gadżetów, które nas otaczają każdego dnia i dowiedz się, jak odkrywać ciekawe rzeczy w Internecie.