Welcome to Hunglish 2.0! This page is an online search interface for the Hunglish Corpus 2, which is a free, sentence-aligned Hungarian-English parallel corpus of about 120 million words in 4 million sentence pairs. This is the version 2.0 release of the search interface, the backend software, and the Corpus itself.
The original 1.0 release of the old Hunglish Corpus from 2005 is still available.
These are some important changes in the new system:
- Hunglish Corpus 2: we have increased the number of sentence pairs from 2 million to 3.5 million.
- You can upload a pair of documents, the system will extract the sentence pairs
- Duplicates are filtered
- Downvote: if you find an wrongly translated sentence pair, you can downvote it. (The sole purpose of the upvote button is to correct downvotes done by mistake)
- Did you mean ...? feature
Important links:
The Developers: Dániel Varga and Péter Gergő Barna
Special thanks to:
Attila Balogh, Zsolt Both, András Farkas, Péter Halácsy (developer of the original system), András Kornai, András Rung, Tamás Váradi, Attila Zséder
_____________________________________________
Elkészült a Hunglish Mondattár új, jelentősen továbbfejleszett változata. A felhasználók számára is érzékelhető fejlesztések közül az alábbiak a legfontosabbak:
- Hunglish Korpusz 2: Új szövegeket gyűjtöttünk, így a rendszerben "alapból" benne levő mondatpárok számát jelentősen megnöveltük, 2 millióról körülbelül 3.5 millióra.
- Dokumentumpárok feltöltésének lehetősége: a felhasználó által feltöltött magyar-angol dokumentumpárból a rendszer automatikusan kivonatolja az egymásnak megfelelő mondatpárokat. Ha a szoftver elégedett ennek a kivonatolásnak a minőségével, akkor a mondatpárokat hozzáadja a kereshető adatbázishoz.
- Duplikátumszűrés: a találati lista csak egyszer mutatja meg az azonos találatokat.
- Hibás mondatpárok leszavazása (dislike): Ha nem illeszkedő vagy félrefordított mondatpárra bukkanunk, hátrasorolhatjuk a találati listán.
- Did you mean ...? Helyesírási hibák, elgépelések javítása
Fontos linkek:
- Keresés
- Dokumentumpárok feltöltése
- The search syntax (angolul)
- Hibabejelentés, új funkciók kérése a projekt weboldalán
Az új rendszer tesztüzemben fut, és folyamatos fejlesztés alatt áll. A felhasználói felület designja például még teljesen ideiglenes, de sokminden más is drasztikusan változni fog. Ennek ellenére mi már most meg szeretnénk kérni Önöket, hogy látogassanak át az új rendszerhez, próbálják ki az új funkciókat, és ha úgy érzik, adjanak visszajelzést a hunglish kukac mokk.bme.hu mailcímen.
Mindenkit lelkesen bátorítunk arra, hogy próbálja ki a dokumentumpár-feltöltési funkciót. Ne bizonytalanítsa el az sem, ha a feltöltendő dokumentumpár minősége kétséges. A kevésbé jó dokumentumpárok (hiányos vagy problémás kódolású szövegek, pontatlan fordítások) a Hunglish Mondattár végső változatának nem szolgálnak majd az előnyére, de jelenleg, teszteléskor fontos információkat adhatnak nekünk a rendszer hibatűréséről. (A rendszer szigorúan próbálja meghúzni a határt, hogy milyen minőségű adatot enged be az adatbázisba, sokmindent elutasít. Még nem készült el az az oldal, ahol erről visszajelzést ad.)
Varga Dániel és Barna Péter Gergő fejlesztők
Köszönetnyilvánítás:
Az alábbiaknak különösen hálásak vagyunk segítségükért: Balogh Attila, Both Zsolt, Farkas András, Halácsy Péter (az eredeti rendszer fejlesztője), Kornai András, Rung András, Váradi Tamás, Zséder Attila
A Hunglish Mondattár Facebook oldala.