Evidenčné číslo |
FEI-2023-95 |
Dátum podania |
2022-11-28 11:05:02 |
01. Názov grantu |
Základný výskum metód v oblasti detekcie nenávistných prejavov a ofenzívneho jazyka na sociálnych sieťach |
02. Title in English |
Basic research in the field of detection of hate speech and offensive language on social media |
03. Akronym |
DoHS&OLoSM |
04. Odbor |
Informatika |
05. Začiatok riešenia |
2023-01-01 |
06. Koniec riešenia |
2023-12-31 |
07. Anotácia |
Predložený projekt je zameraný na analýzu pokročilých metód a algoritmov NLP v oblasti detekcie nenávistných prejavov a ofenzívneho jazyka na sociálnych sieťach a extrakcie príznakov z textu. Keďže sa v súčasnosti stretávame s problémom pri rozlišovaní, či je veta napísaná v ofenzívnom alebo v defenzívnom štýle je projekt zameraný aj na tvorbu anotovaného benchmarkového korpusu. Pomocou takéhoto korpusu, bude možné lepšie identifikovať rozdiely v spomínaných štýloch.
Cieľom projektu je vytvorenie benchmarkového korpusu nenávistných prejavov a ofenzívneho jazyka pre slovenský jazyk získaného zo sociálnych sietí a anotovaného z viacerých hľadísk, ďalej analýza vhodných algoritmov a metód extrakcie príznakov z textu a reprezentácie slov vo vektorovom priestore a tiež identifikácia vhodných techník na detekciu nenávistných prejavov a ofenzívneho jazyka na báze autoenkóderov, transformátorov a autoregresívnych modelov, typu BERT, XLNet a GPT. |
08. Annotation |
The presented project is focused on the analysis of advanced NLP methods and algorithms in the field of the detection of hate speech and offensive language on social media and the extraction of symptoms from the text. Since we are currently facing the problem of distinguishing whether a sentence is written in an offensive or defensive style, the project is also focused on creating an annotated benchmark corpus. With the help of such a corpus, it will be possible to better identify the differences in the mentioned styles. The goal of the project is to create a benchmark corpus of hate speech and offensive language for the Slovak language obtained from social networks and annotated from several points of view, further analysis of suitable algorithms and methods for extracting signs from text and representing words in vector space and also the identification of suitable techniques for detecting hate speech and offensive language based on autoencoders, transformers and autoregressive models, such as BERT, XLNet, and GPT. |
09. Požadované prostriedky |
2000 EUR |
10. Bežné priame náklady |
1600 EUR |
11. Cestovné náklady |
400 EUR |
12. Materiál |
0 EUR |
13. Služby |
0 EUR |
14. Bežné nepriame náklady |
0 EUR |
15. Katedra |
Katedra elektroniky a multimediálnych telekomunikácií |
16. Vedúci katedry |
prof. Ing. Jozef Juhár, CSc. |
17. Meno a priezvisko zodpovedného riešiteľa |
Ing. Zuzana Sokolová |
18. Telefón |
055/602 3307 |
19. Email |
zuzana.sokolova@tuke.sk |
20. CC publikácie za posledných 5 rokov s uvedením počtu citácií (max. 20 publikácií) s uvedením bibliografických údajov a odkazmi na publikácie |
- |
21. Celkový počet - CC publikácie za posledných 5 rokov |
0 |
22. Impaktované (s uvedením impakt faktoru) publikácie za posledných 5 rokov s uvedením počtu citácií (max. 20 publikácií) s uvedením bibliografických údajov a odkazmi na publikácie |
- |
23. Celkový počet - impaktované publikácie za posledných 5 rokov |
0 |
24. Publikácie v zahraničných a domácich periodikách nepokrytých CC za posledných 5 rokov (max. 20 publikácií)
|
Recent trends in detection of hate speech and offensive language on social media / Zuzana Sokolová Spôsob prístupu: http://scyr.kpi.fei.tuke.sk/wp-content/scyr-files/history/SCYR_2022_Proceedings.pdf... - 2022. In: 22nd Scientific Conference of Young Researchers : proceedings from conference. - Košice (Slovensko) : Technická univerzita v Košiciach s. 211-214 [CD-ROM, print]. - ISBN 978-80-553-4061-6
[SOKOLOVÁ, Zuzana]
SOKOLOVÁ, Zuzana; STAŠ, Ján; HLÁDEK, Daniel. An Introduction to Detection of Hate Speech and Offensive Language in Slovak. In: 2022 12th International Conference on Advanced Computer Information Technologies (ACIT). IEEE, 2022. p. 497-501. |
25. Celkový počet - Publikácie v zahraničných a domácich periodikách nepokrytých CC za posledných 5 rokov
|
2 |
26. Monografie a kapitoly dlhšie ako 3 autorské hárky za posledných 5 rokov |
- |
27. Počet - Monografie a kapitoly dlhšie ako 3 autorské hárky za posledných 5 rokov |
0 |
28. Učebnice a skriptá za posledných 5 rokov |
- |
29. Počet - Učebnice a skriptá za posledných 5 rokov |
0 |
30. Zoznam 5 najcitovanejších publikácií s uvedením počtu citácií a uveďte max. 10 citácií ku každej publikácii
|
- |
31. Celkový počet publikácií citovaných za posledných 5 rokov (10-50 krát) |
0 |
32. Prehľad projektov zodpovedného riešiteľa realizovaných v priebehu posledných 5 rokov v štruktúre: názov projektu, grantová schéma, roky realizácie, rozpočet, pozícia zodpovedného riešiteľa
|
Inovácia obsahu a príprava učebných textov pre predmet Biometrické systémy bezpečnosti, KEGA 009TUKE-4/2019, 2019-2021, 28 700€, člen riešiteľského kolektívu
Technológie automatického spracovania reči na pomoc v krízových situáciách, VEGA 2/0165/21, 2021-2024, 40 536 €, člen riešiteľského kolektívu
Robustné rečové technológie metódami hlbokého učenia, VEGA 1/0753/20, 2020-2022, 25 474 €, člen riešiteľského kolektívu
Technológie pre podporu generovania odpovede pre viacjazyčného inteligentného agenta, APVV SK-TW-21-0002, 2022-2023, 10 000€, člen riešiteľského kolektívu |
33. Počet - Projekty zodpovedného riešiteľa realizované v priebehu posledných 5 rokov |
0 |
34. Expertízy, konzultácie a ostatné výsledky s priamym využitím v hospodárskej a spoločenskej praxi za
posledných 5 rokov |
- |
35. Počet - Expertízy, konzultácie a ostatné výsledky s priamym využitím v hospodárskej a spoločenskej
praxi za posledných 5 rokov |
0 |
36. Aplikačné výstupy - chránené (patent, vynález) |
- |
37. Počet - Aplikačné výstupy - chránené (patent, vynález) |
0 |
38. Aplikačné výstupy - ostatné |
- |
39. Počet - Aplikačné výstupy - ostatné |
0 |
40. Zoznam riešiteľov
Meno a priezvisko |
Dátum narodenia |
Katedra |
Zuzana Sokolová |
1996-09-03 |
KEMT |
Maroš Harahus |
1995-08-28 |
KEMT |
Miroslav Sokol |
1993-07-07 |
KEMT |
Patrik Jurík |
1996-11-23 |
KEMT |
Marianna Koctúrová |
1993-10-14 |
KEMT |
Počet riešiteľov: 5
|
41. Súhrnná kapacita riešiteľov v hodinách |
1500 |
42. Kľúčové slová |
nenávistný prejav, ofenzívny jazyk, vektorová reprezentácia slov, hlboké učenie, model BERT |
43. Keywords |
hate speech, offensive language, word embeddings, deep learning, model BERT |
44. Vedecké ciele projektu |
1) Vytvoriť benchmarkový korpus nenávistných prejavov a ofenzívneho jazyka pre slovenský jazyk získaný zo sociálnych sietí a anotovaný z viacerých hľadísk, t.j. polarity sentimentu, druhu a úrovne nenávistného prejavu a pod.
2) Analyzovať vhodné algoritmy a metódy extrakcie príznakov z textu a reprezentácie slov vo vektorovom priestore
3) Identifikovať vhodné techniky na detekciu nenávistných prejavov a ofenzívneho jazyka na báze autoenkóderov, transformátorov a autoregresívnych modelov, typu BERT, XLNet a GPT. |
45. Forma popularizácie výsledkov riešenia projektu s cieľom informovať verejnosť o prínosoch výsledkov projektu |
Publikácia dosiahnutých výsledkov v karentovanom časopise, kvartil Q2, napr. IEEE Access (2169-3536), INFORMATICA (0868-4952) a pod., resp. kvartil Q3, napr. Multimedia Tools and Applications (ISSN 1380-7501), Acta Polytechnica Hungarica (ISSN 1785-8860) a pod.
Publikácia dosiahnutých výsledkov v domácom recenzovanom časopise, napr. Acta Electrotechnica et Informatica (ISSN 1335-8243). |
46. Očakávané výstupy riešenia
Kategória |
Počet |
Počet CC publikácií |
1 |
Počet impaktovaných publikácií |
1 |
Počet publikácií nepokrytých CC a impaktovaných |
2 |
Počet patentových prihláok v SR |
0 |
Počet vyvolaných projektov VaV, nadv. na riešený projekt |
0 |
|
47. Harmonogram
Začiatok etapy |
Koniec etapy |
Názov etapy |
Popis etapy |
2023-01-01 |
2023-01-31 |
Identifikácia hlavných problémov v skúmaných oblastiach |
Vykonanie podrobnej analýzy aktuálneho stavu problematiky a výber problémov, ktoré sa budú riešiť počas doby trvania projektu. |
2023-02-01 |
2023-02-28 |
Teoretický návrh riešení |
Načrtnutie riešení na vybraté problémy v skúmanej oblasti. |
2023-03-01 |
2023-10-31 |
Tvorba korpusu, analýza a identifikácia vhodných algoritmov |
Vytvorenie benchmarkového korpusu nenávistných prejavov a ofenzívneho jazyka pre slovenský jazyk. Analýza a identifikácia vhodných algoritmov pre extrakciu príznakov textu a detekciu nenávistného prejavu a ofenzívneho jazyka. |
2023-06-01 |
2023-11-30 |
Vyhodnotenie experimentov |
Porovnanie nami dosiahnutých výsledkov s výsledkami publikovanými v uznávaných svetových periodikách. |
2023-11-15 |
2023-11-30 |
Vyhodnotenie projektu |
Vypracovanie záverečnej správy projektu. |
2023-03-01 |
2023-11-30 |
Diseminácia výsledkov |
Publikovanie čiastkových výsledkov na domácich a zahraničných odborných konferenciách s medzinárodnou účasťou a v hodnotných recenzovaných časopisoch. |
Počet etáp: 6
|
Vecný zámer projektu |
48. Aktuálnosť a vedeckosť cieľov, vedecká úroveň a kvalita projektu
- Definujte mieru aktuálnosti riešeného problému v danej oblasti vedy a techniky, z celosvetového pohľadu vrátane relevantných odkazov na odbornú literatúru
- Definujte vedeckú úroveň projektu a vedeckosť metód využívaných v riešení projektu
- Definujte ciele projektu a reálnosť ich dosiahnutia
- Opíšte navrhovanú metodiku riešenia projektu, opodstatnenosť jej výberu a efektívnosť jej pouţitia z hľadiska splnenia deklarovaných cieľov
V začiatkoch tejto témy sa výraz „nenávistný prejav” označoval ako urážlivá/nepriateľská správa (z angl. abusive/hostile message) alebo prudký cit (z angl. flames). No pri definovaní tohto javu sa zaužívalo slovné spojenie nenávistný prejav. V súčasnosti sa veľa autorov presunulo k pomenovaniu kyberšikana (z angl. cyberbullying) [1]. Existuje viacero konceptov, ktoré sa týkajú nenávistných prejavov a používajú sa v komunite NLP (Spracovanie prirodzeného jazyka, z angl. Natural Language Processing), napr.: diskriminácia, vulgárny jazyk, vulgárne výrazy, toxický jazyk alebo komentár [2]. Medzi tieto nenávistné prejavy môžeme tiež zaradiť rasistické karikatúry, antisemitské symboly, etnické nadávky alebo iné hanlivé označenia skupiny ako pálenie kríža, politicky nesprávne vtipy, sexistické vyhlásenia, protesty proti homosexuálom a pod. [3].
Napriek tomu, že množstvo nenávistných prejavov v online svete narastá, cieľ samotnej nenávistnej reči alebo prejavu nie sú nové. Úmyslom je zastrašiť, zosmiešniť, diskriminovať a urážať určitú cieľovú skupinu alebo osobu. Aj keď nenávistný prejav sám osebe nie je novinkou, detekcia nenávistných prejavov je aktuálnou témou. Detegovanie nenávistných prejavov sa stalo dôležitou súčasťou analýzy verejného sentimentu/nálady skupiny používateľov voči inej skupine, taktiež na odradenie rôznych súvisiacich protiprávnych aktivít [4]. Ručné filtrovanie nenávistného prejavu je náročné a vyžaduje veľa práce. To znamená, že nie je vôbec škálovateľné, preto sa výskumní pracovníci rozhodli nájsť automatizované spôsoby detekcie nenávistného textu.
Predložený projekt sa zakladá na poznatkoch, že niekedy je veľmi obtiažné rozlíšiť, či je veta napísaná v ofenzívnom alebo v defenzívnom štýle. V súčasnej situácii, keď je spoločnosť rozdelená na tábory je potrebné mať nástroj, ktorý dokáže určiť, či komentár pod príspevkom na sociálnej sieti zanechal váš priateľ alebo či na vás človek v tom danom komentári neútočí. Metódy ktoré chceme využiť pri spracovaní nášho projektu sa zakladajú na neurónových sieťach. V dnešnej dobe sú neurónové siete veľmi rozšírené a sú používanie skoro na všetko, čo sa týka predikcie. Na získavanie komentárov zo sociálnych sietí chceme využiť už existujúce riešenie vytvorené v programovacom jazyku Python, ktoré automaticky sťahuje text pod príspevkom. Text by sme následne previedli do vektorovej podoby, aby neurónová sieť mohla určiť hodnotu sentimentu komentára. Pokiaľ by sa ale jednalo o viac viet následným výpočtom by sa zhodnotil sentiment celého komentára pod príspevkom.
Riešiteľský kolektív na základe nadobudnutého všeobecného prehľadu v oblasti detekcie nenávistného prejavu a ofenzívneho jazyka stanovil nasledujúce ciele projektu. Predpokladáme, že predložené ciele je riešiteľský kolektív schopný dosiahnuť na základe doterajšej práce členov kolektívu v rámci ich vedeckej činnosti. Hlavné ciele projektu sú opísané v nasledujúcich troch bodoch:
1) Vytvoriť benchmarkový korpus nenávistných prejavov a ofenzívneho jazyka pre slovenský jazyk získaný zo sociálnych sietí a anotovaný z viacerých hľadísk, t.j. polarity sentimentu, druhu a úrovne nenávistného prejavu a pod.
2) Analyzovať vhodné algoritmy a metódy extrakcie príznakov z textu a reprezentácie slov vo vektorovom priestore
3) Identifikovať vhodné techniky na detekciu nenávistných prejavov a ofenzívneho jazyka na báze autoenkóderov, transformátorov a autoregresívnych modelov, typu BERT, XLNet a GPT.
Návrh projektu vychádza z aktuálnych a overených postupov, princípov a metód aplikovaných v moderných, podobne koncipovaných systémoch vo svete, ale je tiež založený na aplikovaní vlastných unikátnych výsledkov základného výskumu. Tento projekt priamo nadväzuje na predošlé riešené projekty základného výskumu (ako je: detekcia nenávistných prejavov metódami hlbokého učenia, analýza sentimentu, morfologická anotácia slovenského jazyka v knižnici spaCy s pomocou predtrénovania a pod.). Sme presvedčení, že naše doterajšie vedecké výsledky v oblasti počítačového spracovania prirodzeného jazyka, ako aj materiálne predpoklady a praktické skúsenosti nám umožňujú realizovať výskum, ktorého výsledky budú priamo použiteľné pri následnom vývoji systému na automatické sťahovanie textu zo sociálnych sietí, pre automatické označovanie hodnôt sentimentu v texte a tiež na vytváranie ďalších štatistík orientovaných predovšetkým na prispievateľov komentárov na sociálnych sieťach v slovenskom jazyku.
Získané poznatky a dosiahnuté výsledky je možné využiť aj v ďalšej vedeckej činnosti. Získané výsledky je možné uviesť v publikáciách a touto cestou ich porovnať s aktuálnym stavom v oblasti. Prostriedky z rozpočtu by boli použité najmä na uhradenie vložného pre príspevky do dvoch recenzovaných časopisov, publikačnej úrovne Q3 prípadne jeden časopis úrovne Q2.
[1] Anna Schmidt and Michael Wiegand. A survey on hate speech detection using natural language processing. 2017.
[2] Paula Fortuna. Automatic detection of hate speech in text: an overview of the topic and dataset annotation with hierarchical classes. 2017.
[3] Grace Udoh-Oshin. Hate speech on the internet: Crime or free speech? 2017.
[4] Pinkesh Badjatiya, Shashank Gupta, Manish Gupta, and Vasudeva Varma. Deep learning for hate speech detection in tweets. 2017. |
49. Originálnosť projektu a koncepcie riešenia
- Definujte mieru originálnosti projektu
- Opíšte navrhovaný koncept riešenia a formulujte vedeckú hypotézu
- Definujte význam predbežných výsledkov, nadväznosť navrhovaného riešenia na vlastné publikované výsledky
V súčasnosti sa sociálne siete v online svete stávajú čoraz viac vyhľadávanejšími pre zapájanie sa do rôznych debát a diskusií na aktuálne témy. S nárastom užívateľov pribúda aj veľké množstvo negativity a spolu s ňou zvýšený výskyt nenávistných prejavov a ofenzívneho jazyka na internete. Projekt pokladáme za pomerne originálny, keďže v súčasnosti na Slovensku nemáme žiadny takýto benchmarkový korpus určený pre detekciu nenávistného prejavu a ofenzívneho jazyka. Taktiež je táto oblasť výskumu na Slovensku stále nedostatočne prebádaná.
V rámci navrhovaného konceptu riešenia, riešiteľský kolektív by sa chcel zamerať práve návrhom a následne tvorbou kvalitného benchmarkového korpusu určeného pre detekciu nenávistného prejavu a ofenzívneho jazyka na sociálnych sieťach, ktorý by bol anotovaný z viacerých hľadísk, t.j. polarity sentimentu, druhu a úrovne nenávistného prejavu a pod. Zároveň by sa riešiteľský kolektív venoval analýze vhodných algoritmov a metód extrakcie príznakov z textu a reprezentácie slov vo vektorovom priestore. Následne by riešiteľský kolektív identifikoval vhodné techniky na detekciu nenávistných prejavov a ofenzívneho jazyka na báze autoenkóderov, transformátorov a autoregresívnych modelov, typu BERT, XLNet a GPT.
Dosiahnuté výsledky by mohli významne pomôcť pri detegovaní nenávistných prejavov v slovenskom jazyku v rámci online priestoru, predovšetkým však v rámci komentárov na sociálnych sieťach. Výskum a navrhované riešenia v rámci tohto projektu priamo nadväzujú na riešené problematiky členov riešiteľského kolektívu. Ing. Zuzana Sokolová sa v rámci svojho štúdia na katedre KEMT venuje oblasti spracovania prirodzeného jazyka a to konkrétne aj vo svojich záverečných prácach pre bakalárske a inžinierske štúdium, kde riešenou problematikou bolo overovanie autorstva z písaných textov a následne sa venovala detekcii nenávistných prejavov metódami hlbokého učenia. Ďalej sa v rámci svojej dizertačnej práce venuje detekcii nenávistného prejavu a ofenzívneho jazyka na sociálnych sieťach. Riešiteľ Ing. Maroš Harahus sa v rámci svojho výskumu venuje reprezentácii slov vo vektorovom priestore, knižnici spaCy pre slovenský jazyk a automatickými opravami textu a spracovaniu prirodzeného jazyka. Riešiteľka Ing. Marianna Koctúrová, PhD. sa v rámci svojho výskumu venuje neurónovým sieťam, spracovaniu EEG signálov a rozhraniam mozog-počítač. Riešitelia Ing. Miroslav Sokol, PhD. a Ing. Patrik Jurík majú skúsenosti v oblasti algoritmizácie a programovania, zároveň by v rámci projektu pomáhali pri pokročilých metódach klasifikácie, pri tvorbe anotovaného benchmarkového korpusu a pri spracovaní a publikovaní dosiahnutých výsledkov. |
50. Štruktúra projektu, kvalita spracovania, logická nadväznosť postupov riešenia
- Definujte harmonogram riešenia projektu s ohľadom na logickú nadväznosť postupov a na napĺňanie deklarovaných cieľov
- Vysvetlite adekvátnosť použitej metodiky
- Vysvetlite adekvátnosť navrhnutého rozpočtu projektu v
kontexte finančnej náročnosti dosiahnutia cieľov
- Stanovte časový plán realizácie a naplnenia stanovených
vedeckých cieľov
Zvolené metodické postupy pri riešení navrhovaného projektu budú vychádzať zo štandardných postupov vo vedeckom výskume, ktoré zahŕňajú podrobný rozbor súčasného stavu riešenej problematiky, analýzu možných postupov a riešení, za ktorou nasleduje výber optimálneho riešenia. Zvolené metodické postupy predpokladajú využitie počítačovej simulácie navrhnutých metód a algoritmov, návrh ich implementácie a ich experimentálne overenie.
Zvolenú metodiku považujeme za adekvátnu, pretože sme ju navrhli na základe najlepších dosiahnutých výsledkov publikovaných v uznávaných svetových periodikách v oblasti detekcie nenávistného prejavu.
V rámci navrhnutého rozpočtu plánujeme poskytnuté prostriedky vynaložiť na propagáciu výsledkov výskumu vo významných domácich a zahraničných časopisoch.
Projekt je podľa časového harmonogramu rozdelený do šiestich etáp. Prvá etapa je naplánovaná od 01. 01. 2023 do 31. 01. 2023. Jej cieľom je podrobné preskúmanie aktuálneho stavu problematiky a bližšie určenie riešených problémov. V tomto projekte by sa kolektív riešiteľov chcel zamerať najmä na základný výskum metód, princípov a postupov v oblasti detekcie nenávistného prejavu a ofenzívneho jazyka a metód extrakcie príznakov z textu a reprezentáciu slov vo vektorovom priestore.
Druhá etapa je naplánovaná od 01. 02. 2023 do 28. 02. 2023. V rámci tejto etapy sa teoreticky rozpracujeme návrh riešení pre zvolené problémy. V oblasti detekcie nenávistného prejavu v slovenskom jazyku budú navrhnuté možné riešenia. Kolektív riešiteľov vypracuje postup anotácie benchmarkového korpusu a určí vhodné metódy extrakcie príznakov z textu zamerané na slovenský jazyk.
Tretia etapa je naplánovaná od 01. 03. 2023 do 31. 10. 2023. Cieľom tejto etapy je tvorba benchmarkového korpusu nenávistných prejavov a ofenzívneho jazyka pre slovenský jazyk. Taktiež analýza a identifikácia vhodných algoritmov pre extrakciu príznakov textu a detekciu nenávistného prejavu a ofenzívneho jazyka. Počas vývoja bude priebežne testovaná funkcionalita riešenia, a súčasne aj práca na ďalšom vylepšení vlastností vyvíjaných prostriedkov.
Štvrtá etapa je naplánovaná od 01. 06. 2023 do 30. 11. 2023. V rámci tejto etapy sa porovnajú experimentálne získané výsledky s inými publikáciami. Pri porovnaní sa bude klásť dôraz hlavne na výhody navrhnutých riešení oproti riešeniam, ktoré sú bežne používané v praxi.
Piata etapa je naplánovaná od 15. 11. 2023 do 30. 11. 2023. Počas tejto etapy sa vyhodnotíme splnenie cieľov projektu a vytvoríme záverečnú správu.
Posledná, šiesta etapa je naplánovaná od od 01. 03. 2023 do 30. 11. 2023. Táto etapa je zameraná na disemináciu výsledkov projektu, publikáciu čiastkových výstupov vo forme publikácií na domácich a zahraničných fórach a článkov v hodnotných recenzovaných časopisoch. |
51. Odborné predpoklady riešiteľského kolektívu
- Odôvodnite kompetentnosť zúčastnených riešiteľských organizácií na riešenie predkladaného projektu v kontexte hlavných úloh, ktoré budú jednotlivé organizácie v projekte zabezpečovať
- Opíšte kompetentnosť jednotlivých riešiteľov na riešenie predkladaného projektu a základné úlohy, ktoré budú v rámci implementácie projektu realizovať (netýka sa zodpovedného riešiteľa)
- Opíšte spôsob kooperácie riešiteľov, ich vzájomnú komplementaritu a zastupiteľnosť pri riešení projektu
- Opíšte existujúcu prístrojovú a personálnu infraštruktúru pracovísk podieľajúcich sa na implementácii projektu
- Opíšte mieru zapojenia mladých pracovníkov výskumu a
vývoja do 35 rokov vrátane študentov doktorandského štúdia
do riešenia projektu
Ing. Zuzana Sokolová - zodpovedná riešiteľka
na Katedre elektroniky a multimediálnych telekomunikácií pôsobí od 1. 9. 2021 ako študentka denného doktorandského štúdia. Vo vedeckovýskumnej činnosti sa doteraz venovala najmä problematike spracovania prirodzeného jazyka, konkrétne oblastiam detekcie nenávistného prejavu, detekcie ofenzívneho jazyka, automatickému overovaniu autorstva z písaných textov, vytváraniu a anotácií databáz/korpusu autorských textov v slovenskom jazyku, analýze sentimentu, implementovaniu a trénovaniu jazykových modelov. V rámci svojej dizertačnej práce sa zaoberá detekciou nenávistného prejavu a ofenzívneho jazyka na sociálnych sieťach. V rámci projektu bude pracovať na návrhu riešení jednotlivých úloh, bude vytvárať potrebné programové prostriedky a zároveň bude kooperovať kolektív pracujúci na projekte.
Ing. Maroš Harahus - zástupca
je od 1. 9. 2021 študentom doktorandského štúdia na Katedre elektroniky a multimediálnych telekomunikácií. V rámci svojej dizertačnej práce sa zaoberá automatickými opravami textu a spracovaniu prirodzeného jazyka, vektorovou reprezentáciou dát, trénovaniu jazykových modelov v knižnici Spacy, strojovému prekladu pomocou toolkitu Fairseq. V rámci projektu bude aktívne kooperovať so svojím tímom, riešiť jednotlivé úlohy a pomáhať vyvíjať softvérové riešenia.
Ing. Miroslav Sokol, PhD. - riešiteľ
na Katedre elektroniky a multimediálnych telekomunikácií pôsobí od 1.6.2021 ako vedecko výskumný pracovník. Predtým bol interným doktorandom pod vedením prof. Ing. Pavla Galajdu, CSc.. Má skúsenosti v oblasti programovania. V rámci projektu by pomáhal pri pokročilých metódach klasifikácie, spracovaní a publikovaní dosiahnutých výsledkov formou článkov v domácich alebo svetových časopisoch.
Ing. Patrik Jurík - riešiteľ
od 1. 9. 2021 študentom doktorandského štúdia na Katedre elektroniky a multimediálnych telekomunikácií. Má skúsenosti v oblasti IoT zariadení a algoritmizácie. V rámci projektu sa bude aktívne zapájať pri riešení jednotlivých problémov, pracovať na vytvorení a anotácií benchmarkového korpusu a pomáhať pri aplikovaní pokročilých metód klasifikácie.
Ing. Marianna Koctúrová, PhD. - riešiteľka
na Katedre elektroniky a multimediálnych telekomunikácií pôsobí od 1.11.2022 ako odborná asistentka. Predtým bola internou doktorandkou pod vedením prof. Ing. Jozefa Juhára, CSc.. Vo vedeckovýskumnej činnosti sa doteraz venovala najmä problematike neurónových sietí, spracovaniu EEG signálov a rozhraniam mozog-počítač. Jej dizertačná práca sa zaoberala výskumom využitia EEG signálov v interakcii človeka so strojom. V rámci projektu bude aktívne kooperovať so svojím tímom, riešiť jednotlivé úlohy a pomáhať vyvíjať softvérové riešenia.
Na implementáciu projektu má riešiteľský kolektív k dispozícii nasledovnú infraštruktúru:
- Aplikačný server pre výskum a vývoj Intel Xeon E3-1230 v5 @ 3.40GHz, 64GB RAM, 4TB HDD, 4x GPU NVidia GeForce GTX 1080 Ti 11GB RAM, OS Debian Linux;
- Výpočtový server pre trénovanie a testovanie modelov reči a jazyka Intel Core-i7 CPU 920 @ 2.67GHz, 30GB RAM, 4TB HDD, 2x GPU NVidia GeForce GTX 1080 Ti 11GB RAM, OS Linux;
- Server na prevázku webovej služby HP ProLiant DL380 G7 2xCore2Quad @ 2.4GHz, 96GB RAM, 4x HP 900-GB 6G 10K 2.5" DP SAS HDD;
- Výpočtové a dátové centrum IBM DS3300 + 2x x3650 M3 + x3850 X5 + x3650 M4 + 2x x3630 M4, 1x GPU Tesla K40, 40TB HDD;
- Štatistické n-gramové modely jazyka
|