You are here: Home
Fri, 27/Jun/2025

Zobrazenie žiadosti o grant

Metódy analýzy veľkých textových dát

Evidenčné číslo FEI-2015-8
Dátum podania 2015-11-29 22:18:14
01. Názov grantu Metódy analýzy veľkých textových dát
02. Title in English Methods for big text data analysis
03. Akronym MAVTD
04. Odbor Hospodárska informatika
05. Začiatok riešenia 2016-01-01
06. Koniec riešenia 2016-12-31
07. Anotácia Veľké dáta sú fenoménom posledých rokov, ktorý dominuje nielen v mnohých výskumných smeroch, ale čoraz viac aj v rôznych aplikačných oblastiach. Mnoho z týchto dát je v textovej podobe. Častokrát je zdrojom samotný web a najmä sociálne siete, ktoré v mnohých rpípadoch produkujú prúdy textových dát. Hlavným cieľom predkladaného návrhu projektu je navrhnúť a verifikovať nové metódy a modely pre analýzu textových dát. Zameriame sa pritom na dve vybrané aspekty tejto problematiky. Prvým je spracovanie textových dát veľkého objemu, kde budeme skúmať metódy efektívneho využitia distribuovaných zdrojov pre úlohy dolovania vo veľkých kolekciách textových dokumentov a na druhej strane sa zameriame na návrh metód pre rôzne druhy analýz v rámci prúdov textových dát.
08. Annotation Big data is a phenomenon of recent years, dominating in numerous research fields as well as in various application domains. Large portions of the available data are in textual format. Frequently, its source is the web itself, mostly social networks which often produce streams of textual data. Main objective of the proposed project proposal is to design and verify the new methods and models for the big text data analysis. We will focus on two different aspects of the studied domain. The first one is the big volume text data processing, where we will investigate the methods for effective resource usage in minig tasks within the huge textual data collections. On the other hand, we will also focus on design of the methods for different types of analyses on text streams.
09. Požadované prostriedky 2000 EUR
10. Bežné priame náklady 1000 EUR
11. Cestovné náklady 1000 EUR
12. Materiál 0 EUR
13. Služby 0 EUR
14. Bežné nepriame náklady 0 EUR
15. Katedra Katedra kybernetiky a umelej inteligencie
16. Vedúci katedry prof. Ing. Peter Sinčák, CSc.
17. Meno a priezvisko zodpovedného riešiteľa Martin Sarnovský
18. Telefón (+421 55) 602 4219
19. Email martin.sarnovsky@tuke.sk
20. CC publikácie za posledných 5 rokov s uvedením počtu citácií (max. 20 publikácií) s uvedením bibliografických údajov a odkazmi na publikácie
21. Celkový počet - CC publikácie za posledných 5 rokov 0
22. Impaktované (s uvedením impakt faktoru) publikácie za posledných 5 rokov s uvedením počtu citácií (max. 20 publikácií) s uvedením bibliografických údajov a odkazmi na publikácie
23. Celkový počet - impaktované publikácie za posledných 5 rokov 0
24. Publikácie v zahraničných a domácich periodikách nepokrytých CC za posledných 5 rokov (max. 20 publikácií) Analytical Platform Based on Jbowl Library Providing Text-Mining Services in Distributed Environment/ Sarnovský, Martin - Butka, Peter - Bednár, Peter - Babič, František – Paralič, Ján: In: Information and Communication Technology, Third IFIP TC 5/8 International Conference, ICT-EurAsia 2015, and 9th IFIP WG 8.9 Working Conference, CONFENIS 2015, Held as Part of WCC 2015, Daejeon, Korea, October 4–7, 2015, Proceedings, ISSN 0302-9743, pp. 310-319 (Springer, v databázach WoS a Scopus)

Distributed algorithm for text documents clustering based on k-means approach/ SARNOVSKÝ, Martin - CARNOKA, Noemi: In: Advances in Intelligent Systems and Computing vol. 431, Information Systems Architecture and Technology: Proceedings of 36th International Conference on Information Systems Architecture and Technology – ISAT 2015, ISSN: 2194-5357 (Springer, v databázach WoS a Scopus)

IT tools and services for analyses of different types of processes / J. Paralic ... [et al.] - 2015. In: Modely fungovania vedeckých parkov a výskumných centier : skúsenosti a príležitosti pre Slovensko. - Košice : Elfa, 2015 S. 53. - ISBN 978-80-8086-246-6
[PARALIČ, Ján - BABIČ, František - SARNOVSKÝ, Martin - WAGNER, Jozef - TUTOKY, Gabriel - HAVRILOVÁ, Cecília - KONCZ, Peter - GAŠPAR, Vladimír - LUKÁČOVÁ, Alexandra - PUHEIM, Michal]

Design and implementation of Interactive visualization of GHSOM clustering algorithm for text mining tasks / Martin Sarnovský - 2014. In: International Journal of Research in Information Technology. Vol. 2, no. 7 (2014), p. 146-151. - ISSN 2001-5569

Design and implementation of the cloud based application for text mining tasks / Martin Sarnovský - 2014. In: Data Mining and Knowledge Engineering. Vol. 6, no. 6 (2014), p. 261-264. - ISSN 0974-9578

Distributed boosting algorithm for classification of text documents / Martin Sarnovský, Michal Vronč - 2014. In: SAMI 2014 : IEEE 12th International Symposium on Applied Machine Intelligence and Informatics : proceedings : January 23-25, 2014, Herľany, Slovakia. - Danvers : IEEE, 2014 S. 217-220. - ISBN 978-1-4799-3441-6, (v databáze Scopus)

RDF vs. NoSQL databases for the Semantic Web applications / Peter Bednár, Martin Sarnovský, Viktor Demko - 2014. In: SAMI 2014 : IEEE 12th International Symposium on Applied Machine Intelligence and Informatics : proceedings : January 23-25, 2014, Herľany, Slovakia. - Danvers : IEEE, 2014 S. 361-364. - ISBN 978-1-4799-3441-6, (v databáze Scopus)

IT tools and services for analyses of different types of processes / J. Paralič ... [et al.] - 2014. In: University Science Park TECHNICOM. - Košice : Elfa, 2014 S. 16-16. - ISBN 979-80-8086-240-4
[PARALIČ, Ján - BABIČ, František - SARNOVSKÝ, Martin - WAGNER, Jozef - TUTOKY, Gabriel - HAVRILOVÁ, Cecília - KONCZ, Peter - GAŠPAR, Vladimír - LUKÁČOVÁ, Alexandra - PUHEIM, Michal]

Application of ontologies and semantic web in it service management according to ITIL framework / Martin Sarnovský - 2013. In: International Journal of Research in Information Technology. Vol. 1, no. 9 (2013), p. 281-287. - ISSN 2001-5569

Multiple Data Tables Processing via One-Sided Concept Lattices / P. Butka ... [et al.] - 2013. In: Advances in Intelligent Systems and Computing. - Berlin : Springer-Verlag Berlin Heidelberg, 2013 Vol. 183 (2013), p. 89-98. - ISSN 2194-5357
[BUTKA, Peter - PÓCS, Jozef - PÓCSOVÁ, Jana - SARNOVSKÝ, Martin], (Springer, v databázach WoS a Scopus)

Cloud-based clustering of text documents using the GHSOM algorithm on the GridGain platform / Martin Sarnovský, Zdeno Ulbrík - 2013. In: SACI 2013 : IEEE 8th International Symposium on Applied Computational Intelligence and Informatics : proceedings : May 23-25, 2013, Timisoara, Romania. - Piscataway : IEEE, 2013 P. 309-313. - ISBN 978-1-4673-6400-3 (v databáze Scopus)

Cloud-based classification of text documents using the Gridgain platform / M. Sarnovsky, T. Kacur - 2012. In: SACI 2012 : 7th IEEE International Symposium on Applied Computational Intelligence and Informatics : proceedings : Timişoara, Romania, May 24-26, 2012. - Timişoara : IEEE, 2012 P. 241-245. - ISBN 978-1-4673-1014-7 (v databáze Scopus)

Cloud computing as a platform for distributed fuzzy FCA approach in data analysis / M. Sarnovský, P. Butka, J. Pócsová - 2012. In: INES 2012 : IEEE 16th International Conference on Intelligent Engineering Systems : proceedings : June 13-15, 2012, Lisbon, Portugal. - Lisbon : IEEE, 2012 P. 291-296. - ISBN 978-1-4673-2695-7 (v databáze Scopus)

Cloud computing as a platform for distributed data analysis / Martin Sarnovský, Peter Butka - 2012. In: WIKT 2012 : 7th Workshop on Intelligent and Knowledge Oriented Technologies : proceedings : November 22-23, 2012, Smolenice, Slovakia. - Bratislava : STU, 2012 S. 177-180. - ISBN 978-80-227-3812-5

The semantic middleware for networked embedded systems applied in the internet of things and services domain / Peter Kostelník, Martin Sarnovský, Karol Furdík - 2011. In: Scalable Computing: Practice and Experience. Vol. 12, no. 3 (2011), p. 307-315. - ISSN 1895-1767 (v databáze Scopus)

IT service management supported by semantic technologies / Martin Sarnovsky, Karol Furdik - 2011. - 1 elektronický optický disk (CD-ROM). In: SACI 2011 : 6th IEEE International Symposium on Applied Computational Intelligence and Informatics : proceedings: May 19-21, 2011, Timisoara, Romania. - Budapešť : IEEE, 2011 P. 205-208. - ISBN 978-1-4244-9107-0

Semantic Devices for Ambient Environment Middleware / Peter Kostelník ... [et al.] - 2011. In: Internet of Things and Services : 1st International Research Workshop : September 18-19, 2008, Sophia-Antipolis, French Riviera. - [Sophia-Antipolis : European Research Workshops], 2008 P. 1-6. Spôsob prístupu:
[KOSTELNÍK, Peter - SARNOVSKÝ, Martin - HREŇO, Ján - AHLSEN, Matts - ROSENGREN, Peter - KOOL, Peeter - AXLING, Mattias]

Využitie ontológií v oblasti riadenia IT služieb / Martin Sarnovský, Peter Bereščák - 2011. - 1 elektronický optický disk (CD-ROM). In: 6th Workshop on Intelligent and Knowledge oriented Technologies : Proceedings : November 24 - 25, 2011, Herľany, Slovakia. - Košice : FEI TU, 2011 S. 195-199. - ISBN 978-80-89284-99-3

Application of knowledge management and semantic technologies in IT service management / Martin Sarnovsky, Karol Furdik, Martin Tomasek - 2010. In: Information Systems Architecture and Technology : IT Models in Management Process. - Wrocław : Oficyna wydawnicza Politechniki Wrocłlawskiej, 2010 P. 32-41. - ISBN 978-83-7493-544-9

Semantic description of embedded devices in heterogeneous ambient intelligent environments / Martin Sarnovský, Ján Hreňo - 2010. In: Znalosti 2010 : 9. ročník konference : Jindřichův Hradec, 3.-5. února 2010 : sborník příspěvků. - Praha : Vysoká škola ekonomická v Praze, 2010 P. 309-312. - ISBN 978-80-245-1636-3

Application ontology manager for Hydra / Ján Hreňo, Peter Kostelník, Martin Sarnovský - 2010. In: 5th Workshop on Intelligent and Knowledge Oriented Technologies : WIKT 2010 : proceedings : 11. - 12.11.2010, Bratislava. - Bratislava : Equilibria, 2010 S. 78-81. - ISBN 978-80-970145-2-0
25. Celkový počet - Publikácie v zahraničných a domácich periodikách nepokrytých CC za posledných 5 rokov 44
26. Monografie a kapitoly dlhšie ako 3 autorské hárky za posledných 5 rokov
27. Počet - Monografie a kapitoly dlhšie ako 3 autorské hárky za posledných 5 rokov 0
28. Učebnice a skriptá za posledných 5 rokov Dolovanie znalostí z textov / Ján Paralič ... [et al.] - 1. vyd - Košice : Equilibria - 2010. - 183 s.. - ISBN 978-80-89284-62-7.
[PARALIČ, Ján - FURDÍK, Karol - TUTOKY, Gabriel - BEDNÁR, Peter - SARNOVSKÝ, Martin - BUTKA, Peter - BABIČ, František]

Analýza a návrh informačných systémov / František Babič, Martin Sarnovský - 1. vyd. - Košice : TU - 2015. - 126 s.. - ISBN 978-80-553-1992-6.

Riadenie IT prostredia IT management/ Martin Sarnovský - 1. vyd. - Košice : TU - 2015. - 103 s.. - ISBN 978-80-553-2045-8.
29. Počet - Učebnice a skriptá za posledných 5 rokov 3
30. Zoznam 5 najcitovanejších publikácií s uvedením počtu citácií a uveďte max. 10 citácií ku každej publikácii 1.
Distributed classification of textual documents on the Grid / Ivan Janciak ... [et al.] - 2006. In: High Performance Computing and Communications : 2. international conference : Mníchov, 13.-15.9.2006. - Berlin : Springer, 2006 P. 710-718. - ISBN 3540393684
[JANCIAK, Ivan - SARNOVSKÝ, Martin - TJOA, A Min - BREZANY, Peter]

(19 citácií, 11 v Scopus)

MELIGY, A, AL-KHABIB, M A grid-based distributed SVM data mining algorithm In: European Journal of Scientific Research Vol. 27, no. 3 (2009), p. 313-321 ISSN: 1450-216X

BUTKA, P., BEDNÁR, P., BABIČ, F. Distributed task-based execution engine for support of text-mining processes In: SAMI 2009 : 7th International Symposium on Applied Machine Intelligence and Informatics : Proceedings : Herľany : January 30-31, 2009 Vol. 7, no. 4956633 (2009), p. 29-34 ISBN: 978-142443802-0

ALKHATIB, M. Classification of Al-Hadith Al-Shareef using data mining algorithm In: Proceedings of the European, Mediterranean and Middle Eastern Conference on Information Systems : Global Information Systems Challenges in Management, EMCIS 2010 : 7th European, Mediterranean and Middle Eastern Conference on Information Systems : 12. - 13. april 2010, Abu-Dhabi ISBN: 978-190231680-2

BUTKA, P., PÓCSOVA, J., PÓCS, J. Experimental study on time complexity of GOSCL algorithm for sparse data tables In: SACI 2012 - 7th IEEE International Symposium on Applied Computational Intelligence and Informatics : Proceedings : Timisoara, 24-26 May 2012 P. 101-106 ISBN: 978-146731011-6

BUTKA, P., POCS, J., POCSOVA, J. Distributed version of algorithm for generalized one-sided concept lattices In: Studies in Computational Intelligence Vol. 511 (2014), p. 119-129 ISSN: 1860-949X

GUASCO, Luciano M., ECHAIZ, Javier, ARDENGHI, Jorge R. Técnicas de datamining aplicas al procesamiento de Logs In: 10 Workshop de Investigadores en Ciencias de la Computación : May 5-6, 2008, Lugar ISBN: 978-950-863-101-5

BUTKA, P., BEDNÁR, P. Design and Implementation of Task-based Middleware Execution Engine for JBOWL Text-mining library In: Workshop on Data Analysis WDA’2008 : Proceedings of the 8th International Student Workshop : Dedinky, Slovakia, June 26-29, 2008 S. 63-70 ISBN: 978-80-89284-21-4

BUTKA, P., PÓCSOVA, J., PÓCS, J. Bisection-based merging algorithm for creation of one-sided concept lattices In: SAMI 2014 : IEEE 12th International Symposium on Applied Machine Intelligence and Informatics : proceedings : January 23-25, 2014, Herľany, Slovakia P. 103-108 ISBN: 978-1-4799-3441-6

BUTKA, P., POCSOVA, J., POCS, J. Use of generalized one-sided FCA approach for joining of simple object-attribute models In: SACI 2013 : IEEE 8th International Symposium on Applied Computational Intelligence and Informatics : proceedings : May 23-25, 2013, Timisoara, Romania P. 331-336 ISBN: 978-146736400-3

BOOBATHIRAJ, R., GEETHA, J. Empirical Evaluation of Grid-Based Text Mining Tasks In: Ciit International Journal of Data Mining and Knowledge Engineering Vol. 2, no. 10 (2010), p. 315-320 ISSN: 0974-9683


2.
Grid-based support for different text mining tasks / Martin Sarnovský, Peter Butka, Ján Paralič - 2009. In: Acta Polytechnica Hungarica. Vol. 6, no. 4 (2009), p. 5-27. - ISSN 1785-8860
[SARNOVSKÝ, Martin - BUTKA, Peter - PARALIČ, Ján]

(13 citácií, 11 v Scopus)

SRAM, N., TAKÁCS, M. Minnesota code: A neuro-fuzzy-based decision tuning In: INES 2011 : 15th International Conference on Intelligent Engineering Systems P. 191-195 ISBN: 978-142448956-5

BAJZÁT, T., HAJNAL, É. Cell automaton modelling algorithms : Implementation and testing in GPU systems In: INES 2011 : 15th International Conference on Intelligent Engineering Systems P. 177-181 ISBN: 978-142448956-5

SRAM, N, TAKACS, M Multilevel risk management based fuzzy model for the Minnesota Code In: SISY 2011 : 9th International Symposium on Intelligent Systems and Informatics : proceedings : Subotica, Serbia P. 471-476 ISBN: 978-145771974-5

MARKOSKI, B. et al. A new approach to decision making in basketball - BBFBR program In: Acta Polytechnica Hungarica Vol. 8, no. 6 (2011), p. 111-130 ISSN: 1785-8860

HAJNAL, Éva - BAJZÁT, Tamás Ecological modelling with cellular automaton software implemented in GPU system In: Óbuda University e‐Bulletin Vol. 2, no. 1 (2011), p. 499-507 ISSN: 2062-2872

TAKACS, M. Scaling tasks in a risk management system based on multilevel fuzzy decision making In: Proceedings 2011 International Conference on System Science and Engineering, ICSSE 2011 : Macao, 8-10 June 2011 P. 379-383 ISBN: 978-161284471-8

NÁVRAT, P. Cognitive traveling in digital space: from keyword search through exploratory information seeking In: Central European Journal of Computer Science Vol. 2, no. 3 (2012), p. 170-182 ISSN: 2081-9935

SZÉNÁSI, S., VÁMOSSY, Z. Implementation of a distributed genetic algorithm for parameter optimization in a cell nuclei detection project In: Acta Polytechnica Hungarica Vol. 10, no. 4 (2013), p. 59-86 ISSN: 1785-8860

PÓCSOVÁ, J. Note on formal contexts of generalized one-sided concept lattices In: Annales Mathematicae et Informaticae Vol. 42 (2013), p. 71-82 ISSN: 1787-5021

PÓCS, J., PÓCSOVÁ, J. On the inverse problem for generalized one-sided concept lattices In: Informatica (Slovenia) Vol. 38, no. 2 (2014), p. 95-101 ISSN: 0350-5596

3.
Text mining workflows construction with support of ontologies / M. Sarnovský, M. Paralič - 2008. In: SAMI 2008 : 6. international conference : Herľany, Slovensko : 21. - 22.1.2008. - Budapest : Budapest Tech, 2008 S. 173-177. - ISBN 9781424421060
[SARNOVSKÝ, Martin - PARALIČ, Marek]

(11 citácií, 8 v Scopus)

HE, C., ZHANG, Y. F. Research on semantic association pattern mining model based on ontology In: ICACTE 2010 - 2010 3rd International Conference on Advanced Computer Theory and Engineering, Proceedings Vol. 1 (2010), p. V1497-V1501 ISBN: 978-142446540-8

BARTALOS, P. BIELIKOVÁ, M. Composition and undesired web service execution effects In: Proceedings - 12th International Symposium on Symbolic and Numeric Algorithms for Scientific Computing, SYNASC 2010 P. 549-552 ISBN: 978-076954324-6

KHAN, Aurangzeb, BAHRUDIN, Baharum B., KHAN, Khairullah An Overview of E-Documents Classification In: International Proceedings of Computer Science and Information Technology IPCSIT : Vol. 3 P. 544-552 ISSN: 2010-460X

KHAN, A. et al. A Review of Machine Learning Algorithms for Text-Documents Classification In: Journal of Advances in Information Technology Vol. 1, no. 1 (2010), p. 4-17 ISSN: 1798-2340

BUTKA, P., POCSOVA, J., POCS, J. Experimental study on time complexity of GOSCL algorithm for sparse data tables In: SACI 2012 : 7th IEEE International Symposium on Applied Computational Intelligence and Informatics : Timisoara, Romania P. 101-106 ISBN: 978-146731011-6

BUTKA, P., PÓCSOVÁ, J., PÓCS, J. On generation of one-sided concept lattices from restricted context In: 2012 IEEE 10th Jubilee International Symposium on Intelligent Systems and Informatics, SISY 2012 : 20. - 22. September 2012, Subotica, Serbia P. 111-115 ISBN: 978-146734751-8

BUTKA, P., POCSOVA, J. Hybrid approach for visualization of documents clusters using GHSOM and sammon projection In: SACI 2013 : 8th IEEE International Symposium on Applied Computational Intelligence and Informatics : proceedings : Timisoara, May 23-25, 2013 P. 337-342 ISBN: 978-146736400-3

BUTKA, P., POCSOVA, J., POCS, J. Use of generalized one-sided FCA approach for joining of simple object-attribute models In: SACI 2013 : 8th IEEE International Symposium on Applied Computational Intelligence and Informatics : proceedings : Timisoara, May 23-25, 2013 P. 331-336 ISBN: 978-146736400-3

YE, J. Study on knowledge management of library based on ontology In: Lecture Notes in Electrical Engineering Vol. 273, no. 4 (2014), p. 87-94 ISSN: 1876-1100

BUTKA, Peter, PÓCSOVÁ, Jana, PÓCS, Juraj GOSCL as facet-like structures In: SAMI 2014 : IEEE 12th International Symposium on Applied Machine Intelligence and Informatics : Proceedings : Herl'any; Slovakia S. 321-326 ISBN: 978-147993442-3


4.
The semantic middleware for networked embedded systems applied in the internet of things and services domain / Peter Kostelník, Martin Sarnovský, Karol Furdík - 2011. In: Scalable Computing: Practice and Experience. Vol. 12, no. 3 (2011), p. 307-315. - ISSN 1895-1767 [KOSTELNÍK, Peter - SARNOVSKÝ, Martin - FURDÍK, Karol]

(10 citácií v Scopus)

BANDYOPADHYAY, S., BHATTACHARYYA, A. Generic middleware architecture supporting heterogeneous sensors management for any smart system In: Advances in Intelligent Systems and Computing Vol. 176, no. 1 (2012), p. 395-404 ISSN: 2194-5357

REPTA, D. et al. Semantic middleware architecture In: Applied Mechanics and Materials Vol. 436 (2013), p. 488-496 ISSN: 1660-9336

AZZARA, A. et al. Middleware solutions in WSN: The IoT oriented approach in the ICSI project In: SoftCOM 2013 : 21st International Conference on Software, Telecommunications and Computer Networks : proceedings : Primosten, September 18-20, 2013 P. neuved ISBN: 978-953290043-9

STANESCU, A. M. et al. Towards a generic enterprise systems architecture based on cyber-physical systems principles In: PRO-VE 2014 : Advances in Information and Communication Technology15th IFIP WG 5.5 Working conference on Virtual Enterprices : Amsterdam, October 6-8, 2014 P. 245-252 ISBN: 978-366244744-4

RODRÍGUEZ-VALENZUELA, S., HOLGADO-TERRIZA, J. A., GUTIÉRREZ-GUERRERO, J. M. et al. Distributed service-based approach for sensor data fusion in iot environments In: Sensors (Switzerland) Vol. 14, no. 10 (2014), p. 19200-19228 ISSN: 1424-8220

LIN, F., LIU, Q., ZHOU, X. et al. Cooperative differential game for model energy-bandwidth efficiency tradeoff in the Internet of Things In: China Communications Vol. 11, no. 1 (2014), p. 92-102 ISSN: 1673-5447

REPTA, D., STANESCU, A. M., MOISESCU, M. A. et al. A cyber-physical systems approach to develop a generic enterprise architecture In: 2014 International Conference on Engineering, Technology and Innovation : Engineering Responsible Innovation in Products and Services : Bergamo, Italy, 23-25 June 2014 Art. no. 6871546

REPTA, D., SACALA, I.S., STANESCU, A. M., MOISESCU, M. A. Towards the development of a Cyber-Intelligent Enterprise system architecture, In: IFAC Proceedings Volumes (IFAC-PapersOnline)
Volume 19, 19th IFAC World Congress on International Federation of Automatic Control, IFAC 2014; Cape Town; South Africa; 24-29 August 2014, pp. 827-832, ISSN: 14746670

COLISTRA, G., PILLONI, V., ATZORI, L. The problem of task allocation in the Internet of Things and the consensus-based approach In: Computer Networks Vol. 73 (2014), p. 98-111 ISSN: 1389-1286
Fersi, G, Middleware for internet of things: A study, In: Proceedings - IEEE International Conference on Distributed Computing in Sensor Systems, DCOSS 2015, Fortaleza; Brazil; 10 -12 June, 2015, pp. 230- 235, ISBN: 978-147998856-3


5.
Semantic Devices for Ambient Environment Middleware / Peter Kostelník ... [et al.] - 2011. In: Internet of Things and Services : 1st International Research Workshop : September 18-19, 2008, Sophia-Antipolis, French Riviera. - [Sophia-Antipolis : European Research Workshops], P. 1-6.:
[KOSTELNÍK, Peter - SARNOVSKÝ, Martin - HREŇO, Ján - AHLSEN, Matts - ROSENGREN, Peter - KOOL, Peeter - AXLING, Mattias]

(10 citácií, 5 scopus)

BADII, A., CROUCH, M., LALLAH, C. A Context-Awareness Framework for intelligent networked embedded systems In: Proceedings - 3rd International Conference on Advances in Human-Oriented and Personalized Mechanisms, Technologies and Services, CENTRIC 2010 : 22. - 27. august 2010, Nice, France P. 105-110 ISBN: 978-076954141-9

LEPARC, P., TOUIL, A., VAREILLE, J. A model-driven approach for building ubiquitous applications In: 3rd International Conference on Mobile Ubiquitous Computing, Systems, Services, and Technologies, UBICOMM 2009 : 11. - 16. october 2009, Sliema P. 324-328 ISBN: 978-076953834-1

JAHN, M., EISENHAUER, M., SERBAN, R. et al. Towards a context control model for simulation and optimization of energy performance in buildings In: eWork and eBusiness in Architecture, Engineering and Construction - Proceedings of the European Conference on Product and Process Modelling 2012, ECPPM 2012 : Reykjavik, 25-27 July 2012 P. 909-917 ISBN: 978-041562128-1

KOSMATOS, Evangelos A., TSELIKAS, Nikolaos D., BOUCOUVALAS, Anthony C. Integrating RFIDs and Smart Objects into a Unified Internet of Things Architecture In: Advances in Internet of Things Vol. 1, no. 1 (2011), p. 5-12 ISSN: 2161-6817

HRISTOSKOVA, Anna - ONGENAE, Femke - DE TURCK, Filip Semantic reasoning for intelligent emergency response applications In: INDIN 2013 : 11th IEEE international conference : proceedings : Bochum, 29-31 July, 2013 P. 547-554 ISBN: 978-1-4799-0752-6

FURDÍK, Karol, LUKÁČ, Gabriel Events Processing and Device Interoperability in a Smart Office IoT Application In: CECIIS 2012 : proceedings of the 23rd Central European Conference on Information and Intelligent Systems : September 19th-21st, 2012, Varaždin, Croatia p. 387-394 ISSN: 1847-2001

NIÑO-ZAMBRANO, M., A., Interacción Semántica de Objetos en la Web de las Cosas, XI Coloquio Doctoral de CLADEA, Rio de Janeiro, Brasil; 01/2013

LAMPRINAKOS, G., C., ASANIN, S., BRODEN, T., PRESTILEO, A. An integrated remote monitoring platform towards Telehealth and Telecare services interoperability, In: Information Sciences Volume 308, 1 July 2015, pp. 23–37

BADII, A., THIEMERT, D., CROUCH, M., TIEMANN, M., HOFFMANN, M., Semantic Resolution of Security and Context in the Hydra Middleware, In: Proceedings of The 4th International Workshop on Trustworthy Internet of People, Things & Services, spôsob prístupu: http://www.caad.arch.ethz.ch/noolab/files/external/conferences/IoT2010_proceedings/pdf/WS4/WS4_5_2010-11-IoT_Tokyo-HydraPaper-IEEEFormat.pdf

MIKULECKY, P., Applications of Semantic Technologies in AmI, In: Ambient Intelligence Perspectives - Selected Papers from the First International Ambient Intelligence Forum, Hradec Králové, Czech Republic

31. Celkový počet publikácií citovaných za posledných 5 rokov (10-50 krát) 4
32. Prehľad projektov zodpovedného riešiteľa realizovaných v priebehu posledných 5 rokov v štruktúre: názov projektu, grantová schéma, roky realizácie, rozpočet, pozícia zodpovedného riešiteľa Zavedenie výučby analýzy veľkých dát - projekt KEGA (025TUKE-4/2015), 2015-2017, zástupca vedúceho projektu

IC1302 KEYSTONE, Semantic keyword-based search on structured data sources, COST akcia, 2014-2017, riešiteľ

IT nástroje a služby pre analýzu rôznych typov procesov, Pilotný projekt č. 4 v rámci aktivity 3.1 "Pilotné projekty v odbore Informačné a komunikačné technológie" projektu Univerzitného vedeckého parku Technicom, 2013-2015, riešiteľ

VEGA 1/1147/12 - Metódy analýzy kolaboratívnych procesov realizovaných prostredníctvom informačných systémov, VEGA, 2012-2015, riešiteľ

KEGA 065TUKE-4/2011 - Virtuálne laboratórium hospodárskej informatiky, 2011-2013, riešiteľ

CE-FEI-II - Rozvoj Centra informačných a komunikačných technológií pre znalostné systémy (ITMS 26220120030), 2009-2013, riešiteľ

VEGA 1/0042/10 - Metódy identifikácie, anotovania, vyhľadávania, sprístupňovania a kompozície služieb s využitím sémantických metadát pre podporu vybraných typov procesov 2010-2011, riešiteľ

IT4KT - Informačné technológie pre prenos znalostí (ITMS 26220220123), 2010-2013, riešiteľ

FP6 IST-2005-034891 HYDRA - Heterogeneous phYsical Devices in a distRibuted Architecture, FP6 projekt, 2006-2010, riešiteľ
33. Počet - Projekty zodpovedného riešiteľa realizované v priebehu posledných 5 rokov 9
34. Expertízy, konzultácie a ostatné výsledky s priamym využitím v hospodárskej a spoločenskej praxi za posledných 5 rokov
35. Počet - Expertízy, konzultácie a ostatné výsledky s priamym využitím v hospodárskej a spoločenskej praxi za posledných 5 rokov 0
36. Aplikačné výstupy - chránené (patent, vynález)
37. Počet - Aplikačné výstupy - chránené (patent, vynález) 0
38. Aplikačné výstupy - ostatné
39. Počet - Aplikačné výstupy - ostatné 0
40. Zoznam riešiteľov
Meno a priezvisko Dátum narodenia Katedra
Gabriel Tutoky 1984-06-21 KKUI
Cecília Havrilová 1988-07-23 KKUI
Martin Mikula 1989-11-13 KKUI
Miroslav Smatana 1991-06-27 KKUI
Martin Sarnovský 1981-06-13 KKUI
Počet riešiteľov: 5
41. Súhrnná kapacita riešiteľov v hodinách 1600
42. Kľúčové slová Analýza veľkých dát
analýza prúdov dát
text mining
distribuované počítanie
43. Keywords Big data analysis
stream analysis
text mining
distributed computing
44. Vedecké ciele projektu Projekt je zameraný na oblasť analýzy veľkých textových dát. Hlavným cieľom projektu je návrh nových metód pre analýzu veľkých textových dát v distribuovanom prostredí. Tento sme môžme ďalej rozdeliť na dva čiastkové podciele (bližšie popísané v nasledujúcich častiach projektu):

a) Návrh škálovateľných metód a modelov pre analýzu veľkých dát textového charakteru
b) Návrh škálovateľných metód a modelov pre analýzu prúdov textových dát

V oboch z týchto oblastí bude cieľom zmapovať existujúci stav problematiky a nadviazať na existujúce výskumné activity členov riešiteľského tímu. V oboch podcieľoch budeme pracovať na návrhu nových a modifikácii existujúcich metód pre úlohy spracovania veľkých textových kolekcií resp. prúdov textových dát. Okrem návrhu jednotlivých metód je našim cieľom tieto metódy aj verifikovať na vhodne zvolených množinách textov, resp. textových prúdov. Výsledky riešenia projektu budú členovia riešiteľského tímu publikovať v špecifikovanom rozsahu v odborných časopisoch a konferenciách.
45. Forma popularizácie výsledkov riešenia projektu s cieľom informovať verejnosť o prínosoch výsledkov projektu Niektoré z výsledkov projektu môžu byť prezentované na popularizačných akciách (akými je napr. Noc výskumníkov) niektorými z členov riešiteľského tímu. Rovnako pre účely prezentácie výsledkov riešenia projektu bude spustená webová stránky projektu, na ktorej budú okrem informácií o riešenom projekte k dispozícii aj informácie odrážajúce aktuálny stav riešenia projektu, výstupy (vo forme publikácií) a iné.
46. Očakávané výstupy riešenia
Kategória Počet
Počet CC publikácií 1
Počet impaktovaných publikácií 0
Počet publikácií nepokrytých CC a impaktovaných 3
Počet patentových prihláok v SR 0
Počet vyvolaných projektov VaV, nadv. na riešený projekt 0
47. Harmonogram
Začiatok etapy Koniec etapy Názov etapy Popis etapy
2016-01-01 2016-02-28 Prvá etapa - analýza Prvá etapa riešenia bude venovaná systematickej analýze aktuálneho stavu v jednotlivých výskumných úlohách. Táto analýza kontinuálne nadviaže na doterajšie výskumné aktivity jednotlivých riešiteľských tímov, ktoré vytvárajú potrebné pozitívne predpoklady na úspešné riešenie špecifikovaných čiastkových projektu. Takisto budú stanovené komplexné kritériá na meranie a vyhodnotenie dosiahnutých výsledkov, špecifické pre jednotlivé výskumné podúlohy.
2016-03-01 2016-05-31 Druhá etapa - návrh V druhej etape bude prebiehať návrh nových metód a modelov na základe výsledkov predchádzajúcej fázy a v súlade s očakávanými hodnotami stanovených kritérií na meranie dosiahnutých výsledkov ako napr. presnosť predikcie, kvalita zhlukovej analýzy, presnosť extrahovaných vzorov, úžitková hodnota extrahovaných odporúčaní, efektívnosť využitia dostupných výpočtových zdrojov, a pod.
2016-06-01 2016-08-30 Tretia etapa - verifikácia návrhu Tretia etapa bude venovaná experimentálnej verifikácii navrhnutých metód a modelov prostredníctvom dostupných výpočtových a dátových zdrojov s cieľom overiť ich aplikovateľnosť vo všeobecnosti a v súlade so stanovenými kritériami na ich meranie a vyhodnotenie.
2016-09-01 2016-10-31 Štvrtá etapa - optimalizácia Štvrtá etapa sa zameria na vylepšenie a finalizáciu navrhnutých modelov a metód na základe výsledkov predchádzajúcej fázy a v súlade s aktuálnymi trendmi a dosiahnutým vedeckým pokrokom v danom čase.
2016-11-01 2016-12-31 Piata etapa - verifikácia Posledná etapa projektu bude venovaná experimentálnej verifikácii optimalizovaných metód a modelov prostredníctvom dostupných výpočtových a dátových zdrojov s cieľom overiť ich aplikovateľnosť vo všeobecnosti a v súlade so stanovenými kritériami na ich meranie a vyhodnotenie
Počet etáp: 5
Vecný zámer projektu
48. Aktuálnosť a vedeckosť cieľov, vedecká úroveň a kvalita projektu
  • Definujte mieru aktuálnosti riešeného problému v danej oblasti vedy a techniky, z celosvetového pohľadu vrátane relevantných odkazov na odbornú literatúru
  • Definujte vedeckú úroveň projektu a vedeckosť metód využívaných v riešení projektu
  • Definujte ciele projektu a reálnosť ich dosiahnutia
  • Opíšte navrhovanú metodiku riešenia projektu, opodstatnenosť jej výberu a efektívnosť jej pouţitia z hľadiska splnenia deklarovaných cieľov

Oblasť spracovania veľkých dát (z angl. "big data") sa v posledných rokoch stala významným fenoménom, ktorý dominuje nielen v mnohých výskumných smeroch, ale čoraz viac aj v rôznych aplikačných doménach. V posledných rokoch sme svedkami neustále narastajúceho objemu digitálnych dát. Objem a tempo ich pribúdania je čoraz väčšie, k čomu prispieva aj masívne rozšírenie nielen sociálnych sietí a mobilných zariadení, ale aj rôznych senzorov a riadiacich systémov. Sociálne siete generujú každým okamihom kvantá dát v rôznych formách, napr. viac ako 250 mil. tweetov na sociálnej sieti Twitter, 60 miliónov obrázkov uploadnutých do Instagramu denne, alebo 800 mil. denných aktualizácií statusov na Facebook-u [1]. Podľa odhadov objem veľkých dát každoročne narastie o 40%. Iným zdrojom veľkých dát môžu byť prvky Internetu vecí (Internet of things), ktorý je založený práve na analýze veľkého objemu dát, ktoré sú kontinuálne zbierané zo zariadení a senzorov s cieľom alebo spríjemniť život ľudí.

Na vysvetlenie pojmu veľké dáta existuje viacero definícií, väčšina z nich vyhovuje tej, s ktorou prišla poradenská spoločnosť Gartner. Tá označuje za veľké dáta také súbory dát, ktorých veľkosť je mimo schopnosti zachytávať, spravovať a spracovávať dáta bežne používanými softvérovými prostriedkami v rozumnom čase. Pojem veľkosti dát je potom chápaný z hľadiska objemu dát meraného giga-, tera- či petabajtmi, ale taktiež z hľadiska rýchlosti ich tvorby a prenosu a z hľadiska rôznorodosti ich typu. Často sa v tejto súvislosti hovorí o troch aspektoch veľkých dát tzv. 3V (Volume, Variety, Velocity, v niektorých prameňoch je možné nájst viacero aspektov, napr. Veracity, ako neurčitosť dát, alebo Value, ako hodnota dát). Zameriame sa na 2 základné aspekty veľkých dát:

- Objem dát (Volume) zväčša pramení jak z počtu rôznych objektov, tak aj zo zhromažďovania dát o týchto objektoch v čase ako napr. transakčné údaje uložené v priebehu niekoľkých rokov, alebo neštruktúrované dáta prúdiace zo sociálnych médií [2]. V minulosti bol problém so skladovaním nadmerného objemu dát, ale s klesajúcimi nákladmi na skladovanie množstvo dát vznikajúcich v rámci prevádzky firiem rastie exponenciálne každý rok. Nové metódy a modely budeme overovať na vybraných úlohách typických veľkým objemom relatívne statických dát rôzneho charakteru (najmä analýza veľkého objemu textových dát).

- Rýchlosť pribúdania dát (Velocity) predstavuje rýchlosť s akou dáta vznikajú. V súčasnosti vzniká aj potreba ich analýzy v reálnom čase a tá vzrastá s pokračujúcou digitalizáciou väčšiny transakcií a vzrastajúcemu počtu internetových používateľov. Na jednej strane sa jedná o rýchly prísun nových dát (prúdy dát, ktoré je potrebné predspracovať, uložiť a sprístupniť), na strane druhej zase potrebou ich analýzy, napr. výpočet takmer “real-time” predikcie (napr. poskytnúť vhodné odporúčanie pre jeho nasledujúcu akciu). V tejto oblasti teda ide o výskum modelov a metód pre analýzu veľkých prúdpových dát s malým oneskorením, tzv. “near real-time” (tekmer v reálnom čase). Navrhnuté modely a metódy budú overované napr. na prúdoch konverzačných dát, prúdov zo sociálnych sietí.

V súčasnosti existuje pomerne veľké množstvo prístupov a technológií pre spracovanie veľkých dát a ich počet pribúda. Pravdepodobne najznámejšou technológiou pre spracovanie veľkých dát je prístup MapReduce vyvinutý v Google [3]. Jeho najznámejšou implementáciou je rámec Apache Hadoop [4]. Hadoop je možné nasadiť na klaster tvorený komoditným hardvérom a z hľadiska typu úloh je vhodný najmä pre dávkovú analýzu dát. Jeho jadrom je distribuovaný súborový systém HDFS (Hadoop Distributed File System) a princíp MapReduce. Ten umožňuje spracovávať veľké množstvá dát paralelne na distribuovaných architektúrach (výpočtových klastroch). Na tejto platforme bolo medzičasom vytvorených viacero nástrojov a technológií pre analytické spracovanie veľkého množstva dát. Častokára sú už dáta uložené v relačných databázach a analýza týchto relačných dát sa vykonáva v distribuovanom prostredí, často sú potrebné nástroje pre spracovanie SQL dopytov. Na tento účel boli vyvinuté viaceré nástroje ako napr. Pig [5], Impala [6], Hive [7], alebo Stratosphere [8]. Medzi najpoužívanejšie nástroje pre analýzu dát na Hadoop klastroch patrí Mahout [9]. Je to knižnica metód strojového učenia pre tvorbu analytických aplikácií na platforme Hadoop a je tak vlastne distribuovanou alternatívou k existujúcim štandardným nástrojom pre strojové učenie, resp. štatistické výpočty, ako sú napr. Weka, alebo R. Obsahuje distribuované implementácie niektorých algoritmov strojového učenia pre rôzne druhy úloh ako napr. klasifikácia, zhlukovanie, alebo tvorbu odporúčacích systémov. Okrem neho existuje niekoľko ďalších prístupov, napríklad Radoop [10], ktorý umožňuje pracovať s veľkým objemom dát v známom nástroji pre objavovanie znalostí RapidMiner tak, že Hadoop klaster slúži na ukladanie dát a výpočet, alebo iný prístup Rhadoop [11], ktorý poskytuje rozhranie MapReduce a Hadoop distribuovaný súborový systém pre analytické aplikácie vyvíjané pomocou jazyka R.

Uvedené nástroje teda rozširujú štandardné nástroje strojového učenia o horizontálnu škálovateľnosť poskytovanú Hadoop-om. Samotných algoritmov implementovaných v paradigme MapReduce je niekoľko, pri iných sa prejavujú nedostatky Hadoop-u. Medzi ne patria najmä problémy s iteratívnymi úlohami, medzi ktoré spadá viacero prístupov strojového učenia. Takéto obmedzenia tejto techológie viedli k alternatívnym riešeniam. Medzi ne patria aj in-memory platformy pre spracovanie veľkých dát ako napr. GridGain [12], HaLoop [13] alebo Spark [14]. Spark je často označovaný ako nástroj nasledujúcej generácie po Hadoop v oblasti spracovania veľkých dát. Kľúčovým rozdielom je in-memory výpočet, ktorý umožňuje dátam byť uložené v pamäti počas iterácií. Odstraňuje tak nevýhodu MapReduce prístupu pre iteratívne a interaktívne aplikácie, zatiaľčo zachováva súborový systém Hadoopu. Výhodou je okrem iného aj niekoľkonásobne rýchlejšie spracovanie dát, čo ho robí ideálnym kandidátom pre spracovanie prúdov dát a pre aplikácie, kde sa vyžaduje vysoká rýchlosť spracovania dát. Súčasťou Spark-u je Spark SQL a GraphX ako API pre na spracovanie veľkého množstva grafových údajov. Spark poskytuje možnosť implementovať aplikácie strojového učenia prostredníctvom MLlib, čo je knižnica algoritmov strojového učenia postavená na tejto platforme obsahujúca širokú škálu algoritmov strojového učenia.

V navrhovanom projekte sa chceme prioritne zameriavať na veľké dáta textového charakteru jednak preto, že tieto prinášajú so sebou veľké množstvo otvorených výskumných problémov aj vzhľadom na možnosti automatizovanej analýzy textových dokumentov a ich rozšírenia, ako aj vzhľadom na zaujímavé výskumné výsledky medzinárodnej úrovne kvality v relevantných oblastiach dosiahnuté riešiteľmi tohto navrhovaného projektu.

Hlavným cieľom projektu je návrh nových metód pre analýzu veľkých textových dát v distribuovanom prostredí. Hlavný cieľ môžme vzhľadom na vyššie popísané aspekty veľkých dát rozdeliť na dva čiastkové ciele:

a) Návrh škálovateľných metód a modelov pre analýzu veľkých dát textového charakteru
b) Návrh škálovateľných metód a modelov pre analýzu prúdov textových dát

a) Množstvo dát dostupných v rôznych databázach a korpusoch je v dnešnej dobe obrovské. Jednou z hlavných výziev dnešného spracovania dát je okrem ich ukladania (pomocou distribuovaných súborových systémov a databáz) práve distribuovaná analýza a spracovanie údajov. Veľké dáta nemožno spracúvať tradičnými technológiami, majú odlišné vlastnosti. Tie nie sú pripravené na spracovanie a analýzu veľkých objemov dát v krátkom čase alebo nákladovo efektívnym spôsobom. Preto tu vzniká potreba pokročilejších metód na spracovanie veľkých objemov dát a na ich následné ukladanie, prehľadávanie, či iné analýzy. Navyše, výsledkom takýchto operácií bývajú často nové dáta, často s podobnými nárokmi. Pre spracovanie a manipuláciu s veľkými dátami bolo potrebné vyvinúť sadu nových nástrojov schopných zvládnuť riešenie takýchto úloh, tie najčastejšie používané z nich boli popísané vyššie, vrátane ich rozšírení v podobe nástrojov pre strojové učenie na takýchto platformách.
Cieľom tejto úlohy nebude návrh nových metód pre analýzu textových korpusov, ale nadviazanie na existujúci výskum a modifikovanie a rozširovanie existujúcich prístupov. Chceme sa zamerať najmä na rozšírenia a modifikácie existujúcich prístupob týkajúce sa optimalizácie využitia distribuovaných zdrojov pri rôznych typoch analýz textových dokumentov. Cieľom tejto úlohy bude vhodne adaptovať zvolené existujúce prístupy na vybrané úlohy z oblasti spracovania a analýzy veľkých textových dát. Naša metodika bude založená na sformulovaní modelu, ktorý sa bude riadiť na základe aktuálnych hodnôt podmieňujúcich faktorov dát, dostupného prostredia, ako aj cieľových charakteristík danej úlohy.

b) Prúdy textových dát sú v posledných rokoch všadeprítomné, sú výsledkom širokej škály rôznych aplikácií a najmä sociálnych sietí. Veľké množstvo týchto textových dát sa kontinuálne vytvára v priebehu času v rôznych aplikáciách a rôznym spôsobom [15]. V sociálnych sieťach používatelia nepretržite komunikujú pomocou textových správ. To má za následok vytvorenie masívneho objemu textových prúdov, ktoré je možné využiť na rôzne druhy analýz v sociálnej sieti, pretože textové správy sú odrazom záujmov používateľov. Mnoho web agregátorov umožňuje priebežné získavanie veľkých objemov spravodajských článkov. Iné služby zasa zhromažďujú za krátky čas veľké objemy dokumentov s cieľom odporučiť používateľom najzaujímavejšie z nich v danej oblasti.
Textové prúdy zo sociálnych sietí sú označované ako „social streams“, ich počet rastie veľmi prudko, podľa oficiálneho blog-u sociálnej siete Twitter počet poslaných tweetov za deň bol v roku 2013 v priemere 140 miliónov, v konkurenčnej sieti Facebook sa v priemere za 20 minút pošle 2 milióny správ. Je zrejmé, že analýza týchto údajov vytvára rad problémov, ktoré sú unikátne pri analýze prúdu dát. Dáta zároveň často obsahujú informácie o štruktúre ako je napríklad analýza priateľstva a prepojenia. Textové prúdy sú zvyčajne krátke a šum v dátach predstavuje veľkú prekážku pri jej analýze.
Existuje niekoľko typov analýz a úloh dolovanie v prúdoch dát. Okrem analýzy samotného obsahu (modelovanie tém, analýza sentimentu, analýza názorov a pod.) je zaujímavou oblasťou modelovania nájdených vzorov (konceptov) vzhľadom k cieľovej úlohe tak, aby sa prispôsobovali stále novým a prichádzajúcim dátam. Jedná sa o inkrementálne učenie sa, ktoré si vyžaduje modifikáciu štanradrných algoritmov strojového učenia do vhodnej podoby [16]. V tejto oblasti je zaujímavým trendom okrem klasickým prístupov modelovania vzorov a ich zmien (viď. prehľad adaptačných metód sledovania driftu konceptov [17]) kombinovať techniky štatistického modelovania a adaptívnych algoritmov strojového učenia s metódami konceptuálneho modelovania.

Navrhnutý rozpočet projektu stanovený pre dĺžku riešenia projektu predpokladá jeho využitie na odmeny členom riešiteľského kolektívu. Vzhľadom na to, že výstupom projektu budú aj publikácie, časť požadovaných finančných prostriedkov bude využitá na financovanie pracovných ciest s cieľom prezentácie a diseminácie výsledkov projektu na konferenciách alebo workshopoch. Bude sa jednať o náklady spojené so zaplatením vložného na konferencie, resp. workshopy a cestovné výdavky spojené s účasťou na konferenciách. V prípadoch zahraničných pracovných ciest (kde budeme predpokladať vyššie náklady) bude možné kombinovať financovanie takýchto ciest z iných bežiacich projektov (VEGA, KEGA), na ktorých členovia projektového tímu participujú.


1. http://big-data-mining.org/keynotes/#fayyad, 2012.
2. Jacobs, A. (2009). The Pathologies of Big Data. Communications of the ACM, 8, 36-44.
3. J. Dean, S. Ghemawat (2008): MapReduce: Simplified Data Processing on Large Clusters. Communications of the ACM, 51(1), 107-113
4. http://hadoop.apache.org
5. http://pig.apache.org
6. http://impala.io
7.https://hive.apache.org
8. http://stratosphere.eu
9. https://mahout.apache.org
10. http://www.radoop.eu
11. Akshay Mittal, Sharvanath Pathak, Trevor Bannard. 2013. RHadoop: An Improved Execution Environment for Restricted MapReduce Programs.
12. http://gridgain.com
13. https://code.google.com/p/haloop/
14. https://spark.apache.org
15. Aggarwal, C., C., Mining text and social streams: a review, NY: IBM T.J watson Research Center.2014. 9-19 s. doi 10.1145/2641190.2641194.
16. Gama, J., Sebastiao, R., Rodrigues, P.: On evaluating stream learning algorithms. Machine Learning 90, 3, 317–346, 2013.
17. Gama, J., Zliobaite, I., Bifet, A., Pechenizkiy, M., Bouchachia, A.: A Survey on Concept Drift Adaptation. ACM Computing Surveys, 46(4), 2014.



49. Originálnosť projektu a koncepcie riešenia
  • Definujte mieru originálnosti projektu
  • Opíšte navrhovaný koncept riešenia a formulujte vedeckú hypotézu
  • Definujte význam predbežných výsledkov, nadväznosť navrhovaného riešenia na vlastné publikované výsledky

V oboch výskumných podúlohách sa budeme snažiť priniesť svoje vlastné originálne prístupy, postavené na doterajších výsledkoch členov riešiteľského kolektívu. V ďalšom texte podrobnejšie priblížime originálnosť projektu, navrhovaný koncept riešenia, špecifické ciele a nadväznosť na vlastné publikované výsledky vo vyššie zavedenom členení podľa jednotlivých výskumných úloh v rámci nich.

1. Návrh škálovateľných metód a modelov pre analýzu veľkých dát textového charakteru

V prvej popisovanej oblasti je hlavným cieľom vytvorenie nových a rozšírenie existujúcich prístupov k distribúcii úloh dolovania v textoch v distribuovanom prostredí. V rámci tohto bodu chceme stavať na našich predchádzajúcich výsledkoch v oblasti implementácie škálovateľných prístupov pre rôzne typy úloh spracovania textov (klasifikačné a zhlukovacie úlohy, formálna analýza konceptov na textových dátach) [1], resp. nadväzujúcich riešení, ktoré sa zaoberali tvorbou takýchto aplikácií postavených na rámci GridGain [2, 3].
Výstupom tejto úlohy bude vo forme návrh a implementácie optimalizačných metód pre distribúciu úloh v distribuovanom prostredí založených na holistickom prístupe. Tu si kladieme za cieľ využívať dostupné informácie o aktuálnom stave distribuovaného prostredia, rovnako ako aj na hodnotách podmieňujúcich faktorov dát. Budeme monitorovať údaje, ktoré obsahujú informácie o aktuálnom stave používanej výpočtovej infraštruktúry a budeme tiedo informácie využívať v procese distribúcie úloh na čiastkové podúlohy za účelom optimalizácie ich distribúcie a využitia dostupných výpočtových kapacít. V tejto oblasti sa javí zaujímavou oblasťou výskumu štúdium jednotlivých prístupov a kritérií pre voľbu spôsobu distribúcie výpočtu. Tie spravidla závisia na viacerých podmieňujúcich faktoroch, vrátane veľkosti spracovávaneho dátového korpusu, jeho štruktúry, dostupných výpočtových kapacitách, prístupu k distribuovaným zdrojom (množstvo výpočtových uzlov, veľkosť operačnej pamäte, topológia siete, atď.).
Navrhnutý model distribúcie úloh bude spočívať v tom, že využijeme indexované štatistiky popisujúce spracovávanú textovú množinu a získame z nich informácie potrebné pre efektívnejšie rozdeľovanie podúloh v distribuovanom prostredí (použijeme napr. štatistiky o frekvencií výskytu jednotlivých kategórií, o roydelení dát v trénovacej množine pri klasifikačných úlohách a pod.). Tieto informácie nám pomôžu získať predstavu o jednotlivých čiastkových úlohách, o ich približnej zložitosti a výpočtovej náročnosti. Túto informáciu potom využijeme ako jeden zo vstupov do modelu distribúcie úlohy.
Na druhej strane budeme z používanej infraštruktúry získavať dáta popisujúce aktuálny stav výpočtového prostredia. O jednotlivých pracovných uzloch distribuovaného prostredia môžeme (v závislosti podľa používaných technológií) zistiť rôzne informácie charakterizujúce ich aktuálny výkon, vrátane informácii o dostupných výpočtových kapacitách (rýchlosť procesora, veľkosť pamäte), aktuálnej záťaži výpočtového uzla, obsadenosti bežiacimi úlohami a pod. Tieto charakteristiky priamo ovplyvňujú schopnosť distribuovaného prostredia vykonať úlohu a budú použité ako ďalší zo vstupov do modelu distribúcie úloh. Ten, riadený takýmito dátami, navrhne spôsob využitia dostupných kapacít distribuovaného prostredia pre riešenú úlohu spracovania textových dát tak, že optimalizuje (vzhľadom na aktuálny stav prostredia) spôsob dekompozície riešenej úlohy.

2. Návrh škálovateľných metód a modelov pre analýzu prúdov textových dát

Cieľom v tejto podúlohe bude navrhnúť a verifikovať metódy pre analýzu textových prúdov zo sociálnych sietí a mikroblogov za účelom modelovania tém týchto príspevkov. Budeme sa zaoberať nielen analýzou samotného obsahu (modelovaniu samotných tém), ale aj ich vývoju v čase a s tým spojenými úlohami ako napr. identifikáciou najpodstatnejších/najvýznamnejších prispievateľov, alebo analýze sentimentu a jeho vývoja v priebehu času v rámci témy. Cieľom bude navrhnúť taký prístup, ktorý nebude spracovávať dáta v dávkach, ale ako prúdy dát. Jednou z možností bude pri tejto úlohe využívať modely postavené na báze formálnej analýzy konceptov (Formal Concept Analysis - FCA [4]). Našou snahou bude využiť práve pozitívne aspekty konceptových zväzov, akými sú napr. dôkladný lokálny popis dát, možnosť modelovania komplexných atribútov špecificky navrhnutých pre analyzovanú doménu a inkrementálne budovanie konzistentného modelu. Cieľom bude samozrejme návrh modelov, algoritmov pre ich tvorbu, ako aj testovanie na vybraných typoch dát.
V rámci tohoto cieľa sa budeme sústrediť aj na samotné metódy analýzy sentimentu. Tie narozdiel od existujúcich prístupov realizovaných dávkovo, na relatívne statických množinách dokumentov, budeme aplikovať na prúdy textových dát, vzhľadom na fakt, že reálne príspevky v rámci sociálnych médií majú charakter toku údajov, pričom častokrát sa s plynutím času aj znižuje ich aktuálnosť. Budeme skúmať dva základné prístupy k takýmto analýzam: slovníkovo založený prístup a prístup založený na metódach strojového učenia. Prístupy založené na strojovom učení môžu byť s úspechom použité aj na modelovanie témy prúdu dát konverzačného charakteru.
Uvedený koncept riešenia a jeho poúloh je pevne ukotvený v predchádzajúcich a prebiehajúcich výskumných aktivitách jednotlivých riešiteľov projektu, ktoré pokrývajú nasledujúce výskumné oblasti:
- Oblasť návrhu a implementácie distribuovaných metód strojového učenia pre rôzne úlohy dolovania v textoch [5, 6, 7],
- Oblasť analýzy sentimentu v textových dokumentoch s konverzačným obsahom a modelovania témy [8, 9],
- Oblasť analýzy dolovania v sociálnych dátach [10] a oblasti odporúčacích systémov pracujúcich s dátovými prúdmi [11]

1. Sarnovský, M., Butka, P., Paralič J. (2009): Grid-based support for different text mining tasks. Acta Polytechnica Hungarica, 6 (4), 5-27
2. Sarnovsky, M., Kacur, T. (2012): Cloud-based classification of text documents using the Gridgain platform. In: Proc. of 7th IEEE Int. Symposium on Applied Computational Intelligence and Informatics : Timisoara, Romania, 2012. p. 241-245
3. Sarnovský, M. , Butka, P. , Pócsová, J. (2012): Cloud computing as a platform for distributed fuzzy FCA approach in data analysis. In: Proc. of INES 2012: IEEE 16th Int. Conf. on Intelligent Engineering Systems: June 13-15, 2012, Lisbon, Portugal. 291-296
4. Ganter, B., Wille, R.: Formal concept analysis - Mathematical Foundations. Springer-Verlag, Berlin, 1999.
5. Sarnovský, M, Butka, P., Bednár, P.,Babič, F., Paralič, J. (2015), „Analytical Platform Based on Jbowl Library Providing Text-Mining Services in Distributed Environment“ In: Information and Communication Technology,Third IFIP TC 5/8 International Conference, ICT-EurAsia 2015, and 9th IFIP WG 8.9 Working Conference, CONFENIS 2015, Held as Part of WCC 2015, Daejeon, Korea, October 4–7, 2015, Proceedings, ISSN 0302-9743, pp. 310-319
6. Sarnovský, M., Čarnoká, N. (2015),“Distributed algorithm for text documents clustering based on
k-means approach“, In: Advances in Intelligent Systems and Computing vol. 431, Information Systems Architecture and Technology: Proceedings of 36th International Conference on Information Systems Architecture and Technology – ISAT 2015, ISSN: 2194-5357
7. Sarnovský, M., Ulbrík, Z. (2013),“Cloud-based clustering of text documents using the GHSOM algorithm on the GridGain platform“, In: SACI 2013 : IEEE 8th International Symposium on Applied Computational Intelligence and Informatics : proceedings : May 23-25, 2013, Timisoara, Romania. - Piscataway : IEEE, 2013 P. 309-313. - ISBN 978-1-4673-6400-3
8. Mikula, M., Machová, K. (2015), „Classification of opinion in conversational content“, In: IEEE 13th International Symposium on Applied Machine Intelligence and Informatics: Proceedings: 22. – 24.01.2015: Herľany, Slovakia, pp. 227-231 Danvers : IEEE, ISBN 978-1-4799-8220-2
9. Smatana, M, et al (2014), „Modelovanie témy v prúde dát z mikroblogov“, In: WIKT 2014 : 9th Workshop on Intelligent and Knowledge Oriented Technologies : zborník príspevkov : November 20-21, 2014, Smolenice, Slovakia. - Bratislava : STU, pp.35-38., ISBN 978-80-227-4267-2
10. Tutoky, G (2011), „Discovery and Exploitation of Knowledge in Collaboration Social Networks“, In: Information Sciences and Technologies Bulletin of the ACM Slovakia. Roč. 3, č. 4 (2011), pp. 28-36., ISSN 1338-1237
11. Banas, D, Havrilová, C., Paralič, J., (2015), „Combination of user profile information and collaborative filtering in recommendations“, In: INES 2015 : IEEE 19th International Conference on Intelligent Engineering Systems (INES), September 3-5, 2015, Bratislava, Slovakia : IEEE, pp. 359-363., ISBN 978-1-4673-7938-0

50. Štruktúra projektu, kvalita spracovania, logická nadväznosť postupov riešenia
  • Definujte harmonogram riešenia projektu s ohľadom na logickú nadväznosť postupov a na napĺňanie deklarovaných cieľov
  • Vysvetlite adekvátnosť použitej metodiky
  • Vysvetlite adekvátnosť navrhnutého rozpočtu projektu v kontexte finančnej náročnosti dosiahnutia cieľov
  • Stanovte časový plán realizácie a naplnenia stanovených vedeckých cieľov

Predpokladaná dĺžka riešenia navrhovaného projektu je 12 mesiacov s oficiálnym začiatkom 1. januára 2016. Z odbornej stránky je projekt rozdelený na hlavný cieľ projektu a dve čiastkové témy, ktoré určujú odborné smerovanie projektu. Zodpovedný riešiteľ bude zabezpečovať nevyhnutný projektový manažment vrátane prípravy záverečnej správy projektu, organizovania pracovných porád, priebežného publikovania a diseminácie výsledkov projektu.

Časový harmonogram projektu môžeme pre obe z čiastkových úloh rozdeliť na nasledujúce etapy:

- Prvá etapa (analýza, v rozsahu 2 mesiace, M1 – M2 ):
bude venovaná systematickej analýze aktuálneho stavu v jednotlivých výskumných úlohách. Táto analýza kontinuálne nadviaže na doterajšie výskumné aktivity jednotlivých riešiteľských tímov, ktoré vytvárajú potrebné pozitívne predpoklady na úspešné riešenie špecifikovaných čiastkových projektu. Takisto budú stanovené komplexné kritériá na meranie a vyhodnotenie dosiahnutých výsledkov, špecifické pre jednotlivé výskumné podúlohy.

- V druhej etape (návrh, rozsah 3 mesiacov, M3 – M5):
o bude prebiehať návrh nových metód a modelov na základe výsledkov predchádzajúcej fázy a v súlade s očakávanými hodnotami stanovených kritérií na meranie dosiahnutých výsledkov ako napr. presnosť predikcie, kvalita zhlukovej analýzy, presnosť extrahovaných vzorov, úžitková hodnota extrahovaných odporúčaní, efektívnosť využitia dostupných výpočtových zdrojov, a pod.

- Tretia etapa (verifikácia návrhu, rozsah 3 mesiacov, M6 – M8):
o bude venovaná experimentálnej verifikácii navrhnutých metód a modelov prostredníctvom dostupných výpočtových a dátových zdrojov s cieľom overiť ich aplikovateľnosť vo všeobecnosti a v súlade so stanovenými kritériami na ich meranie a vyhodnotenie.

- Štvrtá etapa (optimalizácia, 2 mesiace, M9 – M10):
o zameria sa na vylepšenie a finalizáciu navrhnutých modelov a metód na základe výsledkov predchádzajúcej fázy a v súlade s aktuálnymi trendmi a dosiahnutým vedeckým pokrokom v danom čase.

- Piata etapa (verifikácia, rozsah 2 mesiacov, M11 – M12):
o bude venovaná experimentálnej verifikácii optimalizovaných metód a modelov prostredníctvom dostupných výpočtových a dátových zdrojov s cieľom overiť ich aplikovateľnosť vo všeobecnosti a v súlade so stanovenými kritériami na ich meranie a vyhodnotenie.

51. Odborné predpoklady riešiteľského kolektívu
  • Odôvodnite kompetentnosť zúčastnených riešiteľských organizácií na riešenie predkladaného projektu v kontexte hlavných úloh, ktoré budú jednotlivé organizácie v projekte zabezpečovať
  • Opíšte kompetentnosť jednotlivých riešiteľov na riešenie predkladaného projektu a základné úlohy, ktoré budú v rámci implementácie projektu realizovať (netýka sa zodpovedného riešiteľa)
  • Opíšte spôsob kooperácie riešiteľov, ich vzájomnú komplementaritu a zastupiteľnosť pri riešení projektu
  • Opíšte existujúcu prístrojovú a personálnu infraštruktúru pracovísk podieľajúcich sa na implementácii projektu
  • Opíšte mieru zapojenia mladých pracovníkov výskumu a vývoja do 35 rokov vrátane študentov doktorandského štúdia do riešenia projektu

V projekte sú zapojení mladí výskumní pracovníci, riešiteľský kolektív pozostáva z mladých výskumníkov do 35 rokov a interných doktorandov. Projekt môže významne prispieť k rozšíreniu poznania a schopností výskumníkov z jednotlivých pracovísk pre rýchle napredujúcu oblasť veľkých dát a vytvoriť dobré predpoklady pre získanie ďalších zaujímavých projektov, či už v rámci základného, alebo aplikačného výskumu.

Potrebná technická a dátová infraštruktúra bude využívaná na základe dostupných možností. Táto infraštruktúra bude k dispozícii členom projektového tímu na experimentálne vyhodnotenie skúmaných metód a modelov pre prácu s veľkými dátami. Dátová infraštruktúra bude zabezpečená najmä z voľne dostupných zdrojov textových dát (ClueWeb (veľkosť 25TB), Wikipedia dump (40GB), Google books ngram (2.2TB)) rovnako aj zo streamov zo sociálnych sietí (Twitter, Facebook).

Z technologického hľadiska bude pre riešenie projektu využívaná technologická infraštruktúra dostupná v rámci riešiteľského pracoviska. V rámci FEI TUKE sú kontinuálne vytvárané podmienky na riešenie výpočtovo a kapacitne náročných úloh prostredníctvom hardvérového a softvérového vybavenia z projektov financovaných zo štrukturálnych fondov ako napr. Centrum excelentnosti I. a II. (ITMS 26220120020, 26220120030) a práve prebiehajúceho projektu Univerzitného vedeckého parku Technicom (26220220182). K dispozícii je viacero výkonných serverov, ktoré sú priebežne dopĺňané vysokokapacitnými diskovými úložiskami s minimálnou kapacitou 30TB. Všetky zariadenia sú umiestnené v klimatizovaných serverovniach TUKE so sieťovým pripojením 10Gb/s do internetu prostredníctvom Slovenskej akademickej siete SANET. Táto základná infraštruktúra je vhodne doplnená dvoma laboratóriami určenými pre vývoj a testovanie softvérových komponentov v distribuovanom prostredí.

Riešiteľský kolektív zahŕňa pracovníkov Katedry kybernetiky a umelej inteligencie, Centra hospdárskej informatiky Fakulty elektrotechniky a informatiky Technickej univerzity v Košiciach. Členovia riešiteľského kolektívu sa v minulosti podieľali na riešení viacerých projektov, z medzinárodných to boli napr. projekt 6. rámcového programu KP-Lab, 7. RP projekt HYDRA, ako aj na riešení viacero národných projektov typu VEGA, KEGA a APVV (napr. Tradice, SEMCO-WS, atď.). Ide o mladý a dynamický kolektív, ktorý pozostáva z kombinácie už skúsenejších výskumníkov v relevantných oblastiach výskumu (Martin Sarnovský v oblasti distribuovanej výpočtovej infraštruktúry na spracovanie veľkých objemov dát; Gabriel Tutoky v oblasti analýzy a spracovania prúdov dát zo sociálnych médií; atď.) a mladých študentov doktorandského štúdia. Jednotliví riešitelia svojim výskumným zameraním vhodne pokrývajú výskumné úlohy.

Ing. Martin Sarnovský, PhD. – odborný asistent na KKUI, medzi odborné oblasti záujmu patrí analýza textových dát, distribuované počítanie, analýza veľkých dát, analýza prúdov dát. V rámci projektu pôsobí ako zodpovedný riešiteľ projektu, bude sa venovať úlohám návrhu a implementácie optimalizačných metód pre distribúciu úloh

Ing. Gabriel Tutoky, PhD. – výskumník na Katedre kybernetiky a umelej inteligencie, medzi odborné oblasti záujmu patrí dolovanie v dátach, analýza dát zo sociálnych sietí, transformácia dát v sieťach, analýza citačných sietí, tvorba modelov. V rámci projektu sa bude venovať návrhu metód pre analýzu prúdov textových dát zo sociálnych médií.

Ing. Cecília Havrilová – doktorand na KKUI, v rámci doktorandského štúdia sa zameriava na analýzu dát, najmä za účelom tvorby odporúčaní v rôznych procesoch. Medzi ďalšie oblasti výskumu patria metódy analýzy kolaboratívnych procesov. V rámci projektu sa bude venovať analýze veľkých textových dát.

Ing. Miroslav Smatana – doktorand na KKUI, v rámci doktorandského štúdia sa venuje najmä spracovaniu prirodzeného jazyka, oblasti modelovania témy a analýze sentimentu. V rámci projektu sa bude venovať návrhu a verifikácii metód pre modelovanie témy na prúdoch textových dát pomocou metód FCA.

Ing. Martin Mikula – doktorand na KKUI, v rámci doktorandského štúdia sa venuje oblasti analýzy sentimentu a dolovania názorov v konverzačnom obsahu. V rámci projektu sa bude venovať analýze prúdov textových dát zo sociálnych médií z hľadiska ich sentimentu.

Späť na zoznam projektov

Login