Pengkategorian Otomatis Artikel Ilmiah dalam Pangkalan Data Perpustakaan Digital Menggunakan Metode Kernel Graph
Isi Artikel Utama
Abstrak
Artikel ilmiah dalam pangkalan data perpustakaan digital dikelompokkan dalam kategori-kategori tertentu. Pengelompokan artikel ilmiah dalam jumlah besar yang dilakukan secara manual membutuhkan sumber daya manusia yang banyak dan waktu yang tidak singkat. Penelitian ini bertujuan untuk membantu tim pengolah bahan pustaka dalam mengelompokkan artikel ilmiah sesuai dengan kategorinya masing-masing secara otomatis. Dalam penelitian ini, pengkategorian otomatis artikel ilmiah dilakukan dengan menggunakan kernel graph yang diterapkan pada graph bipartite antara dokumen artikel ilmiah dengan kata kuncinya. Lima fungsi kernel digunakan untuk menghitung nilai matriks kernel, yaitu KEGauss, KELinear, KVGauss, KVLinear dan KRW. Matriks kernel dihitung dari proyeksi satu-moda graph bipartit, lalu digunakan sebagai masukan pengklasifikasi SVM (support vector machine) dalam menentukan kategori yang tepat. Kinerja pengkategorian otomatis dihitung dari ketepatan yang merupakan perbandingan antara jumlah artikel yang dikategorikan secara tepat dengan jumlah keseluruhan artikel dalam dataset. Penerapan metode ini dalam pangkalan data ISJD (Indonesian Scientific Journal Database) menghasilkan rata-rata ketepatan yang signifikan yaitu 87,43% untuk fungsi kernel KVGauss. Sedangkan kernel lainnya memberikan hasil berturut-turut 86,14% (KELinear), 85,86% (KEGauss), 42,23% (KVLinear dan 25,15% (KRW). Hasil ini menunjukkan bahwa penggunaan metode kernel graf efektif untuk mengelompokkan artikel ilmiah ke dalam kategori yang ditentukan dalam pangkalan data perpustakaan digital.
Rincian Artikel
Jurnal IPTEK-KOM menggunakan kebijakan akses terbuka. Syarat yang harus dipenuhi oleh Penulis sebagai berikut:
- Penulis menyimpan hak cipta dan memberikan jurnal hak penerbitan pertama naskah secara simultan dengan lisensi di bawah Creative Commons Attribution License yang mengizinkan orang lain untuk berbagi pekerjaan dengan sebuah pernyataan kepenulisan pekerjaan dan penerbitan awal di jurnal ini.
- Penulis bisa memasukkan ke dalam penyusunan kontraktual tambahan terpisah untuk distribusi non ekslusif versi kaya terbitan jurnal (contoh: mempostingnya ke repositori institusional atau menerbitkannya dalam sebuah buku), dengan pengakuan penerbitan awalnya di jurnal ini.
- Penulis diizinkan dan didorong untuk mem-posting karya mereka online (contoh: di repositori institusional atau di website mereka) sebelum dan selama proses penyerahan, karena dapat mengarahkan ke pertukaran produktif, seperti halnya sitiran yang lebih awal dan lebih hebat dari karya yang diterbitkan. (Lihat Efek Akses Terbuka).
Referensi
Andrej, M., and Doreian, P.”Partitioning signed two-mode networks”. Journal of Mathematical Sociology, 33(2009): 196–221
Banerjee, S., K. Sarkar, S. Gokalp, A. Sen, and H. Davulcu. “Partitioning signed bipartite graphs for classification of individuals and organizations”. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) 7227 LNCS, 196–204. 2012.
Dhillon, I. S. “Co-clustering documents and words using Bipartite Spectral Graph Partitioning”. In Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining - KDD ’01, San Francisco, CA, USA,(2001) pp. 269–274.
de Paulo Faleiros,T., Rossi, R.G., and de Andrade Lopes,A. “Optimizing the class information divergence for transductive classification of texts using propagation in bipartite graphs”. Pattern Recognition Letters. (2016). http://dx.doi.org/10.1016/j.patrec.2016.04.006
Grace, G.H. and Desikan, K. “Document clustering using a new similarity measure based on energy of a bipartite graph”. Indian Journal of Science and Technology 9(40) (2010). http://dx.doi.org/10.17485/ijst/2016/v9i40/99005
Kim, H., Howland, P., & Park, H. Dimension Reduction in Text Classification with Support Vector Machines. Journal ofMachine Learning Research, 6 (2005): 37–53. https://doi.org/10.1021/bi702018v
Martın De Diego, I., A. Munoz, and J. M. Moguerza. “Methods for the combination of kernel˜ matrices within a support vector framework”. Machine Learning 78(1-2) (2010): 137–174.
Radev, D. R. “Weakly supervised graph-based methods for classification”. Ann Arbor 1001(1) (2009): 48109–1092.
Srivastava, A., A. Soto, and E. Milios. “Text clustering using one-mode projection of documentword bipartite graphs”. In Proceedings of the 28th Annual ACM Symposium on Applied Computing - SAC ’13, Coimbra, Portugal, (2013): 927–932.
Stankova, M., D. Martens, and F. Provost. “Classification over Bipartite Graphs through Projection”. Technical Report D/2015/1169/001, University of Antwerp, Antwerp, Belgium Research. 2015.
Sugiyama, M. and K. Borgwardt. “Halting in Random Walk Kernels”. Advances in Neural Information Processing Systems (Section 2) (2015): 1639–1647.
Yoo, I., X. Hu, and I.-y. Song. “Integration of semantic-based bipartite graph representation and mutual refinement strategy for biomedical literature clustering”. In Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining - KDD ’06, Philadelphia, PA, USA, (2006): 791.
Zha, H., X. He, C. Ding, M. Gu, and H. Simon. “Bipartite graph partitioning and data clustering”. In Proceedings of the tenth international conference on Information and knowledge management - CIKM ’01, Volume pages, Atlanta, Georgia, USA, (2001): 25.
Zha, H. and X. Ji. “Correlating multilingual documents via bipartite graph modeling”. In Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR ’02, Tampere, Finland, (2002): 443.