Knowledge Management, Data Mining, and Text Mining in Medical Informatics

MANAJEMEN PENGETAHUAN, DATA MINING, DAN TEXT MINING DALAM INFORMATIKA MEDIS

Penerjemah: https://komarudintasdik.wordpress.com

Judul Asli: Knowledge Management, Data Mining, and Text Mining in Medical Informatics

Bab 1

Penulis: Hsinchun Chen, Sherrilynne S. Fuller, Carol Friedman, dan William Hersh

Gambaran Umum Bab

Pada bab ini kami membahas gambaran umum teknik-teknik knowledge management (manajemen pengetahuan), data mining (penambangan data), dan text mining (penambangan teks) pilihan dan penggunaannya dalam berbagai aplikasi biomedis yang ada. Ini bertujuan menyusun konteks untuk bab-bab berikutnya. Pertama, kami memperkenalkan lima paradigma utama untuk pembelajaran mesin dan analisis data yang mencakup: model-model probabilistik dan statistik, pembelajaran simbol dan induksi rule, jaringan saraf tiruan, algoritma berbasis evolusi, dan pembelajaran analitis serta logika fuzzy. Kami juga membahas relevansi dan potensinya untuk penelitian biomedis. Aplikasi-aplikasi contoh penelitian manajemen pengetahuan, data mining, dan text mining yang relevan, kemudian direview yang mencakup: ontologi; manajemen pengetahuan untuk perawatan kesehatan, literatur biomedis, basis data heterogen, visualisasi informasi, dan basis data multimedia; dan data serta text mining untuk perawatan, literatur kesehatan, dan data biologis. Kami menyimpulkan paper ini dengan pembahasan tentang isu-isu pribadi dan rahasia yang berhubungan dengan data mining biomedis.

Kata kunci

Knowledge management; data mining; text mining

1. PENDAHULUAN

Bidang informatika biomedis  telah menunjukkan peningkatan popularitas dan perhatian, dan telah berkembang dengan cepat selama dua dekade. Berkenaan dengan kemajuan dalam teknik-teknik molekular, genomik, dan biomedis baru serta aplikasi-aplikasi seperti genome sequencing, protein identification, medical imaging, dan data medis pasien, sejumlah besar data penelitian biomedis yang dihasilkan setiap hari. Memulai dari usaha-usaha penelitian individu dan praktek-praktek klinik, data biomedis ini tersedia dalam ratusan basis data publik dan pribadi, yang telah dibuat dengan teknologi-teknologi basis data baru dan Internet. Digitisasi informasi medis penting seperti laporan lab, data pasien, paper penelitian, dan gambar anatomik juga sudah berhasil dalam sejumlah data perawatan pasien. Para peneliti dan praktisi biomedis sekarang menghadapi masalah “info-glut” (berlimpah informasi yang belum terorganisir, pent.). Sekarang, rate akumulasi data jauh lebih cepat daripada rate interpretasi data. Data ini harus diorganisir dan dianalisis secara efektif agar bermanfaat.

Teknik komputasi dan teknologi informasi baru dibutuhkan untuk memanaj repositori besar data biomedis ini dan untuk melakukan discover pola dan pengetahuan yang bermanfaat darinya. Fakta, bahwa teknik knowledge management, data mining, dan text mining telah diadopsi dalam berbagai aplikasi biomedis yang sukses di tahun baru-baru ini. Teknik dan metodologi knowledge management telah digunakan untuk mendukung storing (penyimpanan), retrieving (penemuan kembali), sharing (berbagi), dan manajemen multimedia serta pengetahuan biomedis eksplisit dan tacit yang bermisi penting. Teknik data mining telah digunakan untuk melakukan discover (penemuan) pengetahuan biologis, drug discovery, dan perawatan pasien serta pola yang menggunakan metode analisis statistik, pembelajaran mesin (macine learning), dan jaringan saraf tiruan  pilihan. Teknik text mining telah digunakan untuk menganalisis publikasi penelitian seperti data pasien elektronik. Entitas-entitas biomedis seperti nama-nama obat, protein, gene, dan penyakit dapat diekstrak secara otomatis dari dokumen-dokumen yang sudah dipublikasikan dan digunakan untuk mengkonstruksi gene pathway atau menyediakan pemetaan ke dalam ontologi medis yang ada.

Pada bagian berikutnya, kami melakukan survey dahulu terhadap latar belakang penelitian knowledge management, data minimg, dan text mining. Kemudian, kami membahas penggunaan teknik-teknik ini dalam aplikasi-aplikasi biomedis yang ada.

2. KNOWLEDGE MANAGEMENT, DATA MINING, DAN TEXT MINING: GAMBARAN UMUM

Teknik-teknik knowledge management, data mining, dan text mining telah banyak digunakan di berbagai aplikasi penting dalam domain bisnis dan ilmiah pada tahun baru-baru ini.

Manajemen pengetahuan adalah pendekatan sistem dan manajerial untuk pengumpulan, manajemen, penggunaan, analisis, berbagi, dan knowledge discovery dalam organisasi atau komunitas untuk memaksimalkan performa (Chen, 2001). Walaupun definisi universal apa pengetahuan itu, pada umumnya sepakat adanya kesatuan data, informasi, dan pengetahuan. Sebagian besar data itu terstruktur, faktual, dan sering kali numerik, serta terletak dalam database management systems. Informasi itu faktual, tapi tidak terstruktur, dan di banyak kasus bersifat tekstual. Pengetahuan itu inferensial, ringkas, dan dibutuhkan untuk mendukung pembuatan keputusan atau pembuatan hipotesis. Konsep pengetahuan itu telah lazim dalam berbagai disiplin dan praktek bisnis. Contohnya, para pakar informasi memikirkan taksonomi, subject heading, dan skema klasifikasi sebagai representasi pengetahuan. Konsultasi perusahaan juga secara aktif telah mendukung praktek dan metodologi untuk menangkap aset-aset pengetahuan perusahaan dan memori organisasi. Dalam konteks biomedis, praktek-praktek manajemen pengetahuan seringkali harus mengungkil dukungan keputusan klinik yang ada, information retrieval, dan teknik perpustakaan digital untuk menangkap serta menyampaikan pengetahuan biomedis eksplisit dan tacit.

Data mining sering digunakan selama proses knowledge discovery dan merupakan salah satu dari sub bidang yang sangat penting dalam manajemen pengetahuan. Data mining bertujuan untuk menganalisis sekelompok data atau informasi yang ada untuk mengidentifikasi pola-pola baru dan sangat bermanfaat. (Fayyad, dkk., 1996). Teknik-teknik ini, seperti Bayesian model, pohon keputusan, jaringan saraf tiruan, associate rule mining, dan algoritma genetika, sering digunakan untuk melakukan discover pola atau pengetahuan yang sebelumnya tidak diketahui untuk sistem dan user (Dunham, 2002; Chen dan Chau, 2004). Data mining telah digunakan dalam banyak aplikasi seperti pemasaran, manajemen relasi pelanggan, engineering, obat, analisis kesalahan, prediksi pakar, web mining, dan mobile computing, dan sebagainya.

Text mining bertujuan untuk mengekstrak pengetahuan yang berguna dari data atau dokumen tekstual (Hearst, 1999; Chen, 2001). Walaupun text mining sering dianggap sebagai sub bidang dari data mining, banyak teknik text mining berasal dari disiplin-disiplin lain, seperti information retrieval, visualisasi informasi, linguistik komputasional, dan ilmu informasi. Contoh aplikasi text mining mencakup klasifikasi dokumen, clustering dokumen, ekstraksi entitas, ekstraksi informasi, dan sumarisasi.

Banyak sekali teknik manajemen pengetahuan, data mining, dan text mining melibatkan pola-pola pembelajaran dari data atau informasi yang ada, sehingga dibangun berdasarkan dasar pembelajaran mesin dan kecerdasan buatan. Selanjutnya, kami mereview paradigma-paradima utama dalam pembelajaran mesin, metodologi evaluasi penting, dan aplikabilitasnya dalam biomedicine.

2.1 Paradigma Pembelajaran Mesin dan Analisis Data

Sejak penemuan komputer pertama pada tahun 1940, para peneliti telah berusaha menciptakan komputer yang banyak pengetahuan, dapat belajar, dan cerdas. Banyak pengetahuan berbasis manajemen pengetahuan telah dibangun untuk berbagai aplikasi seperti diagnosis medis, engineering troubleshooting, dan sebagian besar sistem ini telah didesain untuk memperoleh pengetahuan secara manual dari para pakar (manusia), yang bisa membutuhkan sangat banyak waktu dan proses yang panjang. Untuk mengatasi masalah ini, algoritma-algoritma pembelajaran mesin telah dikembangkan untuk memperoleh pengetahuan secara otomatis dari contoh-contoh atau sumber data. Simon (1983) mendefinisikan pembelajaran mesin sebagai “semua proses yang sistemnya memperbaiki performa sendiri.” Mitchell (1997) memberikan definisi serupa, yang menganggap pembelajaran mesin menjadi “studi algoritma komputer yang meningkat kualitasnya secara otomatis melalui pengalaman.” Walaupun istilah “pembelajaran mesin” telah banyak diadopsi dalam komunitas ilmu komputer, dalam konteks informatika medis, “analisis data” lebih umum digunakan untuk merepresentasikan “studi algoritma komputer yang meningkat kualitasnya secara otomatis melalui analisis data.” Analisis data statistik telah lama diadopsi dalam penelitian biomedis.

Pada umumnya, algoritma pembelajaran mesin dapat diaplikasikan sebagai supervised learning (pembelajaran terkontrol) atau unsupervised learning (pembelajaran terkontrol). Dalam supervised learning, contoh-contoh training terdiri atas input/output pair patterns. Algoritma pembelajaran bertujuan untuk memprediksi nilai-nilai output dari contoh-contoh baru berdasarkan nilai-nilai inputnya. Dalam unsupervised learning, contoh-contoh training hanya memuat pola-pola input dan tidak ada output target eksplisit yang diasosiasikan dengan tiap input. Algoritma unsupervised learning harus menggunakan nilai-nilai input untuk melakukan discover asosiasi atau pola yang penuh arti.

Banyak sistem pembelajaran mesin yang sukses telah dikembangkan selama tiga dekade dalam komunitas ilmu komputer dan statistik. Chen dan Chau (2004) telah mengkategorikan lima paradigma utama tentang penelitian pembelajaran mesin, yakni model-model probabilistik dan statistik, pembelajaran simbolik dan induksi rule, jaringan saraf, model-model berbasis evolusi, dan pembelajaran analitik dan logika fuzzy. Kami dengan singkat akan mereview penelitian di masing-masing bidang ini dan membahas aplikabilitasnya dalam biomedicine.

2.1.1 Model-Model Probabilistik dan Statistik

Beberapa teknik dan model analisis probabilistik dan statistik memiliki sejarah sangat panjang dan dasar teori sangat kuat untuk analisis data. Walaupun tidak berakar dalam penelitian kecerdasan buatan, analisis statistik mencapai tujuan analisis data dan knowledge discovery mirip dengan pembelajaran mesin. Teknik-teknik statistik populer, seperti analisis regresi, analisis diskriminan, time series analysis, analisis komponen dasar, dan skala multi dimensi, sering digunakan dalam analisis data biomedis dan sering dianggap benchmark untuk perbandingan dengan teknik-teknik pembelajaran mesin terbaru lainnya.

Salah satu model probabilistik yang lebih maju dan populer dalam biomedis adalah Bayesian model. Berawal dalam penelitian pengenalan pola (Duda dan Hart, 1973), metode ini sering digunakan untuk mengklasifikasikan objek yang berbeda ke dalam kelas-kelas yang sudah dikenal (predefined classes) berdasarkan sekelompok fitur. Bayesian model menyimpan probabilitas tiap kelas, probabilitas tiap fitur, dan probabilitas tiap fitur yang ada di masing-masing kelas, berdasarkan training data. Ketika hal baru ditemukan, ia dapat diklasifikasikan menurut probabilitas-probabilitas ini (Langley, dkk., 1992). Variasi Bayesian model, disebut Naive Bayesian model, berasumsi bahwa semua fitur itu independen di dalam kelas masing-masing. Karena kesederhanaan itu, Naïve Bayesian model telah diadopsi dalam domain yang berbeda (Fisher, 1987; Kononenko, 1993). Berkaitan dengan kekakuan matematis dan keelokan pemodelannya, pembelajaran Bayesian telah sering digunakan dalam penelitian data mining biomedis, terutama sekali, genomenic and microarray analysis.

Teknik pembelajaran mesin yang mengalami peningkatan pengenalan dan popularitas pada tahun-tahun ini adalah support vector machines (SVMs). SVM berbasis teori pembelajaran statistik yang mencoba untuk menemukan hyperplane untuk memisahkan dua atau multiple kelas yang terbaik (Vapnik, 1998). Model pembelajaran statistik ini telah diaplikasikan dalam aplikasi yang berbeda dan hasil sudah memberikan harapan. Contohnya, tampak bahwa SVM telah mencapai performa terbaik di antara beberapa metode pembelajaran dalam klasifikasi dokumen (Joachims, 1998; Yang dan Liu, 1999). SVM juga sesuai untuk berbagai masalah klasifikasi biomedis, seperti disease state classification berbasis variabel-variabel genetik atau diagnosis medis berbasis indikator-indikator pasien.

2.1.2 Pembelajaran Simbolis dan Induksi Rule

Pembelajaran simbolis (symbolic learning) dapat diklasifikasikan menurut strategi pembelajaran dasar seperti rote learning (belajar dengan menghapal), learning by being told (belajar dengan mendengar), learning by analogy (belajar dengan analogi), learning from examples (belajar dengan contoh), dan learning from discovery(belajar dengan menemukan) (Cohen dan Feigenbaum, 1982; Carbonell, dkk., 1983). Di antaranya, learning from examples muncul menjadi pendekatan pembelajaran simbolis yang sangat menjanjikan untuk knowledge discovery dan data mining. Ia diimplementasikan dengan mengaplikasikan algoritma yang berusaha mendukung deskripsi konsep umum yang terbaik untuk mendeskripsikan kelas-kelas contoh training yang berbeda. Banyak algoritma telah dikembangkan, tiap penggunaan satu atau lebih teknik itu berbeda dalam mengidentifikasi pola yang berguna untuk menghasilkan deskripsi konsep. Pohon keputusan Quinlan’s ID3 yang membangun algoritma (Quinlan, 1983) dan variasinya seperti C4.5 (Quinlan, 1993) telah menjadi salah satu dari teknik pembelajaran simbolis yang sangat banyak digunakan. Ada sekumpulan objek, ID3 memproduksi pohon keputusan yang berusaha untuk mengklasifikasikan objek-objek yang ada dengan tepat. Pada tiap langkah, algoritma menemukan attribute yang terbaik untuk membagi objek-objek ke dalam kelas yang berbeda dengan meminimalisir entropi (ketidaktahuan informasi). Setelah semua objek diklasifikasikan atau semua attribute digunakan, hasilnya dapat direpresentasikan dengan pohon keputusan atau sekumpulan rule produksi.

Walaupun tidak sehebat SVM atau jaringan saraf (istilahnya akurasi klasifikasi), teknik-teknik pembelajaran simbolis itu efisien secara komputasional dan hasilnya mudah diinterpretasikan. Untuk banyak aplikasi biomedis, kemampuan untuk menginterpretasikan hasil-hasil data mining dalam cara yang dapat dipahami pasien, dokter, dan ahli biologi itu tidak terhingga nilainya. Teknik-teknik pembelajaran mesin yang sangat bagus seperti SVM dan jaringan saraf sering bermasalah karena diperlakukan sebagai “black-box.”

2.1.3 Jaringan Saraf

Jaringan saraf tiruan berusaha untuk mencapai performa seperti manusia dengan memodelkan sistem emosi manusia. Jaringan saraf merupakan graf banyak node aktif (neuron) yang saling terkoneksi dengan link berbobot besar (synapses). Ketika pengetahuan direpresentasikan dengan deskripsi simbolis misalnya pohon keputusan dan rule produksi dalam pembelajaran simbolis, pengetahuan dipelajari dan diingat dengan jaringan saraf yang saling terkoneksi, wighted synapses, dan unit-unit logika threshold (Rumelhart, dkk., 1986a; Lippmann, 1987). Berdasarkan contoh-contoh training, algoritma pembelajaran dapat digunakan untuk mengatur beban koneksi dalam jaringan seperti ia dapat memprediksi atau mengklasifikasikan contoh-contoh yang tidak diketahui dengan tepat. Algoritma-algoritma aktivasi untuk node-node itu dapat digunakan untuk mendapatkan kembali (retrieve) konsep dan pengetahuan dari jaringan (Belew, 1989; Kwok, 1989; Chen dan Ng, 1995).

Banyak jenis jaringan saraf yang berbeda telah dikembangkan, di antaranya feedforward/backpropagation model sangat sering digunakan. Jaringan backpropagation secara penuh terkoneksi, layered, feed-forward networks di mana aktivasi mengalir dari input layer melalui hidden layer kemudian ke output layer (Rumelhart, dkk., 1986b). Jaringan ini biasanya mulai dengan sekumpulan random weights dan mengatur bobotnya berdasarkan masing-masing contoh pembelajaran. Tiap contoh pembelajaran dilewati melalui jaringan untuk mengaktivasi node-node itu. Output aktual jaringan itu kemudian dibandingkan dengan target output dan estimasi errornya dipropagasi kembali ke hidden and input layers. Jaringan melakukan update bebannya secara inkremental menurut estimasi-estimasi error ini hingga jaringan itu stabil. Mode jaringan saraf populer lain mencakup Kohonen’s self-organizing map dan Hopfield network. Self-organizing maps sudah banyak digunakan dalam unsupervised learning, clustering, dan pengenalan pola (Kohonen, 1995); Hopfield networks kebanyakan telah digunakan hanya dalam aplikasi pencarian dan optimisasi (Hopfield, 1982). Terkait dengan performanya (istilahnya kekuatan prediktif dan akurasi klasifikasi), jaringan saraf telah banyak digunakan dalam eksperimen dan diadopsi untuk masalah klasifikasi dan clustering biomedis penting.

2.1.4 Algoritma Berbasis Evolusi

Algoritma berbasis evolusi mengandalkan analogi-analogi untuk proses-proses alami dan Darwinian survival of the fittest. Fogel (1994) mengidentifikasi tiga kategori algoritma berbasis evolusi: algoritma genetik, strategi evolusi, dan pemrograman evolusioner. Di antaranya, algoritma genetik itu sangat populer dan telah sukses diaplikasikan untuk berbagai masalah optimisasi. Algoritma genetik telah dikembangkan berdasarkan prinsip genetika (Holland, 1975; Goldberg, 1989; Michalewicz, 1992). Populasi individu di mana tiap individu merepresentasikan solusi potensial diinisiasi dahulu. Populasi ini mengalami sekumpulan operasi genetik yang dikenal sebagai crossover dan mutation. Crossover adalah proses level tinggi yang bertujuan pada eksploitasi sedangkan mutation adalah proses unary yang bertujuan pada eksplorasi. Individu-individu berjuang untuk survival berdasarkan skema pilihan yang disimpangkan menuju penyeleksian fitter individuals (individu-individu yang merepresentasikan solusi terbaik). Individu terpilih itu membentuk generasi baru dan proses yang berkelanjutan. Setelah itu, sejumlah generasi program berkonvergensi dan solusi optimum direpresentasikan oleh individu terbaik. Dalam penelitian informatika medis, algoritma genetik di antara teknik-teknik yang sangat bagus untuk masalah seleksi fitur (contoh, mengidentifikasi subset gene yang sangat relevan terhadap desease state) berkaitan dengan stokastiknya, kapabilitas pencarian global.

2.1.5 Pembelajaran Analitis dan Logika Fuzzy

Pembelajaran analitis merepresentasikan pengetahuan sebagai rule logis dan melakukan reasoning pada rule-rule seperti itu untuk mencari pembuktian. Bukti dapat mengalami compile ke dalam rule-rule yang lebih kompleks untuk mengatasi masalah-masalah serupa dengan sejumlah pencarian lebih kecil yang dibutuhkan. Contohnya, Samuelson dan Rayner (1991) telah menggunakan pembelajaran analitis untuk merepresentasikan rule-rule gramatis yang meningkatkan kecepatan parsing system.

Sedangkan sistem pembelajaran analitis tradisional tergantung pada hard computing rules, biasanya tidak ada perbedaan yang jelas di antara nilai dan kelas dalam dunia nyata. Untuk mengatasi masalah ini, fuzzy system membolehkan nilai False atau True untuk beroperasi di atas range bilangan riil dari 0 sampai 1 (Zedah, 1965). Kekaburan telah diaplikasikan untuk memberikan imprecision and approximate reasoning.

2.1.6 Pendekatan Hybrid

Sebagaimana Langley dan Simon (1995) telah tunjukkan, alasan-alasan untuk membedakan paradigma-paradigma itu “lebih historis daripada ilmiah.” Batasan di antara paradigma yang berbeda itu biasanya tidak jelas dan banyak sistem telah dibangun untuk mengkombinasikan pendekatan yang berbeda tersebut. Contohnya, logika fuzzy telah diaplikasikan ke induksi rule dan algoritma genetik (contoh, Mendes, dkk., 2001), algoritma genetika telah dikombinasikan dengan jaringan saraf (contoh, Maniezzo, 1994; Chen dan Kim, 1994), dan karena jaringan saraf memiliki kesamaan dengan model probabilitas dan logika fuzzy maka dapat digabungkan dengan mudah (contoh, Paass, 1990). Tidak heran ditemukan bahwa banyak sistem manajemen pengetahuan biomedis, data mining, dan text mining praktis mengadopsi pendekatan hybrid seperti ini.

2.2 Metodologi Evaluasi

Akurasi sistem pembelajaran harus dievaluasi sebelum dapat dimanfaatkan. Ketersedian data yang terbatas sering membuat akurasi estimasi tugas yang sulit (Kohavi, 1995). Memilih metodologi evaluasi bagus itu sangat penting untuk perkembangan sistem pembelajaran mesin.

Ada beberapa metode populer yang digunakan untuk evaluasi seperti ini, termasuk holdout sampling, cross validation, leave-one-out, dan bootstrap sampling (Stone, 1974; Efron dan Tibshirani, 1993). Dalam metode holdout, data dibagi ke dalam training set dan testing set. Biasanya 2/3 data ditetapkan untuk training set dan 1/3 untuk testing set. Setelah sistem itu terlatih dengan training data set, sistem itu memprediksi nilai output tiap hal dalam testing set. Nilai-nilai ini kemudian dibandingkan dengan nilai-nilai real output untuk menentukan akurasi.

Dalam cross-validation, data set secara acak dibagi ke dalam sejumlah subset ukuran yang secara kasar sama. Ten-fold cross validation, di mana data set dibagi ke dalam 10 subset, sangat umum digunakan. Sistem ini mengalami training dan testing untuk 10 iterasi. Di tiap iterasi, 9 subset data digunakan sebagai training data dan remaining set digunakan sebagai testing data. Dalam rotasi, tiap subset data berperan sebagai testing set hanya dalam satu iterasi. Akurasi sistem merupakan akurasi rata-rata di atas 10 iterasi. Leave-one-out merupakan kasus ekstrim dari cross-validation, di mana data aslinya dibagi (split) ke dalam n subset, di mana n merupakan ukuran data asli. Sistem menjalani training dan testing untuk n iterasi, di tiap n-1 contoh digunakan untuk training dan contoh remaining digunakan untuk testing.

Dalam metode bootstrap, n sampel acak independen diambil dari data set asli berukuran n. Karena sampel-sampel ini dilakukan dengan penggantian, maka sejumlah contoh unik akan lebih kecil dari n. Sampel-sampel ini kemudian digunakan sebagai training set untuk sistem pembelajaran, dan remaining data yang tidak dicontohkan digunakan untuk menguji sistem (Efron dan Tibshirani, 1993).

Masing-masing metode ini memiliki keunggulan dan kelemahan. Beberapa kajian telah membandingkan dalam masa akurasinya. Hold-out sampling adalah yang paling awal diimplementasikan, tapi masalah utamanya adalah bahwa training set dan testing set itu tidak independen. Metode ini juga tidak membuat efisien penggunaan data sejak 1/3 data tidak digunakan untuk melakukan training sistem (Kohavi, 1995). Leave-one-out menyediakan estimasi yang sangat tidak memihak, dan secara komputasional mahal serta estimasinya sangat berbeda, terutama untuk data set kecil (Efron, 1983; Jain, dkk., 1987). Breiman dan Spector (1992) serta Kohavi (1995) telah memimpin eksperimen independen untuk membandingkan performa beberapa metode yang berbeda, dan hasil eksperimen menunjukkan ten-fold cross validation hingga metode terbaik untuk seleksi model.

Sederhananya, konsekuensi pasien dan medis penting diasosiasikan dengan banyak aplikasi data mining biomedis, yang penting bahwa metode validasi sistematik telah diadopsi. Tambahan pula, validasi detil, kualitatif dari hasil data mining atau text mining harus dibangun dengan bantuan domain experts (contoh, dokter dan ahli biologi), sehingga ini pada umumnya membutuhkan banyak waktu dan proses yang membutuhkan anggaran mahal.

3. APLIKSI KNOWLEDGE MANAGEMENT, DATA MINING, DAN TEXT MINING DALAM BIOMEDIS

Teknik-teknik knowledge management, data mining, dan text mining telah diaplikasikan untuk bidang biomedicine yang berbeda, berkisar dari manajemen data pasien ke diagnosis klinis, dari pembuatan hipotesis ke gene clustering, dan dari deteksi sinyal spike ke prediksi struktur protein. Pada bagian ini, dengan singkat kami melakukan survey sebagian penelitian yang relevan dalam bidang itu, mencakup aplikasi-aplikasi teknik pembelajaran dalam manajemen pengetahuan, dan data mining serta text mining dalam biomedicine. Review dan pembahasan yang lebih lengkap dan detil tentang teknik dan aplikasi knowledge management, data mining, dan text mining pilihan dalam biomedicine dapat ditemukan pada bab-bab berikutnya dalam buku ini.

3.1 Ontologi

Sebelum kami menguji aplikasi biomedis yang berbeda, penting untuk dipahami bahwa peran ontologi-ontologi dalam manajemen pengetahuan, dan knowledge discovery, terutama untuk aplikasi-aplikasi text mining. ontologi adalah spesifikasi konseptualisasi. Ia mendeskripsikan konsep-konsep dan relasi-relasi yang bisa eksis dan memformulasi terminologi dalam sebuah domain (Gruninger dan Lee, 2002). Ontologi sering digunakan untuk memfasilitasi berbagi pengetahuan antar manusia, pengolahan informasi, data mining, komunikasi antar software agents, atau aplikasi pengolahan pengetahuan lain.

Banyak ontologi telah dikembangkan dalam bidang biomedis. Unified Medical Language System (UMLS), didukung oleh National Library of Medicine (NLM), merupakan sumber utama untuk memfasilitasi program-program komputer untuk memproses dan memanaj dokumen-dokumen biomedis (McCray, dkk., 1993; Humpreys, dkk., 1993; Campbell, dkk., 1998; Humpreys, dkk., 1998). UMLS menawarkan tiga sumber pengetahuan: Metathesaurus, Semantic Network, dan Specialist Lexicon. Metathesaurus merupakan multi bahasa yang dikontrol basis data kosakata untuk biomedicine yang membolehkan user untuk mempetakan nama-nama dan istilah-istilah tekstual biomedis menjadi berbagai konsep (yakni, istilah kosakata terkontrol), atau mengidentifikasi sekumpulan istilah berbeda yang diasosiasikan dengan konsep tunggal. Metathesaurus dibentuk dengan mengintegrasikan kira-kira 100 kosakata terkontrol berbeda yang mencakup Medical Subject Headings (MeSH), kosakata terkontrol, dan SNOMED-CT, kosakata klinis terkontrol yang dibangun oleh College of American Pathologies. Semantic Network menetapkan kategorisasi konsep  dalam Metathesaurus dan relasi antar konsep. Specialist Lexicon, didesain untuk memfasilitasi pengolahan bahasa alami untuk teks biomedis, merupakan kamus yang memuat definisi-definisi sintaksis untuk istilah-istilah biomedis dan istilah-istilah bahasa Inggris umum. Sumber daya ini memberikan framework dan ontologi untuk representasi pengetahuan dalam biomedicine. Sumber daya UMLS telah sering digunakan dalam pengolahan bahasa biomedis (Baclawski, dkk., 2000; Bodenredier dan McRay, 2003; Perl dan Geller, 2003; Rosse dan Mejino, 2003; Zhang, dkk., 2003; Caviedes dan Cimino, 2004). Beberapa kajian telah menginvestigasi pemetaan konsep-konsep dari Metathesaurus menjadi Semantic Network (Cimino, dkk., 2003; Rindflesch dan Fiszman, 2003).

Di samping dokumen-dokumen biomedis, penting juga bagi para peneliti dan komputer untuk memahami terminologi-terminologi yang berbeda tentang gene dan protein. Proyek Gene Ontology (GO) merupakan usaha untuk memenuhi kebutuhan deskripsi konsisten dari produk-produk gene dalam basis data yang berbeda (The Gene Ontology Consortium, 2000). Bertujuan untuk memproduksi kosakata terkontrol, dinamis yang dapat diaplikasikan untuk semua eukaryotes, proyek itu mencakup banyak basis data, mencakup FlyBase (Drosophila), Saccharomyces Genome Database (SGD), Mouse Genome Database (MGD), dan beberapa basis data genome utama lain. GO terdiri atas tiga ontologi terstruktur yang mendeskripsikan gene dan produk-produk gene. Istilah GO juga mengalami cross-reference dengan indeks-indeks dari basis data lain. Dengan cara yang sama, Human Genome Nomenclature (HUGO) menetapkan standar, nama-nama dan simbol-simbol yang sudah terbukti untuk gene manusia (Wain, dkk., 2002). Sebagian besar data ini dapat dicari pada Web sebagai file-file teks. Terdapat basis data publik besar yang menetapkan gene dan produk-produk gene yang diasosiasikan dengan multiple organism seperti dengan organisme model spesifik.

3.2 Manajemen Pengetahuan

Teknik-teknik kecerdasan buatan telah digunakan dalam manajemen pengetahuan dalam biomedicine di awal 1970, ketika program MYCIN telah dikembangkan untuk mendukung konsultasi dan pembuataan keputusan (Shortliffe, 1976). Di MYCIN, pengetahuan diperoleh dari para pakar telah direpresentasikan sebagai sekumpulan rule produksi IF-THEN. Sistem jenis ini kemudian akan dikenal sebagai sistem pakar dan menjadi sangat populer di tahun 1980. Sistem pakar tergantung pada pengetahuan pakar yang dibangun ke dalamnya, yang telah menghabiskan waktu dan proses yang panjang.

Performa MYCIN telah memberi harapan dan membantu para pakar (manusia) dalam berbagai kasus (Yu, dkk., 1979). Meskipun sudah sukses di awal, ia tidak pernah digunakan dalam setting klinis aktual. Sistem diagnostik medis lain juga jarang digunakan secara klinis. Alasan-alasan itu adalah two-fold. Pertama, orang-orang sudah skeptis tentang teknologi komputer dan performa sistem. Komputer-komputer tidak populer pada waktu itu, dan banyak dokter tidak percaya bahwa komputer-komputer bisa berfungsi dengan baik daripada manusia. Kedua, komputer-komputer merupakan mesin-mesin mahal, besar di tahun 1970. Tidak mungkin mendukung program-program kompleks seperti MYCIN pada komputer yang dapat menghasilkan respon-respon cepat (Shortliffe, 1987). Karena itu, dengan performa yang baik dan cost lebih rendah dari komputer modern dan sistem berbasis pengetahuan medis, kami percaya terdapat kesempatan besar untuk mengadopsi sistem manajemen pengetahuan dan teknologi pilihan dalam konteks biomedis, terutama sekali, tidak seperti penggantian manusia (yakni, sistem pakar) tapi sebagai pembantu pembuatan keputusan biomedis.

3.2.1 Manajemen Pengetahuan dalam Perawatan Kesehatan

Pada umumnya telah dikenal bahwa sistem manajemen data pasien sangat diinginkan dalam setting klinis (Heathfield dan Louw, 1999; Jackson, 2000; Abidi, 2001). Alasan-alasan utama itu mencakup kebutuhan informasi penting tentang dokter (Dawes dan Sampson, 2003) dan overload informasi klinis. Hersh (1996) telah mengklasifikasikan informasi kesehatan tekstual ke dalam dua kategori utama: informasi klinis khusus pasien dan informasi berbasis pengetahuan, yang mana mencakup penelitian yang dilaporkan dalam jurnal, buku, laporan teknis dan sumber akademik lain.  Kedua jenis informasi itu tumbuh dalam berbagai langkah.

Walaupun sistem klinis awal merupakan sistem data storage yang sangat sederhana, sebagian kemampuan manajemen pengetahuan telah disatukan sejak tahun 1980. Contohnya, sistem HELP, dikembangkan pada Latter Day Saints Hospital di Utah, memberikan program monitoring pada puncak sistem data medis tradisional. Logika keputusan disimpan dalam sistem untuk memungkinkannya merespon data baru yang dimasukkan (Kuperman, dkk., 1991). Sistem SAPHIRE melakukan pengindeksan  otomatis laporan-laporan radiologi dengan menggunakan UMLS Metathesaurus (Hersh, dkk., 2002). Repositori data klinik di Columbia-Presbyterian Medical Center (Friedman, dkk., 1990) merupakan contoh lain dari basis data yang digunakan untuk pendukung keputusan (Hripcsak, 1993) sebaik review dokter. Repositori data klinik pada University of Virginia Health System merupakan contoh lain (Schubart dan Einbinder, 2000). Dalam sistem data warehouse, klinik, administrasi mereka,dan data pasien lain tersedia untuk para user melalui web browser. Alasan berbasis kasus juga telah diusulkan untuk memungkinkan dokter mengakses pengetahuan operasi dan literatur medis berdasarkan kebutuhan informasi medisnya (Montani dan Bellazzi, 2002). Janetzki, dkk. (2004) menggunakan pendekatan pengolahan bahasa alami untuk menghubungkan data kesehatan elektronik ke sumber daya informasi online. Teknik-teknik text mining maju lain juga telah diaplikasikan untuk manajemen pengetahuan untuk perawatan kesehatan dan akan dibahas lebih detil lagi pada bab ini.

Pak irwan

3.2.2 Manajemen Pengetahuan untuk Literatur Biomedis

Di samping informasi klinis, manajemen pengetahuan telah diaplikasikan untuk artikel-artikel dan laporan-laporan penelitian, sebagian besar melalui teknik-teknik information retrieval dan digital library pilihan. National Library of Medicine (NLM) menawarkan layanan PubMed, yang mencakup lebih dari 13 juta kutipan untuk artikel biomedis dari MEDLINE dan jurnal terkait lain. Banyak sistem pencarian telah dibangun untuk membantu para user menemukan kembali paper dan laporan penelitian biomedis dalam sistem basis data dan web. Teknik pengindeksan dan penemuan kembali otomatis sering diaplikasikan. Contohnya, sistem Telemakus menawarkan kepada para peneliti sebuah framework untuk information retrieval, visualisasi, dan knowledge discovery (Fuller, dkk., 2002, Fuller, dkk., 2004; Revere, dkk., 2004). Menggunakan teknik ekstraksi informasi dan visualisasi, sistem itu memungkinkan para peneliti untuk mencari basis data artikel-artikel penelitian untuk penemuan signifikan secara statistik. Sistem HelpfulMed memungkinkan user mencari dokumen-dokumen biomedis dari beberapa basis data yang mencakup MEDLINE, CancerLit, PDQ, dan basis data obat berbasis fakta (Chen, dkk., 2003). Basis data HelpFulMed mencakup halaman web yang terkait dengan perawatan kesehatan berkualitas tinggi, dikumpulkan dari situs-situs bereputasi tinggi yang menggunakan algoritma aktivasi penyebaran berbasis jaringan saraf (Chau dan Chen, 2003). Sistem ini juga menyediakan term-suggestion tool yang disebut Concept Mapper, yang mana memungkinkan user berkonsultasi tentang system-generated thesaurus dan NLM’s UMLS untuk memfilter query pencariannya (Houston, dkk., 1999; Leroy dan Chen, 2001).

MARVIN merupakan contoh sistem information retrieval medis yang telah mengaplikasikan teknik-teknik pembelajaran mesin pilihan (Baujard, dkk., 1998). Dibangun pada arsitektur multi agen, sistem itu memfilter dokumen-dokumen relevan dari sekumpulan halaman web dan mengikuti link-link untuk menemukan kembali dokumen-dokumen baru. Sementara MARVIN’s filtering telah berbasis metrics kesamaan dokumen yang sederhana, algoritma lain seperti jarak maksimum, jaringan saraf tiruan, dan support vektor machine telah diaplikasikan untuk filterisasi halaman web medis (Palakal, dkk., 2001; Chau dan Chen, 2004). Bayesian model berbasis analisis kekuatan istilah juga telah digunakan dalam retrieval dokumen biomedis (Wilbur dan Yang, 1996). Shatkay, dkk. (2000; 2002) menggunakan pencarian berbasis kesamaan probabilistik untuk menemukan kembali dokumen-dokumen biomedis yang berbagi tema serupa.

Teknik-teknik text mining lain juga telah digunakan untuk memfasilitasi manajemen dan memahami literatur biomedis. Contohnya, teknik-teknik pengolahan bahasa alami dan pemfrasean kata benda telah diaplikasikan untuk mengekstrak frase kata benda dari dokumen-dokumen medis (Tolledan Chen, 2000). Frase kata benda sering menyampaikan pemaknaan yang lebih tepat daripada istilah-istilah tunggal dan sering kali lebih berguna untuk analisis lebih jauh. Ekstraksi entitas bernama juga telah banyak diaplikasikan secara otomatis untuk mengidentifikasi dokumen-dokumen teks nama entitas menarik (Chau, dkk., 2002). Sedangkan kebanyakan yang diuji pada entitas-entitas umum seperti nama orang, lokasi, organisasi, tanggal, waktu, ekspresi jumlah, dan alamat email (Chinchor, 1998), ekstraksi entitas bernama telah digunakan untuk mengekstraksi entitas-entitas biomedis spesifik seperti nama gene, nama protein, penyakit, dan gejala dengan hasil yang menjanjikan (Fukuda, dkk., 1998; Leroy, dkk., 2003). Entitas-entitas dan relasi-relasi yang telah diekstrak berguna untuk tujuan information retrieval dan manajemen pengetahuan. Teknik ekstraksi entitas dan relasi akan dibahas lebih detil dalam review kami tentang text mining pada artikel berikutnya.

3.2.3 Mengakes Basis Data Heterogen

Pada era post-genome, data biomedis sekarang dihasilkan pada kecepatan yang jauh lebih cepat daripada para peneliti yang menggunakan metode-metode tradisional (National Research Council, 2000). Banyaknya data genomic dan biomedis telah menghasilkan potensi besar untuk penelitian dan aplikasi dalam biomedicine, tapi data itu sering didistribusikan dalam basis data yang bermacam-macam. Seperti fenomena biologis yang seringkali kompleks, para peneliti dihadapkan dengan tantangan integrasi informasi dari sumber data heterogen (Barrera, dkk., 2004). Banyak teknik telah diusulkan untuk memungkinkan para peneliti dan masyarakat umum berbagi datanya dengan lebih efektif. Contohnya, Sujansky (2001) mengusulkan framework untuk mengintegrasikan basis data heterogen dalam biomedicine dengan menyediakan skema konseptual yang sama dan menggunakan teknik-teknik terjemahan query pilihan. Program BLAST banyak digunakan untuk mencari basis data protein dan DNA untuk kesamaan sequensial (Altschul, dkk., 1997). Sistem MedBlast, memanfaatkan BLAST, memungkinkan para peneliti mencari artikel terkait dengan sequence yang ada (TU, dkk., 2004). Sun (2004) menggunakan algoritma-algoritma otomatis untuk mengidentifikasi konsep-konsep ekuivalen yang ada dalam basis data berbeda untuk mendukung information retrieval. Arsitektur software agent juga telah diusulkan untuk membantu para user menemukan kembali data dari basis data terdistribusi (Karasavvas, dkk. 2004).

3.2.4 Visualiasi Informasi dan Akses Informasi Multimedia

Visualisasi informasi (dan pengetahuan) untuk informasi biomedis itu penting untuk memahami dan berbagi pengetahuan. Dengan peningkatan yang cepat dalam kecepatan komputer dan reduksi cost, visualisasi grafis telah menjadi semakin populer dalam aplikasi-aplikasi biomedis. Teknik-teknik visualisasi mendukung tampilan informasi yang lebih bermanfaat dan mendukung pemahaman  user. Maps, trees, dan network merupakan bagian dari representasi visualisasi informasi yang sangat populer. Dalam sistem HelpfulMed yang sudah dibahas di awal, dokumen-dokumen mengalami retrieve dari basis data berbeda yang mengalami cluster menggunakan algoritma self-organizing map (Kohonen, 1995) dan peta dua dimensi yang dihasilkan untuk menampilkan cluster-cluster dokumen (Chen, dkk., 2003). Bodenreider dan McCray (2003) mengaplikasikan teknik-teknik analisis radial diagram dan persesuaian untuk memvisualisasikan kelompok-kelompok semantik dalam jaringan semantik UMLS. Han dan Byun (2004) menggunakan tampilan tiga dimensi untuk memvisualisasikan jaringan interaksi protein. Realitas virtual juga telah diaplikasikan dalam jaringan metabolik (Rojdestvenski, 2003).

Tampilan tiga dimensi, visualiasi interaktif, tampilan multimedia, dan teknik-teknik visualisasi modern lain telah diaplikasikan dengan sukses dalam banyak aplikasi biomedis. Contoh yang sangat terkenal adalah NLM’s Visible Human Project (Ackerman, 1991), yang memproduksi representasi tiga dimensi dari tubuh manusia laki-laki dan perempuan dengan memperoleh garis melintang CT, MR, dan gambar cryosection dari mayat-mayat laki-laki dan perempuan yang representatif. Data itu lengkap dan secara otomatis dirinci sebagaimana laki-laki dibagi pada satu millimeter interval dan perempuan pada satu-tiga millimeter interval. Data itu menyediakan testbed yang baik untuk algoritma gambar medis dan pengolahan multimedia serta telah diaplikasikan untuk berbagai penggunaan diagnosis, edukasi, dan penelitian.

Karena algoritma-algoritma pengolahan teks dapat diaplikasikan untuk data multimedia secara langsung, teknik pengolahan gambar dan pengindeksan sering dibutuhkan untuk aplikasi-aplikasi biomedis pilihan. Teknik-teknik ini memungkinkan para user untuk memvisualisasikan, retrieve, dan memanaj data multimedia seperti gambar sinar-X dan CAT-scan secara lebih efektif dan efisien. Contohnya, Yoo dan Chen (1994) telah mengembangkan sebuah sistem untuk menyediakan navigasi alami dari data pasien menggunakan teknik-teknik gambar tiga dimensi dan surface rendering. Antani, dkk. (2004) mengkaji metode representasi bentuk yang berbeda untuk mengukur kesamaan antara gambar sinar-X agar memungkinkan para user memanaj dan mengorganisir gambar-gambar ini. Sistem mereka memungkinkan para user untuk menemukan kembali tulang belakang yang banyak  membentuk ilmu penyakit yang terindikasikan dalam query. Berkaitan dengan peningkatan popularitas dan maturitas sistem gambar medis, kami dapat memperkirakan kebutuhan penting untuk kemampuan pengolahan multimedia dan manajemen pengetahuan dalam biomedicine.

3.3 Data Mining dan Text Mining

Teknik-teknik data mining telah sering digunakan untuk menemukan pola-pola dan pengetahuan baru dari data biomedis. Sedangkan Bayesian model telah banyak digunakan di hari-hari pertama, metode pembelajaran mesin yang lebih modern, seperti jaringan saraf tiruan dan support vector machine, telah diaplikasikan di tahun-tahun ini. Teknik-teknik ini digunakan dalam berbagai bidang biomedicine yang berbeda, di antaranya mencakup genomics, proteomics, dan diagnosis medis. Selanjutnya, kami mereview sebagian aplikasi teknik data mining dan knowledge discovery utama dalam bidang ini.

3.3.1 Data Mining untuk Perawatan Kesehatan

Karena kekuatan prediktif ini, teknik-teknik data mining telah banyak digunakan dalam aplikasi diagnostic dan perawatan kesehatan. Algoritma data mining dapat belajar dari contoh-contoh yang lalu dalam data klinis dan memodelkan relasi non-linier oftentimes di antara variabel-variabel independen dan dependen. Model hasil merepresentasikan pengetahuan yang sudah diformulasikan, yang sering mampu memberikan opini diagnostik bagus.

Klasifikasi sangat banyak digunakan dalam teknik data mining media. Dreiseitl, dkk. (2001) membandingkan lima algoritma klasifikasi untuk diagnosis luka kulit sayatan. Hasilnya menunjukkan bahwa regresi logistik, jaringan saraf tiruan, dan support vector machines dilakukan dengan comparable, sementara k-nearest neighbors dan pohon keputusan dilakukan lebih buruk. Ini lebih banyak atau lebih kurang konsisten dengan performa algoritma klasifikasi dalam aplikasi lain (contoh, Yang dan Liu, 1999). Teknik-teknik klasifikasi juga diaplikasikan untuk menganalisis berbagai sinyal dan relasinya dengan penyakit-penyakit atau gejala tertentu. Contohnya, Acir dan Guzelis (2004) mengaplikasikan support vector machines untuk deteksi sinyal spike otomatis dalam ElectroEncephaloGrams (EEG), yang dapat digunakan dalam mendiagnosis neurological disorders yang berhubungan dengan epilepsi. Kandaswamy, dkk. (2004) menggunakan jaringan saraf tiruan untuk mengklasifikasikan tanda-tanda suara paru-paru ke dalam enam kategori yang berbeda (contoh, normal, wheeze, dan rhonchus) untuk membantu diagnosis.

Data mining juga digunakan untuk mengekstraksi rule-rule dari data perawatan kesehatan. Contohnya, ia telah digunakan untuk mengekstraksi rule-rule diagnostik dari data kanker payudara (Kovalerchuck, dkk., 2001). Aturan yang telah dihasilkan itu mirip dengan yang dihasilkan secara manual dalam sistem pakar sehingga dapat dengan mudah divalidasi oleh domain experts. Data mining juga telah diaplikasikan untuk basis data klinik guna mengidentifikasi pengetahuan medis baru (Prather, dkk., 1997; Hripcsak, dkk., 2002).

Pak irwan

3.3.2 Data Mining untuk Molecular Biology

Rentetan teknologi baru dan cost komputasi yang rendah telah berhasil dalam sejumlah besar data biologis yang dapat diakses dengan mudah oleh para peneliti. Tidak mudah untuk menganalisis data ini secara manual, dan gap antara sejumlah data sekuensial yang disubmit dan anotasi, struktur, atau profil ekpresi terkait yang berkembang dengan cepat.

Data mining sudah mulai memainkan peran penting dalam masalah ini. Clustering mungkin sangat sering digunakan oleh teknik data mining untuk data biologis. Contohnya, analisis clustering sering diaplikasikan ke data ekspresi microarray gene untuk mengidentifikasi kelompok gene yang berbagi profil ekspresi serupa. Eisen, dkk. (1998) telah mengaplikasikan clustering hirarkis pada data ekspresi gene Saccharomyces cerevisiae dan diperoleh hasil-hasil yang menjanjikan. Berbagai algoritma clustering lain juga sudah diuji pada data ekspresi gene, mencakup k-means clustering (Herwig, dkk., 1999), backpropagation neural network (Sawa dan Ohno-Machado, 2003), self-organizing maps (Tamayo, dkk., 1999; Herrero, dkk., 2001), fuzzy clustering (Belacel, dkk., 2004), expectation maximization (Qu dan Xu, 2004), dan support vector machines (Brown, dkk., 2000). Qin, dkk. (2003) telah menggunakan ide kernel (seperti dalam support vector machines) serta telah mengkombinasikannya dengan clustering hirarkis. Analisis ekspresi gene juga telah diaplikasikan dalam prediksi dan penemuan kelas kanker (Golub, dkk., 1999; Hsu, dkk., 2003).

Di samping clustering, teknik data mining prediktif lain juga telah diaplikasikan untuk data biomedis. Contohnya, model-model jaringan saraf tiruan telah banyak digunakan dalam memprediksi struktur sekunder protein (Qian dan Sejnowski, 1988; Hirst dan Sternberg, 1992). Selanjutnya, algoritma-algoritma data mining juga telah digunakan untuk prediksi dalam berbagai aplikasi biomedis yang mencakup prediksi protein backbone angle (Kuang, dkk., 2004), protein domain (Nagarajan dan Yona, 2004), efek-efek biologis (Krishnan dan Westhead, 2004), dan DNA binding (Ahmad, dkk., 2004). Metode prediktif ini sering berdasarkan pada algoritma-algoritma klasifikasi (supervised learning) seperti jaringan saraf tiruan atau mesin vektor pendukung.

3.3.3 Text Mining untuk Literatur dan Catatan Klinik

Text mining telah sering digunakan untuk menganalisis literatur biomedis. Karena sejumlah besar artikel penelitian dalam basis data publik dan perbedaan penelitian biomedis, tidak lazim kalau para peneliti menghadapi beberapa susunan gene baru tanpa pengetahuannya. Sangat mungkin bahwa banyak relasi penting antara entitas-entitas biologis yang masih tidak diketahui karena datanya terpencar dan tidak ada peneliti yang menelitinya (Swanson, 1986; Smalheiser dan Swanson, 1998).  Ada sejumlah besar literatur yang sudah dipublikasikan dan banyak para peneliti hanya berspesialisasi pada sub-domain kecil (contoh, beberapa gene tertentu), teknik-teknik text mining bisa tidak terhingga nilainya dalam melakukan discover pola atau hipotesis pengetahuan baru dari sejumlah besar literatur yang ada dan baru dalam bidang biomedicine (Yandell dan Majoros, 2002).

Text mining untuk literatur biomedis sering mencakup dua langkah utama. Pertama, harus mengidentifikasi entitas-entitas biomedis dan konsep-konsep menarik dari teks bebas yang menggunakan teknik-teknik pengolahan bahasa alami. Contohnya, jika kita ingin mempelajari relasi antar gene (contoh, hal. 53) dan penyakit (contoh, tumor otak), nama-nama entitas secara tepat diidentifikasi dari dokumen tekstual yang relevan. Banyak algoritma text mining telah diaplikasikan untuk masalah ini. Contohnya, Fukuda, dkk. (1998) menggunakan petunjuk morfologis sederhana untuk mengenali nama-nama protein dan material-material lain dengan akurasi tinggi. Mesin vektor pendukung telah digunakan dalam ekstraksi entitas dengan mengklasifikasikan kata ke dalam 24 kelas entitas dalam GENIA corpus (Kazama, dkk., 2002). Tanabe dan Wilbur (2002) menggunakan part-of-speech tagging dan Bayessian model untuk mengidentifikasi gene dan protein dalam teks. Hatzivassiloglou, dkk. (2001) telah membandingkan tiga teknik pembelajaran mesin, yakni Naïve Bayesian model, pohon keputusan, dan pembelajaran rule induktif, menyelesaikan klasifikasi entitas biologis (contoh, protein, gene, dan RNA) setelah diidentifikasi. Hasil-hasilnya menunjukkan bahwa tiga model pembelajaran memiliki performa sebanding. Studi lain telah menginvestigasi pemetaan antara singkatan dan nama lengkap, sehingga nama-nama ini tidak akan dianggap oleh sistem sebagai entitas-entitas yang berbeda (Yu, dkk., 2002).

Setelah nama-nama entitas telah diidentifikasi, lebih jauh analisis dilakukan untuk melihat apakah entitas-entitas ini memiliki semua relasi, seperti regulasi gene, metabolic pathways, atau interaksi protein-protein (Blaschke, dkk., 1999; Dickerson, dkk., 2003). Shallow parsing sering digunakan untuk fokus pada bagian-bagian khusus dari teks guna menganalisis kata-kata yang sudah dikenali seperti kata kerja dan kata benda (Leror, dkk., 2003). Sekimizu, dkk. (1998) telah mengidentifikasi sekelompok kata kerja yang sering digunakan dalam koleksi abstraksi dan dikembangkan sekumpulan rule untuk mengidentifikasi subjek-subjek dan objek-objek kata kerja. Pustejovsky, dkk. (2002) telah menggunakan relational parsing dan finite state automata untuk mengidentifikasi inhibit relationship dari teks biomedis. Sistem GENIES, berbasis MedLEE parser (Friedman dan Hripscak, 1998), juga telah digunakan untuk mengekstrak molecular pathways dari berbagai teks (Friedman, dkk., 2001). Sistem Telemakus mengekstrak informasi dengan menganalisis heading and surrounding text dari tabel-tabel dan gambar-gambar (Fuller, dkk., 2002; Revere, dkk., 2004). Sistem Genescene menggunakan pendekatan berbasis ontologi untuk ekstraksi relasi dengan mengintegrasikan Gene Ontology, Human Genome Nomenclature, dan UMLS (Leroy dan Chen). Sistem ini mengkombinasikan teknik-teknik pengolahan bahasa alami dan analisis co-occurrence untuk mengidentifikasi relasi istilah-istilah dan gene pathway dari abstraksi biomedis. Sistem EDGAR mengekstaksi obat, gene, dan relasi dari teks (Rindflesch, dkk., 2000). Wren, dkk. (2004) telah mengembangkan sistem yang menggunakan model jaringan acak untuk membuat rank relasi yang diidentifikasi dari teks. Teknik-teknik pembelajaran mesin juga telah digunakan untuk mengotomatisasi proses anotasi. Contohnya, Kretschman, dkk. (2001) telah menggunakan algoritma C4.5 guna menghasilkan rule untuk anotasi kata kunci dalam basis data SWISS-PROT.

Text mining juga telah diaplikasikan untuk data pasien dan dokumen klinik lain untuk memfasilitasi manajemen pengetahuan. Ia mengadopsi proses yang mirip dengan text mining dari literatur. Contohnya, sistem yang dilaporkan oleh Harris, dkk. (2003) mengekstraksi istilah-istilah dari teks klinik. Menggunakan teknik-teknik pengolahan bahasa alami, sistem MedLEE (Friedman dan Hripcsak, 1998) telah aplikasikan untuk data pasien teks bebas. Ia mengekstraksi entitas-entitas penting untuk mengidentifikasi pasien yang memiliki tuberculosis atau kanker payudara berdasarkan laporan admission chest radiograph and mammogram-nya, secara respektif (Knirsch, dkk., 1999; Jain dan Friedman, 1997). Chapman, dkk. (2004) menggunakan pendekatan text mining serupa untuk deteksi demam otomatis dari data klinik ke deteksi perjangkitan penyakit yang mungkin menular.

3.4 Etika dan Isu-Isu Legal untuk Data Mining

Catatan medis dan data biologis yang dihasilkan dari subjek (manusia) memuat informasi pribadi dan rahasia. Data ‘pasien dan subjek (manusia) harus ditangani  dengan perhatian besar untuk memproteksi privacy dan kerahasiaannya. Para peneliti tidak secara otomatis mendapatkan haknya untuk menggunakan data pasien atau subjek (orang yang memiliki data) untuk tujuan data mining jika mereka tidak memperoleh izin pasien atau subjek (Berman, 2002). Di US, the 1996 Health Insurance Portability and Accountability Act (HIPAA) menetapkan standar-standar untuk menggunakan dan menangani data pasien dalam format elektronik. “Rule Umum” juga menentukan bagaimana memproteksi subjek (manusia) dalam penelitian yang didanai pemerintah. Di Eropa, EU Data Protection Directive menetapkan rule-rule pada penanganan dan pemrosesan informasi apapun tentang individu. Pelanggaran-pelanggaran standar ini bisa berakhir dalam pertanggungjawaban dan hukum yang legal mencakup denda dan hukuman penjara. Hasil data mining adalah relevansi terhadap kebutuhan pasien atau subjek untuk diinterpretasikan dalam konteks medis yang benar dan dengan bantuan profesional biomedis.

Dalam data mining biomedis, dengan data pasien yang sangat kondisional tidak harus menjadi individually identifiable (dapat diidentifikasi secara individu), yakni, tidak ada catatan harus menyediakan data yang cukup untuk mengidentifikasi individu yang berhubungan dengan data itu. Ini mencakup anonymous data (data yang dikumpulkan tanpa informasi identifikasi pasien), anonymized data (data yang dikumpulkan dengan informasi identifikasi pasien yang kemudian dihapus identitasnya), atau de-identified data (data dengan informasi identifikasi pasien yang mengalami encode atau encrypt) (Cios dan Moore, 2002).

4. IKHTISAR

Pada bab ini kami menyediakan gambaran umum tentang teknik-teknik knowledge management, data mining, dan text mining serta penggunaannya dalam berbagai aplikasi biomedis yang ada. Sehingga besar kemungkinan, teknik-teknik ini harus digunakan dengan perhatian besar dalam aplikasi-aplikasi biomedis. Satu pembahasan, seperti yang telah dibahas di awal, bahwa data medis sering sensitif dan mencakup informasi pribadi dan rahasia. Penting bahwa kerahasiaan dan privacy pasien tidak disetujui untuk dikenalkan terhadap penggunaan teknologi-teknologi knowledge management, data mining, dan text mining modern. Keberatan lainnya adalah bahwa penemuan yang dihasilkan dari teknik-teknik pembelajaran mesin pilihan harus diinterpretasikan dengan cermat. Pengetahuan dan pola yang ditemukan oleh komputer harus divalidasi secara eksperimen dan klinis agar masuk kategori teliti, seperti semua pengetahuan yang dihasilkan oleh manusia. Asosiasi yang error dan tidak tepat harus berpropagasi dengan cepat melalui media elektronik, terutama ketika basis data yang besar dan teknik-teknik komputasional yang hebat dilibatkan.

Meskipun demikian, teknik-teknik knowledge management, data mining, dan text mining baru ini sedang mengubah cara bagaimana pengetahuan baru ditemukan, diorganisir, diaplikasikan, dan disebarkan. Dengan menambah kecepatan komputer, konektivitas Internet, sejumlah besar data biomedis, dan kemajuan dalam penelitian informatika medis, kami yakin akan terus menghasilkan, memanaj, dan memamen pengetahuan biomedis secara efektif dan efisien, memungkinkan kita memahami proses-proses kehidupan biologis yang kompleks dan membantu dalam mengantarkan manusia menuju kehidupan yang lebih baik.

REFERENSI

PERTANYAAN-PERTANYAAN UNTUK DISKUSI

  1. Apa persamaan dan perbedaan antara bioinformatika dan informatika medis? Bagaimana penelitian dalam dua bidang itu agar bisa saling memberikan manfaat?
  2. Apakah yang dimaksud dengan sistem cerdas? Bisakah sistem cerdas lebih cerdas dari manusia? Apakah karakteristik penting sistem cerdas pada biomedicine?
  3. Diskusikan karakteristik dari paradigma pembelajaran mesin utama dan aplikabilitasnya pada biomedicine!
  4. Jelaskan apakah yang dimaksud manajemen pengetahuan dan mengapa bermanfaat untuk informatika medis. Tuliskan beberapa contoh yang bagus tentang sistem manajemen pengetahuan biomedis? Bagaimana sistem manajemen pengetahuan bisa diciptakan dan digunakan dalam industri?
  5. Bandingkanlah proses knowledge discovery yang menggunakan komputer dengan yang dilakukan manusia. Apakah anda berpikir bahwa teknik data mining dan text mining telah mulai mengubah cara penelitian yang dilakukan dalam biomedicine?
  6. Apa hal-hal sosial, etika, dan legalitas yang dibutuhkan untuk aplikasi manajemen pengetahuan, data mining, dan text mining biomedis mada depan?

MOHON MAAF LAHIR DAN BATIN ATAS SEGALA KESALAHAN DAN KEKURANGANNYA………………HE….HE…..

6 responses to “Knowledge Management, Data Mining, and Text Mining in Medical Informatics

  1. I think this internet site holds very fantastic indited subject matter content.

  2. I went over this website and I think you have a lot of superb information, saved to my bookmarks (:.

  3. I enjoy your writing style really loving this site. “Not everything that can be counted counts, and not everything that counts can be counted.” by Albert Einstein.

  4. Absolutely composed content, Really enjoyed reading through.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s