JUSTIFIKASI NORMALISASI BASIS DATA: MODEL COST/BENEFIT

JUSTIFIKASI NORMALISASI BASIS DATA: MODEL COST/BENEFIT

Penerjemah: https://komarudintasdik.wordpress.com  (2011)

Identitas Paper: Heeseok Lee. 1995. Justifying Database Normalization:               A Cost/Benefit Model, Information Processing & Management, Vol. 31, No. I, pp. 59-67. Elsevier Science Ltd.

Abstrak—selama proses perkembangan sistem informasi di dalam sebuah organisasi, sumber data secara khusus dianalisis dalam bentuk model data. Selama fase analisis data ini, model data lebih diperhalus agar sesuai dengan aturan-aturan langkah yang baik. Normalisasi proses penggrupan data ke dalam struktur diperhalus dengan baik. Menetapkan bentuk normal yang tepat, tidak jelas bagi para analis sistem basis data. Paper ini mengusulkan metodologi efektif untuk menetapkan bentuk-bentuk normal dengan memanfaatkan model cost/benefit yang digabungkan dengan decision tree. Tiga variabel utama yang mempengaruhi benefit dan cost normalisasi yang diharapkan. Menghasilkan analisis cost/benefit memungkinkan para analis basis data untuk menghasilkan basis data yang normal yang lebih cost-effective.

Keywords: Database systems (sistem basis data), Database analysis (analisis basis data), Normal forms (bentuk-bentuk normal), Normalization decision (keputusan normalisasi), Cost/benefit model (model rugi/laba), Decision tree (pohon keputusan), Binary Decisions (keputusan binari), Graphical decision support (pendukung keputusan grafis).

 

  1. PENDAHULUAN

Data menjadi sumber daya strategis penting untuk banyak organisasi industri, pemerintah dan akademik. Biasanya, sumber daya data sudah dimanajemeni dengan sistem pemrosesan file yang tidak membutuhkan teknik-teknik manajemen data khusus. Alternatifnya, data terus disimpan dan dimanipulasi dengan database management systems (DBMS) sebagai kebutuhan terhadap pemrosesan informasi yang sudah mendesak.

Selama systems development life cycle (SDLC), data dianalisis dan didesain menjadi input, output, proses, dan prosedur (contoh, Flaatten et al., 1992). Untuk deskripsi detil tentang proses desain basis data secara menyeluruh, para pembaca bisa mengacu pada sejumlah sumber (contoh, Kroenke, 1992). Para analis basis data terlebih dahulu harus memodelkan data dalam format yang merepresentasikan kebutuhan informasi dengan cara yang tepat dan konsisten (Fleming & von Halle, 1990). Sebagian dari teknik pemodelan data yang sangat sering digunakan untuk tujuan ini meliputi Entity-Relationship (E-R) Model yang awalnya dikemukakan oleh Chen (1976) dan Object-Oriented Model (contoh, Bertino & Martino, 1991). Contohnya, E-R Model menggunakan simbol-simbol khusus untuk representasi grafis entitas-entitas data, atribut, dan asosiasi  antar entitas. E-R Model atau Object-Oriented Model ditransformasikan ke dalam relasi pada fase desain logis. Model relasional merupakan struktur data yang sangat populer untuk implementasi basis data (Date, 1990).

Jika data tidak dinormalisasi, maka relasi mungkin mengandung struktur-struktur yang tidak diinginkan. Desain basis data yang jelek seperti ini sering mengarah ke properties yang tidak diinginkan yang disebut anomali-anomali data. Anomali ini sering mengarah ke repitisi informasi, ketidak-mampuan untuk merepresentasikan informasi tertentu, dan kehilangan informasi. Normalisasi adalah proses penggrupan atribut ke dalam pembebasan anomali relasi yang tersetruktur dengan baik. Proses ini mengikuti sekelompok aturan dependensi data. Normalisasi biasanya dihubungkan dengan desain basis data relasional. Maka, sejumlah relasi yang dinormalisasi bisa juga diimplementasikan dalam hirarki tradisional atau model-model jaringan. Proses peletakkan relasi ke dalam bentuk-bentuk normal telah diinvestigasi oleh banyak peneliti sejak Codd (1971, 1972) menginisiasi pembahasan itu. Bentuk normal ini secara tidak langsung mempengaruhi langkah-langkah penentuan atribut mana yang dapat dikelompokkan. Kategori ini mencakup First Normal Form (1NF), Second Normal Form (2NF), Third Normal Form (3NF), Boyce-Codd Normal Form (BCNF), Fourth Normal Form (4NF), dan Fifth Normal Form (5NF). Berstein (1976) mengemukakan “proses sintesis” untuk menghasilkan 3NFs pada satu set dependensi fungsional. Maka, normalisasi secara khusus berhasil dalam beberaoa tahapan. Pertama, data dinormalisasi berdasarkan 1NF. Jika relasi yang dihasilkan sudah berada pada 1NF, maka relasi itu dinormalisasi berdasarkan 2NF. Proses ini bisa berlanjut hingga semua relasi yang dihasilkan berada pada 5NF. Proses normalisasi sistematis seperti ini didokumentasikan dengan baik dalam sejumlah sumber (contoh, Kent, 1983, Dutka & Hanson, 1989).

Bentuk normal yang lebih tinggi mungkin membutuhkan biaya pemeliharaan lebih besar, atau mendegradasi kinerja sistem, ketika mereduksi anomali. Para analis sistem basis data harus menormalisasikan relasi-relasi saja hingga berada pada bentuk normal yang sangat cost-effective. Walaupun analisis cost/benefit terhadap normalisasi benar-benar mengarah ke basis data yang didesain dengan baik, biasanya relasi berada pada 3NF (contoh, McFadden & Hoffer, 1994).

Masih belum jelas, bentuk normal mana yang harus dipilih untuk storage dan retrieval basis data cost-effective. Analisis cost/benefit menyeluruh untuk tujuan ini dibutuhkan; petunjuk yang mungkin mengarah ke desain basis data lebih baik, diinginkan karena penentuan bentuk normal yang tepat merintangi banyak analis sistem. Lebih jauh, ekonomi diperoleh dengan penentuan bentuk normal yang sangat efektif, karena trade-off berada di antara kinerja sistem, storage, dan cost. Baru-baru ini. Westland (1992) telah mengajukan model-model stokastik untuk mengukur elemen-elemen cost yang berhubungan dengan normalisasi basis data.

Paper ini menginvestigasi metode penentuan bentuk normal mana yang harus diadopsi untuk relasi yang ada dari perspektif ekonomi. Kami menunjukkan bahwa proses normalisasi dapat secara sistematis direpresentasikan melalui penggunaan decision tree (pohon keputusan). Kami menjelaskan tiga faktor yang memiliki dampak signifikan pada cost dan benefit normalisasi. Yaitu anomali yang direduksi, syarat penyimpanan, dan waktu respon transaksi. Model cost/benefit yang menyertai faktor-faktor ini diusulkan dalam bentuk decision tree yang memiliki keputusan binari. Model yang diusulkan dalam paper ini adalah pertama jenis sistem pendukung keputusan untuk analisis cost/benefit normalisasi basis data.

  1. Pendukung Decision Tree untuk Normalisasi

Analis basis data biasanya berakhir dengan beberapa relasi yang diubah baik dari entitas-entitas dalam E-R Model maupun objek-objek dalam Object-Oriented Model. Relasi awal ini biasanya tidak terstruktur, dan dinormalisasikan ke dalam beberapa relasi yang lebih terstruktur dalam cara seperti itu untuk mengeliminasi dependensi data antar elemen data, karena dependensi data menyebabkan anomali-anomali data. Dependensi data merupakan constraint sekumpulan relasi. Untuk definisi dependensi data yang lebih tepat, lihat contoh, Korth dan Silberschatz (1986).

Anomali-anomali terjadi dalam beberapa bentuk. Secara khusus, anomali-anomali dikategorikan sebagai anomali update, anaomali insertion, dan anomali deletion. Anomali update terjadi ketika meng-update relasi menjadi kerumitan tidak penting karena duplikasi data. anomali inserting terjadi ketika penambahan record ditolak hingga data lengkap tersedia. Anomali deletion merupakan menghilangkan informasi yang tidak diharapkan. Normalisasi mereduksi anomali-anomali seperti itu dengan mendekomposisi relasi yang tidak terstruktur menurut sekumpulan rule-rule dependensi.

Dalam paper ini, kami membantu proses normalisasi melalui penggunaan decision tree. Decision tree adalah metode grafis untuk mengekspresikan tindakan-tindakan alternatif dalam susunan kronologis (Hiller & Lieberman, 1986). Decision tree secara luas telah digunakan dalam mengatasi masalah yang terdiri atas tindakan-tindakan alternatif  yang tersedia untuk pembuat keputusan. Karakteristik decision tree seperti ini dapat membantu mengatasi isu dalam determinasi bentuk-bentuk normal.

Decision tree untuk normalisasi, yang kita akan adopsi dalam studi ini, terdiri atas node-node dan branch-branch, seperti dalam decision tree biasa. Ada dua jenis node: Normalization Decision Node (NDN), direpresentasikan dengan persegi , dan Normal Form Node (NFN), direpresentasikan dengan lingkaran O. Branch merupakan garis lurus yang berasal dari NDN atau NFN.

NDN diidentifikasi dengan relasi yang dianggap normal pada tahap tertentu. Relasi ini ditunjukkan dengan Ri…j, k, di mana i…j adalah indeks serial dan k adalah subscript yang menunjukkan bentuk normal tertinggi di mana relasi itu ada. Sebagai contoh, R11,3 dan R12, 3 adalah dua relasi 3NF yang dihasilkan dari R1,2, yang ada dalam 2NF. Selama waktu ada, relasi yang telah ada dalam 1NF ditunjukkan dengan R. Ketika analis sistem menemukan NDN, mereka harus menjangkau dua branch alternatif dan memilih salah satunya; keputusan pada normalisasi lebih jauh dibuat dalam NDN. Branch ini mengarah pada NFN. NFN sesuai dengan hasil keputusan normalisasi. Hanya ada dua jenis NFN: satu adalah keputusan normalisasi dan yang lainnya adalah keputusan non-normalisasi. Keputusan binari ini direpresentasikan dengan variabel nol-satu s(sÎ{0,1}) dalam , yang merupakan variabel indikator mengenai keputusan normalisasi. Variabel indikator itu memiliki s sebagai satu () secara tidak langsung menunjukkan bahwa normalisasi dibutuhkan. Ia selalu merupakan kasus yang

Subscript m dalam  (mÎ{2,3,b,4,5}) menunjukkan bentuk normal diletakkan ke dalam relasi baru mana. Di sini, relasi yang akan dinormalisasi adalah Ri…j,k, di mana k<m. Nilai b menunjukkan BCNF. Keputusan ditunjukkan dengan satu, dan keputusan negatif dengan nol. Sebagai contoh, persamaan  menunjukkan bahwa relasi R12,3 diletakkan ke dalam 4NF. Dengan cara yang sama, persamaan  menunjukkan bahwa R121,4 tidak diletakkan ke dalam 5NF. Jika para analis basis data tidak memutuskan untuk melakukan normalisasi, mereka diarahkan pada NFN dengan , dan tidak ada spanning lebih jauh pada saat ini, sebaliknya, para analisis diarahkan ke NFN dengan . Para analisis memutuskan untuk melakukan normalisasi relasi itu hanya jika memiliki anomali (yakni, memiliki dependensi fungsional), dan jika benefit yang dihasilkan dari normalisasi itu lebih besar dari cost.

Setelah para analis menemukan NFN dengan variabel indikator  yang memiliki s sebagai satu seperti , mereka mungkin melakukan normalisasi relasi yang ada (yakni, menghasilkan dua NDN dengan mengeliminasi satu dependensi fungsional yang mencegah relasi dari yang ada dalam bentuk normal ke m). Jenis keputusan ini menunjukkan keputusan normalisasi binari tahap tunggal. Spanning binari berlanjut hingga semua dependensi fungsional terhapus. Catat bahwa decision tree marupakan sebuah binary tree. Semua node dalam binary tree tidak dapat memiliki lebih dari dua branch. Sangat dikenal bahwa binary tree menyediakan performa retrieval data yang efektif (Horowitz & Sahni, 1994).

Untuk mendemonstrasikan aplikabilitas pendekatan pendukung keputusan di atas, mempertimbangkan decision tree yang dihasilkan dari hasil normalisasi relasi contoh EMPLOYEE. Decision tree ditunjukkan dalam Gambar 1. Kami mengacu pada gambar ini melalui pembahasan berikutnya.

Proses normalisasi mulai untuk relasi EMPLOYEE berikut:

R = EMPLOYEE(EMP, SKL, POS, YRS, DPT, SPV, SAL, AGE, PJT, CLB).

Berikut ini arti dari atribut R:

EMP = nama unik pegawai;

SKL = skill khusus yang dimiliki pegawai;

POS = jabatan;

YRS = periode tahun yang digunakan pegawai untuk mengembangkan skill-nya;

DPT = departemen yang diawasi pegawai;

SPV = pengawas yang mengontrol departemen itu;

SAL = gaji pegawai;

AGE = usia pegawai;

PJT = proyek di mana pegawai terlibat; dan

CLB = kelompok sosial di mana pegawai itu menjadi anggotanya.

Gambar 1. Decision tree untuk menormalisasi relasi Pegawai

Pada awalnya analis melihat jika  R berada dalam 1NF, R diletakkan ke dalam 1NF. Kemudian, dia memiliki pilihan tidak melakukan normalisasi, atau menormalisasikan R ke dalam 2NF. Tindakan ini menghidupkan dua branch menuju pasangan NFN, satu dengan  dan yang lainnya dengan . Keputusan ini untuk normalisasi (yakni, ), karena dependensi parsial dicatat. Semua atribut selain YRS tergantung pada bagian kunci, EMP. Catat juga, bahwa (EMP, SKL) merupakan kunci gabungan dalam R. Yang menghasilkan dua relasi dalam 2NF adalah

R1 = EMPLOYEE(EMP, POS, DPT, SPV, SAL, AGE, PJT, CLB).

dan

R2=SKILL(EMP, SKL, YRS).

R2 telah berada dalam 5NF (yakni, ). Sebagai hasilnya, R2,2 dan  dan ditunjukkan dengan R2,5 dan , secara respektif. Dengan demikian, dependensi transitif dicatat dalam R1 (yakni, EMP menetapkan DPT dan DPT menentukan SPV). Karena itu, . Menghilangkan dependensi transitif ini menghasilkan dua relasi:

R11=EMPLOYEE(EMP, DPT, POS, SAL, AGE, PJT, CLB)

dan

R12=SUPERVISOR(DPT, SPV).

R12 sudah berada dalam 5NF (yakni, . Sebagai hasilnya,  bisa ditunjukkan dengan R12,5 dan , secara respektif.

Kemudian, terlihat bahwa R11 berada dalam 3NF dan dalam BCNF, tapi tidak berada dalam 4NF (yakni, ). Pada poin ini, kami mengarah pada dua relasi:

R111=EMPLOYEE(EMP, DPT, POS, SAL, AGE)

dan

R112=WORK(EMP, PJT, CLB).

R111 sekarang berada dalam 4NF, dan selanjutnya dalam 5NF. Karena itu, R111, 4 dapat ditunjukkan dengan R111,5 dan . Dependensi di bawah pertimbangan (dependensi multivalue), masih berada dalam R112, men-triger pasangan lain dari NFN. Terlihat bahwa . Menghasilkan relasi yang sudah dinormalisasi kemudian:

R1121=PROJECT(EMP, PJT)

dan

R1122=CLUB(EMP, CLB)

Dua relasi ini berada dalam 5NF(yakni,  dan  . Konsekuensinya, analis berakhir dengan lima relasi yang sudah dinormalisasi, seperti R2, R12, R111, R1121, dan R1122 dari R dalam isolasi.

Kami telah mendemonstrasikan bagaimana decision tree membantu dalam mendekomposisi tugas normalisasi kompleks ke dalam sub keputusan yang manageable. Mengidentifikasi lima relasi di atas secara langsung dari R itu bukan tugas sepele. Struktur hirarki seperti decision tree memecahkan proses normalisasi kompleks ke dalam keputusan binari tahap tunggal yang lebih explainable. Para analis sistem basis data lebih mungkin menghasilkan bentuk-bentuk normal dalam cara bebas error.

  1. Model Cost/Benefit

Di samping pembahasan sebelumnya tentang pilihan normalisasi dan keputusan tidak melakukan normalisasi, asumsi penting adalah bahwa normalisasi selalu bermanfaat, sebagian karena proses normalisasi sering berhasil dalam anomali-anomali yang tereduksi dan syarat penyimpanan. Dengan demikian, normalisasi menurunkan waktu respon, karena beberapa transaksi mungkin membutuhkan join processing dari relasi yang dihasilkan, dan join operation itu mahal. Relasi normal mungkin menunjukkan inefisiensi signifikan, terutama untuk basis data dengan beberapa update dan banyak query retrieval, karena sejumlah besar join operation (Inmon, 1987). Sehingga, normalisasi dibutuhkan hanya jika benefit yang diharapkan melebihi cost-nya. Sebagai hasilnya, analis cost dan benefit dibutuhkan.

Selanjutnya, analis cost dan benefit yang tepat memungkinkan analis untuk menghasilkan relasi-relasi normal tanpa proses denormalisasi apapun. Seringkali relasi-relasi didenormalisasi sebagian besar untuk meningkatkan performa. Satu pilihan khusus untuk denormalisasi  adalah untuk menempatkan data yang sangat dibutuhkan dalam query secara fisik dalam file data yang sama (Elmasri & Navathe, 1994), dan proses ini membutuhkan biaya desain tambahan.

Kami menjelaskan tiga faktor berikut yang mempengaruhi benefit dan cost dalam proses normalisasi. Pada basis determinan-determinan ini, analis dapat mengevaluasi benefit dan cost yang dihasilkan dari normalisasi.

  1. Reduced anomalies. Alasan utama untuk normalisasi adalah untuk mereduksi sejumlah anomali dengan mentransformasikan relasi tidak normal ke dalam relasi normal. Anomali-anomali sering menyebabkan peningkatan machine time, loss of business, data inconsistency, dll.
  2. Fewer storage requirements. Secara khusus, relasi normal membutuhkan sedikit tempat penyimpanan data karena ada sedikit duplikasi data.
  3. Deteriorated response time. Proses normalisasi dapat memisahkan sebuah relasi ke dalam beberapa relasi normal. Joining relations mungkin dibutuhkan jika informasi yang dibutuhkan selama permintaan transaksi tertentu tidak diperoleh dengan salah satu relasi yang dihasilkan dalam isolasi. Join operation itu mahal sehingga menyebabkan cost tambahan.

Menurut decision tree yang diusulkan, pada tiap NDN analis harus menentukan apakah bermanfaat atau tidak kalau mendekomposisi relasi R ke dalam dua relasi Rk (kÎ{x,y}). Analis basis data harus mulai dengan root NDN dan berlanjut membuat keputusan normalisasi binari tahap tunggal hingga tidak ada relasi untuk pertimbangan normalisasi lebih lanjut. Dengan demikian, tanpa kehilangan generalitas, kami membatasi diri terhadap keputusan normalisasi binari tahap tunggal untuk ilustrasi mulai saat ini. Misalkan relasi R menjadi semua Ri…j,k seperti tampak pada bagian sebelumnya. Juga, misalkan s, sx, dan sy menjadi total jumlah tuple dalam R, Rx, dan Ry, secara respektif.

Kami mendemontrasikan dulu bagaimana mengevaluasi benefit dalam istilah anomali tereduksi. Misalkan nu, n1, dan nD menjadi jumlah update, insertion, dan deletion operations, secara respektif. Frekuensi update ke-k, insertion ke-k, dan deletion operation ke-k ditunjukkan dengan  secara respektif. Determinasi mana bagian relasi yang dipengaruhi dengan operasi transaksi esensial untuk penilaian benefit yang akan dihasilkan dari sejumlah anomali tereduksi. Rata-rata jumlah tuple R yang dipengaruhi dengan update ke-k, insertion ke-k, dan deletion operation ke-k ditunjukkan dengan  secara respektif. Cost dari update, insertion, atau deletion anomali dapat diukur oleh para user. Sebagai contoh, Westland (1992) mengajukan model untuk mengukur elemen-elemen cost ini berdasarkan kebijakan basis data mirip dengan sistem manajemen inventori. Kemudian, total benefit dihubungkan dengan reduksi jumlah anomali yang direpresentasikan dengan

Normalisasi menghemat ruang storage dengan mereduksi duplikasi data. Misalkan, b, bx, dan by menjadi storage cost per tuple (per unit waktu) dalam R, Rx, dan Ry, secara respektif. Kemudian syarat storage yang disimpan direpresentasikan dalam bentuk

Y=bs – bxsx – bysy

Terakhir, analis harus mengevaluasi efek pada waktu respon transaksi. Normalisasi menyebabkan join operation mampu memproses transaksi. Beberapa join operation bisa dibutuhkan, tergantung pada karakteristik transaksi yang ada. Misalkan f menjadi total jumlah join yang dibutuhkan. Sejak join operation itu kompleks dan mahal, banyak penelitian telah diinvestigasi untuk menemukan join processing yang optimal. Beberapa teknik yang digunakan untuk mengimplementasikan join telah diusulkan. Join techniques ini berhasil dalam performa yang berbeda.

Jelasnya, degradasi performa yang berhubungan dengan normalisasi tergantung pada join method yang diimplementasikan. Sebagai contoh, join method disebut nested-loop join membutuhkan O(sx X sy) waktu untuk join execution di antara Rx dan Ry (Mishra & Eich, 1992). Misalkan k menjadi cost per eksekusi per tuple dengan nested-loops join k dan mk menjadi rate eksekusi join k. Kami mengadopsi notasi x, yÎ0k jika join k dieksekusi di antara Rx dan Ry. Kemudian kami memiliki cost yang berhubungan dengan degradasi waktu respon sebagai

Rumus ini sudah bisa digunakan untuk join method lainnya. Contohnya, dalam kasus metode hash join,

di mana k merupakan cost per eksekusi per tuple dengan hash join k. Catat bahwa metode hash join membutuhkan O(sx + sy) waktu untuk eksekusi join-join.

Pedoman akhir adalah bahwa normalisasi direkomendasikan jika benefit yang diharapkan melebihi cost yang terjadi, atau equivalen, jika . Yaitu, relasi dinormalisasi hanya jika ada satu atau lebih dependensi fungsional dan ; sebaliknya, relasi tidak dinormalisasi. Analis melanjutkan proses ini hingga tidak ada relasi untuk pertimbangan lebih jauh.

  1. CONTOH

Sebagai contoh aplikasi model cost/benefit yang diusulkan, mari kita investigasi cost dan benefit untuk melakukan normalisasi lebih jauh R12 (seperti tampak dalam decision tree Gambar 1) ke dalam 4NF. Contoh ini dapat menghasilkan pemahaman lebih baik tentang model cost/benefit,walaupun tidak mungkin mengeksplorasi semua posibilitas dalam setiap setting basis data dunia nyata. Sederhananya, beberapa (tidak semua) contoh tuple R112 tampak sebagai berikut:

Work Relation

EMP

PJT

CLB

Lee P1 Fishing
Lee P1 Hiking
Lee P2 Fishing
Lee P2 Hiking
Kim P3 Fishing
Kim P3 Bowling

Relasi itu menunjukkan dependensi multivalue (yakni, isu itu adalah untuk meletakkan relasi ini ke dalam 4NF). Sebagai contoh, seorang pegawai yang dipanggil Lee terlibat dengan dua proyek (P1 dan P2) dan dua club (Fishing dan Hiking).

Asumsikan bahwa update merupakan operasi primer, sehingga insertion atau deletion operation diabaikan. Dua jenis operasi update dipertimbangkan. Satu untuk meng-update informasi dalam proyek (Update No. 1), dan yang lainnya untuk meng-update informasi dalam club (Update No. 2). Relasi ini mengalami anomali update. Contohnya, jika seorang pegawai yang dipanggil Kim ditransfer dari proyek P3 ke proyek lainnya P4, dua atau lebih tuple harus di-update. Parameter-parameter yang berhubungan dengan operasi-operasi update diestimasi sebagai . Kemudian, benefit yang berhubungan dengan reduksi jumlah anomali adalah

F = 1 x 200 x 2 + 2 x 100 x 1.5 = $700(/day).

Beberapa contoh tuple dua relasi 4NF (Rx dan Ry) yang dinormalisasi dari R112 adalah:

Project

Club

Relation

Relation

EMP

PJT

 

EMP

CLB

Lee P1 Lee Fishing
Lee P2 Lee Hiking
Kim P3 Kim Fishing
Kim Bowling

Jumlah tuple adalah 6×104(=s), 3×104(=sx), dan 4×104(=sy), secara respektif. Storage cost diestimasi menjadi b=$1×10-2, bx=$0.5×10-2, dan by=$0.75×10-2, secara respektif. Faktor-faktor cost ini sering menjadi hal dasar. Dengan demikian, syarat storage yang hemat dikomputasi sebagai

Y = (1 x 6 – 0.5 x 3 – 0.75 x 4) x 102 =$150(/day).

Untuk aplikasi ini, asumsikan bahwa hanya satu hash join operation yang dibutuhkan (f=1). Untuk join ini, parameter-parameter diestimasi sebagai 1=$1.5 x 10-4 dan m1=100(/day). Cost itu berhubungan dengan join operation tambahan, sehingga

W = 1.5 x 10-4 x 100 x (3 + 4) x 104 =$1050(/day).

Normalisasi lebih jauh untuk R112 tidak direkomendasikan (yakni, ) karena . Jika relasi itu dinormalisasi tanpa menggunakan analisis cost/benefit, bisa menimbulkan cost tambahan $200 per hari.

  1. KESIMPULAN

Walaupun pengantar komprehensif tentang normalisasi data sudah dibahas dalam literatur ini, menentukan mana bentuk normal yang harus diadopsi untuk relasi yang ada masih bukan tugas mudah bagi para analis basis data. Kami telah mendemontrasikan bahwa bentuk-bentuk normal dapat ditetapkan secara sistematis melalui penggunaan decision tree. Bantuan grafis ini dalam proses normalisasi kemungkinan besar mereduksi kompleksitasnya dan menghasilkan relasi cost yang efektif dan efisien. Dengan struktur hirarkis seperti ini, proses normalisasi dapat dipecah ke dalam keputusan binari tahap tunggal yang lebih manageable.

Sebagai tambahan, isu tentang apakah dan di bawah kondisi apa normalisasi harus benar-benar dieksekusi yang ditujukan pada basis faktor-faktor cost seperti anomali, syarat storage, dan join operations. Tiap faktor dianalisis melalui penggunaan parameter-parameter pada pola dan rate akses transaksi. Dasar pemikiran ini mengatasi masalah umum yang inhren dalam      proses normalisasi relasi-relasi otomatis yang diletakkan pada 3NF tanpa analisis mendalam apapun. Model cost/benefit yang digabungkan dengan sistem pendukung decision tree merupakan jenis metode pertama yang dapat digunakan dalam proses normalisasi basis data cost-effective.

Dari sudut pandang praktis, sebuah kesempatan untuk penelitian lebih lanjut untuk mengimplementasikan sistem pendukung keputusan terkomputerisasi dengan memanfaatkan skema decision tree grafis. Mekanisme desain yang diajukan sudah siap disatukan ke dalam sebuah sistem seperti itu. Tambahan pula, mempertajam beberapa faktor cost untuk model itu merupakan bagian dari daya tarik tersendiri. Kami akan berkarya dalam isu-isu ini dan melaporkan hasil-hasil yang signifikan di masa yang akan datang dalam jangka waktu tidak lama lagi.

Penghargaan – Karya tulis ini didukung oleh Summer Fellowship Grant dari University Nebraska di Omaha. Penulis menyampaikan penghargaan kepada Dr. Yong Shi atas komentar-komentar konstruktifnya dan penulis paper referensi versi awal yang tidak diketahui namanya.

REFERENSI

7 responses to “JUSTIFIKASI NORMALISASI BASIS DATA: MODEL COST/BENEFIT

  1. Merely wanna admit that this is very beneficial , Thanks for taking your time to write this.

  2. You could certainly see your enthusiasm in the paintings you write. The arena hopes for more passionate writers such as you who are not afraid to say how they believe. At all times go after your heart. “There are only two industries that refer to their customers as users.” by Edward Tufte.

  3. Thanks for your post. I want to write my opinion that the tariff of car insurance varies widely from one insurance plan to another, simply because there are so many different issues which contribute to the overall cost. For instance, the brand name of the motor vehicle will have a significant bearing on the charge. A reliable ancient family vehicle will have a lower priced premium than a flashy racecar.

  4. I really like your writing style, wonderful information, thankyou for posting : D.

  5. Keep up the excellent piece of work, I read few content on this internet site and I conceive that your blog is very interesting and holds sets of good info.

  6. Hi there! Do you use Twitter? I’d like to follow you if that would be ok. I’m undoubtedly enjoying your blog and look forward to new updates.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s