A statistical parser to reduce structural ambiguity in Malay grammar rules

Abd Rahim, Noor Hafhizah (2011) A statistical parser to reduce structural ambiguity in Malay grammar rules. Masters thesis, University of Malaya.

[img] PDF
DissertationHafhizahFeb2011.pdf

Download (7MB)

Abstract

ABSTRACT The goal of the research is to develop a statistical parser that can help in reducing a structural ambiguity in a Malay language. Parsing is an important phase in understanding natural language. However, to parse a sentence is a difficult task due to the various ambiguity problems in natural language. Parsing technique is the most important components that need to be considered in developing any parser. The technique used in this research is top-down parsing and the grammar chosen is a context-free grammar (CFG)for Malay language. The CFG contains rule in forming a Malay basic sentence. The proposed Malay Statistical Parser uses probability values, which were computed for one hundred and fourty seven (147) grammar rules as the guideline in parsing the best parse tree. Since there is no probability for Malay CFG rules, one thousand (1000) of training data are collected from primary text books and various Malay grammar books. The probability values were calculated and it is known as Probability Context-free Grammar (PCFG). The parser is then evaluated using one hundred (100) test data, where the data was approved by two Malay linguists that were known as Munsyi Dewan. After that, the Malay statistical parser computes the highest probability value for each of the parsed sentences. The result shows the parser achieved 100% recall, 93.25% precision and 96.75% f-score, where the parser is able to reduce ambiguity for Malay basic sentence. ABSTRAK Tujuan penyelidikan ini ialah membangunkan sebuah pengurai berstatistik yang dapat membantu mengurangkan ketaksaan berstruktur dalam Bahasa Melayu. Penguraian merupakan satu fasa penting dalam memahami bahasa tabii. Walau bagaimanapun, untuk mengurai sesuatu ayat, ia merupakan satu tugas yang sukar memandangkan terdapat banyak masalah dalam ketaksaan bahasa tabii. Teknik penguraian merupakan komponen yang paling penting yang perlu dipertimbangkan dalam membangunkan sebarang pengurai. Teknik yang digunakan dalam penyelidikan ini ialah teknik penguraian atas-bawah dan tatabahasa yang dipilih ialah nahu bebas-konteks untuk Bahasa Melayu. Nahu bebaskonteks tersebut mengandungi petua-petua bagi membentuk ayat mudah Bahasa Melayu. Pengurai Berstatistik Bahasa Melayu menggunakan nilai-nilai kebarangkalian yang dikira untuk seratus empat puluh tujuh (147) petua-petua nahu yang digunakan sebagai panduan dalam memperoleh rajah pepohon yang terbaik. Memandangkan belum ada nilai kebarangkalian bagi petua nahu bebas-konteks untuk Bahasa Melayu, seribu (1000) data latihan diperoleh daripada buku-buku teks sekolah rendah dan tatabahasa Bahasa Melayu. Nilai-nilai kebarangkalian yang dikira itu dikenali sebagai Nahu Bebas-konteks Berkebarangkalian. Pengurai itu dinilai menggunakan seratus (100) data ujian yang dipersetujui oleh dua orang pakar dalam Bahasa Melayu yang dikenali sebagai Munsyi Dewan. Seterusnya, Pengurai Berstatistik Bahasa Melayu tersebut dapat mengira nilai kebarangkalian yang tertinggi bagi setiap ayat yang diurai. Hasil keputusan menunjukkan pengurai itu mencapai 100% recall, 93.25% precision dan 96.75% f-score, yang menunjukkan pengurai tersebut berjaya mengurangkan ketaksaan berstruktur bagi ayat mudah Bahasa Melayu.

Item Type: Thesis (Masters)
Uncontrolled Keywords: Statistical parser, Natural language, Parsing technique, Malay language, Top-down parsing, Malay grammar
Subjects: Z Bibliography. Library Science. Information Resources > Z665 Library Science. Information Science
Depositing User: MS NOOR ZAKIRA ZULRIMI
Date Deposited: 22 Jul 2013 02:05
Last Modified: 22 Jul 2013 02:05
URI: http://repository.um.edu.my/id/eprint/604

Actions (login required)

View Item View Item