Manfaat daftar Frekuensi dalam Korpus Bahasa
Ditulis oleh Aan Setyawan Published 25/03/2018 edited 04/06/2018

1. Memahami setiap unit dalam teks

Setiap teks memiliki beberapa tingkat makna, dan tingkat ini cenderung terkait dengan unit fisik, struktural, mulai dari kata tunggal, frasa, klausa, kalimat, pada keseluruhan teks. Salah satu masalah mendasar yang dihadapi saat memproses teks adalah pertanyaan tentang apa sebenarnya sebuah kata. Kita mungkin secara naif berpendapat bahwa kata adalah entitas dalam teks yang dipisahkan oleh spasi atau tanda baca. Definisi kata seperti ini, sebagian besar mengabaikan fakta bahwa dalam praktiknya kata tidak hanya terdiri dari satu entitas yang hanya dibatasi oleh spasi atau tanda baca.

Baca Juga : Pengertian Konkordansi dan Cara Penggunaannya dalam Korpus Linguistik

Dalam bahasa Inggris, misalnya, kata majemuk dapat ditunjukkan dengan kombinasi beberapa kata yang dapat diasumsikan:

  1. Ditulis secara bersamaan, dalam hal ini definisi di atas umumnya akan berterima, walaupun secara teknis akan mengecualikan kata/awal kata atau akhir kata,
  2. Ditulis menggunakan tanda penghubung, dalam hal ini definisi di atas cenderung tak berterima jika menafsirkan tanda hubung sebagai jenis tanda baca,
  3. Diwakili sebagai dua unit tekstual dengan spasi di antaranya, di mana definisi di atas pasti akan tak berterima.

Dengan demikian ada tiga cara yang berbeda untuk kata majemuk. Seperti pada tingkatan frasa pengganti di BNCweb, untuk kata es krim kita dapat menemukan ketiga varian yang berbeda ini di dalam BNC:

  1. icecream : 28 ada di (17 teks),
  2. ice-cream : 368 ada di (174 teks),
  3. ice cream : 471 ada di (203 teks).

Berdasarkan data ini, pastinya varian terakhir itu yang paling sering muncul, dengan demikian dapat juga diambil kesimpulan bahwa definisi naïf tersebut tidaklah berterima.

Permasalahan sering terjadi pada kata can't, won't, she's, he'd, pada satu sisi, kata tersebut merupakan satu kata kata saja, tapi mungkin sebenarnya itu merupakan dua kata yang berbeda. Dalam kasus ini, jika kita semata-mata melihat kata-katanya saja dan tidak benar-benar menganalisis konteksnya, kita tidak akan dapat mengelompokkan kedua bagian (seperti klitit) yang sesuai dalam daftar frekuensi. Misalnya, kita tidak akan tahu apakah d dengan apostrof sebenarnya mewakili bentuk has atau would atau s singkatan dari bentuk tunggal atau tanda possessive. Jika daftar frekuensi diurutkan menurut abjad, masalah yang sama tidak selalu muncul karena bagian yang tidak dikontrak dan dikontrakkan bagian pertama akan muncul berdekatan, namun jika dipilah berdasarkan frekuensi katanya, hal ini mungkin mengabaikan bahwa satu bentuk atau bentuk lainnya dapat terjadi lebih sering, jika menggunakan tes frekuensi di AntConc.

Permasalahan di atas sering diabaikan dalam analisis data korpus, terutama pada jenis analisis korpus yang lebih otomatis dan kuantitatif, di mana nampaknya lebih mengasumsikan bahwa definisi tradisional dari sebuah kata relatif sama serta tidak dipermasalahkan dan ekspresi sinonim itu umumnya hanya terdiri dari kata-kata tunggal. Walaupun sulit untuk mengubah desain alat korpus yang mungkin digunakan untuk mengatasi masalah ini, setidaknya haruslah menyelesaikan masalah ini dalam banyak analisis, dan lihat apakah setidaknya beberapa alat memungkinkan untuk menghindari masalah ini, atau apa dapat menemukan cara untuk mengatasi masalah tertentu dengan memanipulasi data dengan cara yang sederhana.

Masalah yang telah dibahas sebelumnya dalam menentukan apa sebenarnya yang dimaksud dengan sebuah kata, semuanya terkait dengan masalah bagaimana menentukan jumlah frekuensi ke bentuk representasi kata yang sesuai, sesuatu yang sedikit mirip dengan membuat entri untuk headword dalam kamus. Jumlah kata yang berbeda dalam daftar frekuensi disebut sebagai type 'tipe', dan jumlah kata dalam korpus atau teks terlepas dari seberapa sering diulang disebut sebagai token, itulah sebabnya mengapa membelah teks menjadi satuan kata tingkat individual juga disebut sebagai tokenisation 'tokenisasi'.

Seperti masalah di atas, ada beberapa kasus di mana mungkin mengalami kesulitan dalam memilah beberapa kata ke satu jenis kata tunggal, namun tidak hanya untuk unit multi kata yang dihadapi pada masalah seperti itu. Bahkan untuk unit tunggal yang dibatasi dengan jelas oleh spasi atau tanda baca, mungkin akan mengalami masalah saat memilah ke satu dan jenis yang sama karena masalah seperti yang dibahas polysemy di atas, tapi juga ejaan alternatif (colour vs. color) karena dialektal atau varian historis, kesalahan ketik (teh alih-alih the), atau kapitalisasi/non-kapitalisasi.

Jika bekerja di bidang leksikografi, dan mencoba membuat kamus komprehensif dari jenis bahasa (sub-) tertentu, mungkin ingin memulai dengan daftar alfabet yang diurutkan terlebih dahulu, dan kemudian menyelidiki satuan kata tersebut , apa jenis sesuai dengan fitur spesifik yang memungkinkan untuk mengklasifikasikan dan menggambarkannya secara optimal. Untuk menyelidiki ini lebih jauh, hal ini dapat dilihat pada daftar frekuensi.

2. Contoh Daftar Kata atau Frekuensi Kata di AntConc

Membuat daftar frekuensi kata di AntConc adalah hal yang sangat sederhana. Yang perlu dilakukan untuk membuat daftar kata tunggal dasar pada korpus adalah, pilih tab Word List 'Daftar Kata', dan klik Start. Output dari alat ini terdiri dari tiga atau empat sub jendela terpisah, tergantung pada opsi mana yang dipilih di bawah program Tool Preferences 'Preferensi Alat', dan dapat dilihat pada Gambar 9.1.

Jendela pertama dari daftar kiri adalah peringkat kata di dalam daftar frekuensi, frekuensi kedua itu sendiri, yang ketiga adalah bentuk kata, dan yang keempat, jika ada, lemma yang terkait dengan bentuk kata. Yang terakhir, hanya ditampilkan jika pilihan untuk ini diaktifkan dalam Tool Preferences 'Preferensi Alat' untuk daftar kata, dan daftar lemma yang dimuat sesuai. Informasi tambahan yang ditunjukkan pada Gambar 9.1 diberikan mengenai berapa banyak jenis keseluruhan yang ditemukan dan berapa banyak token. _Output_nya juga bisa diurutkan dengan cara yang berbeda.

Untuk informasi lebih lanjut tentang corpus ini, mohon di buka ya teman-teman untuk pengaplikasian korpus AntConc http://www.cs.rochester.edu/research/cisd/resources/trains.html.

Salah satu keuntungan AntConc ialah memungkinkan untuk mendefinisikan ulang apa sebenarnya yang merupakan kata token untuk tujuan sendiri dengan mengedit definisi karakter yang diizinkan di dalam sebuah kata. Gambar 9.2 menunjukkan pilihan definisi ulang token untuk menyertakan apostrof dan tanda hubung untuk memungkinkan adanya kontraksi dan kemajemukan kata dengan tanda penghubung yang nantinya dapat dimengerti sebagai kata tunggal.

Hampir semua teks, terlepas dari jenis teks tertentu termasuk telegram dan resep, cenderung memiliki kemunculan kata-kata fungsi frekuensi tinggi, sesuatu yang baru saja ditemukan selama penjelajahan pertama daftar frekuensi. Karena kata-kata ini sebenarnya tidak banyak memberi tahu tentang kekayaan leksikal atau isi teks / korpus, kata-kata ini sering dianggap berlebihan dan dengan demikian menjadi daftar yang dikecualikan, setidaknya secara teori, yang seharusnya dapat membantu pengembangan menjadi lebih baik mengenai wawasan tentang sifat teks atau korpus yang sedang diselidiki. Kata-kata yang sedikit berkontribusi pada teks semantik juga disebut sebagai stop words, dan sering disusun menjadi daftar stop words yang dikecualikan dari jumlah frekuensi.

Tabel 9.1 menunjukkan 15 jenis kata yang paling sering terjadi pada bagian A (Press: Reportage) dari korpus LOB, bersama dengan frekuensi absolut dan relatifnya, dibulatkan menjadi dua desimal.

15 jenis teratas di atas sudah berkontribusi pada lebih dari seperempat dari semua jenis kata di bagian A. Ini sesuai dengan pengamatan Zipf (1949) bahwa sejumlah kecil kata umumnya menjelaskan sebagian besar token dalam bahasa. Dan, karena sebenarnya tidak ada item dalam daftar adalah kata konten, informasi semantik yang diberikan pada Tabel 9.1 pada dasarnya tidak ada sama sekali. Dengan kata lain, sama sekali tidak ada indikasi mengenai isi dari bagian tersebut. Untuk dapat menyederhanakan penjelajahan kosakata semantik yang relevan dalam data, maka dibenarkan untuk menghapus kata-kata fungsi semacam itu dari analisis frekuensi.

Sebenarnya dapat menghindari setidaknya beberapa masalah ini dalam menggunakan daftar kata berhenti dengan memberi tag pada data secara gramatikal sebelum mengecualikan stop words, namun mungkin tidak ada solusi sederhana untuk menentukan tipe kata kunci potensial secara semantik yang mana seharusnya dimasukkan atau dikecualikan dari daftar.

Artikel ini ditulis oleh Rizka Fahrina Daulay