Apa Itu Linguistik Corpus Dan Tahapan Dalam Membangun Corpus: Terapkan lima Tahapan Dalam Membangun Korpus Mudah Jika Anda Melakukannya Dalam Linguistik Korpus

Linguistik korpus berkaitan dengan struktur, persiapan, dan evaluasi korpora (elektronik). Korpora adalah kumpulan teks yang disusun menurut persoalan kebahasaan. A adalah kumpulan data linguistik. Sebagian besar adalah bahasa tertulis, sehingga teksnya mungkin dalam berbagai bentuk seperti, misalnya, dan percakapan yang ditranskripsi. Tetapi ada juga kumpulan file audio atau video.

Ini adalah bagian dari perpustakaan teks elektronik, tetapi korpus dibangun dengan kriteria untuk tujuan khusus berasal dari kata mayat yang berarti kumpulan sistematis sejumlah besar teks yang dapat disimpan dan diproses secara elektronik..

Sumber data untuk membuat corpus:

Berikut adalah beberapa teks sumber bahasa tulis yang digunakan untuk membangun korpus:

  • Artikel populer (dari surat kabar atau majalah) dapat digunakan untuk membahas suatu topik secara berkala.
  • Artikel ilmiah (jurnal, bahan ajar, makalah) memiliki beragam topik yang dibahas dalam bentuk teks
  • Puisi, kumpulan puisi dari beberapa pengarang kemudian setiap kumpulan dianggap sebagai teks.

Teks Bahasa Lisan dan Tulis:

Teks juga berasal dari bahasa lisan yaitu teks yang berasal dari suatu ucapan atau percakapan, percakapan itu direkam kemudian ditulis dalam bentuk teks. Pembicaraan dapat berlangsung dengan durasi yang cukup lama. Merekam dan mengubah percakapan panjang menjadi bentuk tertulis membutuhkan biaya keuangan yang signifikan. Pembicaraan panjang dapat dibagi menjadi bagian-bagian yang lebih pendek.

Pembicaraan atau potongan dapat dijadikan sebagai korpus jika memenuhi dua syarat, yaitu: percakapan dimulai dan diakhiri oleh partisipan. Syarat kedua adalah membuka dan menutup pembicaraan dengan jelas. Contoh pidato yang dapat diubah ke dalam bentuk teks: percakapan informal antara beberapa orang secara langsung, percakapan telepon, percakapan dosen dalam diskusi kelas, percakapan dalam rapat, pembicaraan dalam wawancara, dan diskusi dalam debat.

Apa itu corpus dan perangkat lunak:

Korpus linguistik adalah istilah untuk studi bahasa dan metode analisis bahasa yang menggunakan corpus. Korpora linguistik sangat berguna dalam dunia pengajaran atau penelitian bahasa. Beberapa bidang yang mengandalkan korpus meliputi leksikografi (penyusunan kamus), sosiolinguistik, penerjemahan, pengajaran, (stilistika), dialektologi dan linguistik historis. Untuk mengoptimalkan penggunaan corpus, ada beberapa langkah yang harus dilakukan menurut saya perlu sedikit waktu untuk benar-benar menguasainya.

Beberapa perangkat lunak corpora yang terkenal:

Anda harus memiliki beberapa alat atau perangkat lunak yang dapat diunduh secara gratis di internet. Seperti alat konkordansi AntConc, SCP; paralel; Vocabulary Profiler atau RANGE. Setelah mengunduh korpus yang diinginkan dan menginstal perangkat lunak yang diperlukan, Anda dapat dengan mudah menganalisis teks sesuai kebutuhan.

Alat konkordansi korpus tidak hanya menganalisis bahasa Inggris tetapi juga bahasa lain seperti bahasa Arab. Contohnya adalah analisis penggunaan part of speech, seperti preposisi apa saja yang mengikuti kata simbol dalam korpus bahasa Inggris, atau kata dalam korpus bahasa Arab. Selain itu, penggunaan alat ini juga dapat menyajikan hasil analisis kuantitas data seperti jumlah penggunaan kata-kata tertentu dalam korpus yang diinginkan.

Terapkan lima Tahapan Dalam Membangun Korpus Mudah Jika Anda Melakukannya Dalam Linguistik Korpus

Korpus dibuat dengan menggunakan struktur yang sistematis. Dokumen teks dikumpulkan sesuai dengan ukuran korpus. Sebelum membuat corpus yang harus diperhatikan perencanaan tersebut adalah sebagai berikut : Maksud dari tahapan pembuatan corpus dirancang sesuai dengan ukuran teks dan biaya proyek.

Beberapa hal yang berkaitan dengan ilmu kebahasaan yang perlu diperhatikan dalam membangun korpus misalnya: ukuran teks yang akan disampel, rentang keanekaragaman bahasa (sinkronis) dan periode teks (diakronis) untuk bahan contoh..

Jadi ada 5 tahap:

  • Merencanakan dan mendesain korpus.
  • Pemilihan sumber data.
  • Izin dari pemilik data.
  • Pengumpulan dan penyandian data
  • Menangani korpus.

Perencanaan

Korpus dibangun dengan memulai dengan sebuah rencana. Korpus dirancang dengan banyak ahli untuk mempertimbangkan penggunaan korpus. Ini semua tentang logis misalnya: Korpus untuk digunakan dalam bahasa umum dalam jenis sinkronis, Anda harus berkonsultasi dengan sosiolinguistik. Jika ada variasi gaya dalam strategi pengambilan sampel, kita perlu berkonsultasi dengan ahli statistik. Hardware dan software juga menjadi pertimbangan dalam perancangan corpus. Jadi perencanaan dan pertimbangan adalah tugas penting.

Pemilihan Sumber Data

Sumber data dipilih dengan analisis sistematis terhadap populasi. Memang Web berisi data berupa teks dengan berbagai bahasa yang berbeda. Web dapat digunakan sebagai sumber data dalam pengembangan korpus. Search engine dapat digunakan sebagai alat untuk mendapatkan teks yang berhubungan dengan bangunan yang memiliki corpus planning.

Izin Penggunaan Data dari pemilik;

Teks yang telah dikumpulkan dalam korpus perlu izin untuk menggunakan pemilik data. Hanya dengan cara ini Anda dapat menggunakan teks secara legal di corpus. Korpus harus digunakan secara bijaksana, baik dalam kondisi hukum, atau hanya digunakan oleh para peneliti di universitas.

Pengumpulan dan penyandian data

Pengumpulan data membutuhkan waktu yang cukup lama, karena besarnya bergantung pada volume teks yang akan dikumpulkan. Data yang dicetak dapat dipindai dengan alat dan kemudian ditransfer ke dalam bentuk teks. Beberapa waktu jika kita beruntung, kita bisa mendapatkan teks dalam bentuk teks dengan mudah.

Teks yang telah dikumpulkan dan dibubuhi penanda untuk memberikan indikasi bagian-bagian struktur dan ciri-cirinya dapat menjaga keaslian teks tersebut. SGML digunakan sebagai penanda dalam korpus. SGML tagging untuk mengaktifkan teks yang dikenali oleh komputer atau mesin lain.

Menangani korpus

Keberadaan korpus teks tidak dapat memenuhi kebutuhan data bahasa. Masalah yang perlu diperhatikan adalah penambahan data pada korpus. Penambahan dokumen teks ke dalam korpus membuat salah penambahan ratusan bahkan ribuan kata, sehingga korpus nilai data berubah.

Jika ada penambahan data yang berkembang secara dinamis maka untuk itu penyediaan data memerlukan bahasa perangkat lunak. Perangkat lunak yang dibutuhkan untuk mempercepat penyediaan data. Perangkat lunak ini menggunakan konkordansi untuk mendapatkan data dan daftar frekuensi kata-kata milik perangkat pemrosesan dasar.

Perangkat pemrosesan lanjutan yang digunakan untuk (lemmatization), pelabelan part of speech, parsing, kata berpasangan, disambiguasi, dan link ke database leksikal.

Perkembangan korpus

Jika korpus dibangun dengan tujuan untuk mendapatkan korpus yang tidak memihak, maka korpus harus disesuaikan atau dievaluasi. Pada awalnya, itu dibangun untuk mewakili suatu populasi. Kemudian korpus tersebut digunakan dan dianalisa untuk mengetahui kekuatan dan kelemahan korpus tersebut. Informasi dari para ahli dan umpan balik dari analisis dapat digunakan untuk meningkatkan fungsi dalam korpus. Kualitas corpus dapat dilakukan dengan penambahan atau pengurangan bahan yang dilakukan secara terus menerus.

Penentuan Populasi dan Pengambilan Sampel

Kita harus mengikuti aturan teori sampling statistik. Namun Anda harus tahu dengan menerapkan teori statistik untuk membangun korpus sebagai sumber bahasa adalah sebuah tantangan. Masalah yang dihadapi saat menetapkan populasi sampel. Penentuan batas-batas populasi sangat sulit, sedangkan definisi statistik kependudukan selalu dibahas dengan sangat jelas. Tidak adanya contoh yang jelas dapat diambil dari satuan-satuan bahasa.

Peristiwa terjadi pada beberapa bias sampel. Ketelitian dalam penentuan sampel merupakan masalah yang tidak dapat ditolerir. Oleh karena itu, peneliti harus mempunyai pertanyaan: Berapa sampel yang telah diperoleh dan memperkirakan apakah mungkin untuk memiliki ketegasan kebenaran dalam mencapai hasil.Kriteria yang digunakan untuk menentukan populasi ada dua kriteria, yaitu: kriteria internal dan eksternal. Kriteria internal adalah tolak ukur yang didasarkan pada sifat dasar bahasa, contoh klasifikasi teks berdasarkan tata bahasa atau bentuk kata, sedangkan kriteria eksternal adalah tolak ukur yang tidak didasarkan pada sifat dasar.