How to Use Thai-English Translation
Tools
Illustrations Using News Articles for Advanced Thai Reading
The task of learning to translate can be managed by using several computer tools.
Translation Tools
*
Concordance: a list of all the words, single word, partial word, or regular
expression in a document as they appear in context.
*
Word Frequency: a list from high frequency to low; or in alphabetic order.
*
Excel Spreadsheet of word frequencies and provision for adding definitions
as a personal dictionary or for
language proficiency testing.
*
Interlinear Translation: a program for moving between word-by-word
translations and a smooth translation.
*
On-line Thai Dictionary: a cut-and-paste dictionary lookup tool.
Experimental SourceText
(ST)
Data
5 short news articles on Foreign Affairs from Prawet Jantharat’s web page of
advanced Thai reading exercises were used as source text (ST) for utilizing the
computer tools that will be illustrated in the following slides.
Please open the web page at:
https://siamwestdc.com/thairead/index.htm
Home Page of News
Readings
Module 01 was used as “Source Text” for application of computer tools.
Click to see larger view
Preparation of a Concordance and
Word Frequency List
Because the five readings of Module 1 selected as source text to be copied into
the concordance and word frequency programs all involve foreign affairs, they
were combined into a single text, with no separation between words.
Thai, like other Indic-derived writing systems, does not employ spaces between
words.
A sample of the original source text appears below. Note the absence of
separation between words. Separations do appear between clauses, as seen
in line 3.
Sample of Source Text – Without Separations Between Words
จีนยิ้มโสมแดงยุติโครงการนุก
มังกรจีนออกโรงแสดงความยินดีรัฐบาลโสมแดงเกาหลีเหนือยอมยุติโครงการพัฒนา
อาวุธนิวเคลียร์ชี้จะทำให้ช่องว่างของความขัดแย้งเล็กแคบลง และจะช่วยให้การ
เจรจายุติวิกฤตินิวเคลียร์บนคาบสมุทรเกาหลีครั้งต่อไปมีความคืบหน้ามากกว่าเดิม
Step 1. Separation of ‘‘Words” and Larger Units
of Meaning
Because the concordance and word frequency programs require text input as
individual “words,” spaces were inserted by hand (space bar) between each Thai
word. The decision as to what constitutes a “word” in Thai is not always clear.
Our overall standard was that a word is whatever is an entry in a Thai
dictionary; but that didn’t always apply because a “word” can also be a semantic
doublet or a multi-word expression that constitutes a unit of meaning, e.g., an
idiomatic expression.
Separation of high frequency items such as, e.g.,
ความ, การ,
can be sped up by using the “Find” tool in word processor (MS Word, WordPad,
Notepad, etc.)
A portion of the source text with word divisions now
appears as shown in the following.
Caution: : Please save text as plain Unicode text. How to save, visit:
https://seasite.niu.edu/trans/thai/howto/wordprocessor.htm
จีน ยิ้ม โสมแดง ยุติ โครงการนุก มังกร จีน ออก โรง แสดง ความยินดี
รัฐบาล โสม แดง เกาหลี เหนือ ยอม ยุติ โครงการ พัฒนา อาวุธ นิวเคลียร์ ชี้ จะ ทำให้
ช่อง ว่าง ของ ความ ขัดแย้ง เล็ก แคบ ลง และ จะ ช่วย ให้ การ เจรจา ยุติ วิกฤติ
นิวเคลียร์ บน คาบ สมุทร เกาหลี ครั้ง ต่อไป มี ความ คืบหน้า มาก กว่า เดิม
Step 2: Cut and Paste Segmented Text Into
Concordance Program Window
The segmented source text now becomes the input for the concordance program.
Click to see
larger view
*
The first step: With your cursor, highlight and copy the segmented source text
from the word processor and paste it
into the textbox window of the concordance
program. Click on “Paste text to use”.
*
The second step: We chose the default “Display all Words”.
*
The third step: We chose “Whole word match” to display whole word in context of
the pasted text.
*
The fourth step: We chose “Context Size” to be 40. And click the “Submit”
button. If everything goes well, the
output concordance will appear with list of
words in context of the pasted text. Visit the following link to view example:
https://seasite.niu.edu/trans/thai/howto/concordanceview.htm
Note: If we want to look for a single word in context of the pasted text, we
have to choose “Enter a single word for display” in the second step and enter
the word we want to find in the textbox immediately below it. The third and
fourth step should be the same as above. View example:
https://seasite.niu.edu/trans/thai/howto/concordanceviewsingleword.htm
The Concordance
The output of the program, the concordance itself, appears at the following web
address:
https://seasite.niu.edu/trans/thai/howto/concordanceoutput.htm. The
% number indicates where approximately in the text the word appears: e.g., 3%
would be towards the beginning; 86% towards the end. (A more powerful (and
complex) concordance could, with line numbering in original format, would give
the exact line number reference in the original text.)
Word Frequency
Program
Cut and Paste Same Segmented Text as Input; Choose to sort alphabetically or
numerically (Step 2).
The output of the program, the word frequency itself, appears at the following web address: https://seasite.niu.edu/trans/thai/howto/wordfrequencyresult.htm.
Word Frequency Result in Excel Spreadsheet
Word Frequency List copied into an Excel Spreadsheet to be used as student Dictionary. The example appears at the following web address: https://seasite.niu.edu/trans/thai/howto/wordfrequencyinexcel.htm.
Utility of Word
Frequency Lists
Perhaps of most utility and efficiency are word frequency lists.
The numerical listing of high-to-low frequency can be exploited in a variety of
ways. High frequency words often have multiple meanings that can be discovered
in exercises in the concordance, where the occurrences are brought together, or
in the text itself. A typical exercise would be to copy and paste a word from
the word frequency list into the “find” pop-up window of MS-Word and first
locate the occurrences of the word of interest in the concordance. Examples of
this kind of exercise are illustrated in the Appendix to this paper:
Teaching/learning using collocations.
At the opposite end of the scale, the less frequent words, single meanings as
opposed to multiple are the rule. However, for the advanced student, these could
well be the new words that need to be acquired or studied once they have been
identified and counted. We have shown 2 words, one with one occurrence and one
with only two. The concordance shows that both appear in the opening of the
text, which is of interest in and of itself, part of the total meaningful
context.
Interlinear
Translation (IT)
The translation process can proceed as follows:
The text of words, separated by spaces, becomes the input for NIU-IT
(Interlinear Translation) program. You can use Notepad to separate words
as describe at
https://seasite.niu.edu/trans/thai/howto/wordprocessor.htm.
Images of the homepage for IT and the page with the input document now appearing
as a working translation document
Click to see large view
IT text auto-formatted for word-by-word and smooth translation
Click to see large view
NIU Online Dictionary
There is one more tool that students can take advantage of, and that is an on-line dictionary. We are currently updating an earlier version for that purpose. The homepage for the online dictionary appears below.
Click to see large view
Discussion
The translation tools we have discussed can be used by both the instructor and
learner in a number of ways. In testing these tools with our students, we have
found that, once they have been introduced to them and start using them, the
task of translating actually becomes enjoyable and gives a feeling of control
over what can be an onerous task.
The outputs (Concordance and Word Frequency List) can be modified and edited,
and the increase in language proficiency can be monitored to a higher degree by
the instructor and learner as well. Each student can build a personal dictionary
to measure and monitor his/her own vocabulary acquisition.
Where students are involved in the process of “word divisions” (physically
separating words in a continuous text for input into the word frequency and
concordance programs), intensive word study takes place and raises questions
that improve understanding and translation proficiency. What is a word. What is
a compound? What is a semantic doublet and what are clues to their
identification? What is an elaborate expression? What is formal or unique to a
certain kind of discourse? What is idiomatic? What is the “prior text” of the
text being translated? These are just some of the questions that the translator
must face.
Limitations: The IT (Interlinear Translation) program is limited to very basic
translation work and is more suited for beginning and intermediate students.
However it does give students the feel of moving from a word-by-word translation
to a free translation and the teacher a means of monitoring the students word
choice decisions, which are critical and the point at which many smooth
translations end in mistranslations.
APPENDIX
Teaching/Learning Using Collocations
The illustrations that follow have been selected by a “copy + paste” into “find”
from the Word Frequency List to search the Concordance.
High frequencies usually reveal multiple meanings and point out important
collocations.
Low frequency words are items that usually have a single meaning or unique
collocations and are candidates for quick look-up in the dictionary. The low
frequency instances cited here turn out to be “puzzles.” In one case, a
definition was not found in dictionaries, which suggests a very technical
meaning or a new one of recent or rare appearance in the language. Later inquiry
revealed the the word was part of a compound “SomDaeng” (literally “Red
Ginseng”) an unusual reference to North Korea.
Sample collocations
context
keyword
context
Gen./Mr.
ุง
ปักกิ่ง
เมื่อ
ม.ค.
ว่า
|
นาย
Mr.
|
กงฉวน
Kongchuan
โฆษก
ประจำ
กระทรวง
|
รม.
ลา
ออก
ท้วง
เลือกตั้ง
|
นาย
|
อาลี
อับทาฮี
Ali Abtahi
รอง
ประธานาธ
|
ทน
ราษฎร
สหรัฐฯ
คน
นำ
โดย
|
นาย
|
เคิร์ต
เวลดอน
Kurt Weldon
ส.ส.
พรรค
ร
|
และ
เปรู
อย่าง
รุนแรง
ของ
|
นาย
|
ฟิเดล
คาสโตร
Fidel Castro
ประธานาธิบดี
|
ี่
พฤษภาคม
ที่
ผ่านมา
โดย
|
นาย
|
หลุยส์
เออร์เนสโต
Louis Ernesto
เดอร์เป
|
ขอ
ปฏิเสธ
ข้อ
กล่าวหา
ของ
|
นาย
|
คาสโตร
Castro
และ
ขอ
ลด
ระดับ
ทา
|
เดียวกัน
ก็
ขอ
ชื่นชม
ที่
|
นายพล
General
|
โคลิน
เพาเวลล์
Colin
Powell
รมว.
ต่างป
|
nuclear
ยุติ
โครงการ
พัฒนา
อาวุธ
‘weapon’
|
นิวเคลียร์
|
ชี้
จะ
ทำ
ให้
ช่อง
ว่าง
ข
|
ให้
การ
เจรจา
ยุติ
วิกฤติ
‘crisis’
|
นิวเคลียร์
|
บน
คาบสมุทร
เกาหลี
ครั้ง
|
ยุติ
โครงการ
พัฒนา
อาวุธ
‘weapon’
|
นิวเคลียร์
|
ขณะเดียวกัน
ก็
ขอ
ชื่นชม
|
ให้
การ
เจรจา
ยุติ
วิกฤติ
‘crisis’
|
นิวเคลียร์
|
บน
คาบสมุทร
เกาหลี
มี
ควา
|
terminate/end
จีน
ยิ้ม
โสม
แดง
|
ยุติ
(vs.
หยุด)
|
โครงการ
‘program’
นุก
มังกร
จีน
ออก
|
โสม
แดง
เกาหลี
เหนือ
ยอม
|
ยุติ
|
โครงการ
‘program’
พัฒนา
อาวุธ
นิวเค
|
และ
จะ
ช่วย
ให้
การ
เจรจา
|
ยุติ
|
วิกฤติ
‘crisis’
นิวเคลียร์
บน
คาบส
|
บาล
เกาหลี
เหนือ
ตัดสินใจ
|
ยุติ
|
โครงการ
‘program’
พัฒนา
อาวุธ
นิวเค
|
อ
ซึ่ง
จะ
ทำให้
การ
เจรจา
|
ยุติ
|
วิกฤติ
‘crisis’
นิวเคลียร์
บน
คาบส
|
and
ความ
ขัดแย้ง
เล็ก
แคบ
ลง
VERB
|
และ
|
จะ
ช่วย
VERB
ให้
การ
เจรจา
ยุต
|
ูต
สหรัฐ
ประจำ
กรุง
ริยาด
NOUN
|
และ
|
สถาน
NOUN
กงสุล
สหรัฐ
ประจำ
เม
|
สหรัฐ
ประจำ
เมือง
เจดดาห์
NOUN
|
และ
|
เมือง
ดาร์เรน
NOUN
ประเทศ
ซาอุ
|
ชาว
อเมริกัน
คน
อังกฤษ
NOUN
|
และ
|
คน
ออสเตรเลีย
NOUN
คน
ที่
ทำงาน
ใ
|
์
วิจารณ์
รัฐบาล
เม็กซิโก
NOUN
|
และ
|
เปรู
NOUN
อย่าง
รุนแรง
ของ
นาย
|
นใจ
เรื่อง
นโยบาย
ทั้ง
ใน
NOUN
|
และ
|
NOUN
ต่างประเทศ
ของ
เม็กซิโก
พ
|
้อ
กล่าวหา
ของ
นาย
คาสโตร
NOUN
PHRASE
|
และ
|
ขอ
ลด
ระดับ
VERB
PHRASE
ทาง
การ
ทูต
ร
|
Solving Semantic Puzzles: Two examples of compounding
????
จีน
ยิ้ม
|
โสม
|
แดง
ยุติ
โครงการ
นุก
มังก
|
0
%
|
รง
แสดง
ความ
ยินดี
รัฐบาล
|
โสม
|
แดง
เกาหลี
เหนือ
ยอม
ยุติ
|
2
%
|
โครงการ
นุก
มังกร
จีน
ออก
|
โรง
|
แสดง
ความ
ยินดี
รัฐบาล
โส
|
2
%
|
Citation from the original text
จีนยิ้มโสมแดงยุติโครงการนุก
มังกรจีนออกโรงแสดงความยินดีรัฐบาลโสมแดงเกาหลีเหนือยอมยุติโครงการพัฒนา
อาวุธนิวเคลียร์ชี้จะทำให้ช่องว่างของความขัดแย้งเล็กแคบลง
โสมแดง is a compound of “ginseng + red” and refers
to North Korea.
ออกโรง is a compound of “enter onto + the stage.”
มังกรจีน is a compound of “dragon + china”, i.e.,
The Chinese Dragon.
The collocations/expressions that refer to North
Korea and China, respectively
are, at the same time, ethnic epithets used by the Thai. The Chinese are like
the dragon in a Chinese Opera and the North Koreans are pictured as ginseng
root, which has the shape of a pair of human legs.
Final translation:
(Headline) China Smiles: “Red Ginseng” (North Korea) Terminates Its Nuclear
Program
(Lead Sentence) The “Chinese Dragon” enters onto the stage to show its pleasure
that the government of “Red Ginseng” North Korea has agree to cease the
development of nuclear weapons.
www.Thai2English.com dictionary search produced the following results
The Thai words contained in your search "โสมแดง" are shown below. Click on any of the matches for a more complete definition.
·
Sorry, we could not find the word โสม in the dictionary.
|
|
·
red ;
|
Unresolved translation: The news article implies that “som daeng” refers to North Korea. However, in questioning two native Thai speakers, who are also avid soccer fans, they both claim that “som daeng” refers to South Korea. North Korea, they claim is called “som khao” or “White Ginseng.”
Preliminary
Conclusions
Word Frequency Lists and Concordances are powerful tools that can be effectively
and efficiently used to
manage large text corpuses
monitor the learner’s acquisition of vocabulary
go beyond the information in dictionaries to discover collocations
discover solve semantic puzzles in the translation process