祝平次的教學網站- CText TextTools - Google Sites

2024-11-23

文章推薦指數： 80 %

投票人數：10人

從CText直接擷取("Fetch")文本（Fetch text by URN）：. 輸入URN，然後點擊「Fetch」鈕執行。

... 學而篇》是「ctp:analects/xue-er」，《荀子》是「ctp:xunzi」。

SearchthissiteSkiptomaincontentSkiptonavigationCTextTextTools網址：https://ctext.org/語言：可以在首頁頁面左上方點選「中文版」進入中文介面。

登入與註冊：請利用頁面左下方「登入」註冊新的使用帳戶，或登入已有的帳戶。

登入後可以直接在使用數位工具時，直接匯入數位文本。

數位工具頁面：https://ctext.org/plugins/texttools/功能界面置入文本：從CText直接擷取("Fetch")文本（FetchtextbyURN）：輸入URN，然後點擊「Fetch」鈕執行。

系統會自動帶出文本標題URN在每個文本資料頁面的右下方，以「ctp:」開頭，例如《論語》的URN是「ctp:analects」，《論語．學而篇》是「ctp:analects/xue-er」，《荀子》是「ctp:xunzi」。

直接貼入文本區，在「Title:」後的文字欄位輸入自訂標題點擊「Save/addanothertext」暫存置入文本，以進行功能操作。

可以重覆「置入文本」=》暫存步驟，以暫存更多的文本。

由於可以自行置入文本，我們也可以將自己的資料和CText資料庫的資料進行綜合分析。

以下介紹各種功能的操作：N-gram目的：統計連續字所形成詞組的數量：１的話：「蔡英文」會被統計成「馬馬虎虎」會被統計成詞組馬虎數量２２2的話：「蔡英文」會被統計成詞組蔡英英文數量11「馬馬虎虎」會被統計成3的話：「蔡英文」會被統計成詞組蔡英文數量1「馬馬虎虎」會被統計成詞組馬馬虎馬虎虎數量11選項：Valueofn:要選幾字的詞組。

Minimumcount:顯示門嵌，只有在門嵌以上的數量才會被顯示。

Normalizebylength:依照（總）長度標準化。

沒有標準化之前會顯示詞頻，標準化之後則顯示百分比，亦即：詞頻∕總詞數*100。

Excludepunctuation:是否統計標點符號。

Stopatbreaks:是否在某個特定點打斷詞組的計算All：詞組不會跨過標點符號，例如「學而時習之，不亦說乎」的二字詞，將不會「之不」詞組的數量是0。

Paragraph：詞組不會跨過段落（亦即不會跨行）。

None：詞組會跨過標點符號和段落，例如「學而時習之，不亦說乎」的三字詞會出現「習之不」、「之不亦」等兩組詞。

Tokenizebycharacter:是否以個別字元為單位（請參考劉昭麟〈中文斷詞基本資訊〉）因為英文詞與詞(word)之間有空格，所以可以以空格做為切割詞的標記，但中文沒有，所以會有在那裡切出一個詞的問題。

如果勾選這個選項，系統會以字為單位去計算n-gram，如果沒有勾選，則會以標點符號做為切詞的標記。

例如「學而時習之，不亦說乎」如果不勾選這個選項，則將被祝為前一個詞是「學而時習之」，後一個詞是「不亦說乎」。

如果你的資料已經經過斷詞處理，則可以考慮不勾選這個選項進行分析。

（請參考中央研究院「中文斷詞系統」）ReportabuseReportabuse