機器翻譯(Machine Translation) — 臺灣言語工具0.6.32 說明 ...
文章推薦指數: 80 %
語料正規化. 閩南語,「我要呷飯」→「我欲食飯」. 做法. Moses摩西翻譯. 需要技術. 語言模型. 斷詞. 需要語料. 華語/母語的對應平行語料. 正規前/正規後的對應平行語 ...
臺灣言語工具
0.6
介紹
安裝
基本物件
常見情境
機器翻譯(MachineTranslation)
快速上手
開華台Moses服務
Client端
定義
Moses
用法
語料
家己安裝
Ubuntu
Mac
模型訓練
模型使用
其他翻譯工具
語音合成(SpeechSynthesis)
語音辨識(SpeechRecognition)
語言模型(LanguageModel)
斷詞(WordSegmentation)
詞性標記(POSTagging)
剖析(Parsing)
重音(Stress)
變調(ToneSandhi)
語言分類(LanguageIdentification)
平行語料語句對齊(ParallelCorpusSentencesAlignment)
開發
授權聲明
臺灣言語工具
Docs»
機器翻譯(MachineTranslation)
Viewpagesource
機器翻譯(MachineTranslation)¶
工具提供Moses統計式機器翻譯介面。
快速上手¶
開華台Moses服務¶
dockerrun--namehuatai-p8080:8080-ti--rmi3thuan5/hokbu-le:huatai
HuataiDockerfile
Client端¶
$dockerrun--linkhuatai-ti--rmi3thuan5/tai5-uan5_gian5-gi2_kang1-ku7:latest
Python3.5.2(default,Nov232017,16:37:01)
[GCC5.4.020160609]onlinux
Type"help","copyright","credits"or"license"formoreinformation.
>>>from臺灣言語工具.解析整理.拆文分析器import拆文分析器
>>>from臺灣言語工具.斷詞.國教院斷詞用戶端import國教院斷詞用戶端
>>>from臺灣言語工具.翻譯.摩西工具.摩西用戶端import摩西用戶端
>>>from臺灣言語工具.翻譯.摩西工具.語句編碼器import語句編碼器
>>>
>>>華語句物件=拆文分析器.建立句物件('大家早安')
>>>華語斷詞句物件=國教院斷詞用戶端.斷詞(華語句物件)
>>>print(華語斷詞句物件.看型('',''))
大家早安
>>>台語句物件,華語新結構句物件,分數=(
...摩西用戶端(位址='huatai',編碼器=語句編碼器).翻譯分析(華語斷詞句物件)
...)
>>>print(台語句物件.看型('',''))
逐家𠢕早
>>>print(台語句物件.看音())
tak8-ke1gau5-tsa2
>>>print(分數)
-10.98540592193603
>>>
>>>for詞物件in台語句物件.網出詞物件():
...print(詞物件,詞物件.翻譯來源詞陣列)
...
詞:[字:逐tak8,字:家ke1][詞:[字:大,字:家]]
詞:[字:𠢕gau5,字:早tsa2][詞:[字:早,字:安]]
>>>for詞物件in華語新結構句物件.網出詞物件():
...print(詞物件,詞物件.翻譯目標詞陣列)
...
詞:[字:大,字:家][詞:[字:逐tak8,字:家ke1]]
詞:[字:早,字:安][詞:[字:𠢕gau5,字:早tsa2]]
定義¶
輸入
指定的母語,一句語句
輸出
母語語句
範例
華語翻譯
閩南語,「我要吃飯」→「我欲食飯」
語料正規化
閩南語,「我要呷飯」→「我欲食飯」
做法
Moses摩西翻譯
需要技術
語言模型
斷詞
需要語料
華語/母語的對應平行語料
正規前/正規後的對應平行語料
Moses¶
用法¶
建議使用dockerimagesi3thuan5/tai5-uan5_gian5-gi2_kang1-ku7:tsuan,Moses相關程式已經編譯好–矣。
i3thuan5/tai5-uan5_gian5-gi2_kang1-ku7:latest只編譯mosesserver服務後端程式。
語料¶
台語、華語語料
$dockerrun--namehuatai-p8080:8080-ti--rmi3thuan5/hokbu-le:huatails/opt/hok8-bu7/服務資料/台語/翻譯語料
字詞文本.txt.gz對齊外語語句.txt.gz對齊母語語句.txt.gz
對齊外語字詞.txt.gz對齊母語字詞.txt.gz語句文本.txt.gz
家己安裝¶
Ubuntu¶
建議直接參考Dockerfile
指令(Deprecated)¶
sudoapt-getinstall-yg++gitsubversionautomakelibtoolzlib1g-devlibboost-all-devlibbz2-devliblzma-devpython3-devlibgoogle-perftools-devlibxmlrpc-c++.*-dev#moses,libxmlrpcformosesserver
sudoapt-getinstall-ycmake#mgiza
Mac¶
感謝RuLu提供做法
compileboost¶
./bootstrap.sh--with-libraries=filesystem,system,test,thread,program_options,serialization,iostreams
./bjamstage&&sudo./bjaminstall
compilemoses¶
brewinstallxmlrpc-c
./bjam-j8--prefix=$PWD--libdir=$PWD/lib64--layout=systemlink=statictoolset=clanginstall||echoFAILURE
強迫重新編譯時加-a
compilegiza++¶
clu:giza-ppclu$gitdiff
diff--gita/GIZA++-v2/Makefileb/GIZA++-v2/Makefile
index17daae5..8defea3100644
---a/GIZA++-v2/Makefile
+++b/GIZA++-v2/Makefile
@@-6,7+6,8@@INSTALLDIR?=/usr/local/bin/
CFLAGS=$(CFLAGS_GLOBAL)-Wall-Wno-parentheses
#CFLAGS_OPT=$(CFLAGS)-O3-DNDEBUG-DWORDINDEX_WITH_4_BYTE-O3-DNDEBUG-DWORDINDEX_WITH_4_BYTE-ffast-math
-CFLAGS_OPT=$(CFLAGS)-O3-funroll-loops-DNDEBUG-DWORDINDEX_WITH_4_BYTE-DBINARY_SEARCH_FOR_TTABLE-DWORDINDEX_WITH_4_BYTE
+#CFLAGS_OPT=$(CFLAGS)-O3-funroll-loops-DNDEBUG-DWORDINDEX_WITH_4_BYTE-DBINARY_SEARCH_FOR_TTABLE-DWORDINDEX_WITH_4_BYTE
+CFLAGS_OPT=$(CFLAGS)-O3-funroll-loops-DNDEBUG-DWORDINDEX_WITH_4_BYTE-DWORDINDEX_WITH_4_BYTE-stdlib=libstdc++
CFLAGS_PRF=$(CFLAGS)-O2-pg-DNDEBUG-DWORDINDEX_WITH_4_BYTE
CFLAGS_DBG=$(CFLAGS)-g-DDEBUG-DWORDINDEX_WITH_4_BYTE
CFLAGS_NRM=$(CFLAGS)-DWORDINDEX_WITH_4_BYTE
diff--gita/mkcls-v2/Makefileb/mkcls-v2/Makefile
index66a86d0..10ec3b6100644
---a/mkcls-v2/Makefile
+++b/mkcls-v2/Makefile
@@-5,7+5,7@@OBJS=GDAOptimization.oHCOptimization.oProblem.o\
KategProblemWBC.oKategProblem.oStatVar.ogeneral.o\
mkcls.o
-CFLAGS=-Wall-W-DNDEBUG-O3-funroll-loops
+CFLAGS=-Wall-W-DNDEBUG-O3-funroll-loops-stdlib=libstdc++
.cpp.o:
$(CXX)$(CFLAGS)-c$
延伸文章資訊
- 1台語線頂字典
臺灣本土語言互譯及語音合成系統 · 台語-華語線頂辭典 · MT國語--閩南語機器翻譯系統 (Mandarin-Taiwanese MT)會tàng kä 一句華語翻作漳州/泉州抑是白話音/文言...
- 2認識台灣好站 | 閩南語機器翻譯系統 - 旅遊日本住宿評價
閩南語機器翻譯系統,大家都在找解答。臺灣本土語言互譯及語音合成系統· EDUTECH Foundation ... 國小兒童閩南語教學型態實驗研究· 客家母語教學... 國語/閩南語機器 ...
- 3國語-閩南語機器翻譯系統之研究 - 國家圖書館
這篇論文的主題便是設計一套國語翻閩南語的機器翻譯系統。 這套系統是將輸入的中文句子翻譯成閩南語的句子,結果可為文字輸出或語音輸出。因為閩南語語音和中文字之間 ...
- 4國臺語整句轉換系統 - 亞洲大學
國臺語整句翻譯服務(beta測試):. 請輸入國語的句子,但不包括文言文、人名、地名等資訊,系統無法轉換這類的用詞用語。
- 5閩南語機器翻譯系統在PTT/Dcard完整相關資訊 - 星星公主
國語/閩南語機器翻譯系統閩南語的羅馬拼音Google 翻译- Google Play 上的应用評分4.5 (7,682,594) · 免費· Android文字翻译:只需输入文字,即可在103 ...