Azure認知服務文本翻譯API ,已正式落地由世紀互聯運營的Microsoft Azure !
這是一種基于神經網絡的機器翻譯服務,開發者只需通過簡單的REST API調用,即可將其與自己的應用程序、網站、工具或其他需要多語言支持的解決方案相集成,針對超過60種語言(支持的語言和區域完整列表請點擊
這里
)實現近乎實時的文本翻譯。
圖示:神經網絡基于句中的上下文翻譯單詞
借此,網站本地化、電子商務、客戶支持、消息處理、內部溝通等各類型的應用場景所需的雙向實時翻譯,都可以輕松實現!不僅支持自動檢測和翻譯文字,還支持通過「本地功能」進行離線使用。更棒的是,目前注冊使用,還能獲得每個月前200萬個字符免費翻譯的服務,對于一些實驗性的或者小規模的應用,基本上不花一分錢就能用。
為了幫助大家順利上手,我們在此分享文本翻譯API的六種常見操作指南!
1、使用Azure試用帳戶或正式帳戶登錄 Azure管理門戶 。
2、選擇“+?創建資源”。
3、在“搜索市場”搜索框中,輸入“文本翻譯”,然后從結果中選擇它。
4、選擇“創建”,定義該訂閱的詳細信息。
5、從“定價層”列表中,選擇最適合需要的定價層。
●?每個訂閱都有一個免費層。免費層具有與付費計劃相同的特征和功能,并且不會過期。
●?帳戶只能有一個免費訂閱。
6、選擇“創建”完成創建訂閱。
1、通過先選擇相應的訂閱檢索身份驗證密鑰。
2、在訂閱詳細信息的“資源管理”部分中選擇“密鑰”。
3、復制訂閱所列出的任一密鑰。
文本內容的翻譯,不可避免會遇到不雅內容,此時如何處理這類問題就成了很多人頭疼的問題。
通常來說,文本翻譯服務在翻譯中會保留源中存在的不雅內容。由于不雅程度和使詞語不雅的語境在不同文化之間有所不同,因此在翻譯后的目標語言中,其不雅程度可能會被放大或降低。
如果希望避免在翻譯中看到不雅內容(即使源文本中存在不雅內容),此時可以使用Translate?()方法中提供的不雅內容篩選選項。借此可以選擇是要將不雅內容刪除,添加相關標記,或是不被執行任何操作。
Translate?()?方法采用的“options”參數包含了一個新元素:“ProfanityAction”。ProfanityAction可接受的值包括:“NoAction”(不采取操作)、“Marked”(加標記)和“Deleted”(直接刪除)。
我們只需要在調用該API時為這個元素指定需要的值即可。具體做法可參閱: 通過Translator API調用應用不雅內容篩選 。
如果希望在使用該API時接收對齊信息,此時需要使用Translate方法,并包含可選的includeAlignment參數。
對齊將作為以下格式的字符串值返回給源的每個詞。每個詞的信息由一個空格分隔,其中包括非空格分隔的語言(腳本),例如中文:
[[SourceTextStartIndex]:[SourceTextEndIndex]-[TgtTextStartIndex]:[TgtTextEndIndex]]?*
對齊字符串示例:“0:0-7:10?1:2-11:20?3:4-0:3?3:4-4:6?5:5-21:21”。
換而言之,冒號分隔開始和結束索引,連字符分隔語言,空格分隔詞。一個詞可能與另一種語言中的0個、1個或多個詞對齊,而對齊的詞可能是非連續的。當沒有可用的對齊信息時,Alignment元素將為空。在這種情況下,該方法不會返回任何錯誤。
●?從英語到任何其他語言;
●?從任何其他語言到英語,但簡體中文、繁體中文和拉脫維亞語到英語除外;
●?從日語到韓語或從韓語到日語;如果句子是預錄翻譯,則不會收到對齊信息。預錄翻譯示例包括“This?is?a?test”、“I?love?you”等高頻率句子。
[
{
"translations":?[
{
"text":?"Kann?ich?morgen?Ihr?Auto?fahren?",
"to":?"de",
"alignment":?{
"proj":?"0:2-0:3?4:4-5:7?6:10-25:30?12:15-16:18?17:19-20:23?21:28-9:14?29:29-31:31"
}
}
]
}
]
有時候我們可能需要避免翻譯某些內容,例如「Windows?Operating?System」就不需要對「Windows」這個詞進行翻譯。
因而可以在文本翻譯API中標記無需翻譯的內容。例如,我們可能需要標記本地化后沒有意義的代碼、品牌名稱或單詞/短語。
此時可以通過四種方法實現目的:
將無需翻譯的內容轉義為Twitter標記:@somethingtopassthrough或#somethingtopassthrough,并在翻譯后取消轉義。
使用 notranslate 標記無需翻譯的內容。例如:
使用動態詞典(具體介紹見下文)給出特定翻譯。
不要將字符串傳遞到文本翻譯API進行翻譯。
具體做法請參閱: 避免在Translator API調用中進行翻譯 。
上文提到了動態詞典,該功能的用途是這樣的:如果已知要應用于某個單詞或短語的翻譯,可以在請求中將其作為標記提供。動態詞典僅適用于復合名詞,例如專有名稱和產品名稱。
其語法是這樣的:
<mstrans:dictionary?translation=”translation?of?phrase”>phrase</mstrans:dictionary>
例如德文到英文的翻譯:
源輸入:The?word?<mstrans:dictionary?translation="wordomatic">word?or?phrase</mstrans:dictionary>?is?a?dictionary?entry.
目標輸出:Das?Wort?"wordomatic"?ist?ein?W?rterbucheintrag.
無論使用或不使用HTML模式,該功能都會以相同方式工作。但一般建議盡量少使用該功能。
文本翻譯API需要訪問網絡,因而對于企業本地部署的使用該API的應用,為了確保正確運行,可能需要對防火墻進行必要的配置。
文本翻譯API可以使用域名或IP篩選在防火墻后面翻譯。域名篩選是首選方法。我們建議不要在經過IP篩選的防火墻后面運行Microsoft?Translator。此外,安裝程序在將來可能會發生中斷,恕不另行通知。
自2018年11月20日起,api.cognitive.azure.cn?-?Microsoft文本翻譯API的IP地址為:
亞太區:40.90.139.163,?104.44.89.44
歐洲:40.90.138.4,?40.90.141.99
北美:40.90.139.36,?40.90.139.2
只需根據所在區域在防火墻上針對上述IP地址進行必要配置即可。
了解了這些常見場景使用指南后,趕快試著用起來吧,同時還可參閱下列資源進一步了解這個全新的API:
文本翻譯介紹文檔
文本翻譯API 3.0參考
GitHub上的代碼范例
福利歡送
想要進一步了解如何在微軟云上更好地運用人工智能?
掃描下方二維碼,免費領取 微軟官方電子書 !