Click here to load reader

CSCI 599 MACHINE · PDF file LANGUAGES ON THE WEB 2011/01/11 3. LANGUAGES ON TWITTER 2011/01/11 4. LANGUAGES IN LA 2011/01/11 5. WHY DO WE NEED MT? 2011/01/11 6. WHY DO WE NEED MT?

  • View
    0

  • Download
    0

Embed Size (px)

Text of CSCI 599 MACHINE · PDF file LANGUAGES ON THE WEB 2011/01/11 3. LANGUAGES ON TWITTER...

  • CSCI 599 MACHINE TRANSLATION

    11-1-11 11:00

    12011/01/11

  • INSTRUCTORS

    David Chiang 蔣偉

    Liang Huang 黃亮

    Kevin Knight 武凯文

    22011/01/11

  • LANGUAGES ON THE WEB

    32011/01/11

  • LANGUAGES ON TWITTER

    42011/01/11

  • LANGUAGES IN LA

    52011/01/11

  • WHY DO WE NEED MT?

    62011/01/11

  • WHY DO WE NEED MT?

    72011/01/11

  • WHY DO WE NEED MT?

    82011/01/11

  • 92011/01/11

  • 102011/01/11

  • 112011/01/11

    http://www.tripadvisor.com.mx/Hotel_Review-g52842-d730099-Reviews-Schrute_Farms-Honesdale_Pocono_Mountains_Region_Pennsylvania.html http://www.tripadvisor.com.mx/Hotel_Review-g52842-d730099-Reviews-Schrute_Farms-Honesdale_Pocono_Mountains_Region_Pennsylvania.html

  • WHY IS MT HARD?

    chiliagon

    Coverage

    ?

    122011/01/11

  • WHY IS MT HARD?

    La caja está en la pluma

    The box is in the pen

    La caja está en el corral

    Ambiguity

    132011/01/11

  • WHY IS MT HARD?

    Juan cruzó a nado el lago

    John swam across the lake

    Juan nadó tras el lago

    Divergence

    142011/01/11

  • IN THE BEGINNING One naturally wonders if the problem of translation could conceivably be treated as a problem in cryptography. When I look at an article in Russian, I say: “This is really written in English, but it has been coded in some strange symbols. I will now proceed to decode.”

    Warren Weaver, 1947

    152011/01/11

  • IBM-GEORGETOWN

    162011/01/11

  • BAR-HILLEL

    • Syntactic transfer

    • “Semantic barrier”: The box was in the pen

    172011/01/11

  • ALPAC REPORT

    182011/01/11

  • RULE-BASED MT

    String

    Syntax

    Semantics

    String

    Syntax

    Semantics Source language Target language

    Interlingua

    Direct

    Transfer

    Transfer

    192011/01/11

  • STATISTICAL MT

    202011/01/11

  • A SCI-FI EXAMPLE (KNIGHT, 1997)

    farok crrrok hihok yorok clok kantok ok-yurp

    Your assignment: translate this Centauri sentence into Arcturan

    212011/01/11

  • 1c. ok-voon ororok sprok .

    1a. at-voon bichat dat .

    7c. lalok farok ororok lalok sprok izok enemok .

    7a. wat jjat bichat wat dat vat eneat .

    2c. ok-drubel ok-voon anok plok sprok .

    2a. at-drubel at-voon pippat rrat dat .

    8c. lalok brok anok plok nok .

    8a. iat lat pippat rrat nnat .

    3c. erok sprok izok hihok ghirok .

    3a. totat dat arrat vat hilat .

    9c. wiwok nok izok kantok ok-yurp .

    9a. totat nnat quat oloat at-yurp .

    4c. ok-voon anok drok brok jok .

    4a. at-voon krat pippat sat lat .

    10c. lalok mok nok yorok ghirok clok .

    10a. wat nnat gat mat bat hilat .

    5c. wiwok farok izok stok .

    5a. totat jjat quat cat .

    11c. lalok nok crrrok hihok yorok zanzanok .

    11a. wat nnat arrat mat zanzanat .

    6c. lalok sprok izok jok stok .

    6a. wat dat krat quat cat .

    12c. lalok rarok nok izok hihok mok .

    12a. wat nnat forat arrat vat gat .

    farok crrrok hihok yorok clok kantok ok-yurp

    (Knight,1997) 222011/01/11

  • 1c. ok-voon ororok sprok .

    1a. at-voon bichat dat .

    7c. lalok farok ororok lalok sprok izok enemok .

    7a. wat jjat bichat wat dat vat eneat .

    2c. ok-drubel ok-voon anok plok sprok .

    2a. at-drubel at-voon pippat rrat dat .

    8c. lalok brok anok plok nok .

    8a. iat lat pippat rrat nnat .

    3c. erok sprok izok hihok ghirok .

    3a. totat dat arrat vat hilat .

    9c. wiwok nok izok kantok ok-yurp .

    9a. totat nnat quat oloat at-yurp .

    4c. ok-voon anok drok brok jok .

    4a. at-voon krat pippat sat lat .

    10c. lalok mok nok yorok ghirok clok .

    10a. wat nnat gat mat bat hilat .

    5c. wiwok farok izok stok .

    5a. totat jjat quat cat .

    11c. lalok nok crrrok hihok yorok zanzanok .

    11a. wat nnat arrat mat zanzanat .

    6c. lalok sprok izok jok stok .

    6a. wat dat krat quat cat .

    12c. lalok rarok nok izok hihok mok .

    12a. wat nnat forat arrat vat gat .

    farok crrrok hihok yorok clok kantok ok-yurp

    (Knight,1997) 232011/01/11

  • 1c. ok-voon ororok sprok .

    1a. at-voon bichat dat .

    7c. lalok farok ororok lalok sprok izok enemok .

    7a. wat jjat bichat wat dat vat eneat .

    2c. ok-drubel ok-voon anok plok sprok .

    2a. at-drubel at-voon pippat rrat dat .

    8c. lalok brok anok plok nok .

    8a. iat lat pippat rrat nnat .

    3c. erok sprok izok hihok ghirok .

    3a. totat dat arrat vat hilat .

    9c. wiwok nok izok kantok ok-yurp .

    9a. totat nnat quat oloat at-yurp .

    4c. ok-voon anok drok brok jok .

    4a. at-voon krat pippat sat lat .

    10c. lalok mok nok yorok ghirok clok .

    10a. wat nnat gat mat bat hilat .

    5c. wiwok farok izok stok .

    5a. totat jjat quat cat .

    11c. lalok nok crrrok hihok yorok zanzanok .

    11a. wat nnat arrat mat zanzanat .

    6c. lalok sprok izok jok stok .

    6a. wat dat krat quat cat .

    12c. lalok rarok nok izok hihok mok .

    12a. wat nnat forat arrat vat gat .

    farok crrrok hihok yorok clok kantok ok-yurp

    (Knight,1997) 242011/01/11

  • 1c. ok-voon ororok sprok .

    1a. at-voon bichat dat .

    7c. lalok farok ororok lalok sprok izok enemok .

    7a. wat jjat bichat wat dat vat eneat .

    2c. ok-drubel ok-voon anok plok sprok .

    2a. at-drubel at-voon pippat rrat dat .

    8c. lalok brok anok plok nok .

    8a. iat lat pippat rrat nnat .

    3c. erok sprok izok hihok ghirok .

    3a. totat dat arrat vat hilat .

    9c. wiwok nok izok kantok ok-yurp .

    9a. totat nnat quat oloat at-yurp .

    4c. ok-voon anok drok brok jok .

    4a. at-voon krat pippat sat lat .

    10c. lalok mok nok yorok ghirok clok .

    10a. wat nnat gat mat bat hilat .

    5c. wiwok farok izok stok .

    5a. totat jjat quat cat .

    11c. lalok nok crrrok hihok yorok zanzanok .

    11a. wat nnat arrat mat zanzanat .

    6c. lalok sprok izok jok stok .

    6a. wat dat krat quat cat .

    12c. lalok rarok nok izok hihok mok .

    12a. wat nnat forat arrat vat gat .

    farok crrrok hihok yorok clok kantok ok-yurp

    (Knight,1997) 252011/01/11

  • 1c. ok-voon ororok sprok .

    1a. at-voon bichat dat .

    7c. lalok farok ororok lalok sprok izok enemok .

    7a. wat jjat bichat wat dat vat eneat .

    2c. ok-drubel ok-voon anok plok sprok .

    2a. at-drubel at-voon pippat rrat dat .

    8c. lalok brok anok plok nok .

    8a. iat lat pippat rrat nnat .

    3c. erok sprok izok hihok ghirok .

    3a. totat dat arrat vat hilat .

    9c. wiwok nok izok kantok ok-yurp .

    9a. totat nnat quat oloat at-yurp .

    4c. ok-voon anok drok brok jok .

    4a. at-voon krat pippat sat lat .

    10c. lalok mok nok yorok ghirok clok .

    10a. wat nnat gat mat bat hilat .

    5c. wiwok farok izok stok .

    5a. totat jjat quat cat .

    11c. lalok nok crrrok hihok yorok zanzanok .

    11a. wat nnat arrat mat zanzanat .

    6c. lalok sprok izok jok stok .

    6a. wat dat krat quat cat .

    12c. lalok rarok nok izok hihok mok .

    12a. wat nnat forat arrat vat gat .

    farok crrrok hihok yorok clok kantok ok-yurp

    (Knight,1997) 262011/01/11

  • 1c. ok-voon ororok sprok .

    1a. at-voon bichat dat .

    7c. lalok farok ororok lalok sprok izok enemok .

    7a. wat jjat bichat wat dat vat eneat .

    2c. ok-drubel ok-voon anok plok sprok .

    2a. at-drubel at-voon pippat rrat dat .

    8c. lalok brok anok plok nok .

    8a. iat lat pippat rrat nnat .

    3c. erok sprok izok hihok ghirok .

    3a. totat dat arrat vat hilat .

    9c. wiwok nok izok kantok ok-yurp .

    9a. totat nnat quat oloat at-yurp .

    4c. ok-voon anok drok brok jok .

    4a. at-voon krat pippat sat lat .

    10c. lalok mok nok yorok ghirok clok .

    10a. wat nnat gat mat bat hilat .

    5c. wiwok farok izok stok .

    5a. totat jjat quat cat .

    11c. lalok nok crrrok hihok yorok zanzanok .

    11a. wat nnat arrat mat zanzanat .

    6c. lalok sprok izok jok stok .

    6a. wat dat krat quat cat .

    12c. lalok rarok nok izok hihok mok .

    12a. wat nnat forat arrat vat gat .

    farok crrrok hihok yorok clok kantok ok-yurp

    (Knight,1997) 272011/01/11

  • 1c. ok-voon ororok sprok .

    1a. at-voon bichat dat .

    7c. lalok farok ororok lalok sprok izok enemok .

    7a. wat jjat bichat wat dat vat eneat .

    2c. ok-drubel ok-voon anok plok sprok .

    2a. at-drubel at-voon pippat rrat dat .

    8c. lalok brok anok plok nok .

    8a. iat lat pippat rrat nnat .

    3c. erok sprok izok hihok ghirok .

    3a. totat dat arrat vat hilat .

    9c. wiwok nok izok kantok ok-yurp .

    9a. totat nnat quat oloat at-yurp .

    4c. ok-voon anok drok brok jok .

    4