pixtaにおけるcloudsearch運用 - jaws days 2016 lt

Post on 17-Feb-2017

691 Views

Category:

Technology

4 Downloads

Preview:

Click to see full reader

TRANSCRIPT

PIXTAにおける

CloudSearch運用PIXTA  株式会社 星直史

16545027 Photo by Fast&Slow

 

自己紹介

  主に Railsでバックエンドの処理を書いています。  検索システムの担当をすることが多く、  CloudSearchを触ることが多いです。

 星直史@NaoshiHoshi

 PIXTA  株式会社

 エンジニアリーダー

Rails歴 4年

AWS歴 4年

 

ピクスタのご紹介

 

検索結果

1600 万点以上

 

多言語対応

  ● PIXTAにおける海外対応 (地域別加点 ) 

今日話すこと

海外対応

● Analysis Schemes

国内対応

  ● PIXTAにおける海外対応 (地域別加点 ) 

今日話すこと

海外対応

● Analysis Schemes

国内対応

 

人物カテゴリ結果

日本 海外(欧米)

海外対応

 

野菜・食材カテゴリ結果

日本 海外(欧米)

海外対応

 

ロケール別のスコアリング海外対応

200 点20 点

 

検索順位の算出海外対応

日本 中国 ヨーロッパ

素材A

素材B

素材C

素材 Aの地域 素材 Bの地域 素材 Cの地域

 0km

検索した人からの距離

 3000km

検索した人からの距離

 20,000km

検索した人からの距離

日本

検索した人の地域

IPを元に緯度経度を算出

=> =>

 

CloudSearchの活用海外対応

 (200 * pow(0.98, ((haversin(36.204824000, 138.252924000, location.latitude, location.longitude) / 50))))

  ● PIXTAにおける海外対応 (地域別加点 ) 

今日話すこと

海外対応

● Analysis Schemes

国内対応

 

Tokenizeとは?国内対応

国内検索においては、日本語のタグ情報を検索ヒットの条件としている=> bigram で分かち書きに。デフォルトの kuromojiトークナイズでは

 きゃ => 動詞

 べつ => 名

きゃべつが Tokenizeされてしまう。

 

Tokenizeの対応国内対応

 

表記揺れの対応国内対応

  AWS愛

インターネットでフラットな世界をつくる

We're hiring!

7336449 Photo by Sunny studio

top related