kyu999
11/15/2014 - 8:50 AM

mangarina agenda

mangarina agenda

開発手順:
 excnnのみ着手 => 他のサイトも同様のステップを踏む
 各漫画ページからスクレイピング => 取得したデータを保存 => サイト全体のクローリングステップを考える => その実装
 
技術面:
 python, mysql(cloud sql served by Google), mongoDB(mongoLab), scrapy, scala, play, slick
 
基本的にクローラーをpythonで作成し、webサーバーをplayで作成する。

mongodbはクローリングの際に取得したDOMを全て記録するためのもの。
 
 schemaは以下のとおり。domainごとにコレクションを作成する。url, domは最低限必要な情報で、それらに加えてdomain固有の情報も
 付け加える。
  
  <カテゴリーページ>
  
  {
    kind : categoric, 
    category : xxx,
    page : xxx,
    url : xxx, 
    dom : xxx
  }
  
  基本的にmongodbはdomの保存&バックアップ用であり各コンテント情報を保存するのはsqlの方。
  
  sqlには以下の情報を各コンテントごとに保存する
  
   id
   domain
   this_url
   カテゴリ
   タイトル(h1)
   閲覧数
   発行日時
   各URLが何を表しているかの補足情報 == なんのタグにも囲われていない情報は補足情報として認識
   マンガ保存先URLsが紐付いたTable ID
   
  
  manga保存先URLごとに作成する画像URL table
    id
    content_id
    画像url
    保存先domain