mangarina agenda

11/15/2014 - 8:50 AM

開発手順：
　excnnのみ着手 => 他のサイトも同様のステップを踏む
　各漫画ページからスクレイピング => 取得したデータを保存 => サイト全体のクローリングステップを考える => その実装
　
技術面：
　python, mysql(cloud sql served by Google), mongoDB(mongoLab), scrapy, scala, play, slick
　
基本的にクローラーをpythonで作成し、webサーバーをplayで作成する。

mongodbはクローリングの際に取得したDOMを全て記録するためのもの。
　
　schemaは以下のとおり。domainごとにコレクションを作成する。url, domは最低限必要な情報で、それらに加えてdomain固有の情報も
　付け加える。
　 
　 <カテゴリーページ>
　 
　 {
　   kind : categoric, 
　   category : xxx,
　   page : xxx,
　   url : xxx, 
　   dom : xxx
　 }
　 
　 基本的にmongodbはdomの保存&バックアップ用であり各コンテント情報を保存するのはsqlの方。
　 
　 sqlには以下の情報を各コンテントごとに保存する
　 
  　id
  　domain
  　this_url
  　カテゴリ
  　タイトル(h1)
  　閲覧数
  　発行日時
  　各URLが何を表しているかの補足情報 == なんのタグにも囲われていない情報は補足情報として認識
  　マンガ保存先URLsが紐付いたTable ID
  　
  
  manga保存先URLごとに作成する画像URL table
    id
    content_id
    画像url
    保存先domain

Cacher is the code snippet organizer for pro developers

We empower you and your team to get more done, faster

mangarina agenda