mangarina agenda
開発手順:
excnnのみ着手 => 他のサイトも同様のステップを踏む
各漫画ページからスクレイピング => 取得したデータを保存 => サイト全体のクローリングステップを考える => その実装
技術面:
python, mysql(cloud sql served by Google), mongoDB(mongoLab), scrapy, scala, play, slick
基本的にクローラーをpythonで作成し、webサーバーをplayで作成する。
mongodbはクローリングの際に取得したDOMを全て記録するためのもの。
schemaは以下のとおり。domainごとにコレクションを作成する。url, domは最低限必要な情報で、それらに加えてdomain固有の情報も
付け加える。
<カテゴリーページ>
{
kind : categoric,
category : xxx,
page : xxx,
url : xxx,
dom : xxx
}
基本的にmongodbはdomの保存&バックアップ用であり各コンテント情報を保存するのはsqlの方。
sqlには以下の情報を各コンテントごとに保存する
id
domain
this_url
カテゴリ
タイトル(h1)
閲覧数
発行日時
各URLが何を表しているかの補足情報 == なんのタグにも囲われていない情報は補足情報として認識
マンガ保存先URLsが紐付いたTable ID
manga保存先URLごとに作成する画像URL table
id
content_id
画像url
保存先domain