2117781 ランダム
 ホーム | 日記 | プロフィール 【フォローする】 【ログイン】

くぴんのブログ

くぴんのブログ

【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! --/--
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x

PR

プロフィール

くぴん74

くぴん74

フリーページ

カレンダー

カテゴリ

バックナンバー

お気に入りブログ

主力株候補のアイデ… New! みきまるファンドさん

dow 38085.8 -375.12… New! どらりん0206さん

楽天ラッキーくじ更… じゃっかすさん

UV K5(8)が現在アリ… jashiさん

またしても訃報 Maryu21さん

ニューストピックス

キーワードサーチ

▼キーワード検索

2018年03月05日
XML
カテゴリ:本の紹介
第0章 機械学習のためのデータ処理とは
第1章 クローリングとスクレイピング
第2章 高度なスクレイピング
第3章 データソースと書式・整形
第4章 機械学習
第5章 深層学習に挑戦しよう
第6章 テキスト解析とチャットボットの作成
第7章 深層学習を実践してみよう
Appendix 作業の準備と環境構築

↓ぼくにとってのポイント

◯機械学習のためのデータ処理
・Webからデータをダウンロード
・ダウンロードしたデータから必要はデータを抽出
・抽出したデータを目的に応じたフォーマットで保存
・機械学習

◯クローリングとスクレイピング
・urllibでデータダウンロードが可能
・HTMLの解析→BeautifulSoupが便利
・DOMの調査、CSSセレクタ→Webブラウザの開発者ツール
・リンク先をまるごとダウンロード→相対パスを絶対パスに変換など

◯高度なスクレイピング
・HTTP通信はステートレス
・セッションを利用するとステートフルであるように振る舞える
・requestsパッケージ
・スクレイピングにはブラウザを動かさないといけない場合も多い→Selenium, PhantomJS
・サイトの構造を把握することが重要
・キーとなる要素やCSSスタイルを調べることで、機械的なスクレイピングが可能なこともある
・Web APIの利用
・cronで定期的な実行

◯データソースと書式・整形
・主な書式→XML, JSON, YAML, CSV
・データベース→SQLite, MySQL, MarinaDB, TinyDB
・データベース→同時アクセスに強く同時編集など不整合も起きにくい

◯機械学習
・機械学習→たくさんのデータを学習してパターンを見つける作業
・分類、推測、推薦が可能
・教師あり学習では各データ毎にデータと正解ラベルを指定する
・訓練データとテストデータの分類や、正解率の計算など、便利なメソッドが用意されている
・機械学習の学習結果をファイルに保存すれば、Webアプリなどで利用できる
・SVM→マージン最大化
・データを数値化するとき、分類変数か連続変数か確認する
・クロスバリデーションによりモデルの妥当性確認
・グリッドサーチ→より良いパラメータを自動で探せる

◯深層学習
・TensorBoardで可視化できる
・深層学習で精度向上が可能
・Keras→tensorflowやtheanoをscikit-learnと同様に記述できる
・日本語の形態素解析→Mecab, Janome
・Word2Vecで文章をベクトル化
・ベイズの定理で迷惑メール判定などが可能
・MLP(多層パーセプトロン)でテキスト分類が可能
・文章の類似度→レーベンシュタイン距離、n-gram
・自動で文章生成→マルコフ連鎖、LSTM
・類似画像検索→Average Hash
・Average Hash→画像をリサイズして白黒の2値化
・CNNで牛丼の画像を高精度で判定可能
・機械学習はデータを集めて整形するのが大切
・画像を回転・反転させることで不足しがちな入力データを補強可能
・OpenCVで顔認識

-----
この本はずいぶん前に買ったんだけれど、なかなか手を付けられていなかった。
目次をみるとわかるように、データ収集→データ整形→機械学習→深層学習とデータ解析に必要な技術についてサンプルコード付きで解説されている。さらに環境構築についても書かれている。
サンプルコードを動かすことで理解が深まる。



Pythonによるスクレイピング&機械学習開発テクニック BeautifulSoup、scikit-lear [ クジラ飛行机 ]





お気に入りの記事を「いいね!」で応援しよう

最終更新日  2018年03月05日 06時16分31秒
コメント(0) | コメントを書く
[本の紹介] カテゴリの最新記事



© Rakuten Group, Inc.