【トピックス】オープンソースの画像生成ツールの精度が上がってきた。

(参考:Genmo | Open Video Generation
(参考:genmo/mochi-1-preview · Hugging Face

オープンソースでもクオリティが高い画像生成ツールが出てきた。
ただしでもはH100を4枚使ってるとのこと、なかなか試すのは難しそうだ。

【トピックス】画面の状況をAIでテキスト化してくれるOmniParser

(参考:【OmniParser】全デバイスのUIを正確に分析できるMicrosoft製AIツール! | WEEL
(参考:https://github.com/microsoft/OmniParser?tab=readme-ov-file
(参考:https://arxiv.org/pdf/2408.00203

画面認識のモデル、細かく読めているようには見えます。
実際には、枠で囲んだところをテキスト化しているようで、少し得意な画面・不得意な画面はあるような感じです。

[10/4(金)18:30‐]未来環境ラボゼミ

(10/4)、2024年度第6回のオンラインゼミやります!秋学期が始まり、今年も残すところあと3ヶ月になりました。秋学期の豊富や最近のAI技術についてなど、ディスカッションしたいことがあれば、是非エントリーしてください!

  • 日時: 10/4(金) 18:30〜21:00 (途中参加・退出OK)
  • テーマ
    • 物体認識ワークショップ振り返り(中口)
      • サンプルコードも解説するかも
  • 適当にオンライン飲み会に移行します。参加できる人は各自飲み物や食べ物を準備してください。