Gen Dataset - maadaa.ai

生成AIデータソリューション

生成式プリトレーニングの大規模基盤モデルは横断業界のノウハウを把握し、深層学習技術上での「単一業界、複数モデル」の限界を突破した。

ファインチューニングの仕方を用い、生成AIの大規模基盤モデルは特定の業界やシナリオ、特定のタスクにより適切に応用させることができる。

大規模で品質の高い業界データ（テキストや画像などの様々なデータ型を含む）の収集及び処理をすることは業界向けの大規模基盤モデルの開発やビジネス化を迅速に実現するための肝心な前提となっている。

大規模基盤モデル向けの全プロスセスにおける専門的なデータサービス

MaidX GenAI プラットフォーム

MaidX GenAIというプラットフォームではmaadaa.ai会社が長年にわたって蓄積してきた技術的なノウハウを統合している。 ChatGPTを代表としたプリトレーニングの大言語モデルに向け、全過程における学習へのモニターや強化をするためのデータサービスを提供する。

MaidX GenAIというプラットフォームはmaadaa.ai会社が長年にわたって蓄積してきた専門的なデータ処理やアノテーションに関わるノウハウを統合している。プリトレーニングの大言語モデルに向け、全過程における学習へのモニターや強化をするためのデータサービスを提供する。

MaidX GenAIは数百種類の汎用会話と縦貫業界における会話のシナリオに合わせるテンプレートを提供し、低コストでシナリオベースのデータセットを構築することがサポートできます。

MaidX GenAIは文脈に基づいてシナリオ化されたデータを多次元的なアノテーションを提供する一方で、オンラインモードでのデータに対する迅速なフィードバックを行い、モデル向けのアラインを開発することにタイムリーな保障を実現する。

MaidXは多くの業界におけるクライアントに向けて、コンテンツ関連のレビュープロジェクトに成功した。人的資源のスケジューリングとアノテーションのプロセス管理及びデータ品質のコントロールに関わる包括的なノウハウを持っている。

特定業界でのクライアントよりデータ及び個人情報保護に対するニーズに応じて、maadaa.aiは全方位的なソリューションと管理対策を提供することで、データセキュリティとコンプライアンス対応を確保することができます。

マルチモーダルコーパスのデータセットに関わる自動化のエンジ

電子書籍と文書よりのデータリソースを活用することは大規模な分野特化型のマルチモーダルコーパスデータセットを効果的に構築するための重要な手段ですだ。マルチモーダルデータを構造化にできるエンジンを構築することで、様々なタイプの電子書や文書の自動解析を実現する一方で、大規模モデルのトレーニングに適用したMarkdownというデータセットのフォーマットにコンバートできます。

自社開発したマルチモーダルコーパスデータセットの自動化できるエンジンはPDF、EPUB、mobi、azw（3）及びDjVuなどを含むほとんどの人気のある電子書籍と文書フォーマットを全面的に対応可能となっている。それぞれは全文のレイアウトに対する包括的な解析を行い、テキストの段落、タイトルと種類分けを保持するのみならず、その中の算式も記号もより高精度で識別し、複雑な算式をLatexのテキスト形式に復元する機能を備えていることで、複雑な方程式と数行ある数式も精確に特定できるようにしています。

この自動構築エンジンは顧客が特定の縦貫分野における専門なデータセットを構築することをサポートし、業界の大規模モデル向けの開発とビジネス応用を促進します。

PDFやEPUB、mobi、azw（3）、DjVuなどを含む多くの一般的な電子書籍形式を自動的な解析で対応可能

OCR技術を用い、PDF書類の中にある算式をLatexのテキストに復元させ、複雑な方程式と数行ある数式を精確に特定できる

PDF全文のレーアウトを正確に再現；テキストの段落とタイトル、上下付きアノテーションを種類別でクレンジング；算式及びアイコンが乱れないように

GenAIの標準データセット

「データを中心とした」生成AIの専門的なデータサービスの提供とシリーズ化されたデータセット製品に注力し、AI技術の持続的な発展を推進するとともに、業界での定着を加速させることを目指し、maadaa.ai会社は生成AI大規模モデル開発向けの大規模且つ高品質なデータセット製品を正式にリリースした。

商品の特徴

正規版データ授権：全てのデータが正規の使用権限を取得しており、生成AIモデルのトレーニング及び応用過程における著作権のコンプライアンスを確保する。
多様なデータタイプ：テキスト、画像、動画、音声などの様々な大量のデータを網羅して、大規模なマルチモーダルモデル向けの開発ニューズを十分に応える。
高品質で専門なアノテーション：データセットには画像ーテキストペア、動画ーテキストペアなどが含まれており、いずれも高精度の意味付きアノテーションと専門な校正を通じて、大規模モデルのトレーニングの正確性を確保する。
業界分野向けのカスタマイズ可能：数百種類近くの業界及び応用分野に特化した専門なデータセットがあり、業界に合わせる大モデル開発に向けて、高品質なかカスタマイズをサポートできる。

正規版マルチモーダル生成AI大規模データセット

3億以上の画像-テキストペア、600万以上のビデオ-テキストペア

大規模専門領域における中国語コーパスデータセット

1億2000万件の電子文書、2PBの詳細な構造化データ、最も人気のある電子書籍フォーマット、数百の専門分野

詳細情報はお気軽にお問い合わせください

お問い合わせ