पीडीएफ फ़ाइलों से संरचित तालिकाएँ निकालें और उन्हें JSON एक्सेल या CSV प्रारूप में वापस करें स्वचालित रूप से व्यक्तिगत या बहु तालिकाओं का पता लगाएं कई पृष्ठों वाले पीडीएफ का समर्थन करें और डेटा और स्वचालन के पाइपलाइनों के लिए मशीन द्वारा पढ़ने योग्य निश्चित आउटपुट प्रदान करें
{"tables":[{"tableIndex":0,"pageRange":[1,1],"rows":[["Lorem ipsum","","","","","","","",""],["condimentum.","Vivamus","dapibus","sodales","ex,","vitae","malesuada","ipsum","cursus"],["convallis. Maecenas sed egestas nulla, ac condimentum orci.","Mauris diam felis,","","","","","","",""],["ac accumsan nunc vehicula vitae.","Nulla eget justo in felis tristique fringilla. Morbi sit amet","","","","","","",""],["","Maecenas non lorem quis tellus placerat varius.","","","","","","",""],["","Aenean congue fringilla justo ut aliquam.","","","","","","",""],["","Mauris id ex erat.","Nunc vulputate neque vitae justo facilisis, non condimentum ante","","","","","",""],["sagittis.","","","","","","","",""],["","Morbi viverra semper lorem nec molestie.","","","","","","",""],["","Maecenas tincidunt est efficitur ligula euismod, sit amet ornare est vulputate.","","","","","","",""],["12","","","","","","","",""],["10","","","","","","","",""],["8","","","","","","","",""],["Column 1","","","","","","","",""],["6","","","","","","","",""],["Column 2","","","","","","","",""],["4 Column 3","","","","","","","",""],["2","","","","","","","",""],["0","","","","","","","",""],["Row 1","Row 2","Row 3","Row 4","","","","",""]],"rowCount":20,"columnCount":9,"strategyUsed":"stream","warnings":[],"confidence":0.85},{"tableIndex":1,"pageRange":[2,2],"rows":[["velit.","Pellentesque","fermentum","nisl","vitae","fringilla","venenatis.","Etiam","id","mauris","vitae","orci"],["a.","","","","","","","","","","",""],["Lorem ipsum","Lorem ipsum","Lorem ipsum","","","","","","","","",""],["1","In eleifend velit vitae libero sollicitudin euismod.","Lorem","","","","","","","","",""],["2","Cras fringilla ipsum magna, in fringilla dui commodo Ipsum","","","","","","","","","",""],["a.","","","","","","","","","","",""],["3","Aliquam erat volutpat.","Lorem","","","","","","","","",""],["4","Fusce vitae vestibulum velit.","Lorem","","","","","","","","",""],["5","Etiam vehicula luctus fermentum.","Ipsum","","","","","","","","",""],["et","pulvinar","nunc.","Pellentesque","fringilla","mollis","efficitur.","Nullam","venenatis","commodo","",""]],"rowCount":10,"columnCount":12,"strategyUsed":"stream","warnings":[],"confidence":0.85},{"tableIndex":2,"pageRange":[3,3],"rows":[["elit.","","","","","","","","","","",""],["dictum tellus.","","","","","","","","","","",""],["Aliquam","erat","volutpat.","Vestibulum","in","egestas","velit.","Pellentesque","fermentum","nisl","vitae",""],["fringilla","venenatis.","Etiam","id","mauris","vitae","orci","maximus","ultricies.","Cras","fringilla","ipsum"],["et","pulvinar","nunc.","Pellentesque","fringilla","mollis","efficitur.","Nullam","venenatis","commodo","",""]],"rowCount":5,"columnCount":12,"strategyUsed":"stream","warnings":[],"confidence":0.85}],"summary":{"tableCount":3,"pageCount":4}}
curl --location 'https://pr222-testing.zylalabs.com/api/11754/pdf+table+extraction+api/22299/extract+data' \
--header 'Content-Type: application/json' \
--form 'image=@"FILE_PATH"'
साइन अप करने के बाद, प्रत्येक डेवलपर को एक पर्सनल API एक्सेस की असाइन की जाती है, जो अक्षरों और अंकों का एक यूनिक संयोजन होता है, जिसका उपयोग हमारे API एंडपॉइंट तक पहुंचने के लिए किया जाता है। प्रमाणीकरण के लिए पीडीएफ तालिकाओं का निष्कर्षण API के साथ बस अपने बेयरर टोकन को Authorization हेडर में शामिल करें।
| हेडर | विवरण |
|---|---|
Authorization
|
आवश्यक
होना चाहिए Bearer access_key. जब आप सब्सक्राइब हों तो ऊपर "Your API Access Key" देखें।
|
कोई लंबी अवधि की प्रतिबद्धता नहीं। कभी भी अपग्रेड, डाउनग्रेड या कैंसल करें। फ्री ट्रायल में 50 रिक्वेस्ट तक शामिल हैं।
(वार्षिक बिलिंग के साथ 2 महीने बचाएँ 🎉)
अग्रणी कंपनियों का भरोसा
एपीआई पीडीएफ दस्तावेज़ों से निकाला गया संरचित तालिका डेटा लौटाता है इसमें कई तालिकाएँ शामिल हैं प्रत्येक को JSON प्रारूप में एक सरणी के रूप में प्रस्तुत किया गया है डेटा को Excel (.xlsx) या CSV प्रारूपों में प्राप्त करने के विकल्पों के साथ
प्रतिक्रिया में मुख्य फ़ील्ड शामिल हैं जैसे `tableIndex`, `pageRange`, `rows`, `rowCount`, `columnCount`, `strategyUsed`, और `confidence` प्रत्येक तालिका का डेटा आसान प्रोग्रामेटिक प्रोसेसिंग के लिए व्यवस्थित किया गया है
प्रतिक्रिया डेटा को एक संक्षेपण अनुभाग में व्यवस्थित किया गया है जिसमें कुल तालिकाओं और पृष्ठों की संख्या शामिल है इसके बाद तालिकाओं का एक संग्रह है प्रत्येक तालिका में इसके पंक्तियाँ पृष्ठ सीमा और विश्वास स्कोर शामिल हैं जिससे नेविगेट करना और उपयोग करना आसान हो जाता है
एंडपॉइंट के लिए प्राथमिक पैरामीटर खुद PDF फ़ाइल है जिसे सीधे अपलोड किया जा सकता है अतिरिक्त पैरामीटर में आउटपुट फ़ॉर्मेट (JSON Excel CSV) के लिए विकल्प और विश्वास स्कोरिंग के लिए सेटिंग्स शामिल हो सकती हैं
डेटा की सटीकता निश्चित आउटपुट के माध्यम से बनाए रखी जाती है जिसका अर्थ है कि वही इनपुट लगातार वही परिणाम उत्पन्न करता है API प्रत्येक तालिका के लिए वैकल्पिक आत्मविश्वास स्कोर भी प्रदान करती है जो निकासी की विश्वसनीयता को दर्शाता है
विशिष्ट उपयोग के मामलों में चालान लाइन आइटम निकालना वित्तीय रिपोर्टों को संरचित डेटा सेट में बदलना डेटा पाइपलाइनों का स्वचालन और ग्राहक द्वारा अपलोड किए गए पीडीएफ से तालिका डेटा का सेवन करना शामिल है डेटा प्रसंस्करण वर्कफ़्लो को सुव्यवस्थित करना
उपयोगकर्ता डेटा पाइपलाइनों, ETL प्रक्रियाओं या बैकएंड सिस्टम में एकीकृत करने के लिए संरचित आउटपुट का लाभ उठा सकते हैं संगठित प्रारूप विभिन्न अनुप्रयोगों में निकाले गए तालिकाओं के आसान हेरफेर और विश्लेषण की अनुमति देता है
उपयोगकर्ता डेटा पैटर्न की अपेक्षा कर सकते हैं जो मूल तालिका संरचना को दर्शाते हैं जिसमें पंक्ति और कॉलम संरेखण शामिल है एपीआई असामान्य तालिकाओं और खाली कोशिकाओं को संभालता है यह सुनिश्चित करते हुए कि आउटपुट संरचित और आगे की प्रोसेसिंग के लिए उपयोगी बना रहे
API विभिन्न प्रकार की संरचित तालिकाएँ निकाल सकती है जिसमें असामान्य लेआउट, खाली सेल और असमान पंक्तियाँ शामिल हैं यह स्वचालित रूप से PDF के भीतर एकल यााधिक तालिकाओं का पता लगाती है यह सुनिश्चित करती है कि केवल ग्रिड-आधारित तालिका संरचनाएँ ही संसाधित की जाएँ
यह एपीआई ऐसी तालिकाओं का समर्थन करता है जो कई पृष्ठों पर फैली होती हैं पूरी तालिका संरचना को सही ढंग से कैप्चर करता है और इसे एकल आउटपुट में लौटाता है प्रत्येक तालिका के पृष्ठ की सीमा को आसान संदर्भ के लिए प्रतिक्रिया में शामिल किया गया है
हाँ, उपयोगकर्ता अपने डेटा अनुरोधों को इच्छित आउटपुट प्रारूप निर्दिष्ट करके अनुकूलित कर सकते हैं: JSON, Excel (.xlsx), या CSV। यह लचीलापन विभिन्न अनुप्रयोगों और कार्यप्रवाहों में एकीकरण की अनुमति देता है
API प्रत्येक निकाले गए तालिका के लिए वैक्षित आत्मविश्वास स्कोर प्रदान करता है जो निकासी की विश्वसनीयता को इंगित करता है यह विशेषता उपयोगकर्ताओं को वापस किए गए डेटा की गुणवत्ता का मूल्यांकन करने में मदद करती है
एपीआई को बिना स्थिति और गोपनीयता-मैत्रीपूर्ण बनाने के लिए डिज़ाइन किया गया है यह सुनिश्चित करता है कि प्रसंस्करण के बाद कोई डेटा संग्रहीत नहीं किया जाता है यह उपयोगकर्ता डेटा को संचरण के दौरान सुरक्षित करने के लिए केवल HTTPS संचार का उपयोग करता है
उपयोगकर्ता एपीआई से अपेक्षा कर सकते हैं कि यह खाली सेल को अच्छी तरह से संभालेगा और तालिका की समग्र संरचना को बनाए रखेगा आउटपुट मूल लेआउट को प्रतिबिंबित करेगा जिससे किसी भी अनुपस्थित मानों के बावजूद सीधे डेटा हेरफेर की अनुमति मिलेगी
विश्वास स्कोर 0 से 1 के बीच होते हैं जो इस बात का संकेत देते हैं कि निकाली गई तालिका सटीक है या नहीं एक उच्च स्कोर अधिक विश्वसनीयता का सुझाव देता है जिससे उपयोगकर्ता यह तय कर सकें कि आगे की प्रक्रिया के लिए कौन सी तालिकाओं पर भरोसा करना है
`strategyUsed` क्षेत्र उन विधियों का संकेत देता है जो API द्वारा तालिका डेटा निकालने के लिए उपयोग की गई हैं यह जानकारी उपयोगकर्ताओं को निष्कर्षण प्रक्रिया को समझने और उनकी विशिष्ट जरूरतों के लिए आउटपुट की उपयुक्तता का आकलन करने में मदद कर सकती है